沉淀、分享、成長(zhǎng),讓自己和他人都能有所收獲!😄
得益于Doug Lea
老爺子的操刀,讓HashMap
成為使用和面試最頻繁的API,沒辦法設(shè)計(jì)的太優(yōu)秀了!
HashMap 最早出現(xiàn)在 JDK 1.2中,底層基于散列算法實(shí)現(xiàn)。HashMap 允許 null 鍵和 null 值,在計(jì)算哈鍵的哈希值時(shí),null 鍵哈希值為 0。HashMap 并不保證鍵值對(duì)的順序,這意味著在進(jìn)行某些操作后,鍵值對(duì)的順序可能會(huì)發(fā)生變化。另外,需要注意的是,HashMap 是非線程安全類,在多線程環(huán)境下可能會(huì)存在問題。
HashMap 最早在JDK 1.2中就出現(xiàn)了,底層是基于散列算法實(shí)現(xiàn),隨著幾代的優(yōu)化更新到目前為止它的源碼部分已經(jīng)比較復(fù)雜,涉及的知識(shí)點(diǎn)也非常多,在JDK 1.8中包括;1、散列表實(shí)現(xiàn)
、2、擾動(dòng)函數(shù)
、3、初始化容量
、4、負(fù)載因子
、5、擴(kuò)容元素拆分
、6、鏈表樹化
、7、紅黑樹
、8、插入
、9、查找
、10、刪除
、11、遍歷
、12、分段鎖
等等,因涉及的知識(shí)點(diǎn)較多所以需要分開講解,本章節(jié)我們會(huì)先把目光放在前五項(xiàng)上,也就是關(guān)于數(shù)據(jù)結(jié)構(gòu)的使用上。
數(shù)據(jù)結(jié)構(gòu)相關(guān)往往與數(shù)學(xué)離不開,學(xué)習(xí)過程中建議下載相應(yīng)源碼進(jìn)行實(shí)驗(yàn)驗(yàn)證,可能這個(gè)過程有點(diǎn)燒腦,但學(xué)會(huì)后不用死記硬背就可以理解這部分知識(shí)。
本章節(jié)涉及的源碼和資源在工程,interview-04中,包括;
interview-04
工程中可以通過關(guān)注公眾號(hào):bugstack蟲洞棧
,回復(fù)下載進(jìn)行獲取{回復(fù)下載后打開獲得的鏈接,找到編號(hào)ID:19}
學(xué)習(xí)HashMap前,最好的方式是先了解這是一種怎么樣的數(shù)據(jù)結(jié)構(gòu)來存放數(shù)據(jù)。而HashMap經(jīng)過多個(gè)版本的迭代后,乍一看代碼還是很復(fù)雜的。就像你原來只穿個(gè)褲衩,現(xiàn)在還有秋褲和風(fēng)衣。所以我們先來看看最根本的HashMap是什么樣,也就是只穿褲衩是什么效果,之后再去分析它的源碼。
問題: 假設(shè)我們有一組7個(gè)字符串,需要存放到數(shù)組中,但要求在獲取每個(gè)元素的時(shí)候時(shí)間復(fù)雜度是O(1)。也就是說你不能通過循環(huán)遍歷的方式進(jìn)行獲取,而是要定位到數(shù)組ID直接獲取相應(yīng)的元素。
方案: 如果說我們需要通過ID從數(shù)組中獲取元素,那么就需要把每個(gè)字符串都計(jì)算出一個(gè)在數(shù)組中的位置ID。字符串獲取ID你能想到什么方式? 一個(gè)字符串最直接的獲取跟數(shù)字相關(guān)的信息就是HashCode,可HashCode的取值范圍太大了[-2147483648, 2147483647]
,不可能直接使用。那么就需要使用HashCode與數(shù)組長(zhǎng)度做與運(yùn)算,得到一個(gè)可以在數(shù)組中出現(xiàn)的位置。如果說有兩個(gè)元素得到同樣的ID,那么這個(gè)數(shù)組ID下就存放兩個(gè)字符串。
以上呢其實(shí)就是我們要把字符串散列到數(shù)組中的一個(gè)基本思路,接下來我們就把這個(gè)思路用代碼實(shí)現(xiàn)出來。
// 初始化一組字符串
List<String> list = new ArrayList<>();
list.add("jlkk");
list.add("lopi");
list.add("小傅哥");
list.add("e4we");
list.add("alpo");
list.add("yhjk");
list.add("plop");
// 定義要存放的數(shù)組
String[] tab = new String[8];
// 循環(huán)存放
for (String key : list) {
int idx = key.hashCode() & (tab.length - 1); // 計(jì)算索引位置
System.out.println(String.format("key值=%s Idx=%d", key, idx));
if (null == tab[idx]) {
tab[idx] = key;
continue;
}
tab[idx] = tab[idx] + "->" + key;
}
// 輸出測(cè)試結(jié)果
System.out.println(JSON.toJSONString(tab));
這段代碼整體看起來也是非常簡(jiǎn)單,并沒有什么復(fù)雜度,主要包括以下內(nèi)容;
0111
除高位以外都是1的特征,也是為了散列。key.hashCode() & (tab.length - 1)
。模擬鏈表的過程
。測(cè)試結(jié)果
key值=jlkk Idx=2
key值=lopi Idx=4
key值=小傅哥 Idx=7
key值=e4we Idx=5
key值=alpo Idx=2
key值=yhjk Idx=0
key值=plop Idx=5
測(cè)試結(jié)果:["yhjk",null,"jlkk->alpo",null,"lopi","e4we->plop",null,"小傅哥"]
e4we->plop
。如果上面的測(cè)試結(jié)果不能在你的頭腦中很好的建立出一個(gè)數(shù)據(jù)結(jié)構(gòu),那么可以看以下這張散列示意圖,方便理解;
以上我們實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的HashMap,或者說還算不上HashMap,只能算做一個(gè)散列數(shù)據(jù)存放的雛形。但這樣的一個(gè)數(shù)據(jù)結(jié)構(gòu)放在實(shí)際使用中,會(huì)有哪些問題呢?
以上這些問題可以歸納為;擾動(dòng)函數(shù)
、初始化容量
、負(fù)載因子
、擴(kuò)容方法
以及鏈表和紅黑樹
轉(zhuǎn)換的使用等。接下來我們會(huì)逐個(gè)問題進(jìn)行分析。
在HashMap存放元素時(shí)候有這樣一段代碼來處理哈希值,這是java 8
的散列值擾動(dòng)函數(shù),用于優(yōu)化散列效果;
static final int hash(Object key) {
int h;
return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
理論上來說字符串的hashCode
是一個(gè)int類型值,那可以直接作為數(shù)組下標(biāo)了,且不會(huì)出現(xiàn)碰撞。但是這個(gè)hashCode
的取值范圍是[-2147483648, 2147483647],有將近40億的長(zhǎng)度,誰也不能把數(shù)組初始化的這么大,內(nèi)存也是放不下的。
我們默認(rèn)初始化的Map大小是16個(gè)長(zhǎng)度 DEFAULT_INITIAL_CAPACITY = 1 << 4
,所以獲取的Hash值并不能直接作為下標(biāo)使用,需要與數(shù)組長(zhǎng)度進(jìn)行取模運(yùn)算得到一個(gè)下標(biāo)值,也就是我們上面做的散列列子。
那么,hashMap源碼這里不只是直接獲取哈希值,還進(jìn)行了一次擾動(dòng)計(jì)算,(h = key.hashCode()) ^ (h >>> 16)
。把哈希值右移16位,也就正好是自己長(zhǎng)度的一半,之后與原哈希值做異或運(yùn)算,這樣就混合了原哈希值中的高位和低位,增大了隨機(jī)性。計(jì)算方式如下圖;
從上面的分析可以看出,擾動(dòng)函數(shù)使用了哈希值的高半?yún)^(qū)和低半?yún)^(qū)做異或,混合原始哈希碼的高位和低位,以此來加大低位區(qū)的隨機(jī)性。
但看不到實(shí)驗(yàn)數(shù)據(jù)的話,這終究是一段理論,具體這段哈希值真的被增加了隨機(jī)性沒有,并不知道。所以這里我們要做一個(gè)實(shí)驗(yàn),這個(gè)實(shí)驗(yàn)是這樣做;
擾動(dòng)函數(shù)對(duì)比方法
public class Disturb {
public static int disturbHashIdx(String key, int size) {
return (size - 1) & (key.hashCode() ^ (key.hashCode() >>> 16));
}
public static int hashIdx(String key, int size) {
return (size - 1) & key.hashCode();
}
}
disturbHashIdx
擾動(dòng)函數(shù)下,下標(biāo)值計(jì)算hashIdx
非擾動(dòng)函數(shù)下,下標(biāo)值計(jì)算單元測(cè)試
// 10萬單詞已經(jīng)初始化到words中
@Test
public void test_disturb() {
Map<Integer, Integer> map = new HashMap<>(16);
for (String word : words) {
// 使用擾動(dòng)函數(shù)
int idx = Disturb.disturbHashIdx(word, 128);
// 不使用擾動(dòng)函數(shù)
// int idx = Disturb.hashIdx(word, 128);
if (map.containsKey(idx)) {
Integer integer = map.get(idx);
map.put(idx, ++integer);
} else {
map.put(idx, 1);
}
}
System.out.println(map.values());
}
以上分別統(tǒng)計(jì)兩種函數(shù)下的下標(biāo)值分配,最終將統(tǒng)計(jì)結(jié)果放到excel中生成圖表。
以上的兩張圖,分別是沒有使用擾動(dòng)函數(shù)和使用擾動(dòng)函數(shù)的,下標(biāo)分配。實(shí)驗(yàn)數(shù)據(jù);
未使用擾動(dòng)函數(shù)
使用擾動(dòng)函數(shù)
接下來我們討論下一個(gè)問題,從我們模仿HashMap的例子中以及HashMap默認(rèn)的初始化大小里,都可以知道,散列數(shù)組需要一個(gè)2的倍數(shù)的長(zhǎng)度,因?yàn)橹挥?的倍數(shù)在減1的時(shí)候,才會(huì)出現(xiàn)01111
這樣的值。
那么這里就有一個(gè)問題,我們?cè)诔跏蓟疕ashMap的時(shí)候,如果傳一個(gè)17個(gè)的值new HashMap<>(17);
,它會(huì)怎么處理呢?
在HashMap的初始化中,有這樣一段方法;
public HashMap(int initialCapacity, float loadFactor) {
...
this.loadFactor = loadFactor;
this.threshold = tableSizeFor(initialCapacity);
}
threshold
,通過方法tableSizeFor
進(jìn)行計(jì)算,是根據(jù)初始化來計(jì)算的。計(jì)算閥值大小的方法;
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
那這里我們把17這樣一個(gè)初始化計(jì)算閥值的過程,用圖展示出來,方便理解;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
負(fù)載因子是做什么的?
負(fù)載因子,可以理解成一輛車可承重重量超過某個(gè)閥值時(shí),把貨放到新的車上。
那么在HashMap中,負(fù)載因子決定了數(shù)據(jù)量多少了以后進(jìn)行擴(kuò)容。這里要提到上面做的HashMap例子,我們準(zhǔn)備了7個(gè)元素,但是最后還有3個(gè)位置空余,2個(gè)位置存放了2個(gè)元素。 所以可能即使你數(shù)據(jù)比數(shù)組容量大時(shí)也是不一定能正正好好的把數(shù)組占滿的,而是在某些小標(biāo)位置出現(xiàn)了大量的碰撞,只能在同一個(gè)位置用鏈表存放,那么這樣就失去了Map數(shù)組的性能。
所以,要選擇一個(gè)合理的大小下進(jìn)行擴(kuò)容,默認(rèn)值0.75就是說當(dāng)閥值容量占了3/4s時(shí)趕緊擴(kuò)容,減少Hash碰撞。
同時(shí)0.75是一個(gè)默認(rèn)構(gòu)造值,在創(chuàng)建HashMap也可以調(diào)整,比如你希望用更多的空間換取時(shí)間,可以把負(fù)載因子調(diào)的更小一些,減少碰撞。
為什么擴(kuò)容,因?yàn)閿?shù)組長(zhǎng)度不足了。那擴(kuò)容最直接的問題,就是需要把元素拆分到新的數(shù)組中。拆分元素的過程中,原jdk1.7中會(huì)需要重新計(jì)算哈希值,但是到j(luò)dk1.8中已經(jīng)進(jìn)行優(yōu)化,不在需要重新計(jì)算,提升了拆分的性能,設(shè)計(jì)的還是非常巧妙的。
@Test
public void test_hashMap() {
List<String> list = new ArrayList<>();
list.add("jlkk");
list.add("lopi");
list.add("jmdw");
list.add("e4we");
list.add("io98");
list.add("nmhg");
list.add("vfg6");
list.add("gfrt");
list.add("alpo");
list.add("vfbh");
list.add("bnhj");
list.add("zuio");
list.add("iu8e");
list.add("yhjk");
list.add("plop");
list.add("dd0p");
for (String key : list) {
int hash = key.hashCode() ^ (key.hashCode() >>> 16);
System.out.println("字符串:" + key + " \tIdx(16):" + ((16 - 1) & hash) + " \tBit值:" + Integer.toBinaryString(hash) + " - " + Integer.toBinaryString(hash & 16) + " \t\tIdx(32):" + ((
System.out.println(Integer.toBinaryString(key.hashCode()) +" "+ Integer.toBinaryString(hash) + " " + Integer.toBinaryString((32 - 1) & hash));
}
}
測(cè)試結(jié)果
字符串:jlkk Idx(16):3 Bit值:1100011101001000010011 - 10000 Idx(32):19
1100011101001000100010 1100011101001000010011 10011
字符串:lopi Idx(16):14 Bit值:1100101100011010001110 - 0 Idx(32):14
1100101100011010111100 1100101100011010001110 1110
字符串:jmdw Idx(16):7 Bit值:1100011101010100100111 - 0 Idx(32):7
1100011101010100010110 1100011101010100100111 111
字符串:e4we Idx(16):3 Bit值:1011101011101101010011 - 10000 Idx(32):19
1011101011101101111101 1011101011101101010011 10011
字符串:io98 Idx(16):4 Bit值:1100010110001011110100 - 10000 Idx(32):20
1100010110001011000101 1100010110001011110100 10100
字符串:nmhg Idx(16):13 Bit值:1100111010011011001101 - 0 Idx(32):13
1100111010011011111110 1100111010011011001101 1101
字符串:vfg6 Idx(16):8 Bit值:1101110010111101101000 - 0 Idx(32):8
1101110010111101011111 1101110010111101101000 1000
字符串:gfrt Idx(16):1 Bit值:1100000101111101010001 - 10000 Idx(32):17
1100000101111101100001 1100000101111101010001 10001
字符串:alpo Idx(16):7 Bit值:1011011011101101000111 - 0 Idx(32):7
1011011011101101101010 1011011011101101000111 111
字符串:vfbh Idx(16):1 Bit值:1101110010111011000001 - 0 Idx(32):1
1101110010111011110110 1101110010111011000001 1
字符串:bnhj Idx(16):0 Bit值:1011100011011001100000 - 0 Idx(32):0
1011100011011001001110 1011100011011001100000 0
字符串:zuio Idx(16):8 Bit值:1110010011100110011000 - 10000 Idx(32):24
1110010011100110100001 1110010011100110011000 11000
字符串:iu8e Idx(16):8 Bit值:1100010111100101101000 - 0 Idx(32):8
1100010111100101011001 1100010111100101101000 1000
字符串:yhjk Idx(16):8 Bit值:1110001001010010101000 - 0 Idx(32):8
1110001001010010010000 1110001001010010101000 1000
字符串:plop Idx(16):9 Bit值:1101001000110011101001 - 0 Idx(32):9
1101001000110011011101 1101001000110011101001 1001
字符串:dd0p Idx(16):14 Bit值:1011101111001011101110 - 0 Idx(32):14
1011101111001011000000 1011101111001011101110 1110
zuio
因計(jì)算結(jié)果 hash & oldCap
為1,則被遷移到下標(biāo)位置24。1、散列表實(shí)現(xiàn)
、2、擾動(dòng)函數(shù)
、3、初始化容量
、4、負(fù)載因子
、5、擴(kuò)容元素拆分
。聯(lián)系客服