Java中HashMap的hash分布策略的简单解释

趴源码是看到一段不可思议的代码，网上的解释似乎不大令人满意，因此稍微花点时间解读了一下，如有错误请指正

HashMap的桶是这样搞的

// 片段1
static final int hash(Object key) { 
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 片段2
int n = tab.length;
int index = (n - 1) & hash;

index就是最后得到下标，代码很简洁，但问题很多

Q1.我知道&使得index<=min(n-1,hash)，但为什么用&不用mod？

A1.n-1是2^m-1，等价于hash mod 2^m = hash mod n，用&和%完全一致，并且&更快，因此没有用%的理由

Q2.我是说你这样&有什么用？

A2.只要保证hash分布足够均衡，也保证了hash后几位也足够均匀，那idx的分布在长度范围内也是分布均匀的

Q3.高16位异或有什么用？

A3.由Q1我们知道idx取决于hash的后log10(n)+1长度的数值分布，那问题来了，当n本身较小时，高位等价于被截断，hash的意义存在局限性（想象一下多个数高位不同低位相同的冲突），因此需要高位的运算参与，尽可能满足最后结果的分布均匀

Q4.那高16位参与运算咋不用&、|？

A4.首先，如果使用&，当长度大于\(2^{16}\)时高16位将全部置零，也就是说空间完全被浪费（你永远算不到那里），下一个|是处于0和1的概率分布而言，1出现的可能比0高得多，也不是好方法

Q5.这样哈希并不一定很靠谱啊？

A5.确实，但源码内部的注释有说明到，由于已经采用了大量哈希碰撞时交由红黑树处理的策略，因此这里的哈希策略只是高性能下比较好的实现，而非严谨的实现

秒客网

Java中HashMap的hash分布策略的简单解释

相关文章