程序员的基本功之Java集合的实现细节

时间:2022-02-18 19:07:54

1.Set集合与Map

程序员的基本功之Java集合的实现细节

仔细对比观察上面Set下和Map下的接口名,不难发现它们如此的相似,必有原因

如果只考察Map的Key会发现,它们不可以重复,没有顺序,也就是说把Map的所有的Key集中起来就是一个Set集合,所以map有了方法 Set<K> keySet();

对于Map而言,实际上他就相当于一个所有元素都是Key-Value的Set集合

问题:如何用Set实现一个Map??

思路:定义一个SimpleEntry类,该类代表一个Key-Value对,当Set集合中的元素都是SimpleEntry时,该Set就可以当作Map来使得

HashMap和HashSet

对于HashSet而言,系统采用Hash算法决定集合元素的存储位置,这样可以保证快速存取集合元素

对于HashMap而言,系统将Value当成Key的附属,系统根据Hash算法来决定Key的存储位置,这样保证快速存取集合的Key,而Value总是跟紧随Key存储

虽然集合号称存储的Java对象,但实际上并不会真的把Java对象放入Set集合,而只是在Set集合中保留这些对象的引用

  存储方式:

对于HashMap,程序执行map.put("语文",80.0);时,系统调用  "语文" 的HashCode的方法,得出其HashCode值,HashMap根据其HashCode值来决定元素的存储位置

HashMap类的put(K key,V value)方法源代码如下(来自JDK 1.6     , JDK 1.8有所改进)

public V put(K key, V value) {
    //如果key为null,调用putForNullKey方法进行处理
if (key == null)
return putForNullKey(value);
      //根据Key的hashCode 值计算Hash值
int hash = hash(key.hashCode());
      //根据指定hash值查找对应table中的索引
int i = indexFor(hash, table.length);
for (Entry<K,V> e = table[i]; e != null; e = e.next) {
Object k;
        //找到指定key与需要放入的key相等(hash值相同,并且通过equals方法比较返回true)
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
    //如果i索引处的entry为null,表明此处没有entry
modCount++;
    //将key value 添加到索引i处
addEntry(hash, key, value, i);
return null;
}

从上面的程序可以看出HashMap在存储Key-Value的时候没有考虑Value,仅仅根据Key来计算Entry的存储位置,Map.Entry是一个重要的接口,它代表了一个Key-Value对

从源代码中可以看出

  当向HashMap中放入Key-Value对时,首先根据Key的HashCode值决定该Entry的存储位置

  如果两个Entry的Key的HashCode值相等,那它们的存储位置相同

  如果两个Entry的Key通过equals比较返回true,那么新添加的Entry的Value会覆盖原来的,但Key不会覆盖

  如果两个Entry的Key通过equals比较返回false,那么新添加的Entry与集合中原来的Entry形成Entry链,新添加的Entry位于链的头部

static class Entry<K,V> implements Map.Entry<K,V> {
final K key;
V value;
Entry<K,V> next;//指向下一个entry 形成entry链
final int hash; ........
void addEntry(int hash, K key, V value, int bucketIndex) {
  //获取指定bucketIndex索引处的entry
Entry<K,V> e = table[bucketIndex];
      //将新创建的entry放入指定bucketIndex索引处,并让新的entry指向原来的entry 如果原来的bucketIndex处没有entry,则不会形成entry链
table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
      //如果map中的Key-Value对的数量超过了上限
if (size++ >= threshold)
        //把table对象的长度扩充到原来的2倍
resize(2 * table.length);
}

其中有两个参数:

  size:该变量保存了hashmap中所包含的Key-Value对我数量

  threshold:该变量表示hashmap所能容纳的Key-Value对的极限 ,它的值等于hashmap的容量乘以负载因子(loader factor)

  table就是一个普通的数组,数组的长度就是hashmap的容量,table里面存储的就是hashmap的entry,table中存储元素的位置叫桶bucket

  默认的HashMap()构造器会构造一个初始容量为16,负载因子为0.75的hashmap  (0.75是时间与空间上的一种折衷)

public HashMap(int initialCapacity, float loadFactor) {
    //初始容量不为为负数
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
   //如果初始容量大于最大容量,让初始容量等于最大容量  
     if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
      //负载因子必须大于0的数字
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor); // Find a power of 2 >= initialCapacity
      
    //计算出大于initialCapacity的最小的2的n次方
int capacity = 1;
while (capacity < initialCapacity)
capacity <<= 1; this.loadFactor = loadFactor;
      //设置容量等于极限等于容量乘以负载因子
threshold = (int)(capacity * loadFactor);
      //初始化table数组
table = new Entry[capacity];
init();
}
 public V get(Object key) {
if (key == null)
return getForNullKey();
//根据key的hashcode值计算他的hash码
int hash = hash(key.hashCode());
      //直接取出table数组中指定索引处的值
for (Entry<K,V> e = table[indexFor(hash, table.length)];
        
e != null;
          //搜索entry链的下一个entry
e = e.next) {
Object k;
        //如果该entry的key与被搜索的key相同,就把value返回
if (e.hash == hash && ((k = e.key) == key || key.equals(k)))
return e.value;
}
return null;
}

总结:HashMap底层将Key-Value当成一个整体进行处理,这个整体就是一个entry对象,底层采用一个Entry[]数组table来保存所有Key-Value对

需要存储一个Entry对象时会根据Hash算法来决定其存储位置,取出 一个Entry时也会根据Hash算法来找他的位置,直接取出Entry

如果一开始就知道要在HashMap中存储多个Key-Value对时,可以在初始化指定一个较大的容量,省去resize的性能损耗

HashSet

HashSet底层是采用HashMap实现 的,底层封装了一个HashMap,所有的HashSet集合中的元素实际是由HashMap中的Key来保存的,而Value是一个PRESENT,它是一个静态的Object对象

public class HashSet<E>
extends AbstractSet<E>
implements Set<E>, Cloneable, java.io.Serializable
{
static final long serialVersionUID = -5024744406713321676L;
  //使用hashmap的key保存hashset的值
private transient HashMap<E,Object> map;
  //定义一个虚拟的Object对象当作value的值
private static final Object PRESENT = new Object();
  //初始hashset底层会初始化一个hashmap
public HashSet() {
map = new HashMap<E,Object>();
}
  
  //以指定的参数创建一个hashset,底层是以指定的参数创建一个hashmap
public HashSet(int initialCapacity, float loadFactor) {
map = new HashMap<E,Object>(initialCapacity, loadFactor);
} public HashSet(int initialCapacity) {
map = new HashMap<E,Object>(initialCapacity);
} HashSet(int initialCapacity, float loadFactor, boolean dummy) {
map = new LinkedHashMap<E,Object>(initialCapacity, loadFactor);
}
  //调用map的keyset返回所有的hashset值
public Iterator<E> iterator() {
return map.keySet().iterator();
} public int size() {
return map.size();
} public boolean isEmpty() {
return map.isEmpty();
} public boolean contains(Object o) {
return map.containsKey(o);
}
  //将指定元素放入hashset中,实际就是将元素的作为key放入hashmap中
public boolean add(E e) {
return map.put(e, PRESENT)==null;
} public boolean remove(Object o) {
return map.remove(o)==PRESENT;
} public void clear() {
map.clear();
}
}

由于hashset底层是由hashmap实现的,那么根据hashmap的实现原理,当hashset中放入重复的元素时,不会覆盖原来的,只是value会覆盖

注意 重写放入hashset和hashmap中的对象的hashcode方法 和 equals方法很重要,并且 要一至,当hashcode方法返回true时equals方法也要返回true才行

如何正确的重写hashCode方法 和equals方法 ?

所有参与计算hashcode返回值的参数都应用于作为equals()比较的标准