ConcurrentHashMap是如何保证线程安全？

mac2024-01-30 51

1.ConcurrentHashMap简介

ConcurrentHashMap是一个Map集合，数据结构是由数据和链表组成；在jdk1.7中使用了分段锁实现线程安全，不过segment锁的粒度大。在java1.8中做了优化，锁的粒度更小了，只在多线程环境下在相同位置添加值时，需要获取锁；还在扩容上做了优化。

1.2 ConcurrentHashMap源码分析

源码分析是基于jdk1.8的版本

1.2.1 JDK1.7 和 Jdk1.8 版本的区别

ConcurrentHashMap和HashMap的实现原理差不多，但是因为ConcurrentHashMap需要支持并发，实现上比HashMap要复杂一些。在jdk1.7的版本中，ConcurrentHashMap是由一个个segment组成，ConcurrentHashMap是一个segment数组，它通过继承ReentranLock来进行加锁，通过每次锁住一个segment来保证每个segment内的操作是线程安全的从而实现局部线程安全。当操作在不同的segment上时，默认情况下可以支持16个线程并发；相对于jdk1.7而言，ConcurrentHashMap 在1.8中做了两个改进： 1.取消了segment分段设计，直接用node数组来保存数据，并采用node数组元素作为锁来实现每数据进行加锁来进一步减少并发的冲突。 2.将原来的数组加单向链表数据结构变为数组+链表+红黑树。在正常情况下，key hash之后如果能够很均匀的分散在数组中，那么table数组中的每个队列的长度主要为 0 或者 1.但是实际情况下，还是会存在一些队列长度过长的情况。如果还采用单向列表方式，那么查询某个节点的时间复杂度就变为 O(n); 因此对于队列长度超过8的列表，JDK1.8采用了红黑树的结构，那么查询的时间复杂度就会降低到 O(logN),可以提升查找的性能；这个结构和jdk1.8中的hashMap的实现结构一致，为了保证线程安全， ConcurrentHashMap的实现会复杂一些。

1.2.2 put方法之一

public V put(K key, V value) { return putVal(key, value, false); }

putVal()

final V putVal(K key, V value, boolean onlyIfAbsent) { if (key == null || value == null) throw new NullPointerException(); int hash = spread(key.hashCode()); int binCount = 0;//表示链表的长度 for (Node<K,V>[] tab = table;;) { Node<K,V> f; int n, i, fh; if (tab == null || (n = tab.length) == 0) tab = initTable();//第一次进来则需要初始化 else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) { if (casTabAt(tab, i, null, new Node<K,V>(hash, key, value, null)))//两个线程同时进来存入数据时需要cas操作，线程Acas操作对线程B操作可见 break; // no lock when adding to empty bin } .... }

假如在上面这段代码中存在两个线程，在不加锁的情况下：线程A成功执行casTabAt操作后，随后的线程B可以通过tabAt方法立刻看到table[i]的改变。原因如下：线程A的 casTabAt操作，具有volatile读写相同的内存语义，根据volatile的happens-before规则：线程A的casTabAt操作，一定对线程B的tabAt操作可见；

initTable（）

private final Node<K,V>[] initTable() { Node<K,V>[] tab; int sc; while ((tab = table) == null || tab.length == 0) { if ((sc = sizeCtl) < 0)//sizeCtl=-1做标识用，如果有线程在初始化，则当前线程退出； Thread.yield(); // lost initialization race; just spin else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {//将sizeCtl的标识符号通过cas设置成-1 ，表示当前线程抢到初始化的权限 try { if ((tab = table) == null || tab.length == 0) { int n = (sc > 0) ? sc : DEFAULT_CAPACITY;//n=16 @SuppressWarnings("unchecked") Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n]; table = tab = nt; sc = n - (n >>> 2);//sc=12=16*0.75 } } finally { sizeCtl = sc;//sizeCtl =12 } break; } } return tab; }

数组初始化方法，这个方法比较简单，就是初始化一个合适大小的数组 sizeCtl这个要单独说一下，如果没搞懂这个属性的意义，可能会被搞晕这个标志是在 Node 数组初始化或者扩容的时候的一个控制位标识，负数代表正在进行初始化或者扩容操作 -1 代表正在初始化； -N 代表有N-1 个线程正在进行扩容操作，这里不是简单的理解成 n个线程，sizeCtl就是-N,这块后续在讲扩容的时候会说明 0标识Node数组还没有被初始化，正数代表初始化或者下一次扩容的大小的因素；

tabAt 该方法获取对象中offset偏移地址对应的对象field的值。实际上这段代码的含义等价于tab[i], 但是为什么不直接使用tab[i]来计算呢？ getObjectVolatile，一旦看到volatile关键字，就表示可见性。因为对volatile写操作happenbefore于volatile读操作，因此其他线程对table的修改均对get读取可见；虽然 table 数组本身是增加了 volatile 属性，但是“volatile 的数组只针对数组的引用具有 volatile的语义，而不是它的元素”。所以如果有其他线程对这个数组的元素进行写操作，那么当前线程来读的时候不一定能读到最新的值。

static final <K,V> Node<K,V> tabAt(Node<K,V>[] tab, int i) { return (Node<K,V>)U.getObjectVolatile(tab, ((long)i << ASHIFT) + ABASE); }

模拟图形

1.2.3 put方法之二

在putAll完成以后，会通过addCount()来增加ConcurrentHashMap元素的个数，并且还可能触发扩容，设计思想: 1.高并发下扩容。 2.如何保证addCount的数据安全性以及性能。

//将当前 ConcurrentHashMap 的元素数量加 1，有可能触发 transfer 操作(扩容) addCount(1L, binCount); return null; }

1.2.3.1 addCount 数据安全性

在 putVal 最后调用 addCount 的时候，传递了两个参数，分别是 1 和 binCount(链表长度)，看看addCount方法里面做了什么操作 x表示这次需要在表中增加的元素个数，check参数表示是否需要进行扩容检查，大于等于0 都需要进行检查

private final void addCount(long x, int check) { CounterCell[] as; long b, s; // 1. 如果为空，就通过 cas 操作尝试修改 baseCount 变量，对这个变量进行原子累加操 //作(做这个操作的意义是：如果在没有竞争的情况下，仍然采用 baseCount 来记录元素个 //数) //2. 如果 cas 失败说明存在竞争，这个时候不能再采用 baseCount 来累加，而是通过 CounterCell 来记录 if ((as = counterCells) != null || !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) { CounterCell a; long v; int m; boolean uncontended = true; //1.计数表为空，直接调用fullAddCount操作 //2.从计数表中随机取出的数据为空，则调用fullAddCount //3. 通过 CAS 修改 CounterCell 随机位置的值，如果修改失败说明出现并发情况（这里又用到了一种巧妙的方法），调用 fullAndCount Random 在线程并发的时候会有性能问题以及可能会产生相同的随机数 ,ThreadLocalRandom.getProbe 可以解决这个问题，并且性能要比 Random 高 if (as == null || (m = as.length - 1) < 0 || (a = as[ThreadLocalRandom.getProbe() & m]) == null || !(uncontended = U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) { fullAddCount(x, uncontended); return; } if (check <= 1)//链表的长度小于1 return; s = sumCount();//统计ConcurrentHashMap元素的个数 } }

CounterCells 解释 ConcurrentHashMap是采用CounterCell数组来记录元素个数的，像一般的集合记录集合大小，直接定义一个size的成员变量即可，当出现改变的时候只要更新这个变量就行。为什么 ConcurrentHashMap要用这种形式来处理呢？问题还是处在并发上，ConcurrentHashMap是并发集合，如果用一个成员变量来统计元素个数的话，为了保证并发情况下共享变量的的难全兴，势必会需要通过加锁或者自旋来实现，如果竞争比较激烈的情况下，size 的设置上会出现比较大的冲突反而影响了性能，所以在 ConcurrentHashMap采用了分片的方法来记录大小，具体什么意思，我们来分析下

private transient volatile int cellsBusy;// 标识当前 cell 数组是否在初始化或扩容中的 CAS 标志位 /** * Table of counter cells. When non-null, size is a power of 2. */ private transient volatile CounterCell[] counterCells;// counterCells 数组，总数值的分值分别存在每个 cell 中 @sun.misc.Contended static final class CounterCell { volatile long value; CounterCell(long x) { value = x; } //看到这段代码就能够明白了，CounterCell 数组的每个元素，都存储一个元素个数，而实际我们调用 size 方法就是通过这个循环累加来得到的 final long sumCount() { CounterCell[] as = counterCells; CounterCell a; long sum = baseCount; if (as != null) { for (int i = 0; i < as.length; ++i) { if ((a = as[i]) != null) sum += a.value; } } return sum; }

fullAddCount 源码分析

private final void fullAddCount(long x, boolean wasUncontended) { int h; //获取当前线程的 probe 的值，如果值为 0，则初始化当前线程的 probe 的值,probe 就是随机数 if ((h = ThreadLocalRandom.getProbe()) == 0) { ThreadLocalRandom.localInit(); // force initialization h = ThreadLocalRandom.getProbe(); wasUncontended = true; } boolean collide = false; // True if last slot nonempty for (;;) { CounterCell[] as; CounterCell a; int n; long v; if ((as = counterCells) != null && (n = as.length) > 0) {//已经被初始化 if ((a = as[(n - 1) & h]) == null) { //判断该位置的值是否位空 if (cellsBusy == 0) { // Try to attach new Cell 判断是否正在扩容 CounterCell r = new CounterCell(x); // Optimistic create if (cellsBusy == 0 &&通过 cas 设置 cellsBusy 标识，防止其他线程来对 counterCells 并发处理 U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) { boolean created = false; try { // Recheck under lock CounterCell[] rs; int m, j; 将初始化的 r 对象的元素个数放在对应下标的位置 if ((rs = counterCells) != null && (m = rs.length) > 0 && rs[j = (m - 1) & h] == null) { rs[j] = r; created = true; } } finally { cellsBusy = 0; } if (created)创建成功，退出循环 break; continue;//说明指定 cells 下标位置的数据不为空，则进行下一次循环 // Slot is now non-empty } } collide = false; } 说明在 addCount 方法中 cas 失败了，并且获取 probe 的值不为空 else if (!wasUncontended) // CAS already known to fail wasUncontended = true; // Continue after rehash，// 由于指定下标位置的 cell 值不为空，则直接通过 cas 进行原子累加，如果成功，则直接退出 else if (U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))// break; 如果已经有其他线程建立了新的 counterCells 或者 CounterCells 大于 CPU 核心数（很巧妙，线程的并发数不会超过 cpu 核心数） else if (counterCells != as || n >= NCPU) collide = false; // At max size or stale else if (!collide) collide = true; else if (cellsBusy == 0 && U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) { try { if (counterCells == as) {// Expand table unless stale 扩容一倍 2 变成 4 ，这个扩容比较简单 CounterCell[] rs = new CounterCell[n << 1]; for (int i = 0; i < n; ++i) rs[i] = as[i]; counterCells = rs; } } finally { cellsBusy = 0; } collide = false; continue; // Retry with expanded table } h = ThreadLocalRandom.advanceProbe(h); } cellsBusy=0 表示没有在做初始化，通过 cas 更新 cellsbusy 的值标注当前线程正在做初始化操作 else if (cellsBusy == 0 && counterCells == as && U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) { boolean init = false; try { // Initialize table if (counterCells == as) {// //初始化容量为 2 CounterCell[] rs = new CounterCell[2]; rs[h & 1] = new CounterCell(x);将 x 也就是元素的个数放在指定的数组下标位置 counterCells = rs;// init = true;//设置初始化完成标识 } } finally { cellsBusy = 0; } if (init) break; } 竞争激烈，其它线程占据 cell 数组，直接累加在 base 变量中 else if (U.compareAndSwapLong(this, BASECOUNT, v = baseCount, v + x)) break; // Fall back on using base } }

CounterCells 初始化图解初始化长度为 2 的数组，然后随机得到指定的一个数组下标，将需要新增的值加入到对应下标位置处

1.2.3.1 addCount transfer扩容

有关扩容下节分析

1.2.4 put方法之三

有关于扩容，下节分析。

1.2.5 put方法之四

这个方法的主要作用是，如果被添加的节点的位置已经存在节点的时候，需要以链表的方式，加入到节点中如果当前节点已经是一颗红黑树，那么就会按照红黑树的规则将当前节点加入到红黑树中；

else { V oldVal = null; synchronized (f) {进入到这个分支，说明 f 是当前 nodes 数组对应位置节点的头节点，并且不为空 if (tabAt(tab, i) == f) {//给对应的头结点加锁 if (fh >= 0) {再次判断对应下标位置是否为 f 节点 binCount = 1; for (Node<K,V> e = f;; ++binCount) { K ek; if (e.hash == hash && ((ek = e.key) == key || (ek != null && key.equals(ek)))) {如果发现相同的 key，则判断是否需要进行值的覆盖 oldVal = e.val; if (!onlyIfAbsent)默认情况下，直接覆盖旧的值 e.val = value; break; } Node<K,V> pred = e; 一直遍历到链表的最末端，直接把新的值加入到链表的最后面 if ((e = e.next) == null) { pred.next = new Node<K,V>(hash, key, value, null); break; } } } 如果当前的 f 节点是一颗红黑树 else if (f instanceof TreeBin) { Node<K,V> p; binCount = 2; if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key, value)) != null) {同样，如果值已经存在，则直接替换 oldVal = p.val; if (!onlyIfAbsent) p.val = value; } } } } if (binCount != 0) { 如果链表长度已经达到临界值 8 就需要把链表转换为树结构 if (binCount >= TREEIFY_THRESHOLD) treeifyBin(tab, i); if (oldVal != null) return oldVal; break; } } }

判断链表的长度是否已经达到临界值 8. 如果达到了临界值，这个时候会根据当前数组的长度来决定是扩容还是将链表转化为红黑树。也就是说如果当前数组的长度小于 64，就会先扩容。否则，会把当前链表转化为红黑树 treeifyBin

Node<K,V> b; int n, sc; if (tab != null) { if ((n = tab.length) < MIN_TREEIFY_CAPACITY)tab 的长度是不是小于 64，如果是，则执行扩容 tryPresize(n << 1); else if ((b = tabAt(tab, index)) != null && b.hash >= 0) {否则，将当前链表转化为红黑树结构存储 synchronized (b) { if (tabAt(tab, index) == b) { TreeNode<K,V> hd = null, tl = null; for (Node<K,V> e = b; e != null; e = e.next) { TreeNode<K,V> p = new TreeNode<K,V>(e.hash, e.key, e.val, null, null); if ((p.prev = tl) == null) hd = p; else tl.next = p; tl = p; } setTabAt(tab, index, new TreeBin<K,V>(hd)); } } } } }

最新回复(0)