比较并交换 (CAS)

玻尔百科

定义

比较并交换 (CAS) 是一种计算机科学中的原子级硬件指令，旨在不使用传统锁的情况下解决“读取-修改-写入”问题。该机制是乐观并发控制的基础，被广泛应用于构建操作系统及分布式系统中的无锁数据结构。虽然 CAS 能够实现高效的资源管理，但在应用中需要通过标记指针等版本控制方案来解决 ABA 问题。

核心要点

比较并交换 (CAS) 是一种原子硬件指令，它无需传统锁即可解决读-改-写问题，构成了乐观并发的基础。
使用 CAS 的一个关键挑战是 ABA 问题，即内存位置恢复到先前的值，这会欺骗比较操作并导致逻辑错误。
ABA 问题可以通过使用版本控制方案（如带标签的指针）来解决，从而能够创建健壮的无锁数据结构，如栈和队列。
CAS 是一种基础模式，广泛应用于各种系统，从管理操作系统资源、构建并发数据结构，到在分布式系统中确保“恰好一次”语义。

引言

在并发编程的世界里，安全地管理对共享数据的访问是核心挑战。当多个线程试图同时读取、修改并写回一个值时，它们可能会覆盖彼此的工作，从而导致数据损坏和系统不稳定。虽然像锁这样的传统解决方案可以防止这些竞争条件，但它们也引入了自身的问题，例如性能瓶颈和死锁的可能性。这就迫切需要更高效、更具弹性的同步机制。

本文介绍了比较并交换 (CAS)，这是一种强大的原子指令，提供了一种乐观的、无锁的替代方案。CAS 不会阻塞其他线程，而是允许一个线程尝试更新，并在一个不可分割的步骤中验证没有发生其他更改。我们将探讨 CAS 的核心原理、其陷阱以及其广泛的应用。您将了解到这个简单的指令如何在硬件层面工作，如何规避像 ABA 问题这样微妙但危险的陷阱，以及 CAS 如何作为从操作系统内核到复杂分布式系统等一切事物的基本构建块。

我们首先剖析使“比较并交换”成为现代并发基石的原理和机制。

原理与机制

想象一下，你和一位朋友在一个房间里，房间里只有一块白板。上面写着数字“5”。你们俩各有一个任务：你需要给这个数字加 1，而你的朋友需要加 2。你们都看了看白板，看到了“5”，然后回到各自的座位上进行计算。你计算出 $5+1=6$ ，你的朋友计算出 $5+2=7$ 。你走到白板前，擦掉“5”，写上“6”。片刻之后，你的朋友没有看到你的更新，也走上前，擦掉了白板上的内容（你刚写下的“6”！），然后写上“7”。最终的数字是 7。你的辛勤工作就这样凭空消失了，完全丢失了。

这个小故事抓住了并发编程的根本挑战：当多个独立的参与者参与其中时，你如何安全地更新共享资源？这个操作序列——读取旧值、计算新值、然后写回——被称为读-改-写（read-modify-write）周期。如果这个周期可以被中断，混乱就可能随之而来。几十年来，主要的解决方案是使用“锁”，这就像一次只把白板笔给一个人。当你拿着笔的时候，没有其他人可以写字，从而确保你的更新是安全的。但如果你拿着笔时接了个电话呢？其他所有人都必须站在旁边等待，无法进行他们的工作。这是低效的，并且可能导致像死锁这样的复杂问题。

一定有更好的方法。如果你能在一个单一的、不可分割的、神奇的步骤中执行整个读-改-写序列呢？如果你能对白板说：“请把数字改成 6，但只有当数字仍然是 5 时才改。如果它不再是 5，就告诉我，我会想接下来该怎么做。”这就是现代计算中最优雅、最强大的指令之一的精髓：比较并交换（Compare-and-Swap），或称 CAS。

原子操作的剖析

比较并交换指令是程序员与处理器之间的一份合约。它通常看起来像这样： $CAS(address, expected\_value, new\_value)$ 。它会作为一个单一的、不可中断的，即原子（atomic）的操作，执行以下检查：

查看给定 address 处的内存。那里的值是否等于我的 expected_value？

如果是，则用我的 new_value 更新该内存位置，并报告成功。

如果否，则保持内存不变，并报告失败。

这个简单的命令改变了游戏规则。它允许我们构建“乐观”的并发程序。线程不必悲观地将所有其他线程都锁在门外，而是可以乐观地计算一个新值，然后使用 CAS 尝试提交它。如果另一个线程抢先一步，CAS 会失败，但不会破坏任何东西。线程只需看到失败，重新读取已被更新的值，然后再次尝试其计算。这种方法是无锁（lock-free）编程的基础，它承诺了一个没有传统锁所困扰的阻塞和死锁的世界。

但是，处理器怎么可能保证这样一个不可分割的操作呢？这不是魔法，而是一项精妙的硬件工程。在最底层，处理器必须确保在关键序列期间对内存总线拥有独占控制权。可以把它想象成处理器在大喊：“所有人，暂时别碰内存！”它会发出一个特殊的硬件信号，通常称为 $LOCK$ ，阻止任何其他设备访问内存。当这个总线锁激活时，处理器执行它的三个步骤：读取值，内部比较它，以及（如果比较通过）写回新值。只有在整个序列完成后，它才会释放该锁。原子性的关键在于在整个持续时间内保持该锁。如果锁释放得太早——比如，在读取之后但在写入之前——另一个线程就可能乘虚而入，破坏这次操作，从而完全打破原子性保证。

乐观主义的危险：无锁世界中的隐藏陷阱

CAS 带来的这种新力量令人陶醉，但与任何强大的力量一样，它也伴随着微妙的危险。并发的世界充满了给粗心者的陷阱，即使是像 CAS 这样的原子工具，如果你使用不当，也无法拯救你。

撕裂写（Torn Write）

一个常见的错误是假设原子性可以轻易地组合。假设你需要更新一个 128 位数字，但你的处理器的 CAS 指令只适用于 64 位字。一个诱人但致命错误的想法是简单地使用两个 64 位的 CAS 操作，一个用于高位部分，一个用于低位部分。

想象两个线程 $T_1$ 和 $T_2$ 分别试图将一个 128 位的值从 $(A, B)$ 更新为 $(C, D)$ 和 $(E, F)$ 。考虑一下这种灾难性的交错执行：

$T_1$ 成功执行 CAS，将高位部分从 $A$ 更改为 $C$ 。状态现在是 $(C, B)$ 。
在 $T_1$ 更新低位部分之前， $T_2$ 介入了。它想将低位部分从 $B$ 更改为 $F$ 。它对低位部分的 CAS 操作成功了！状态变为 $(C, F)$ 。
现在，两个线程的第二次 CAS 尝试都会失败，因为它们期望看到的部分已经被对方改变了。两个线程都报告失败，但它们留下了一个损坏的、撕裂的写入 $(C, F)$ ——一个两个线程都未曾预料到的可怕混合体。单个操作的原子性并不会自动组合成一系列操作的原子性。

A-B-A 的幽灵

一个远比这更阴险的陷阱是著名的 ABA 问题。这是一个关于值发生变化然后又变回去的故事，它欺骗 CAS 以为根本没有发生任何事情。

让我们使用经典的无锁栈例子，其中单个 head 指针指向顶部元素。要弹出一个元素，线程执行以下操作：

它读取当前的 head，假设它指向节点 $\mathsf{A}$ 。
它读取列表中的下一个节点，该节点由 $\mathsf{A}$ 指向，假设是节点 $\mathsf{B}$ 。
它准备通过调用 $CAS(head, \mathsf{A}, \mathsf{B})$ 将 head 从 $\mathsf{A}$ 更新为 $\mathsf{B}$ 。

现在，想象一下这个事件序列：

线程 $T_1$ 开始执行 pop 操作。它读取 head 为 $\mathsf{A}$ ，next 为 $\mathsf{B}$ 。然后在执行其 CAS 之前，它突然被操作系统挂起。
在 $T_1$ 休眠期间，线程 $T_2$ 非常繁忙。它弹出了节点 $\mathsf{A}$ 。然后又弹出了节点 $\mathsf{B}$ 。此时栈已完全改变。
然后， $T_2$ 推入一个新节点，我们称之为 $\mathsf{C}$ 。但问题在于：系统的内存分配器很节俭，为这个新节点 $\mathsf{C}$ 重用了之前属于节点 $\mathsf{A}$ 的内存地址。因此，从指针的角度来看， $\mathsf{C}$ 和 $\mathsf{A}$ 是无法区分的。
head 指针现在指回了 $\mathsf{A}$ 的原始地址。
线程 $T_1$ 醒来了！它整理了一下，继续执行其原定计划： $CAS(head, \mathsf{A}, \mathsf{B})$ 。它检查 head。它是否等于期望值 $\mathsf{A}$ ？是的！CAS 成功了，它将 head 指针指向了 $\mathsf{B}$ ，一个早已被弹出并且现在是无效内存的节点。栈现在从根本上被破坏了，一个节点（ $\mathsf{C}$ ）被悄无声息地丢失了。

CAS 被一个幽灵欺骗了。指针的值从 $A \rightarrow B \rightarrow \dots \rightarrow A$ 变化，但栈的逻辑状态已经发生了深刻的改变。

驯服幽灵并赢得竞争

幸运的是，计算机科学家们已经开发出巧妙的方法来驱除这些幽灵并管理竞争的混乱。

赋予指针记忆：版本控制

ABA 问题之所以出现，是因为 CAS 只比较值，而不比较值的历史。解决方案是什么？给它一个历史。我们可以存储一个键值对：(pointer, version)，而不仅仅是一个指针。这被称为带标签的指针（tagged pointer）。每当指针被成功更新时，我们同时递增版本号。

现在，CAS 变成了一个必须同时检查指针和版本号的“双管齐下”的操作。在我们的 ABA 场景中，当 $T_1$ 醒来时，它期望看到的是 (pointer_A, version_0)。但在 $T_2$ 的操作之后，head 会是 (pointer_A, version_3)。指针匹配，但版本不匹配！CAS 正确地失败了，灾难得以避免。

一些处理器架构提供了更直接的解决方案。像 Load-Linked/Store-Conditional (LL/SC) 这样的原语，其操作不是基于值的相等性，而是基于无干扰。Load-Linked 获取一个值，并对该内存位置设置一个不可见的“监视”。Store-Conditional 只有在该“监视”未被任何中间写入操作干扰的情况下才会成功。这种机制天然地对被监视位置的 ABA 问题免疫，因为 $T_2$ 执行的写入序列会破坏 $T_1$ 的“监视”。

原子操作的代价

无锁算法可能避免了阻塞，但它们并非没有代价。在多核系统中，当你执行 CAS 时，处理器必须获得包含该内存位置的缓存行的独占所有权。如果多个核心同时对同一位置进行 CAS 操作——即高竞争（contention）状态——该缓存行必须从一个核心传递到另一个核心，就像一个烫手山芋。

这种“缓存行弹跳”（cache line bouncing）并非抽象概念；它涉及通过处理器的互连进行的真实物理通信。一个简单但有力的模型表明，如果你有 $c$ 个核心都在争夺一个位置，并且每次缓存行的“交接”需要时间 $t_h$ ，那么任何单个核心在其成功 CAS 操作之间必须等待的时间与竞争者数量成线性关系： $c \times t_h$ 。性能不会提升；反而会下降！在非一致性内存访问 (NUMA) 系统中，这种效应更为明显，因为访问物理上连接到另一个处理器插槽的内存可能比访问本地内存慢得多。

公平性与退避的艺术

还有一个深刻的问题：公平性。无锁保证确保了系统作为一个整体能够取得进展。它不保证你特定的线程会取得进展。一个“不幸”的线程完全有可能反复尝试其 CAS，却发现总是有另一个线程赢得了竞争。这被称为饥饿（starvation），它违反了一个关键的公平性属性，即有界等待（bounded waiting）。

我们如何才能做到公平？我们可以使用 CAS 作为构建块，来构造一种公平、有序的锁，比如票号锁（ticket lock）。线程从一个 next_ticket 发号器（用 CAS 循环实现）取一个号码，然后等待 serving 计数器达到它们的号码。这强制执行了严格的先进先出原则，保证没有人会饿死。

但如果我们想保持真正的无锁状态呢？优雅的解决方案是随机化指数退避（randomized exponential backoff）。当一个线程的 CAS 失败时，它不会立即重试。相反，它会等待一个短暂的、随机的时间。如果再次失败，潜在的等待时间会呈指数级增长。这种行为非常有效。它使线程从争用点“后退”，减少了交通堵塞，使得某个线程的 CAS 更有可能成功。虽然它不能提供防止饥饿的硬性保证，但在实践中使其变得极不可能，同时还保留了算法的非阻塞特性。

从总线锁的硬件逻辑到退避算法的概率之舞，“比较并交换”这一简单思想展现出一个丰富而复杂的世界。它告诉我们，在并发领域，原子性不仅仅是一个特性，而是一个精心构建的基础，我们可以在其上构建快速、有弹性，并且在足够用心的情况下，甚至是公平的系统。

应用与跨学科联系

理解了原子比较并交换的原理后，我们可能会倾向于认为它只是计算机架构师使用的一种相当专业化、低层次的技巧。但这就像看着一块砖头，却想象不出它能建造的大教堂。比较并交换，或称 CAS，不仅仅是一条巧妙的指令；它是一个基本的构建块，一个从单一处理器的核心扩展到全球规模软件的庞大、互联机制的基本概念。它是数字世界中完美的、瞬间的握手，其影响无处不在。

单一资源问题：声明资源

让我们从一个简单而具体的场景开始。想象一下，一家航空公司有一张飞机的最后余票，在计算机内存中表示为一个值为 $0$ 的位置。许多订票代理正在为他们的客户争抢这个座位。第一个成功将自己唯一 ID 写入该内存位置的代理将获得该座位。

我们如何确保只有一个代理成功？如果代理们只是读取值，看到是 $0$ ，然后尝试写入自己的 ID，我们就会遇到竞争。两个代理可能几乎同时读取到 $0$ ，都认为座位是空的，并都试图声明它。最后写入的那个会赢，但另一个代理的系统也可能认为自己成功了，从而导致航班超售。

这时，CAS 提供了一个极其优雅的解决方案。代理不仅仅是写入自己的 ID，而是执行一个 CAS 操作。代理 $j$ 对系统说：“我期望座位的值是 $0$ 。当且仅当值为 $0$ 时，将其更改为 $j$ 。”硬件保证这整个“检查并设置”的动作是原子的——一个不可分割的、要么全有要么全无的事件。第一个被处理 CAS 请求的代理会发现值是 $0$ ，将其更改为自己的 ID，并收到一个“成功”信号。随后每一个尝试相同 CAS 的代理都会发现值不再是 $0$ ；它们的期望是错误的，操作将失败，并且座位的值将保持不变。

这个简单的协议实现了我们所说的可线性化的一次性对象（linearizable one-shot object）。它保证了安全性属性：该座位最多被声明一次。但请注意它不保证什么：公平性。一个对抗性的调度器，或者纯粹是运气不好，可能导致某个特定代理的 CAS 总是晚到一微秒。系统作为一个整体取得了进展（座位被预订了），但单个代理可能会饿死。系统范围的进展与个体保证之间的这种区别是并发编程世界中一个反复出现的主题。

群体与计数器：操作系统的基础

让我们从单个资源转向一个更普遍的问题：计数。操作系统的许多部分都需要跟踪有多少东西正在使用一个共享对象——一个文件、一个内存页、一个进程。这被称为引用计数。当一个新进程想要共享一个资源时，它必须增加计数器。

一个幼稚的 读-增-存 序列在并发下注定会失败，原因与我们的机票预订相同：更新丢失。两个进程可能读取到相同的值，比如 $c_0$ ，都计算出 $c_0+1$ ，然后都写回 $c_0+1$ 。计数器只增加了一次，而本应增加两次。这可能导致灾难性故障，例如在写时复制 (COW) 系统中，一个资源可能因为其引用计数被低估而过早释放。

CAS 再次挺身而出。一个线程可以执行一个 CAS 循环：读取当前计数值 $x$ ，并尝试将其 CAS 为 $x+1$ 。如果失败了，没问题；这意味着别人“赢得了竞争”。线程只需循环，读取新值，然后再次尝试，直到成功。每一次成功的 CAS 都代表着一次，且仅有一次，成功的递增。虽然一些架构为此提供了更直接的指令，比如 Fetch-And-Add (FAA)，但 CAS 循环是通用的、基于软件的解决方案。它构成了内核中无数同步模式的基础。

我们可以将这种原子更新的思想应用于管理庞大的资源池。操作系统可能使用位图（bitmap）来跟踪哪些磁盘块或内存页是空闲的。一个机器字（比如 $64$ 位）可以表示 $64$ 个块的状态。要分配一个块，线程可以找到一个带有零位的字，读取该字的值 $w$ ，然后使用 CAS 将其更改为 $w \lor m$ ，其中 $m$ 是一个将所选的 0 位翻转为 1 的掩码。只有当该字在此期间未被其他线程触碰时，此 CAS 才会成功，从而防止两个线程声明同一个块。这是一种极其高效的管理资源的方式，避免了锁带来的沉重开销。

机器中的幽灵：ABA 问题

当我们从简单的计数器转向更复杂的、基于指针的数据结构时，一个微妙而有趣的新问题出现了。让我们尝试构建一个并发栈，它常用于管理空闲内存页列表等任务。栈只是一个链表，我们只在头部添加（push）和移除（pop）。要推入一个新节点，我们让它指向当前的头部，然后使用 CAS 将共享的头指针指向我们的新节点。要弹出，我们读取头部，找到它的 next 元素，然后使用 CAS 将头指针指向那个 next 元素。这就是著名的 Treiber 栈。

这看起来很完美。但如果一个内存地址被重用了呢？考虑以下事件序列：

一个线程，我们称之为 $T_1$ ，想要弹出。它读取头指针，即地址 $A$ 。栈看起来像 $A \rightarrow B \rightarrow \dots$ 。 $T_1$ 准备将头从 $A$ CAS 到 $B$ 。
但在它能这样做之前， $T_1$ 被中断了。
当它休眠时，另一个线程弹出了 $A$ 。然后它弹出了 $B$ 。节点 $A$ 的内存现在被认为是空闲的。
稍后，系统需要内存来存放一个新节点，比如 $C$ 。巧合的是，内存分配器给了它最近释放的 $A$ 的地址。这个新节点 $C$ （恰好位于地址 $A$ ）被推入栈中。头指针现在再次是地址 $A$ 。
现在 $T_1$ 醒来了！它继续执行其原计划：将头从 $A$ CAS 到 $B$ 。CAS 检查当前的头。是 $A$ 吗？是的！CAS 成功并将头设置为 $B$ 。

栈现在被破坏了。头指向 $B$ ，一个已经被弹出并且不再是有效栈一部分的节点。这就是臭名昭著的 ABA 问题。CAS 被欺骗了，因为指针的位模式返回到了其原始值，掩盖了在此期间发生的巨大变化。这就像看到一个朋友穿着红衬衫，移开视线，再看回来时他们仍然穿着红衬衫，却不知道在此期间他们换上了一件蓝衬衫，然后又换回了一件不同的红衬衫。

关键是要理解，标准的内存回收方案，如基于纪元的回收（Epoch-Based Reclamation, EBR），其设计目的是防止线程访问已释放的内存（即“释放后使用”的 bug），但它们并不能解决逻辑上的 ABA 问题。EBR 会确保在 $T_1$ 持有对节点 $A$ 的引用时，它不会被完全重新用于其他目的，但这并不能阻止它在逻辑上被重新插入到相同的数据结构中。

解决方案是确保 CAS 比较的值永远不会“错误地”重复。我们可以通过为指针附加一个版本计数器或“标签”来做到这一点。我们不仅仅是 CAS 指针本身，而是 CAS 一个更大的复合值：(pointer, version)。每次修改头时，我们都递增版本。在我们的 ABA 场景中，初始状态将是 (A, v1)。在所有这些操作之后，头将是 (A, v2)。当我们的休眠线程 $T_1$ 醒来时，其试图更改 (A, v1) 的 CAS 操作将会失败，因为当前值是 (A, v2)，而 $v1 \neq v2$ 。幽灵被抓住了。

构建稳健的并发机制

有了 ABA 问题的解决方案，我们就可以构建一整套强大的、非阻塞的数据结构。我们可以将栈的逻辑扩展为一个功能齐全的多生产者、多消费者 (MPMC) 队列，这是并发系统中的主力。我们还可以设计一个复杂的无锁链表，支持在任何位置插入和删除。这需要另一个巧妙的想法：逻辑删除。我们不是一步就物理地移除一个节点，而是首先使用 CAS 将其“标记”为已删除（通常通过设置其 next 指针中的一个位），然后在第二阶段物理地将其断开链接。任何遇到被标记节点的线程甚至可以“帮助”完成这项工作，确保结构保持干净和高效。这种设计是无锁并发哈希映射的核心。

这些结构——栈、队列、列表和映射——是我们软件的齿轮和杠杆。通过用 CAS 构建它们，我们创建了高度并发和有弹性的系统。它们是无锁的，这意味着如果一个线程卡住了，它不会停止整个系统。这与传统的基于锁的设计相比是一个深刻的转变，后者容易出现死锁和性能瓶颈。

从芯片到云端：确保分布式系统的正确性

CAS 的影响远远超出了单台机器。考虑一个现代微服务架构，其中一个请求（如下订单或付款）由一个分布式系统处理。网络是不可靠的，服务可能会崩溃和重启。这通常会导致至少一次的传递，即一个请求可能会被尝试多次。我们如何确保外部副作用——对信用卡收费——恰好一次（exactly once）？

我们可以使用我们之前看到的 CAS 驱动的状态机模式。我们为每个请求维护一个持久化记录，带有一个状态字段：NEW、IN_PROGRESS 或 DONE。一个接收到 NEW 请求的工作线程使用 CAS 将其状态原子地转换为 IN_PROGRESS。只有这场 CAS 竞争的赢家，或者在崩溃后发现状态已经是 IN_PROGRESS 的后续工作线程，才有责任触发信用卡收费。在尝试收费后，它会尝试将状态从 IN_PROGRESS CAS 为 DONE。

但是，如果服务在扣款后、但在将状态设置为 DONE 之前崩溃了怎么办？一个新的工作线程将看到状态为 IN_PROGRESS 并再次尝试扣款！这里我们看到了 CAS 的局限性。它可以完美地管理我们服务内部的状态转换，但它无法将该状态变化与外部服务中的操作原子性地绑定在一起。

完整的解决方案是 CAS 与另一个强大概念的完美结合：幂等性（idempotency）。外部服务必须设计为幂等的，这意味着多次接收相同的请求（具有相同的唯一请求 ID）与接收一次具有相同的效果。我们的服务使用 CAS 来确保我们进入 IN_PROGRESS 状态并尝试执行操作。外部服务的幂等性确保了我们的重复尝试只导致一次实际收费。这种组合——一个由 CAS 保护的本地状态机加上一个幂等的外部操作——是在分布式系统中实现有效的“恰好一次”语义的基石模式。

从飞机上的一个座位到遍布全球的交易，其思想脉络是一脉相承的。一个原子性的、有条件的更新这一简单而强大的思想，为我们在这个充满固有并发性和混乱的世界中构建复杂、可靠和高性能的系统提供了正确性的保证。一个如此微小的原理可以产生如此巨大的影响，这证明了计算机科学之美。