测试并设置指令

玻尔百科

定义

测试并设置指令是一种在并发系统中通过原子操作同时检查并修改特定内存位置的硬件指令。该指令是操作系统和并行计算领域中实现自旋锁等互斥同步原语的基础构建模块。虽然测试并设置指令可以有效协调进程，但在实际应用中需要谨慎处理内存重排和缓存一致性竞争，以避免性能下降或饥饿问题。

核心要点

test-and-set指令能够原子性地检查并设置一个内存位置，为自旋锁等同步原语提供了基础构建模块。
对test-and-set的朴素使用会导致严重问题，包括由内存重排序导致的不正确性、引发饥饿的不公平性，以及由缓存一致性风暴导致的性能崩溃。
为了克服这些陷阱，必须采用更高级的锁（如 TTAS、票据锁、MCS 锁）和审慎的系统设计，以正确管理内存可见性、公平性和竞争问题。
test-and-set的有效性高度依赖于具体情境，它在操作系统、嵌入式硬件、GPU 和虚拟化环境中揭示了关键的交互作用和挑战。

引言

在并发编程的世界里，确保多个线程能够安全地访问共享资源而不会损坏数据，是一项根本性的挑战。使用一个简单的标志来表示资源是否“繁忙”会彻底失败，因为在检查标志和设置标志之间的间隙会产生竞争条件，导致多个线程可能同时声称获得了访问权限。这凸显了对一种不可分割、要么全有要么全无的操作的迫切需求——一种真正的原子操作，它可以作为构建可靠同步机制的基石。

本文深入探讨了这些原子操作中最基础的一种：test-and-set指令。我们将探索这个简单的硬件原语如何提供实现互斥的能力，这是驯服并发的第一步。我们的旅程始于“原理与机制”一章，在那里我们不仅将揭示test-and-set的工作原理，还将发现其微妙而危险的陷阱，从内存可见性和公平性问题到扼杀性能的“缓存一致性风暴”。随后，在“应用与跨学科联系”一章中，我们将看到这些原理如何在现实世界中发挥作用，考察该指令在操作系统、数据库、GPU 乃至持久性内存的容错世界中所扮演的关键角色和复杂的相互作用。通过这次探索，您将对并发编程的艺术与科学获得深刻的理解。

原理与机制

想象一个世界，有许多参与者，或者用计算的语言来说，是“线程”，它们都需要使用一套共享的资源。也许它们都在一块白板上协作。为了防止混乱，我们需要一个规则：一次只能有一个线程使用白板。访问这个共享资源的代码区域称为临界区，而强制执行“一次一个”规则的机制是锁。

我们如何构建这样一个锁呢？我们可以使用一个简单的标志，一个变量，当白板空闲时为 $0$ ，繁忙时为 $1$ 。想要使用白板的线程会首先检查标志是否为 $0$ 。如果是，线程就将其设置为 $1$ 并进入临界区。完成后，它再将标志设回 $0$ 。

但如果两个线程在完全相同的时间检查标志呢？两者都看到它是 $0$ 。两者都决定可以继续。两者都将其设置为 $1$ 并拿起记号笔。现在两个线程同时在白板上书写，互相破坏了对方的工作。问题在于“检查标志”和“设置标志”是两个独立的步骤。在这两个步骤之间微小的间隙里，另一个线程可以乘虚而入。我们需要一个原子操作——一个不可分割的、要么全有要么全无的动作。

原子性的握手

这就是测试并设置指令 (test-and-set instruction) 发挥作用的地方。它是硬件的馈赠，一条神奇的指令，恰好能完成我们所需要的功能。它将检查并设置的操作作为一个不可分割的单元来执行。可以把它想象成一个特殊的门把手。当你转动它时，它会告诉你门是否已经上锁，并在同一瞬间，在你身后将门锁上。没有任何间隙。如果你和朋友同时转动门把手，硬件保证你们中的一个会发现门未上锁并将其锁上，而另一个则会发现门已经上锁了。

这个指令，我们称之为 TAS(lock_variable)，会原子性地返回锁变量的当前值，并将其值设置为 $1$ （已锁定）。线程现在可以通过重复调用 TAS 直到它返回 $0$ （未锁定）来获取锁。这被称为自旋锁（spinlock），因为线程在一个循环中“自旋”等待。

至此，我们实现了互斥（mutual exclusion）。TAS指令的原子性保证了只有一个线程能够通过 while 循环并进入临界区。看起来我们已经解决了并发访问的问题。但正如我们将要看到的，故事远比这更微妙和有趣。实现互斥只是漫长而迷人旅程的第一步。

魔鬼在细节中：“正确”的真正含义

拥有一个属于自己的房间是一回事；知道前一个住户留下了什么又是另一回事。这正是我们简单的自旋锁暴露出其第一个，也许也是最深刻的弱点的地方。

可见性：看见过去

想象一下，线程 $T_1$ 获取了锁，向共享内存写入 x = 1 和 y = 1，然后释放了锁。接着，线程 $T_2$ 获取了同一个锁，并读取 y 和 x。它会看到什么值？直觉上，两者都应该是 $1$ 。锁的根本目的就是确保一个临界区的工作对下一个临界区可见。

但是，一个具有宽松内存排序的简单 TAS 指令并不能保证这一点！现代处理器为了不懈地追求速度，经常会重排操作并使用缓冲区。TAS 指令本身只对锁变量是原子的。它对其他内存操作（如对 x 和 y 的写操作）的顺序没有任何规定。有可能 $T_1$ 在其对 x 和 y 的写操作对其他处理器可见之前就释放了锁。然后 $T_2$ 可能会获取锁，进入临界区，并读到旧值 x = 0 和 y = 0。

为了解决这个问题，我们需要更强的保证。锁的获取必须具有获取语义（acquire semantics），它像一个屏障，阻止后续的内存操作被移动到它之前。锁的释放必须具有释放语义（release semantics），阻止之前的操作被移动到它之后。这两者共同创建了一种“同步于”（synchronizes-with）关系，确保在一个线程中释放操作之前发生的一切，对另一个线程中获取操作之后发生的一切都是可见的。一个锁不仅仅关乎排他性；它还关乎在线程间建立一条清晰的“先行发生”（happens-before）时间线。

公平性：耐心的等待者

正确性的另一个方面是公平性。我们基于 TAS 的简单自旋锁是一个“谁抢到算谁”的自由竞争。当锁被释放时，所有等待的线程都争先恐后地执行 TAS。谁会赢呢？可能是任何一个。有可能一对“幸运”的线程来回交替地持有锁，而一个“不幸”的第三个线程则总是输掉这场比赛，永远尝试却永远无法获取锁。这被称为饥饿（starvation）。

为了构建一个公平的锁，我们需要强制执行顺序。一个绝佳的解决方案是票据锁（ticket lock）。它的工作原理就像在面包店取号一样。有两个计数器：next_ticket（下一个票号）和 serving_now（当前服务号）。

为了获取锁，一个线程通过原子性地增加 next_ticket 来取一个号。
然后它等待（自旋），直到 serving_now 计数器与它的票号匹配。
为了释放锁，线程只需增加 serving_now。

这确保了先进先出（FIFO）的顺序。饥饿是不可能的，因为每个线程都保证会按照它到达的顺序得到服务。这个简单而优雅的设计突显了一个关键原则：要实现公平性，我们必须明确地管理等待者的队列。

受欢迎的代价：缓存一致性风暴

我们简单的 TAS 自旋锁不仅在弱内存模型下可能不公平和不正确，在高竞争下还可能对性能造成灾难性的影响。其原因深藏于现代多核处理器的架构之中。

每个核心都有自己的私有高速内存，即缓存（cache），用于存放最近使用过的数据副本。为了保持这些缓存的一致性，处理器使用一致性协议（coherence protocol），如 MESI（Modified, Exclusive, Shared, Invalid）。当一个核心想要写入某个内存位置时，它必须首先获得相应缓存行的独占所有权，并使其他核心缓存中的所有副本失效。

TAS 指令是一个写操作。当多个核心上的多个线程都在 TAS 锁上自旋时，它们都在反复尝试写入同一个内存位置。这会引发一场“一致性风暴”。

想象一下，持有锁的缓存行是一根唯一的、神奇的会说话的棍子。要说话（write），你必须持有这根棍子。

核心1上的线程 $T_1$ 尝试 TAS。它广播一个“独占读取”（Read For Ownership, RFO）请求。棍子移动到核心1。 $T_1$ 未能获取锁，决定再次自旋。
紧接着，核心2上的线程 $T_2$ 尝试 TAS。它发送自己的 RFO 请求。棍子从核心1被夺走，移动到核心2。核心1的副本被置为无效。
核心3上的线程 $T_3$ 也做同样的事情，棍子再次移动。

缓存行在自旋的核心之间疯狂地来回传递——这种效应被称为缓存行乒乓效应（cache-line ping-pong）。每一次 TAS 尝试，即使是失败的尝试，都会在芯片的互连总线上产生广播，迫使其他核心使其副本失效。对于 $N$ 个竞争的核心，一次成功的锁获取之前会伴随着一场 RFO 的暴风雪，其中一个核心的每次尝试都会在其他 $N-1$ 个核心上引起失效事件。这会使内存总线饱和，导致系统运行陷入停顿。我们试图衡量的成本不仅仅是指令本身，还有缓存行弹跳带来的巨大开销。

在非统一内存访问（NUMA）架构上，这个问题更加严重，因为内存在物理上附属于不同的处理器插槽。如果“远程”插槽上的线程在一个内存位于“本地”插槽的锁上自旋，那么每一次 TAS 尝试都涉及到一次缓慢、昂贵的跨插槽互连的行程，从而极大地放大了性能损失。

当世界碰撞：抽象的危险

test-and-set指令并非存在于真空中。它是一个复杂生态系统的一部分，这个生态系统涉及操作系统的调度器和内存管理器。当这些系统相互作用时，结果可能既出人意料又具灾难性。

调度器与优先级反转

考虑一个具有抢占式、基于优先级的调度器的系统。一个高优先级线程（ $T_H$ ）需要一个由自旋锁保护的资源。一个低优先级线程（ $T_L$ ）当前正持有该锁。 $T_H$ 开始自旋，消耗其 CPU 核心的100%，等待 $T_L$ 完成。

现在，一个中等优先级的线程（ $T_M$ ）准备好运行。调度器看到 $P_M > P_L$ ，便抢占了 $T_L$ 并转而运行 $T_M$ 。结果是一场灾难：系统中最重要的线程 $T_H$ 被卡住，等待着 $T_L$ ，而 $T_L$ 现在又被不那么重要的 $T_M$ 阻止运行。这是一个典型的优先级反转（priority inversion）案例。在抢占式系统中使用自旋锁，在调度器的决策和锁的竞争之间建立了一种危险的依赖关系。而一个阻塞互斥锁（它会让等待的线程休眠并释放CPU）本可以避免这种特定的病态情况。

内存管理器与写时复制陷阱

这是另一个关于系统交互的故事。在类 Unix 系统中，[fork()](/sciencepedia/feynman/keyword/fork()|lang=zh-CN|style=Feynman) 系统调用通过复制一个现有进程来创建一个新进程。为了高效地完成这个操作，现代操作系统使用写时复制（Copy-on-Write, COW）。父进程和子进程最初共享相同的物理内存页，这些页被标记为只读，而不是立即复制所有内存页。只有当其中一个进程试图写入某个页面时，操作系统才会介入，为该进程制作一个私有副本，然后让写操作继续进行。

如果我们的锁变量正好位于这些 COW 页面之一上会怎样？父进程和子进程都继承了对同一个物理锁的映射，该锁处于未锁定状态（ $0$ ）。然后，两者都试图使用test-and-set来获取它。test-and-set是一个写操作！第一个执行它的进程将触发一个 COW 缺页中断。操作系统尽职地为该进程创建了该页面的一个私有副本。然后该进程获取了它自己的私有锁。片刻之后，另一个进程也做了同样的事情，触发了自己的 COW 缺页中断，并获取了它自己的私有锁。现在两个进程都认为自己持有锁，并同时进入临界区，从而违反了互斥性。内存管理器的巧妙优化完全破坏了我们锁的逻辑。

从简单的砖块到坚固的墙壁：工程化更好的锁

尽管test-and-set指令有其陷阱，但它仍然是一个基础的构建模块。我们探讨过的问题教会了我们应该警惕什么，凭借这些知识，我们可以设计出远为优越的同步机制。

一个简单的第一步是测试-再测试-并设置（Test-and-Test-and-Set, TTAS）锁。线程在自旋时不再盲目地发出昂贵的 TAS 写操作，而是首先在一个简单的读操作上自旋，等待锁变为 $0$ 。只有当锁看起来空闲时，它才尝试进行真正的 TAS。这避免了自旋阶段的缓存一致性风暴，因为多个核心可以无冲突地共享只读的锁变量。

然而，一个真正可扩展的解决方案需要一种不同的哲学。Mellor-Crummey and Scott (MCS) 锁通过让线程形成一个显式队列，巧妙地解决了竞争问题。所有线程不再是敲打同一个共享位置，而是每个线程在它自己的私有队列节点中的一个标志上自旋。一致性流量被减少到最低限度：一个原子操作用于入队，以及一个从释放线程到其后继者的简单写操作以传递锁。风暴变成了一场安静、有序的交接。

最后，对于那些先自旋一小段时间然后阻塞（或“park”）以让出 CPU 的最复杂的锁，会出现更微妙的竞争。一个线程可能检查锁，发现它很忙，决定要 park，但在它调用 park() 原语之前被抢占了。在那个时间窗口内，锁的持有者可能释放了锁，并且看到没有线程在 park，因此不发出唤醒信号。第一个线程随后恢复执行并 park 自己，等待一个永远不会到来的唤醒——这就是丢失的唤醒（lost wakeup）。要弥合这个微小的竞争窗口，需要在获取者和释放者之间进行一次小心的原子性握手，这证明了在并发世界中，没有什么可以替代严谨、有原则的设计。

因此，这个不起眼的test-and-set指令，不是终点，而是一个起点。它是一个强大但锋利的工具。理解它的真正本质——它与内存排序、公平性、硬件架构以及操作系统的关系——是掌握并发编程这门优美而复杂艺术的第一步。

应用与跨学科联系

在理解了原子性test-and-set指令的原理后，我们可能会倾向于认为这是一个已经解决的问题——一个确保厨房里一次只有一个厨师的简单、底层的工具。但这样做就只见树木，不见森林了。test-and-set的真正故事不仅在于其自身的原子性，还在于它与所嵌入的庞大复杂系统之间丰富且常常令人惊讶的相互作用。它的旅程将我们从操作系统的最深层带到机器学习、云计算的前沿，甚至进入那些在系统崩溃后依然存在的持久化世界。在每一个新的情境中，这条不起眼的指令都揭示了关于并发计算本质的深刻真理。

熔炉：操作系统与嵌入式世界

test-and-set最根本的用途是在软件与硬件的原始金属相遇的地方：操作系统内核和嵌入式系统中。在这里，效率至上，复杂同步机制的开销是一种无法承受的奢侈。但这个世界充满了危险，因为我们不仅要与其他的软件线程协调，还要与硬件本身协调，而硬件往往按自己的规则行事。

考虑一个单核处理器上的简单自旋锁，用于保护主应用程序线程和中断服务程序（ISR）——一个由硬件事件（如网络数据包到达）触发的特殊函数——之间共享的资源。一个线程可能获取了锁并进入其临界区。如果在此时刻，一个硬件中断发生了会怎样？处理器立即停止该线程并跳转到 ISR。如果 ISR 现在试图获取完全相同的锁，它会发现锁已被持有。它开始自旋，等待锁被释放。但是锁被主线程持有，而主线程正被挂起，等待 ISR 完成。两者都无法继续。系统陷入了经典的死锁。test-and-set的原子性还不够。打破这个循环的唯一方法是软件必须更聪明：线程必须在获取锁之前禁用中断，并且只有在释放锁之后才重新启用它们，以确保在持有它们共同需要的资源时，它不会被 ISR 抢占。

当硬件不仅仅是作为中断者，而是作为独立代理行动时，软件逻辑和硬件事件之间的这种博弈变得更加错综复杂。想象一个嵌入式系统，其中软件使用test-and-set锁来安全地更新一个控制一组 LED 灯的硬件寄存器。该锁确保多个软件线程不会因同时写入而损坏该寄存器。但如果一个独立的硬件计时器也被连接到该寄存器，以自主地切换其中一个 LED，而它完全不知道我们的软件锁呢？软件锁变量 $L$ 存在于 RAM 中。硬件计时器不检查 $L$ 。它只是在它高兴的时候就写入寄存器。一个软件线程可以读取寄存器的当前状态，修改其本地副本，就在它要将新值写回之前，计时器可能触发并改变硬件上寄存器的值。软件在不知情的情况下完成其写入操作，覆盖并抹去了计时器的更新。test-and-set指令在软件线程之间提供了完美的互斥，但系统仍然失败了。这给我们一个至关重要的教训：软件锁只约束合作的软件代理。硬件-软件边界的真正正确性需要一个更深层次的契约，也许是通过设备级的原子操作（如独立的“置位”和“清位”寄存器），或者在软件更新期间暂时禁用自主硬件本身。

竞争的代价：惊群效应与等待的物理学

在多核世界中，test-and-set锁最常见的用途是自旋锁，其中等待的线程在一个紧密的循环中反复尝试获取锁。虽然这避免了让线程休眠的开销，但它本身也带有高昂的、物理上的代价——一个以硅、热量和时间为单位支付的代价。

想象一下云平台上的“冷启动”，数十个线程同时唤醒并冲向初始化一个单一的共享资源。它们都试图同时获取同一个锁。一个线程获胜，进入临界区，并开始一个漫长的初始化过程。其他 $N-1$ 个线程失败并开始自旋。在一个朴素的实现中，每次自旋都是另一次test-and-set指令。正如我们所见，这是一个读-改-写操作。“写”的部分是关键。在具有缓存一致性的现代多核处理器上，对内存位置的任何写入都要求该核心获得包含该内存的缓存行的独占所有权。这会向整个系统的互连总线发送一条消息，告诉所有其他核心：“使你对此行的副本失效。”

随之而来的是一种“惊群”（thundering herd）现象——系统总线上的一场微观风暴。 $N-1$ 个自旋的线程中的每一个都在不断执行test-and-set，在总线上大喊“失效！”。持有锁变量的单个缓存行在各个核心的缓存之间疯狂地来回传递，就像一场混乱的“乒乓”游戏，使互连总线饱和。这不仅仅是一个理论上的担忧；我们可以估算其成本。如果一次失败的test-and-set尝试由于一致性流量耗时 $c = 0.2\,\mu\mathrm{s}$ ，而那个成功的线程持有锁并工作了 $T = 40\,\mathrm{ms}$ ，那么其他 31 个等待线程中的每一个大约会进行 $T/c = 200,000$ 次失败的尝试。总的失效写操作数量是惊人的 $31 \times 200,000 = 6.2 \text{ million}$ 次。所有这些电子骚动都是徒劳的；在第一个线程完成之前，锁是无法被获取的。

幸运的是，一个简单而优美的软件技巧可以平息这场风暴。线程可以使用“测试-再测试-并设置”（TTAS）模式，而不是在昂贵的test-and-set上自旋。它们在一个简单的、本地的读锁变量操作上自旋。只要没有其他人写入，读操作可以从核心的本地缓存中满足，而无需任何总线流量。现在 $N-1$ 个线程安静地等待。当锁最终被释放时，那一次写操作会使它们的本地副本失效。它们都看到锁变为空闲，然后它们才发出一次test-and-set来争夺它。在等待期间数百万次失效的风暴被减少到释放时约 $N$ 次失效的单次爆发——这是一个戏剧性的改进。更高级的结构，如基于队列的锁，可以将此进一步减少到常数次的失效，通过让每个等待者在私有内存位置上自旋，并由一个线程将锁明确地传递给下一个线程，形成有序的队列。

这些锁的性能甚至可以用排队论的优雅数学来描述。我们可以将一个锁建模为单服务器队列，其中“顾客”是线程，“服务时间”是临界区的持续时间。通过分析到达率和服务时间，我们可以预测锁的利用率和等待时间。在一个来自机器学习的迷人例子中，线程计算梯度然后在锁下应用它们，将数据批量大小加倍似乎会增加竞争，因为关键的更新部分耗时两倍。然而，非关键的计算部分也耗时两倍，这意味着线程到达锁的频率减半。在模型中，这两个效应完美抵消，使得整体锁利用率保持不变——这是系统动力学的一个优美、反直觉的结果。

规模化：从单个锁到复杂系统

随着我们的雄心增长，我们从保护单个资源转向协调对多个资源的访问。在这里，test-and-set仍然是我们的工具，但挑战变成了结构性和算法性的。最臭名昭著的是死锁。如果线程1获取了锁 $L_A$ 然后试图获取锁 $L_B$ ，而线程2获取了 $L_B$ 然后试图获取 $L_A$ ，它们可能会陷入“致命的拥抱”。每个线程都持有着对方需要的资源，而且谁也不肯让步。系统就此冻结。这不是test-and-set的失败；原子性工作得非常完美。这是应用程序资源获取策略的失败。通用的解决方案是通过建立一个获取锁的全局顺序来打破循环等待。如果所有线程都必须在获取 $L_B$ 之前先获取 $L_A$ ，那么这个循环就不可能发生。

这一原则在像数据库引擎这样的复杂应用中至关重要。一个数据库可能使用test-and-set来实现对单个数据行的细粒度锁。一个事务可能需要锁定多行来执行更新。如果锁以任意顺序获取，死锁就是一个持续的威胁。因为这些锁完全存在于应用程序的内存中（用户空间），操作系统对它们一无所知。操作系统看到线程在内存地址上自旋，但它不知道它们在等待另一个线程持有的锁。它无法检测到死锁。因此，数据库引擎本身必须承担起这个责任。它必须维护自己的元数据——跟踪哪个事务持有哪个锁以及哪些事务在等待——以构建一个“等待图”（wait-for graph），并主动搜索环路来检测和解决死锁。

新前沿与虚拟世界

随着我们探索新的计算范式，test-and-set的行为也在不断演变。

在图形处理单元（GPU）上，成千上万的线程以称为“线程束”（warps）的同步组执行。如果一个线程束中的一个线程走了某个分支而它的同伴没有，线程束就会“分化”（diverges），硬件会串行执行每个路径。现在，想象一个线程束内部的test-and-set锁。一个线程获取了锁并进入临界区。线程束中的其他31个线程失败了，现在处于不同的执行路径上，正在自旋。如果持有锁的线程到达一个屏障——一个要求线程束中所有线程都到达后才能继续前进的同步点——一种独特的死锁就发生了。锁持有者在屏障处等待它的同伴。但它的同伴被困在自旋中，等待锁被释放，永远无法到达屏障。整个线程束都被冻结了，这是锁机制与 SIMT（单指令，多线程）执行模型相互作用的牺牲品。

在虚拟化世界中，自旋锁可能成为性能灾难。使用test-and-set自旋锁的客户机操作系统认为它在真实的硬件上运行。但虚拟机监控程序（hypervisor）可能正在将多个虚拟CPU（vCPU）时间分片到较少数量的物理CPU上。如果一个 vCPU 获取了一个锁然后被虚拟机监控程序取消调度会发生什么？锁现在由一个休眠的线程持有。在其他物理核心上运行的其他 vCPU 将会自旋，浪费真实的 CPU 周期来尝试获取一个在虚拟机监控程序决定重新调度持有锁的 vCPU 之前不可能被释放的锁。这种“锁持有者抢占”（lock-holder preemption）会摧毁性能，将一个快速的自旋锁变成一个系统级的瓶颈。

也许最令人费解的应用伴随着持久性内存（NVM）的出现，即使在断电后它也能保留其内容。我们现在可以将一个锁放在 NVM 中。但如果系统在某个进程持有该锁时崩溃了会怎样？进程消失了，但存储在 NVM 中的锁仍然保持其“已锁定”状态——一个不朽的、无主的锁。当系统重启时，恢复程序必须像数字考古学家一样行事。它必须检查锁的元数据——也许是一个时间戳或其前主人的ID——来判断它是否是来自过去崩溃时代的遗物。但它不能简单地清除这个锁；它所保护的数据可能在崩溃中被留在一个损坏的、半更新的状态。恢复程序必须首先查阅日志或记录，以确保数据已恢复到一致状态，然后才能安全地重置该锁，并允许新进程继续。在这里，test-and-set成为容错机制的一部分，弥合了易失性执行和持久性状态之间的鸿沟。

从一个简单的比特翻转，我们穿越了现代计算的广阔天地。test-and-set指令不仅仅是一个原语；它是一个透镜。通过观察它在不同环境中的行为，我们了解了定义计算机科学的根本挑战和优雅解决方案——硬件与软件的共舞，竞争的物理学，算法的逻辑，以及稳健系统的架构。