缓存层次结构中的反向失效

玻尔百科

核心要点

反向失效是一种协议，它通过在数据块从高级别缓存中被驱逐时，强制较低级别缓存丢弃该数据块，从而强制执行缓存的包容性属性。
这种机制虽然简化了缓存一致性，但可能通过“驱逐级联”导致显著的性能下降，即不相关的内存活动导致代价高昂的缓存未命中。
反向失效通过加剧伪共享开销和产生可能错误地中止硬件事务内存操作的幻象冲突，与软件产生相互作用。
反向失效的性能损失可以通过软件感知技术（如缓存分区）以及通过仔细对齐数据结构以防止伪共享来缓解。

引言

在高性能计算领域，处理器的速度从根本上受其访问数据的速度限制。为了弥合CPU与主内存之间巨大的速度鸿沟，架构师们采用了多级缓存层次结构。然而，这个复杂的缓存系统也带来了其自身的重大挑战：确保所有处理器核心都能看到一致、连贯的内存视图。一种流行的解决方案是强制执行“包容性属性”，这是一条严格的规则，它简化了数据管理，但却带有隐藏的成本。本文旨在探讨由这种设计选择引起的性能陷阱，特别是被称为“反向失效”的机制。

在接下来的章节中，您将深入理解这个关键的计算机体系结构概念。第一章“原理与机制”将解构包容性属性，解释为什么反向失效是其必然结果，并阐述它如何通过驱逐级联造成性能损害。随后，“应用与跨学科关联”一章将探讨反向失效的深远影响，展示这个低级硬件规则如何影响高级软件构造，如同步锁、多线程算法，乃至硬件事务内存等高级特性。

原理与机制

要理解现代处理器的世界，就要欣赏信息管理的艺术。从本质上讲，处理器是数据的贪婪读取者，其性能取决于一个简单的问题：它能多快地获取到下一份所需的数据？主内存，作为系统的宏伟图书馆，虽然浩瀚，但速度却慢得令人沮丧。为了解决这个问题，架构师们构建了一个由更小、更快的缓存组成的层次结构，好比在去国家档案馆（主内存）之前，先拥有一个私人书架（一级缓存）、一个系部图书馆（二级缓存）和一个校园图书馆（三级缓存）。但是，任何层次结构都需要规则。其中最优雅也最重要的一条规则，就是包容性法则。

包容性法则：图书管理员的指令

想象一下，我们的图书馆层级决定遵循一个简单的原则：包容性属性。该规则规定，任何更小、更快的图书馆的内容必须是下一个更大、更慢的图书馆内容的严格子集。如果一本书在你的私人书架（一级或L1缓存）上，那么它的一个副本必须也存在于系部图书馆（L2）中。如果它在L2中，那么它也必须被编目在主校园图书馆（L3）中。用数学语言来说，L1中的数据块集合 $S_{L1}$ 是L2中数据块集合 $S_{L2}$ 的子集，而 $S_{L2}$ 又是L3中数据块集合 $S_{L3}$ 的子集： $S_{L1} \subseteq S_{L2} \subseteq S_{L3}$ 。

为什么要施加如此严格的规则？为了简单和有序。在一个拥有许多处理器核心的大型系统中，每个核心都有自己私有的L1和L2缓存，保持数据一致是一项艰巨的任务。如果一个核心写入一个共享数据，所有其他副本都必须被更新或失效。有了包容性的L3，这项任务就变得易于管理。L3缓存作为芯片上最后且最大的图书馆，充当了单一事实来源。它的目录知道任何核心的私有缓存中所持有的每一个数据块。要找到一本书的所有副本，你不需要疯狂地给每个系部打电话；你只需查看L3的主目录即可。这简化了一致性协议，该协议是防止处理器们在处理数据时互相干扰的交通法规。

必然的结果：反向失效

然而，这个优雅的包容性法则带有一个隐藏条款，一个直接源于其逻辑的后果。当L3缓存，即校园图书馆，书架空间不足，必须丢弃一本书以为新书腾出空间时，会发生什么？这被称为驱逐（eviction）。

因为L3必须包含L2和L1中所有内容的副本，如果它驱逐了一个缓存行，那么该行就不能再存在于层次结构中的任何其他地方。否则，包容性属性将被违反。为了维持秩序，L3控制器必须像一位严厉的图书管理员那样发出召回通知。它向层次结构中“向上”追溯——向任何持有副本的L2或L1缓存发送消息——命令它们立即使其副本失效。这种机制被称为反向失效（back-invalidation）。它不是一个bug或故障，而是包容性策略的必要执行机制。没有它，整个秩序大厦将会崩塌。

当秩序产生混乱时

我们在此遇到了缓存设计核心的美妙张力。一个旨在创造秩序的规则，在特定情况下，可能会给一个毫无防备的程序带来混乱。让我们根据一个经典的干扰场景来描绘一幅画面。

想象两位同事，Alice（核心1）和Bob（核心0），在校园图书馆（共享的L3）工作。Alice是一名研究员。她精心收集了四本重要的参考书（缓存行 $S_0, S_1, S_2, S_3$ ），并将它们放在手边，存放在她所在系部的图书馆（核心1的私有L2）中。由于系统是包容性的，这些书的副本也占据了主校园图书馆某个特定书架（一个特定的L3组）上的四个位置。

现在，Bob的工作不同。他是一个“流式处理者”，任务是快速扫描九本巨大的卷宗（ $P_0, \dots, P_8$ ），而不幸的是，这些卷宗都应该存放在同一个只有八个槽位的L3书架上。Alice去喝咖啡了。Bob开始工作。他获取了 $P_0, P_1, P_2, P_3$ ，填满了书架上剩下的四个槽位。当他请求 $P_4$ 时，书架满了。图书管理员遵循“最近最少使用”规则，看到Alice的书有一段时间没被动过了，决定驱逐 $S_0$ 来腾出空间。

但这不仅仅是一次简单的移除。在 $S_0$ 从L3被驱逐的那一刻，图书管理员向Alice的L2发送了一个反向失效通知。她L2中的 $S_0$ 副本被立即失效。随着Bob继续流式处理 $P_5, P_6, P_7$ ，同样的命运也降临在 $S_1, S_2,$ 和 $S_3$ 上。

当Alice回到她的办公桌时，她大吃一惊。她精心准备的所有参考资料都不见了！不是因为她用完了它们，而是因为Bob在共享空间里进行的完全不相关的活动。现在，每次她伸手去拿她的书时，都发现那里是空的。她遭受了一次代价高昂的L2未命中，必须从国家档案馆（主内存）重新获取这本书。她的性能骤然下降。这种L3驱逐导致L2未命中的连锁反应，被称为驱逐级联（eviction cascade），这是反向失效带来的主要性能损失。如果图书馆是非包容性的，L3图书管理员本可以只从她的目录中移除 $S_0$ ，而不用强迫Alice丢弃她的副本，Alice的工作也就不会受到干扰。

量化干扰

这种性能冲击不仅仅是一个故事；它是一个可测量、物理存在的现实。我们可以使用一个名为平均内存访问时间（AMAT）的指标来量化它，这是处理器获取一块数据所需的平均时间。

在包容性系统中，Bob的活动增加了Alice的L2未命中率。每次未命中都会增加一个很长的延迟，因为数据必须从L3获取，或者更糟的是，从主内存获取。如一份详细的性能分析所示，这可能导致系统整体AMAT升高。一个非包容性系统，通过避免这些反向失效，可以保护私有L2缓存中的宝贵内容，从而降低L2未命中率，减少到主内存的流量，并最终获得更好的AMAT，即使这意味着一致性的管理要复杂一些。

反向失效的影响可能更为微妙。想象一下，你正在从你的L1缓存中读取一行数据——这个操作需要几个周期，比如 $\tau_{L1} = 5$ 个周期。在这微小的时间窗口内，如果一个针对该行的反向失效恰好从L2缓存到达会怎样？你正在读取的数据在你脚下消失了！这种“竞争条件”迫使处理器取消加载操作并重试，从而导致一次停顿。

值得注意的是，我们可以将这些失效的到达建模为一个具有特定速率 $\lambda_{i}$ 的随机泊松过程。在单次L1访问期间发生停顿的概率 $p_s$ ，是在 $\tau_{L1}$ 间隔内至少有一次失效到达的概率。这由优美的公式 $p_s = 1 - \exp(-\lambda_{i} \tau_{L1})$ 给出。即使失效率很低，比如说每周期 $\lambda_i = 0.03$ ，停顿概率也约为 $0.14$ ，即 $14\%$ 。这揭示了包容性的成本不仅在于大的、灾难性的驱逐级联，还在于对本应快速的操作征收的持续的概率性停顿“税”。

驯服野兽：与包容性共存

鉴于这些显著的缺点，为什么我们仍然构建包容性缓存？因为它们为缓存一致性提供的简单性非常强大。因此，挑战不在于消除包容性，而在于减轻其负面后果。这正是我们看到硬件和软件之间美妙协同作用的地方。

如果我们无法阻止Bob成为一个破坏性的流式处理者，或许我们可以给Alice一个受保护的工作空间。这就是缓存分区背后的思想，这是一种通常由操作系统使用一种称为页着色的功能来实现的技术。操作系统，我们“聪明的图书管理员”，可以识别出Alice的程序是计算密集型的“受害者”，而Bob的程序是内存密集型的“攻击者”。通过仔细控制物理内存地址的分配方式，操作系统可以确保Alice的数据和Bob的数据映射到共享L3缓存中完全不同的书架（组）上。它实际上在缓存内部建立了一堵墙。Bob的流式处理活动现在只会导致他自己数据的驱逐，而完全不会触及镜像了Alice宝贵的L2数据的L3行。没有L3驱逐就意味着没有反向失效，Alice的性能得到了保护。

更深的复杂性：同义词问题

包容性的故事还有最后一个转折，揭示了计算机系统的深邃。当我们考虑虚拟内存时，挑战变得更大。为了速度，L1缓存通常是虚拟索引，物理标记（VIPT）。这意味着它使用虚拟地址的一部分来选择缓存组，远在完整的物理地址被知晓之前。这就产生了一个危险的可能性：两个不同的虚拟地址，或称为同义词，可能指向同一个物理地址，但映射到L1缓存中的不同组。

现在，我们的包容性规则面临严重危险。物理索引的L2缓存只知道该物理块的一个副本。如果它驱逐了这个块，它会发送一个反向失效。但是，虚拟索引的L1如何找到可能隐藏在不同虚拟别名下的所有潜在副本呢？仅仅依赖简单的反向失效机制已经不够了；它可能会漏掉一个副本，从而打破包容性。

同样，解决方案是巧妙工程的证明：

硬件约束：我们可以设计L1缓存足够小，以至于虚拟索引位只取自地址中对所有同义词都相同的部分（页内偏移）。这从物理上防止了同义词映射到不同的组。
软件策略：或者，我们可以再次依赖我们聪明的操作系统。通过使用页着色，操作系统可以保证任何互为同义词的虚拟地址总是被分配到能够映射到相同L1组的方式。

从一条简单、优雅的规则—— $S_{L1} \subseteq S_{L2}$ ——我们经历了一段充满性能权衡、概率性竞争条件以及与操作系统和虚拟内存深度互动的旅程。反向失效是连接所有这些的线索，一个源于秩序的机制，揭示了现代计算美妙复杂且相互关联的本质。

应用与跨学科关联

在上一章中，我们深入现代处理器的核心，揭示了包容性缓存层次结构中那些优雅而又略显严苛的规则。我们了解了反向失效的概念——这个协议充当缓存“包容性属性”的执行者，确保庞大的末级缓存始终知道其下更小的私有缓存中持有什么。这有点像一个一丝不苟的图书管理员，当从主目录中丢弃一本书时，必须立即向每一个可能拥有副本的阅览室发送通知，告诉他们也要丢弃这本书。

现在，理解了是什么和为什么之后，我们可以提出最激动人心的问题：那又怎样？ 这个看似晦涩的硬件规则如何向外扩散，影响我们编写的软件、我们应用程序的速度，甚至其他高级计算思想的可行性？我们即将看到，反向失效不仅仅是手册中的一个注脚；它是在多核性能这出复杂戏剧中的一个主要角色，是机器中的一个幽灵，其影响从最低级的同步原语一直延伸到最高级的分布式系统。

包容性的双刃剑

想象一个热门夜总会，只有一个入口，由一个压力山大的保镖管理。这就是我们数字世界中的“自旋锁”，一个内存中的变量，许多处理器核心或“线程”可能同时尝试访问它。只有一个线程可以“获取锁”并进入“临界区”——即夜总会——而所有其他线程必须在外面等待，反复问保镖：“我能进去了吗？”

当线程使用像Test-and-Set (TAS) 这样简单而激进的指令来询问时，它们不仅仅是在问；它们是在试图将自己的名字写在保镖的名单上。在具有一致性缓存的多核处理器中，每一次这样的写入尝试都是一声响彻整个系统的呐喊。每个核心都必须请求持有该锁的缓存行的独占所有权，这会使其余所有核心持有的副本失效。当许多核心在自旋时，这会产生一场混乱的“失效风暴”，即一致性消息的狂风暴雨来回穿梭，因为锁所在的缓存行在核心之间疯狂传递，却没有一个能取得进展。

包容性末级缓存（LLC）如何改变这一景象？它不会阻止风暴，但它确实充当了风暴的中心枢纽。为了维持其对缓存行位置的了解，每一次所有权转移都必须在LLC注册。风暴的流量现在被汇集到这个中心点，这有时是一种恩赐，但也可能产生新的瓶颈。

但真正的痛点在于此。LLC的空间是有限的。如果在我们的核心忙于争夺锁的时候，一个完全不相关的程序——比如说，另一个核心上的视频流应用——开始吞噬内存并需要LLC的空间，会发生什么？LLC的替换策略可能会决定驱逐恰好持有我们宝贵锁变量的那个缓存行。为了维护其包容性的首要指令，LLC现在必须执行反向失效。它向当时恰好持有该锁行的任何核心发送消息，强制其丢弃其副本。

这不仅仅是一次管理性的清理；它有实际的性能成本。这次反向失效可能会延迟锁从释放它的线程传递到下一个获取它的线程的过程。正如我们探讨的一个场景所示，即使这种情况以中等概率发生，累积的延迟也会显著降低锁的吞吐量，从而减慢应用程序的速度。这是一个深刻且常常违反直觉的结果：你代码中关键部分的性能可能会受到系统中其他地方运行的完全不相关程序的损害，这是一种完全由包容性缓存规则介导的诡异的“超距作用”。

机器中的幽灵：当软件驯服硬件时

面对这种情况，人们很容易感到绝望，认为我们受制于这些僵化的硬件规则。但这正是软件与硬件之间美妙互动开始的地方。通常，最优雅的解决方案并非来自改变硬件，而是来自编写能够感知硬件的软件。

思考一下“伪共享”问题。想象两位作者试图在同一本实体笔记本上写作。作者A在第5页上写，作者B在第6页上写。他们没有互相干扰对方的文本，但因为他们使用同一本笔记本，一次只能有一个人持有它。每当作者A想写一个词，他们就必须从B那里拿走笔记本，反之亦然。他们的进度之所以变慢，不是因为他们在协作，而仅仅是因为他们独立的工作恰好在物理上相邻。

在计算机中，“笔记本”就是一个缓存行。当不同核心上的两个线程需要修改恰好位于同一个64字节缓存行上的变量时，它们会不断争夺该行的独占所有权，即使它们修改的是不同的字节。这就是伪共享。

这个软件问题因反向失效而变得更糟。让我们看一个具体的算法，一个多线程归并排序。当两个线程合并相邻的已排序列表时，它们可能会频繁访问边界元素，而这些元素很容易落在同一个缓存行上。现在，这个“伪共享”的行被两个核心的私有缓存持有。之后，当这个行从包容性LLC中被驱逐时，硬件必须履行其职责。它发送一个反向失效消息，不是给一个核心，而是给持有副本的两个核心。该行的反向失效流量实际上翻了一番，造成了不必要的网络拥塞和开销。

软件解决方案简单而巧妙。程序员可以引入“填充”——数据结构中一小块未使用的间隙，将两个线程的工作数据推到不同的缓存行上。这就像给每位作者自己的笔记本。伪共享消失了。但请看更深层次的后果：现在，当这些缓存行从LLC中被驱逐时，每个缓存行只被一个核心持有。反向失效消息的数量减少了一半。通过理解这种硬件行为，程序员可以编写出不仅避免了伪共享，而且还主动减少了反向失效机制所带来的开销的代码，从而驯服了机器中的幽灵。

当好的规则导致坏的结果时

缓存包容性原则是一条旨在为多核系统的混乱带来秩序的规则。但有时，在复杂系统的世界里，一个好的规则可能会与另一个规则冲突，导致出人意料的、非预期的后果。我们的最后一站就是这样一个谜题，涉及硬件事务内存（HTM）。

把HTM看作一种更乐观的同步方法。HTM不是采用悲观的锁，让每个人都等待，而是让多个线程同时处理共享数据，并期望最好的结果。这就像一个编辑团队在共享文档上工作，每个人都假设他们不会编辑同一个句子。硬件会跟踪每个线程读取（其“读集”）和写入的数据。如果检测到冲突——即其他人写入了你已读取的数据——硬件会自动中止你的事务，然后你再重试。硬件跟踪线程读集的一个常见方法就是确保相应的缓存行保留在其私有缓存中。如果读集中的某一行被失效或驱逐，这就被视为潜在冲突的信号，事务将中止。

现在，让我们把这与我们的包容性缓存联系起来。想象一个事务读取了大量数据。如果，由于运气不好，这些数据的所有内存地址恰好都映射到LLC中的同一个组，会怎样？私有缓存可能有足够的空间，但这个单一的LLC组很快就满了。当事务读取其第17行数据时（在一个16路组中），LLC必须驱逐前16行中的一个来腾出空间。

这就是点睛之笔。因为LLC是包容性的，它的驱逐会触发一次反向失效，通知私有缓存丢弃其被驱逐行的副本。HTM系统，在静静地监控私有缓存，看到了这次失效。它不知道为什么会发生这种情况；它只看到其读集中的一行被移除了。它将此解释为冲突，并尽职地中止整个事务。

结果令人抓狂。事务失败不是因为与另一个线程的数据竞争，而是因为与自身的“冲突”——一个由反向失效的僵化逻辑放大了的缓存容量问题。这个旨在维护秩序的机制，却导致了另一个高级特性的失败。在一个具有排他性LLC的系统中，LLC的驱逐不会触发反向失效，这种幻象冲突就永远不会发生，事务也就能变得更大。

这段从自旋锁到排序算法再到事务内存的旅程揭示了，反向失效远不止是一个微不足道的实现细节。它是处理器生态系统中的一股基本力量，塑造着性能，与软件互动，并创造出一张微妙的依赖关系网。设计和编程这些宏伟的机器，就是成为这些互动的学生，去欣赏那部由逻辑构成的复杂交响乐，其中每一条规则，无论多么微小，其声音都会在整个乐章中回响。