异步设计：超越时钟的计算

玻尔百科

定义

异步设计：超越时钟的计算是计算机工程领域的一种架构方法，其核心原理是使用本地握手协议取代全局时钟信号进行同步。该机制允许组件按自身速度运行，通过消除高功耗的时钟网络来提高平均性能和能源效率。这种事件驱动的设计理念利用延迟不敏感编码和穆勒C元件等技术处理时序变化，广泛应用于高性能硬件、软件系统以及类脑神经形态计算。

核心要点

异步设计用局部握手取代全局时钟，使各组件能以自身节奏计算，从而提高平均情况性能。
通过消除高功耗的时钟网络，异步电路提供了卓越的能源效率，并为“暗硅”问题提供了解决方案。
诸如延迟不敏感编码和Muller C元件等鲁棒设计技术使异步系统能灵活应对时序变化和险象。
事件驱动的设计哲学超越了硬件范畴，影响着高性能软件、操作系统和类脑神经形态计算。

引言

数十年来，数字电子学的世界一直跟随着同一个鼓点前进：全局时钟。这种同步方法虽然简化了复杂的设计，但也带来了一个根本性的限制——整个系统必须放慢速度以适应其最慢的组件。这种时钟的“暴政”导致了性能的浪费和巨大的功耗，造成了被称为“暗硅”问题的瓶颈。但是，如果我们能设计出运行方式更自然的电路，让它们在本地通信，仅在准备就绪时才继续工作，情况会怎样呢？这正是异步设计的承诺，一个用事件驱动的局部通信取代僵化全局时钟的范式。本文将探讨这一强大的替代方案。第一章“原理与机制”将揭开核心概念的神秘面纱，从基本的握手协议到捆绑数据和延迟不敏感的设计理念。随后，“应用与跨学科联系”将揭示这些原理如何应用于现代处理器、高性能软件乃至类脑计算中，展示超越时钟的思维所带来的深远影响。

原理与机制

想象一支庞大、完美同步的军队。成千上万的士兵步调一致，每一步都精确地落在同一个响亮的鼓点上。这就是同步设计的世界，一个主导了数字电子学数十年的范式。中央的全局时钟就像那面大鼓，发出持续、周期性的脉冲。在每一个鼓点上，从最简单的逻辑门到最复杂的处理器核心，每个组件都向前迈出一步。它评估输入，计算结果，并为下一个节拍做准备。

这种全局同步性具有一种优美的简洁性，使得设计极其复杂的系统变得易于管理。但这种僵化的秩序背后隐藏着代价，一种数字世界的“暴政”。鼓的节奏必须为战场上最泥泞地带的最慢士兵设定。即使99%的军队都在平坦开阔的地面上，本可以行进得快得多，所有人还是被迫等待那个唯一的、全局的、最坏的情况。这意味着时钟周期 $T$ 必须足够长，以适应芯片上任何位置、在最差的制造工艺、电压和温度（PVT）变化条件下可能出现的最慢计算路径，再加上为安全裕度留出的缓冲。为了追求速度，我们让整个系统为其最慢部分的迟缓付出了代价。

如果我们能构建一个没有中央大鼓的系统呢？如果我们的士兵不再听从全局节拍，而是更像一个消防桶链？每个人只在两个条件满足时才行动：他们从前面的人那里收到了水桶，并且他们知道后面的人已经准备好接收。进度不是由全局命令控制，而是由一系列局部的、因果关联的沟通来决定。这就是异步设计的精髓。

逻辑中的对话：握手

在电子领域，这种“桶链”式的通信是通过一个简单而深刻的机制实现的：握手。两个组件之间不是通过时钟线，而是通过一对控制线进行通信，通常称为请求（Request， $r$ 或 REQ）和确认（Acknowledge， $a$ 或 ACK）。这是一场对话。发送方组件有一些数据要传输，它发起了这场对话。

发送方：“我有一份新数据给你。”（它断言Request信号）。
接收方：（在安全接收并处理数据后）“谢谢，我收到了。”（它断言Acknowledge信号）。
发送方：“我看到你收到了。我准备下一份数据。”（它撤销Request信号）。
接收方：“好的，我已准备好接收下一份。”（它撤销Acknowledge信号）。

这个四步序列， $r\uparrow \prec a\uparrow \prec r\downarrow \prec a\downarrow$ （其中 $\prec$ 表示“先于”），被称为四相或归零（RTZ）握手。它明确且鲁棒，但也有些“啰嗦”，需要四次电平转换来传输一份数据。

还有一种更高效的“方言”。在两相或不归零（NRZ）握手中，线上的任何转换都带有意义。Request线上的第一次转换（比如， $0 \to 1$ ）表示“数据来了”。Acknowledge线上的第一次转换（比如， $0 \to 1$ ）表示“收到了”。为了发送下一份数据，发送方只需再次翻转Request线（现在是 $1 \to 0$ ），接收方则通过翻转Acknowledge线（ $1 \to 0$ ）来响应。该协议将每个数据项的转换次数从四次减半至两次，直接将通信能耗降低了一半，因为CMOS电路中的动态能耗与线路电容充放电的次数成正比。

回收“暗硅”

这种脱离全局时钟的设计不仅仅是学术上的好奇心；它具有深远的实际意义，尤其是在能源效率方面。现代同步芯片中的全局时钟网络是一个庞然大物。它是由导线和缓冲器组成的巨大树状结构，必须同时向数十亿个晶体管提供干净、清晰的脉冲。这个网络可以消耗整个芯片高达30-50%的功耗预算，无论是否有用功在做，它都在持续消耗能量。

异步电路由于其事件驱动的特性，仅在主动处理数据时才消耗大量功率。一个空闲的电路是真正空闲的，动态功耗接近于零。这一原则是应对芯片设计中一个迫在眉睫的危机——暗硅的有力武器。随着我们缩小晶体管，我们可以在芯片上集成越来越多的晶体管。然而，我们无法在不使芯片熔化的情况下同时给所有晶体管供电。这导致了现代芯片的大部分区域在任何给定时间都必须保持“暗”或断电的状态。

异步设计提供了一种“点亮”更多暗硅的方法。通过用节能的异步模块替换耗电的同步模块，我们可以释放相当一部分的功率预算。例如，在一个假设的多核芯片中，仅将一半的核心替换为异步等效核心，就可能使我们能够启动11个核心而不是10个，这在保持相同热安全限制的情况下，实现了10%的并行处理能力提升。这在活动稀疏的应用中尤其有效，例如神经形态、类脑计算机中的事件驱动处理。在这种情况下，同步时钟会以高频率滴答作响，在等待稀有的尖峰事件时浪费大量能量。然而，一个异步神经元仅在其发放或接收尖峰的短暂瞬间消耗能量，使其功耗与其活动水平 $N \lambda$ 成正比，而不是一个恒定的高频时钟。

信任的光谱：捆绑数据 vs. 延迟不敏感设计

那么，我们有了握手，我们的局部对话。但这引出了一个微妙而关键的问题。当发送方断言Request信号时，接收方如何知道在独立线束上传输的实际数据也已安全到达？握手只控制控制信号。数据本身呢？这就是异步设计分裂成两种迷人的哲学之处，一个信任与验证的光谱。

“相信我”的方法：捆绑数据

更简单的方法称为捆绑数据。设计者实质上是做出了一个承诺。数据在其自己的路径上传输，而Request信号在并行的控制路径上传输。为了确保数据先到达，设计者通过插入一个匹配延迟元件来故意减慢控制信号。基本规则，即“捆绑约束”，是控制路径的延迟（ $t_{ctrl}$ ）必须大于数据路径的延迟（ $t_{data}$ ）加上接收方锁存器所需的任何建立时间（ $t_{setup}$ ）。

这是一个时序假设，是一次信念的飞跃。和许多信念的飞跃一样，它充满了风险。晶体管和导线的延迟不是恒定的。它们会随着工艺、电压和温度（PVT）的变化而变化。芯片可能运行得更热，电源电压可能下降，或者数据路径中的晶体管恰好比控制路径中的制造得稍慢一些。为了保持正确性，设计者必须为绝对最坏的情况计算匹配延迟：最慢的可能数据路径（热、低电压）对最快的可能控制路径（冷、高电压）。这需要增加大量的、悲观的时序裕度，这会减慢电路速度，并抵消掉异步化带来的一些平均情况性能优势。一次计算失误，或一次意外的环境变化，都可能导致Request在数据稳定之前到达，从而引发灾难性故障。

“证明给我看”的方法：延迟不敏感编码

更鲁棒、也更优雅的哲学是完全消除这种基于时序的信任。与其一个独立的承诺，如果数据本身能够宣告自己的到达和有效性呢？这就是延迟不敏感（DI）和准延迟不敏感（QDI）设计背后的原则。

最著名的例子是双轨编码。我们不用单根导线来表示一个数据位（0V代表'0'，VDD代表'1'），而是使用两根导线，我们称之为d.0和d.1。

如果两根线都为低电平（d.0=0, d.1=0），它代表一个“间隔”或“无数据”。
要发送逻辑'1'，发送方将d.1线拉高（d.0=0, d.1=1）。
要发送逻辑'0'，发送方将d.0线拉高（d.0=1, d.1=0）。（d.0=1, d.1=1的状态是无效的，不使用）。

现在，接收方不再需要一个单独的Request信号。它只需监控所有的双轨线对。当每一位的两条轨道中都有一条从低电平转换到高电平时，它就知道一个完整的新数据字已经到达。这种“等待数据所有部分到达”的逻辑被称为完成检测。它对延迟具有内在的鲁棒性。无论某一位的导线是否比另一位的长十倍，完成逻辑都会耐心地等待，直到拼图的所有部分都已到达。这使得电路的正确性与实际的门和线延迟无关，这是一个极其强大的特性。

共识的守护者：Muller C元件

这种优雅的完成检测思想需要一种特殊的构建模块。你如何构建一个“等待所有输入达成一致”的电路？答案是一种简单的、具有状态保持功能的门，称为Muller C元件。它的行为正是共识的体现：

如果其所有输入都为'1'，其输出变为'1'。
如果其所有输入都为'0'，其输出变为'0'。
如果输入混合（一些'1'，一些'0'），它什么也不做。它耐心地保持其先前的输出值，等待共识。

想象一组双轨数据位。对于每一位，一个或门可以检测它是否已离开“间隔”状态（即，其d.0或d.1轨道是否为高电平）。通过将所有这些或门的输出送入一个由C元件组成的树状结构，我们可以构建一个电路，其最终输出仅在每一位都变为有效时才变为高电平。这个输出就是我们的完成信号。它是一个由数据自身宣告其存在而产生的请求信号，而不是基于时序假设。

这种“等待”行为也使C元件成为管理亚稳态的关键工具——亚稳态是电路在试图对几乎同时发生的两个事件做出决定时可能进入的可怕的、不确定的状态。虽然没有电路可以消除亚稳态，但C元件在输入不一致时拒绝改变其输出的特性有助于遏制这种不确定性，防止其传播并破坏系统的其余部分。

自由的危险：竞争与游戏规则

这个无时钟的世界，尽管美丽而高效，也并非没有危险。从时钟的暴政中解放出来，伴随着更大的责任。没有全局鼓点来重置系统状态，短暂的毛刺和时序模糊性可能带来严重后果。

险象是信号上一个虚假的、暂时的毛刺。在同步系统中，这样的毛刺可能发生在时钟滴答之间，完全不被注意。在异步电路中，同样的毛刺可能被误解为一个有效的Request或Acknowledge信号，使整个握手协议陷入混乱。

当电路的正确操作取决于两个或多个信号“竞争”到达目的地的不可预测结果时，就会发生竞争条件。关键竞争尤其棘手：如果一个状态变化需要多个位翻转（例如，从状态01转换到10），门的任意延迟可能导致电路瞬间通过一个非预期的状态（00或11），可能使其进入完全错误的系列操作中。

异步设计者并非鲁莽之徒；他们是纪律的大师。他们运用一套技术来驯服这些危险。他们设计无险象逻辑，保证单调转换。他们使用单位距离状态分配，其中状态之间的任何有效转换只涉及翻转单个位，从而从设计上使关键竞争变得不可能。他们确保其系统具有诸如持久性之类的属性，即一旦一个动作被启用，它就不能被另一个并发事件禁用，从而确保无歧义地向前推进。

进入异步设计的旅程揭示了一个不同类型的数字宇宙。它用一种更精妙、去中心化和高效的、由局部对话支配的世界，取代了全局时钟简单粗暴的秩序。这个世界要求设计者更具智慧和纪律，但它也回报给他们更鲁棒、更节能、更精细地适应计算本身自然的、数据驱动流程的系统。

应用与跨学科联系

既然我们已经熟悉了异步设计的原理，我们可能会忍不住问：“这一切是为了什么？”放弃全局时钟仅仅是一种学术上的好奇心，一种用不同方式构建同样旧事物的方法吗？事实证明，答案是响亮的“不”。转向异步、事件驱动的思维方式不仅是技术的改变，更是哲学的变革。它为构建不仅更高效，而且更鲁棒、更安全，在某些情况下功能上全新的系统打开了大门。让我们踏上一段旅程，看看这些思想将我们带向何方，从硅芯片的核心一直到互联网的庞大架构和大脑的复杂网络。

从时钟同步的行军到门电路的对话

想象一下组装一辆汽车，但不是每个工人在完成他们的部分后告诉下一个人，而是一个拿着秒表的工头每分钟大喊一声“工作！”。整个装配线必须围绕最慢的任务来设计，即使大多数任务要快得多。这就是同步设计的世界。

异步设计提出了一种更自然的、协作的方法。如果我们能让我们基本的逻辑门“自我感知”呢？一个门电路可以不依赖外部时钟，而是在完成其计算时简单地宣布。这正是像双轨逻辑这样的技术背后的原理。在这里，一个信息位不是由一根线的高低电平表示，而是由一对线表示。对于位 $A$ ，我们可能有线A.1和A.0。如果A.1为高，值为'1'。如果A.0为高，值为'0'。如果两者都为低，值为'NULL'或'尚未就绪'。两者都为高的状态是被禁止的。

通过这个简单的技巧，数据本身就成了它的时钟。像全加器这样的逻辑块可以被构建成在所有输入到达并稳定为有效的'0'或'1'状态之前，产生一个NULL输出。只有在那时，它才执行计算并断言其自己的一个输出轨道，向下一级发出信号，表示一个有效的结果已经准备好。这个原理可以完美地扩展，使我们能够构建复杂的高性能算术电路，例如超前进位加法器，它们以其自然的节奏，如涟漪般进行计算。每个块可以生成一个明确的'Done'信号，这仅仅是其'真'和'假'输出轨道的逻辑或，从而形成自定时计算波的级联。

伟大的妥协：生活在GALS世界

如果异步设计如此优雅，为什么市场上的每块芯片不都是完全异步的呢？事实是，数十年的研究和数万亿美元的投资都用于完善同步设计工具。使用纯异步方法从头开始构建一个庞大的、拥有数十亿晶体管的芯片仍然是一项巨大的挑战。

于是，业界达成了一个卓越而务实的妥协：全局异步，局部同步（GALS）架构。把一个现代的片上系统（SoC）——你智能手机的大脑——想象成一个繁华的城市。这个城市被划分为专门的区域：CPU核心区、图形处理区、内存控制器区。在每个区域内，事务都按照一个局部的、同步的时间表（一个局部时钟）运行，这使得它们易于使用标准工具进行设计和验证。

但整个城市没有主时钟。当CPU区需要向图形处理区发送数据时，它不会跨越整个城市大喊，并希望在正确的毫秒被听到。它通过一个专用的异步通信通道发送数据。这个通道就像一个复杂的邮箱系统，通常是一个称为FIFO（先进先出）缓冲器的结构。发送方在准备好时将数据放入邮箱，接收方在有空时取走。这种在同步岛屿边界处的异步握手将它们解耦，允许每个岛屿以其自身的最优频率运行，甚至可以独立关闭以节省能源。GALS范式是异步思维力量的证明，它打破了单一、庞大时钟的暴政，使得构建当今极其复杂的处理器成为可能。

隐藏的超能力：低功耗、鲁棒性和安全性

异步设计的优势远不止于管理复杂性。它们可以赋予电路一些在纯同步世界中难以甚至不可能实现的特性。

最受赞誉的优势之一是低功耗。在同步芯片中，时钟网络——一个分发时钟信号的巨大导线树——在不断地开关，即使它所控制的逻辑处于空闲状态，也在消耗大量功率。这就像在凌晨3点让一个城市的整个交通信号灯系统全速运行。相比之下，异步电路遵循“零工作，零功耗”的原则。逻辑门仅在实际事件——一份数据——到达需要处理时才开关。在活动稀疏、呈突发性的系统中，节能效果可能是巨大的。动态功耗与事件率 $\lambda$ 成正比，而不是一个固定的时钟频率，这一原理在事件驱动神经元电路的设计中得到了优美的展示。

其次是鲁棒性。当两个不同的事件几乎在同一时间请求访问同一个共享资源——比如总线或内存库——时会发生什么？在任何双稳态系统中，这都可能导致一种称为亚稳态的犹豫不决状态，其中输出在不可预测的时间内悬停在一个非数字的、“可能是”的状态。一个设计糟糕的系统可能会崩溃。然而，一个设计良好的异步仲裁器会优雅地处理这种情况。它使用一个特殊的互斥（MUTEX）元件，虽然它仍然可能进入亚稳态，但保证最终会解决到一个清晰、果断的状态，精确地将访问权授予一个请求者。它没有消除犹豫不决的可能性，但它控制了这种可能性，并确保系统总能正确恢复。

也许最令人惊讶的超能力是增强的安全性。恶意行为者可以通过测量执行加密操作所需的确切时间来攻击硬件。依赖于密钥的微小时间变化可以被测量出来，并用于逆向工程密钥——这被称为“旁路攻击”。同步电路以其僵硬的、节拍器般的时序，为这些微小变化的凸显提供了一个干净的基线。然而，异步电路具有固有的时序随机性。任何操作的完成时间都取决于一个多步握手，而每一步都有其自身的微小、随机的波动。这种自然的时序“抖动”就像一种伪装，为时序测量增加了噪声，使得攻击者更难分离出与数据相关的信号。在某些情况下，这种内在属性可以显著减少通过时序通道泄露的信息，提供一种强大的内置防御。

一种计算哲学：事件驱动的宇宙

异步设计最深远的影响可能是它所代表的范式转变。其核心思想——对发生的事件作出反应，而不是按固定间隔轮询——是一种超越硬件的哲学，并在许多其他领域找到了强有力的表达。

神经形态计算，即构建受大脑启发的计算机的努力，是典型的例子。大脑是最终的异步、事件驱动机器。神经元在其膜电位超过阈值时发放尖峰；没有全局时钟来协调它们。为了模拟这一点，工程师们开发了地址事件表示法（AER）协议。当一个合成神经元发放时，它不仅仅是设置一个标志让CPU稍后查找。它向共享的异步总线广播一个事件——一条数字消息，内容是：“我，5732号神经元，刚刚发放了！”其他神经元监听这些事件并做出相应反应。整个系统是一个由事件组成的动态对话，由异步握手协调，甚至提供了“反压”机制，允许接收方表示其输入缓冲区已满，从而自然地调节信息流。

这种事件驱动的哲学也是现代高性能软件和操作系统的核心。考虑一个网络服务器处理数千个并发连接的挑战。一种老式的方法是“每连接一线程”模型，即服务器为每个用户分配一个工作线程。当一个线程等待用户发送数据（一个I/O操作）时，它会阻塞，闲置在那里，操作系统必须执行一次昂贵的上下文切换来运行另一个线程。这就像一个呼叫中心，每个座席都与一个客户保持通话，即使在长时间的沉默中也是如此。

现代的、异步的、事件驱动的方法（被像Nginx这样的服务器和像Node.js这样的运行时所使用）则完全不同。一个单线程充当事件循环，向操作系统询问：“当这数千个连接中任何一个有事要我做时，请通知我。”该线程仅在有实际I/O事件需要处理时才被唤醒。它快速处理事件（例如，读取一小块数据），然后立即返回等待下一个事件。通过批量处理通知并仅对事件采取行动，该模型可以将上下文切换的次数减少几个数量级，允许单个CPU核心高效地为大量并发用户提供服务。

从自定时加法器中电子的复杂舞蹈，到互联网上数据包的全球交响乐，异步思想揭示了自己是一个深刻而统一的原则。它告诉我们，对于许多最有趣和最具挑战性的问题——从构建类脑计算机到工程鲁棒的大规模软件——最有效的前进方式不是跟随单一鼓点的节拍齐步前进，而是构建能够倾听、反应和用事件的语言进行对话的系统。