吞吐量与响应性之间的权衡

玻尔百科

定义

吞吐量与响应性之间的权衡是指在系统性能设计中，提高任务完成的总速率与降低单个任务延迟之间存在的矛盾关系。通过流水线和批处理技术可以显著提升系统的吞吐能力，但这些手段往往以牺牲单个任务的响应速度为代价。这种权衡广泛存在于从底层硬件到应用架构的各个计算层级，并可以通过利特尔法则进行数学量化分析。

核心要点

系统性能是在响应性（单个任务的低延迟）和吞吐量（高任务完成率）之间的基本权衡。
诸如流水线和批处理之类的技术被用来提高系统吞吐量，但这通常会以增加单个任务的延迟为代价。
这种权衡体现在计算的各个层面，从处理器硬件和操作系统调度到应用程序架构和编译器设计。
利特尔定律（Little's Law， $L = \lambda \cdot W$ ）提供了一个数学关系，它形式化地将任何稳定系统中的延迟、吞吐量和并发项目数联系起来。

引言

在计算和系统设计的世界里，性能是一个至关重要的目标。然而，“性能”本身并非单一指标，而是两个常常相互冲突的目标之间的复杂平衡：响应性（单个任务完成的速度）和吞吐量（单位时间内处理多个任务的速率）。这种基本的张力为工程师们带来了持续的挑战，从业者范围从微处理器设计师到大型云服务的构建者。本文旨在揭开这一关键权衡的神秘面纱，帮助读者清晰地理解其核心冲突以及为管理这种冲突而发展的巧妙技术。我们将首先深入探讨基础的“原理与机制”，探索流水线、批处理和利特尔定律等概念，以建立一个理论框架。随后，“应用与跨学科联系”一章将展示这些原理在现实世界中的应用，揭示它们对从操作系统、编译器到现代应用程序架构等方方面面的影响。

原理与机制

在计算领域的几乎每一个决策核心，从操作系统的宏大架构到处理器中指令的微观舞动，都存在一种基本的张力。这是一种与制造业本身一样古老的权衡，是在两个相互竞争的目标之间取得的微妙平衡：尽可能快地做一件事，以及在给定的时间内尽可能多地做很多事。我们称之为响应性和吞吐量之间永恒的舞蹈。

想象你在一家精品咖啡店。如果你是唯一的顾客，一位大师级咖啡师可能会在三分钟内从头到尾为你制作一杯完美的咖啡。这是对延迟（latency）或其反面——响应性——的度量，即完成一个任务所需的总时间。现在，想象一下店里很忙。他们不再由一位咖啡师完成所有工作，而是形成了一条流水线：一人磨豆，一人压粉，一人打奶泡，还有一人负责最后的倾倒。现在，第一杯咖啡可能需要五分钟才能完成，因为中间有交接环节。单杯咖啡的延迟增加了。但是，一旦流水线运转起来，可能每分钟都有一杯成品咖啡下线。这家店现在每小时能生产 60 杯咖啡，而不是 20 杯。这就是吞吐量（throughput）——工作完成的速率。

通过牺牲单个任务的一点延迟，我们将吞吐量提高了三倍。这个简单的想法，以及由此产生的优美复杂性，是性能工程的核心主题。它以多种不同的面貌出现，但其基本原理是普适的。让我们层层剥茧，看看这支舞是如何上演的。

重叠的艺术：流水线

咖啡店的流水线是计算领域最强大的概念之一——流水线（pipelining）——的完美类比。其核心思想是将一个大任务分解为一系列更小的、独立的阶段。通过让不同的任务同时处于不同的完成阶段，我们可以极大地提高吞吐量。

考虑一个数据处理应用程序，它被构建为一个三阶段的流水线：一个生成数据的生产者（producer）线程，一个处理数据的过滤器（filter）线程，以及一个输出结果的消费者（consumer）线程。假设对于每个项目，生产者耗时 $5$ ms，过滤器耗时 $8$ ms，消费者耗时 $4$ ms。

如果我们在单个 CPU 核心上运行这三个线程，处理器必须在它们之间进行切换。它先在生产者上工作一会儿，然后切换到过滤器，再切换到消费者。这就是并发（concurrency）——这些任务的生命周期有重叠，并通过管理来取得进展，但它们并非在完全相同的时刻执行。为了让一个项目完整地通过，单个核心必须完成所有工作： $5 + 8 + 4 = 17$ ms。最佳的可能吞吐量是每 $17$ ms 一个项目。

现在，让我们为每个线程分配一个专属的 CPU 核心。这就是并行（parallelism）——任务真正地同时执行。当第一个项目进入这个空的流水线时，它仍然需要按顺序通过每个阶段。它将在生产者阶段花费 $5$ ms，然后在过滤器阶段花费 $8$ ms，最后在消费者阶段花费 $4$ ms。这个“冷启动”项目的延迟仍然是 $17$ ms。但奇迹就在这里：当过滤器处理第一个项目时，生产者已经在处理第二个项目了。当消费者完成第一个项目时，过滤器正在处理第二个，而生产者已经拿到了第三个。一旦流水线被填满，整个系统只受其最慢阶段——瓶颈——的限制。在我们的例子中，过滤器需要 $8$ ms。因此，每过 $8$ ms，就会有一个新的、已完成的项目从流水线中出来！我们的吞吐量翻了一倍多，从大约 $59$ 项/秒提升至 $125$ 项/秒，仅仅是通过从并发模型转为并行执行模型。

这个原理是如此基础，以至于它已经融入了计算机执行代码的本质之中。编译器在处理循环时会使用一种类似的技术，称为软件流水线。想象一个循环，每次迭代都是一个任务。一种简单的方法是完全完成第 1 次迭代后再开始第 2 次。但一个聪明的编译器可以重叠它们，在第 1 次迭代的最后一条指令完成之前，就开始执行第 2 次迭代的第一条指令。

在这个世界里，有两个数字变得至关重要：

启动间隔（Initiation Interval, $II$ ）：连续两次迭代开始之间的时钟周期数。吞吐量就是 $1/II$ 。
调度跨度（Schedule Span, $S$ ）：单次迭代完成其所有工作所需的周期数，这对应于其延迟。

一个美妙且反直觉的转折是，一个高延迟的调度可以拥有惊人的高吞吐量。例如，编译器可能会找到一个调度方案，其中每次迭代需要 $S=7$ 个周期才能完成，但每 $II=2$ 个周期就可以开始一次新的迭代。吞吐量达到了惊人的每周期 $0.5$ 次迭代，尽管任何单次迭代所需的时间要长得多。我们已经将延迟与吞吐量解耦。

更奇妙的是，有时选择一个更慢的组件反而能使整个系统更快。在某个场景中，处理器可以使用一个延迟为 2 个周期的快速乘法器，或者一个延迟为 6 个周期的慢速、深度流水线化的乘法器。使用快速乘法器时，资源冲突迫使启动间隔增加到 $II=12$ 。吞吐量很低。但通过选择“更慢”的 6 周期乘法器，其流水线特性解决了资源冲突，使得启动间隔可以降至 $II=6$ 。单次计算的延迟增加了，但整个循环的吞吐量却翻了一番！这是一个惊人的例子，说明了优化整个系统与优化其单个部分是不同的。

批处理的力量

流水线通过重叠不同的任务来提高吞吐量。一个相关的技术是批处理（batching），即我们将相似的任务组合在一起，以更高效地处理它们。其关键洞见在于，许多操作都有一个固定的、一次性的“设置”（setup）或“拆卸”（teardown）成本。通过批量处理项目，我们只需为整个批次支付一次固定成本，从而将其分摊到许多项目上。

经典的类比是电梯。为每个按按钮的人都派送电梯，响应性会很高（低延迟），但效率会极低。相反，电梯会等待“一批”人，用一点等待时间换取每小时运送人数的更高总吞吐量。

这种权衡在操作系统深处也同样存在。在微内核架构中，像文件系统这样的服务作为独立的用户空间进程运行。当应用程序进行系统调用时，内核必须执行两次上下文切换：一次切换到服务进程，一次切换回来。这种切换是纯粹的开销，一个固定的成本 $t_{cs}$ 。

如果我们单独处理每个系统调用，每次调用的时间是 $t_0 + 2t_{cs}$ ，其中 $t_0$ 是实际工作所需的时间。吞吐量受此总时间的限制。但如果我们把 $b$ 个调用批处理在一起呢？我们仍然只需为整个批次支付一次 $2t_{cs}$ 的开销。总时间变为 $b \cdot t_0 + 2t_{cs}$ 。吞吐量现在是 $b / (b \cdot t_0 + 2t_{cs})$ 。随着批处理大小 $b$ 的增长，固定的 $2t_{cs}$ 项变得微不足道，吞吐量接近其理论最大值 $1/t_0$ 。

但是，天下没有免费的午餐。代价就是延迟。批次中第一个到达的调用必须等待另外 $b-1$ 个调用到来，然后批次才会被发送处理。这种“批处理延迟”与批次大小成正比。通过选择批次大小，我们实际上是在明确决定我们要在低延迟和高吞吐量这个谱系上的哪个位置。

系统的构造：架构中的权衡

这种张力不仅仅是一个抽象的软件概念；它物理地编织在我们日常使用的硬件和系统软件中。

硬件设计：在芯片上设计处理器时，工程师可能有 A 和 B 两个模块，需要处理一个数据流。

串行配置：他们可以将它们背靠背连接，形成一个长流水线。总延迟是 A 和 B 中所有阶段的延迟之和。吞吐量是 $1/T_{clk}$ ，其中时钟周期 $T_{clk}$ 由整个组合流水线中最慢的单个阶段决定。
并行配置：或者，他们可以创建三个并行的 A-B 流水线副本。现在，总吞吐量是 $3/T_{clk}$ ——增加了三倍！然而，为了将数据分配到三个并行流水线，我们需要一个解复用器，这可能会增加一个额外的流水线阶段。因此，即使整个系统的吞吐量猛增，任何单个项目的延迟实际上可能会略有增加。

I/O 和事件处理：操作系统应该如何知道网卡何时收到了一个数据包？

中断驱动：网卡可以在数据包到达的瞬间，通过硬件中断来“拍一下”CPU 的肩膀。这对响应性来说非常棒；操作系统几乎可以立即做出反应。延迟是最小的。然而，每次中断都带有固定的开销。如果数据包以极高的速率到达，CPU 可能会因为忙于处理中断而没有时间做实际工作——这种情况称为活锁（livelock）。吞吐量会骤降至零。
轮询：操作系统可以简单地每隔几毫秒检查一次网卡：“有新东西吗？” 这会引入延迟——平均而言，一个数据包需要等待半个轮询间隔才会被注意到。在低事件率下，这是浪费的，因为大多数检查都一无所获。但在极高的速率下，轮询变得更有效率。操作系统可以在一次检查中处理它发现的一整批数据包，从而分摊检查本身的成本。这是一个真实世界的设计决策，系统有时会在高负载下自适应地从中断切换到轮询。

操作系统调度：操作系统调度器是吞吐量-响应性权衡的最终仲裁者。在分时系统中，调度器给 $n$ 个任务中的每一个分配一小片 CPU 时间 $\Delta$ ，然后移到下一个任务。

一个非常小的时间片会让人感觉响应性极好。你的网页浏览器、文本编辑器和音乐播放器似乎都在同时运行，因为每个任务都频繁地获得 CPU 的关注。
然而，每次调度器切换任务（一次上下文切换）时，都会浪费少量的时间 $\sigma$ 在开销上。如果时间片 $\Delta$ 太小，CPU 将花费更多的时间在任务之间切换，而不是为任务做有用的工作。吞吐量会崩溃。调度器设计的艺术在于找到一个既能满足响应性要求，又不会因开销而牺牲太多吞吐量的时间片。

更高级的调度器甚至可以提供明确的保证。一个简单的轮询调度器（Round-Robin scheduler）提供公平性但没有性能承诺。相比之下，像最早截止期限优先（Earliest Deadline First, EDF）这样的实时调度器，可以分析一组任务及其延迟截止期限，并且如果总工作负载是可管理的，它能可证明地保证每个任务都会满足其截止期限，从而最大化利用率（吞吐量）并满足响应性合同。

自然法则：吞吐量、延迟与利特尔定律

看起来吞吐量和延迟似乎是可以独立调整的两个变量。但它们被一个极其简单而强大的关系联系在一起，这个关系被称为利特尔定律（Little's Law）。它指出，对于任何处于均衡状态的稳定系统：

$L = \lambda \cdot W$

用我们的话来说：

系统中项目的平均数量 = 吞吐量 $\times$ 平均延迟

这条定律对于排队论而言，其基础性堪比 $F=ma$ 对于物理学。它适用于咖啡店、高速公路和计算机系统。它为我们提供了一个审视权衡的新视角。它告诉我们，对于给定的吞吐量，延迟与系统正在处理的项目数量成正比。

考虑一个必须在日志中查找交易的金融服务。如果查找是线性搜索，找到一个项目的时间——即延迟——会随着日志大小 $N$ 线性增长。因此，最大吞吐量与 $1/N$ 成正比。如果我们想在 $N$ 增长时保持恒定的吞吐量（例如每秒 100 次查询），延迟 $W$ 会变得越来越大。根据利特尔定律，在系统中等待的查询数量（ $L$ ）也必须增长。很快，我们的内存就会被排队的请求撑爆。系统变得不稳定。

但如果我们将算法改为使用哈希表，查找延迟就变为常数， $O(1)$ ，与 $N$ 无关。现在，即使日志增长，我们也可以保持高吞吐量，并且根据利特尔定律，系统中等待的项目数量保持在小且可管理的水平。一个简单的数据结构选择，在对延迟的理解指导下，完全改变了系统的容量和稳定性。

从最宏大的架构选择到最微小的算法细节，吞吐量和响应性之间的舞蹈无处不在。没有唯一的“最佳”答案，只有一系列的选择。其美妙之处在于理解那些让我们能够明智地驾驭这个谱系的原则——流水线、批处理以及排队论的基本法则——从而构建出不仅快，而且适合其目的的系统。

应用与跨学科联系

在我们之前的讨论中，我们探讨了吞吐量和响应性之间永恒拉锯战背后的原理。我们看到，这不仅仅是一个微小的技术细节，而是一种基本的张力，是组织任何工作的自然法则。这是在“我们单位时间内能完成多少工作？”和“我需要为我的那件事等待多久？”之间的选择。这种选择，这种在效率和即时性之间的精妙舞蹈，回响在现代计算的每一层，从处理器核心的硅片心脏到云端庞大的架构。现在，让我们踏上一段穿越这些层级的旅程，去看看这个单一而优美的原理如何以千姿百态、令人眼花缭乱的形式展现出来。

正如我们所学到的，我们在这场舞蹈中的主要工具是批处理——将许多小任务组合成一个大型、高效的操作——和流水线——将一个复杂的任务分解成一条由更小、重叠的阶段组成的装配线。批处理为我们带来了巨大的吞吐量，但代价是需要一个初始的等待期来组建批次。流水线通过保持装配线所有部分的繁忙来提高吞D吐量，但单个项目从头到尾的旅程——即延迟——随着我们增加更多阶段而变长。手握这两个思想，让我们开始我们的旅程。

机器之心：处理器核心

让我们从最小、最快的尺度开始：在单个处理器核心内部。想象你是一位芯片架构师，正在为一个常见的计算任务——融合乘加（Fused Multiply-Add, FMA）——设计一个专用单元，它计算 $p = a \times b + c$ 。这个操作是科学计算和机器学习的基石。你拥有用于乘法、加法和最终结果处理（归一化和舍入）的逻辑块。

你是构建一个巨大的、单片的电路，输入 $a$ 、 $b$ 和 $c$ 就吐出 $p$ ？还是将其分解成一条装配线——一条流水线？通过将逻辑分解为多个阶段，比如乘法三个阶段，加法两个阶段，归一化和舍入各一个阶段，你可以让整个电路以更快的时钟速度运行。这意味着一旦流水线被填满，一个新的、独立的 FMA 操作可以在每个时钟周期完成。吞吐量非常可观。

但如果你的计算不是独立的呢？如果你正在计算一个总和，其中每次新的加法都依赖于前一次的结果？这是一条依赖链，就像累加 $s_{k+1} = s_k + a_k \times b_k$ 。现在，你的流水线的总长度就很重要了。第一次计算的结果必须一直传播到八级流水线的末端，才能开始被用于第二次计算。针对独立任务的高吞吐量，对于这个依赖任务来说，变成了高延迟。为了提高时钟频率而加深流水线，实际上减慢了这种特定的、常见的工作负载。因此，架构师必须做出选择，平衡流水线深度，以在实现通用代码高吞吐量的同时，不过度惩罚关键的、依赖性操作的延迟。这是一种用硅片写下的妥协。

乐团指挥：操作系统

如果说处理器是一群专业的音乐家，那么操作系统（OS）就是指挥家，确保他们和谐地共同演奏，以服务于一个更宏大的目标。而指挥家的很多工作就是管理吞吐量和响应性。

管理 I/O：排队的艺术

考虑一个现代存储设备，比如固态硬盘（Solid-State Drive, SSD）。它可以并发处理许多请求。操作系统（或设备自身的控制器）维护一个待处理请求的队列。加深队列可以让设备同时有更多的“在途”操作，通过重排序来提高效率并最大化其内部并行性。这增加了每秒 I/O 操作数（IOPS）——即吞吐量。

然而，存在一个饱和点。超过某个队列深度后，设备已在其最大容量下运行。进一步加深队列并不能增加吞吐量；它只意味着新来的请求在被服务前需要等待更长的时间，从而增加了它们的平均延迟。存储控制器的设计者必须选择一个队列深度，该深度刚好足以使设备的带宽饱和，但又不能更深，以避免增加无谓的延迟。这个决定甚至受到队列内存在硅芯片上所占物理面积的限制。

操作系统也使用同样的原则作为多租户系统（如云服务器）中的一种社会策略工具。想象一下两个用户 $X$ 和 $Y$ 正在猛烈地使用一个共享的 SSD。如果操作系统什么都不做，他们合并的请求可能会创建一个非常长的队列，导致双方的延迟都急剧上升。一种替代方案是，操作系统使用像 Linux 的 [cgroups](/sciencepedia/feynman/keyword/cgroups) 这样的工具，对每个用户强制执行严格的速率限制。这个上限降低了总的请求负载，缩短了队列，从而为每个人都降低了延迟。代价是什么？总的组合吞吐量降低了，而且如果用户 $Y$ 变得空闲，用户 $X$ 仍然受限于其速率上限，无法使用现在空闲的容量。操作系统用峰值吞吐量和完美的工作守恒性换取了可预测的、更低的延迟——这在共享环境中是一个至关重要的特性。

玩转任务：为人与程序进行调度

我们都经历过这种情况：你正在浏览网页（一个交互式的、对延迟敏感的任务），同时在后台编译一个大型程序（一个批处理的、对吞吐量敏感的任务）。如果编译器不间断地运行，你的浏览器会感觉迟钝，因为每次点击都必须等待编译器让出 CPU。

为了防止这种情况，操作系统使用抢占式调度器。它给予浏览器更高的优先级，并使用一个周期性计时器。即使编译器正在工作，时钟中断也允许操作系统打断它，保存其状态，并将 CPU 交给浏览器。这保证了你的点击能够以低延迟得到处理。但代价是什么？每次时钟中断都会消耗一小部分 CPU 时间，每次在编译器和浏览器之间的上下文切换会消耗更多。从编译器的角度来看，这种开销是纯粹的损失；这是没有花在编译上的时间。操作系统必须选择一个计时器频率（即时间量），这个频率要足够快以满足浏览器的响应性目标，同时又要足够慢以最小化对后台任务吞吐量的惩罚。这是为了用户的感知性能而对总系统效率做出的直接牺牲。

内存的“猜贝壳游戏”：交换与缓存

操作系统还管理着不同资源间的权衡。想象一个系统，一个后台作业正在执行大量的文件写入。如果操作系统给它一个更大的文件系统缓存，它的吞吐量可以得到改善，因为这允许写入被更有效地组合在一起。这些内存从哪里来？操作系统可以通过将空闲进程的内存“换出”（swap out）到磁盘来释放它。

在这里，一个看似明显的胜利——提高批处理作业的吞吐量——可能会有隐藏的成本。为了使写入高效，I/O 调度器可能会将它们组合成不可抢占的大块。如果一个交互式应用程序此时需要从磁盘进行一次快速的小读取，它可能会被卡在这些巨大的数据块后面等待。为后台任务提高吞吐量，无意中恶化了前台任务的最坏情况延迟。操作系统必须确保，在追求提高吞吐量的同时，不会违反其对用户响应性的隐性承诺。

工匠：编译器与运行时

在操作系统和应用程序之间，还存在着另一层复杂的软件：编译器和语言运行时。它们也同样在不断地做出选择，以在吞吐量与响应性的迷宫中导航。

选择合适的工具：指令选择

当编译器将人类可读的代码翻译成机器指令时，就像一位大师级工匠在选择工具。对于一个给定的计算，比如 ((x * y) + u) + v，它应该使用一系列简单的指令（一个乘法后跟两个加法）？还是应该使用一个单一、复杂、强大的指令，一次性完成整个表达式的计算？

答案或许令人惊讶，它取决于优化目标。单一的复杂指令可能有更短的总延迟，意味着它能更快地得到那一个特定的结果。然而，一系列更小、更简单的指令可能对整体吞吐量更有利。它们可能在处理器上使用更少的资源，允许其他指令并行执行，从而导致每秒完成的总工作量更多。一个以低延迟为目标的编译器可能会选择那个大指令，而一个以高吞吐量为目标的编译器则可能选择一系列小指令。这个选择是通过评估“覆盖”计算图的不同方式的成本来做出的。

安全的代价：垃圾回收

在像 Java、C# 或 Python 这样的托管语言中，运行时提供了自动内存管理的巨大便利，即垃圾回收（Garbage Collection, GC）。但为了完成其工作，回收器需要周期性地“stop the world”，暂停应用程序以查找和回收未使用的内存。如果一个程序处于一个紧凑的、长时间运行的循环中，GC 如何能确保及时地停止它呢？

即时（Just-In-Time, JIT）编译器通过在代码中插入“安全点轮询”（safepoint polls）来提供帮助——这些微小的检查会询问：“到 GC 的时间了吗？”。在这里，我们看到了最纯粹形式的权衡。如果在循环的每次迭代都插入轮询（一个小的轮询间隔 $k$ ），GC 请求几乎可以被立即服务，提供出色的响应性。但是所有这些检查的开销会减慢循环，损害吞吐量。如果仅每百万次迭代才插入一次轮询（一个大的 $k$ ），开销可以忽略不计，吞吐量很高，但程序可能在很长一段时间内对 GC 请求无响应。运行时设计者必须找到一个最佳的轮询频率，以平衡轮询的吞吐量成本和等待轮询的延迟成本。这是一个优美的优化问题，类似于决定多久检查一次邮箱：检查得太频繁，你会浪费时间；检查得太少，你会错过重要的信件。

宏伟蓝图：系统与应用架构

最后，让我们将视角放大到整个应用程序和分布式系统的设计。

我们之前遇到的机器学习推理服务器提供了一个关于批处理的教科书式案例。像 GPU 这样的 AI 加速器在一次性处理一大批图像时，比逐一处理它们要高效得多。服务器架构通过让单个请求等待，直到一个大小为 $b$ 的完整批次被组建起来，从而故意引入了延迟。任何单个请求的延迟包括两部分：等待批次填满的时间，以及批次被处理的时间（包括在 GPU 处的任何排队）。第一项随着请求到达率的增加而下降；第二项则上升。系统架构师必须选择一个批处理大小 $b$ ，为预期的工作负载提供最佳吞吐量，同时又不能让初始的批处理延迟对用户来说无法忍受。

我们在使用压缩的现代文件系统设计中看到了流水线。要读取一个压缩文件，数据必须从磁盘获取（I/O），然后由 CPU 解压。这两个阶段可以被流水线化。总吞吐量受限于两个阶段中较慢的那个。如果磁盘是瓶颈，我们可以使用更强的压缩算法（更高的压缩比 $R$ ）。这意味着需要从磁盘读取的字节数更少，减轻了 I/O 瓶颈，但这需要更多的 CPU 周期来解压，可能使 CPU 成为新的瓶颈。目标是选择一个压缩比 $R$ 来平衡两个流水线阶段，从而最大化吞吐量。同样，这必须在延迟约束下完成——例如，要确保读取一个单个的小配置文件仍然感觉是瞬时的。

一个普适原理

从处理器流水线中纳秒级的决策，到操作系统调度器微秒级的平衡艺术，再到用户等待机器学习模型预测的秒级体验，吞吐量与响应性之间的权衡是一个贯穿始终、统一的主题。它不是一个需要被解决的问题，而是宇宙的一个基本属性，需要被理解和管理。

这是披萨店的困境：你是为一位等待的顾客尽快做出一份披萨（低延迟），还是优化你的烤箱和员工以实现每小时生产最多数量的披萨（高吞吐量）？这是邮政服务的逻辑：私人信使是低延迟的，而等待装满再出发的卡车是高吞吐量的。

看到这个简单而优雅的原则在如此多不同的背景下、在如此多不同的尺度上反复出现，证明了系统设计内在的统一性。它揭示了在复杂技术看似混乱的表象下隐藏的美丽与秩序，提醒我们，归根结底，我们总是在组织工作，试图在完成大量工作和立即完成工作之间取得完美的平衡。