流水线并行

玻尔百科

定义

流水线并行是一种通过将任务划分为多个连续阶段并对不同数据段进行并行操作来提高系统吞吐量的设计技术，其原理类似于工厂流水线。该机制受限于最慢阶段这一瓶颈，在高性能计算领域广泛应用于训练大规模人工智能模型以及实现保护隐私的拆分学习。流水线并行通过平衡单个任务的延迟，显著提升了整个任务流的处理能力和整体产出速度。

核心要点

流水线并行通过将一个任务划分为多个顺序阶段来提高系统吞吐量，这些阶段在不同的数据片段上并发操作，类似于工厂的装配线。
流水线的整体速度受其最慢阶段——“瓶颈”——的限制，因此识别和优化该阶段对于性能提升至关重要。
流水线从根本上说，是以单个任务的更高延迟为代价，换取任务流整体吞吐量的显著提升。
现代应用利用流水线并行来解决复杂问题，从在多台机器上训练大规模人工智能模型，到通过分割学习（Split Learning）实现隐私保护机器学习。

引言

在现代计算世界中，对处理能力的需求永无止境。从分析 PB 级的科学数据到训练巨大的人工智能模型，我们不断面临着如何更快完成复杂任务的挑战。我们应如何构建计算以实现最高效率？一个最强大且普遍的答案源于一个从工业制造中借鉴的概念：装配线。这一原理被称为流水线并行，它涉及将一个大任务分解为一系列更小的、专业化的阶段，允许多个工作单元被同时处理。

本文探讨了流水线并行的理论与实践，揭示了这一优雅模型如何释放巨大的性能增益。我们将讨论此方法固有的关键权衡以及可能削弱其有效性的常见陷阱。

首先，在“原理与机制”一章中，我们将剖析流水线的核心机制。您将学会将其与数据并行区分开来，理解吞吐量和延迟之间的关键差异，并了解瓶颈和开销如何限制性能。随后，“应用与跨学科联系”一章将展示这一概念的多功能性，带您领略其在视频流、生物信息学、金融以及大规模人工智能这一革命性领域中的实际应用。读完本文，您将拥有一个坚实的框架，用以理解现代系统中实现并发的最基本策略之一。

原理与机制

装配线的艺术

想象一下，您的任务是制造一千辆汽车。您可以雇佣一位技艺高超的工匠，从头开始一辆接一辆地制造。这将耗费很长时间。或者，您可以借鉴 Henry Ford 的做法，建立一条装配线。这就是流水线并行的精髓。您将“制造汽车”这个复杂任务分解为一系列更小的、专业化的阶段：阶段 1 安装底盘，阶段 2 安装引擎，阶段 3 安装车轮，依此类推。

当生产线满载时，奇迹就发生了。当一辆车正在安装车轮时，它后面的车正在安装引擎，而另一辆车则刚刚在安装底盘。多辆汽车被同时处理，每辆都处于不同的完成阶段。这也被称为任务并行，因为每个阶段都是一个独特的任务。

这与另一种基本方法——数据并行——形成鲜明对比。在数据并行模型中，您不会建造装配线，而是建造一千个相同且独立的车库。在每个车库里，一位工匠完整地制造一辆汽车。所有一千名工匠都并行地制造自己的汽车。

哪种更好？这要视情况而定。让我们想象一个工厂场景，并将其形式化。假设您有 $N$ 个相同的数据并行工作站，每个工作站每小时能生产 $\lambda$ 个作业，可靠性为 $r$ 。总预期产出就是 $N \times \lambda \times r$ 。现在，考虑一个 $K$ 阶段的流水线。只要有一个阶段发生故障，整条生产线就会停顿。如果阶段 $i$ 的可靠性为 $r_i$ ，那么整条生产线正常运行的概率是所有单个可靠性的乘积，即 $\prod_{i=1}^{K} r_i$ 。这种乘法惩罚表明，长流水线可能很脆弱；单个环节的故障会中断整个链条。这是一个根本性的权衡：流水线允许专业化和高吞吐量，但数据并行方法对单个工作单元的故障可能更具鲁棒性。

瓶颈的制约

装配线有一条简单而无情的法则：它的速度取决于其最慢的工人。这个最慢的阶段就是瓶颈。如果前面的引擎安装团队每小时只能供应一个引擎，那么即使你的车轮安装团队能以闪电般的速度工作也无济于事。整条生产线每小时也只能生产一辆汽车。

让我们考虑一个现代计算的“装配线”，一个用于处理空间模拟数据的科学工作流。

阶段 1：模拟（在超级计算机上运行），每数据帧耗时 $4$ 秒。
阶段 2：分析（寻找有趣的特征），每数据帧耗时 $3$ 秒。
阶段 3：可视化（创建影片），每数据帧耗时 $5$ 秒。

流水线的“周期”，即在稳态下，两个连续成品从生产线末端产出的时间间隔，由各阶段耗时的最大值决定： $P_{pipe} = \max(4 \text{ s}, 3 \text{ s}, 5 \text{ s}) = 5 \text{ s}$ 吞吐量，即生产速率，是该周期的倒数： $\lambda = 1/P_{pipe} = 1/5 \text{ s} = 0.2$ 帧/秒。

现在来看一个关键的洞见。假设您获得一大笔拨款，并升级了分析硬件，使其速度加倍（现在为 $1.5$ 秒）。您的整体吞吐量会发生什么变化？什么都不会变！瓶颈仍然是耗时 $5$ 秒的可视化阶段。流水线的周期仍然是 $5$ 秒。这是性能优化中一个深刻而时而令人沮丧的教训。要加速流水线，您必须识别并加速瓶颈。改进任何其他阶段都是在浪费精力。

两种指标的故事：吞吐量与延迟

当我们讨论流水线性能时，必须小心区分两个不同的衡量标准：吞吐量和延迟。

吞吐量是任务完成的速率。它回答的是“你每天能生产多少辆车？”正如我们所见，它受瓶颈的制约。
延迟是单个任务从头到尾穿过整个流水线所需的时间。它回答的是“制造一辆特定的车需要多长时间？”

流水线是一种提高吞吐量的策略，但通常以牺牲延迟为代价。在我们的科学工作流中，处理单个数据帧的延迟是所有阶段时间的总和： $4 + 3 + 5 = 12$ 秒（为简单起见，忽略传输时间）。第一帧需要整整 $12$ 秒才会出现。但此后，每 $5$ 秒就会出现一新帧。处理 $N$ 帧的总时间（完工时间）可以由以下公式完美地描述： $T_N = (\text{总延迟}) + (N-1) \times (\text{流水线周期})$ 对于大量的帧， $(N-1)$ 项占主导地位，总时间由吞吐量决定。

这种权衡无处不在。考虑处理一个图像流。一种方法是流式流水线，其中每个图像依次通过预处理、GPU 推理和后处理阶段。延迟可能为，比如说， $0.012$ 秒，吞吐量很高。另一种方法是批处理，即收集 8 张图像，在 GPU 上一次性处理它们，然后释放。批处理中一张图像的延迟现在是其等待时间加上批处理时间。批次中第一张到达的图像等待时间最长，其延迟可能高达 $0.080$ 秒，远高于流式流水线。然而，批处理可能使 GPU 工作更高效，从而可能带来更高的整体吞吐量。对于实时视频通话，低延迟至关重要。对于离线视频处理，最大化吞吐量才是最重要的。

不可避免的开销

流水线虽然功能强大，但并非免费的午餐。它伴随着固有的低效率，即开销。

最基本的开销是流水线气泡。一条装配线并非从一开始就满负荷运转。第一辆车到达第二阶段、然后第三阶段等等，都需要时间。这个“填充”期以及最后当末批产品缓慢产出时的相应“排空”期，代表了一个空闲时间的气泡，在此期间许多阶段都在等待。在利用流水线并行训练大型深度神经网络的背景下，我们可以完美地量化这种低效率。如果一个流水线有 $K$ 个阶段，并处理一批包含 $m$ 个小型“微批次”的数据，则流水线利用率 $u$ 由以下公式给出： $u(K,m) = \frac{m}{K + m - 1}$ 分母中的 $K-1$ 项代表“气泡”——因填充和排空流水线而损失的时间槽数量。这个公式告诉我们一个深刻的道理：只有当工作量 $m$ 远大于阶段数 $K$ 时，流水线的效率才接近 100%。对于短暂的工作脉冲，气泡开销可能相当大。

另一种开销并非来自流水线本身，而是来自一个流程中根本无法流水线化的部分。想象一个更大型的数据处理作业，其中有一个串行的预处理步骤（比如从磁盘加载一个巨大的文件），然后是您高效的流水线，最后是一个串行的后处理步骤（比如写入最终结果）。这些串行部分是固定成本。无论您如何出色地优化流水线，都永远无法消除花在这些串行“枷锁”上的时间。这是阿姆达尔定律的又一个应用：整体加速比将永远受限于那部分顽固保持串行的工作所占的比例。

护航、队列与交通堵塞

流水线的理论之美可能因糟糕的实现而被打破。各阶段之间如何移交工作至关重要。

一种常见但灾难性的方法是使用屏障（barriers）。想象一下我们三阶段的流水线正在处理一波包含 40 个任务的作业。使用屏障时，阶段 1 会处理所有 40 个任务。然后，它发出屏障信号。所有阶段都等待。接着，阶段 2 处理所有 40 个任务。屏障。等待。然后是阶段 3。这不再是流水线了；这是一个“护航队”。并发特性被破坏，总时间仅仅是每个阶段处理整个批次所需时间的总和。吞吐量急剧下降。

正确的方法是用队列（缓冲区）连接各个阶段，就像工人之间的传送带一样。阶段 1 完成一个任务后，将其放入供阶段 2 使用的队列中。阶段 2 一有空闲就立即获取任务，进行处理，并将其结果放入供阶段 3 使用的队列中。这解耦了各个阶段，使它们能够真正地并发工作。一个带队列的流水线可以达到仅受其瓶颈限制的理想吞吐量。这种改进可能是显著的——在一个例子中，从屏障切换到队列使吞吐量提高了 80%。

但即使是队列也有其局限性。这就引出了排队论中一个极为优雅的关系式，称为利特尔法则 (Little's Law)： $L = \lambda W$ 在这里， $L$ 是系统中的平均任务数（正在服务或在队列中等待）， $\lambda$ 是吞吐量， $W$ 是一个任务在系统中花费的平均时间（延迟）。假设我们有一个包含 8 个工作单元的流水线。在一种情况下，我们保持大约 8 个任务“在途”( $L=8$ )，并观察到高吞吐量。在另一种情况下，我们试图推入更多工作，系统中的任务数量膨胀到 $L=50$ 。会发生什么？交通堵塞。任务大部分时间都在队列中等待，因此它们的平均延迟 $W$ 会猛增。这种拥塞可能导致对内存或缓存等共享资源的争用，实际上可能导致整体吞吐量 $\lambda$ 下降。向系统中推入更多工作并不总能使其更快；通常存在一个能最大化效率的并发工作量的“最佳点”。

一个普适原理

流水线是计算领域最强大和最普适的概念之一，出现在所有可以想象的尺度上。

让我们深入到一个单独的处理器核心。当编译器优化您的代码时，它可能会执行一种称为循环融合的优化。它将两个独立的循环，比如一个用于 a[i] + b[i]，另一个用于 d[i] - e[i]，融合成一个单一的循环。在这个新循环内部，处理器可以看到加法和减法是独立的。然后，它可以通过其执行单元对这些指令进行“流水线”处理，同时执行两者。这增加了指令级并行 (Instruction-Level Parallelism, ILP)，即核心自身的内部吞吐量。权衡是什么？循环融合需要在同一时间保持更多的临时值活跃，从而增加了“寄存器压力”，这是 CPU 内部的一个关键资源。这正是相同的原理，只是发生在纳秒尺度上。

要真正理解什么是流水线，看看它不是什么会很有帮助。流水线经常与弗林分类法中一种罕见的体系结构——多指令流单数据流 (Multiple Instruction, Single Data, MISD)——相混淆。一个 MISD 系统会涉及多个不同的指令在完全相同的时间对完全相同的数据片段进行操作。例如，在同一时刻对同一个传感器读数运行三种不同的故障检测算法。流水线则不同。当一个数据片段流过流水线时，它会经历多个不同的指令（每个阶段一个）。但在稳态下的任何给定时刻，不同的阶段正在操作的是不同的数据片段。这使得流水线的行为更像一个多指令流多数据流 (Multiple Instruction, Multiple Data, MIMD) 系统。这不仅仅是一个语义游戏。真正的 MISD 体系结构之所以罕见，正是因为它们在性能方面扩展性不佳；它们被用于提高可靠性。而流水线之所以无处不在，是因为它们是一种极其有效的方法，通过利用数据流的并发性来提升性能。从 CPU 的核心到最宏伟的科学工作流，装配线这种简单而优雅的逻辑都占据着至高无上的地位。

应用与跨学科联系

既然我们已经掌握了计算装配线这个简单而优雅的思想，一个自然的问题就出现了：流水线并行这个概念在现实世界中究竟出现在哪里？答案是，几乎无处不在。这个基本原理的美妙之处在于其非凡的普适性。就像科技这首宏伟交响乐中一个反复出现的主题，它出现在我们观看的视频、我们发现的药物、我们分析的金融市场，甚至出现在正在重塑我们世界的人工智能的结构中。让我们踏上一段旅程，去观察这个原理的实际应用，欣赏它的力量以及它在不同领域之间令人惊讶的联系。

数字世界：处理数据流

我们的旅程始于我们日常接触的一个领域：数字媒体。当您观看流媒体视频时，您正在见证一条工作中的流水线。每一帧的原始数据都必须经过几个处理阶段——也许是运动估计（ME）以观察像素块如何移动，数学变换（TX）以更紧凑地表示视觉信息，最后是量化（Q）以丢弃不易察觉的细节并实现压缩。这些阶段构成了一个自然的三步装配线：当一帧正在被量化时，下一帧可能正在进行变换，再下一帧可能正在进行运动估计。这是其最纯粹形式的任务并行。

但现实很快就增加了一个有趣的复杂性。并非所有的视频帧都是生而平等的。一些被称为 I 帧，是独立的图像。另一些 P 帧，是根据前一帧预测的。还有一些 B 帧，是根据过去和未来的帧双向预测的。这就创建了一个依赖关系网。一个 B 帧甚至无法开始其在流水线中的旅程，除非它的参考帧已经完成了它们的处理！这意味着我们平滑流动的装配线可能会变得“颠簸”，随着流水线等待依赖关系被解决，会出现停顿和气泡。管理这个流程，决定编码帧的顺序以最小化这些气泡，是现代视频压缩核心的一个美妙难题。流水线不是一条简单、僵硬的传送带；它是一个必须智能地在依赖关系图中导航的动态系统。

处理大量依赖数据的这种思想并非视频领域所独有。让我们从屏幕走向实验室，进入生物信息学领域。基因组测序过程会产生数十亿个短 DNA 或 RNA 片段，即“读长 (reads)”。要理解这片数据洪流，一个关键步骤是将每个读长比对到参考基因组上。这个工作流也可以被看作一个流水线：一个“映射”阶段找到每个读长的可能位置，随后的一个“排序”阶段根据基因组坐标来组织已比对的读长。

在这里，流水线概念迫使我们提出一个关键问题：瓶颈在哪里？是计算密集型的映射阶段吗？在那里我们可能会在多个 CPU 线程上使用数据并行。还是仅仅是移动数据的行为——从磁盘读取数十亿的读长并将巨大的比对文件写回？事实证明，在许多现代系统中，我们的并行映射线程产生比对数据的总速率可以轻易超过磁盘系统的带宽。流水线变成了受 I/O 限制的（I/O-bound）。我们的计算工厂生产商品的速度超过了装货平台发货的速度！这一认识将焦点从仅仅优化算法转移到设计巧妙的数据结构和文件格式上，例如块压缩和分片文件，这些格式允许多个流水线阶段（或一个阶段内的并行工作单元）在互不干扰的情况下从同一个巨大文件进行读写。简单的流水线模型揭示了，有时最重要的问题不是工作本身，而是物资运输的后勤问题。

计算前沿：混合并行

随着我们的问题变得越来越复杂，我们的流水线也随之变得复杂。最强大的应用通常源于混合设计，其中流水线并行被用来协调不同模式的计算。

考虑一个挑战：模拟一个随时间变化的物理系统，例如天气或蛋白质折叠，这些系统由偏微分方程（PDE）控制。一种常见的方法是按时间步进，计算系统在每个时间切片的状态。我们可以为此构建一个巧妙的“预测-校正”流水线。第一阶段是一个计算成本低廉的“粗粒度”求解器，它能快速为下一个时间切片生成一个近似预测。这个预测随后被送入第二阶段，一个计算成本高昂但高度精确的“细粒度”求解器，用于校正该预测。

这种设计的美妙之处在于其混合化。细粒度求解器本身是大规模数据并行的，使用成百上千个处理器来进行其复杂的计算。流水线结构——即任务并行——扮演着指挥家的角色，协调着一个快速、简单的独奏者和一个缓慢、强大、并行的管弦乐队之间的工作流程。这不仅是一个数据的流水线，更是一个由不同计算策略组成的流水线，每种策略都适合其自身的任务。

平衡不同计算资源这一主题在金融世界中也至关重要。想象一下为大型金融投资组合计算“风险价值”（VaR），这个过程涉及模拟数千种可能的未来市场情景。这可以构建为一个流水线：首先，一个 CPU 密集型阶段生成市场情景；接着，一个“估值”阶段在每种情景下为整个投资组合定价；最后，一个“聚合”阶段汇编结果。估值阶段涉及许多相同且独立的计算，非常适合使用图形处理单元（GPU）——一种高度并行的加速器。

这就创建了一条 CPU-GPU-CPU 的装配线。关键问题变成了平衡问题。GPU 是一种昂贵的资源；我们希望让它尽可能地保持繁忙。我们通过向其提供大批量的场景进行估值来实现这一点。但如果批量太大，可能会发生两件事。首先，我们可能会超出 GPU 有限的内存。其次，估值阶段本身可能会变得过长，以至于成为流水线的瓶颈，导致其他阶段的 CPU 在等待时处于空闲状态。设计这样一个系统的艺术在于找到完美的批量大小——一个“最佳点”，既能让 GPU 忙碌地工作，又能确保整个流水线平稳高效地流动。流水线框架为我们提供了在这类不同类型处理器之间进行微妙平衡的推理和优化工具。

彻底改变人工智能：用于巨型模型的流水线

如今，流水线并行产生最深远影响的领域，或许莫过于训练巨大的人工智能模型了。像 ChatGPT 这样的服务背后的模型是如此庞大，以至于无法装入单台计算机的内存中。这就提出了一个根本性的挑战：你如何训练这样一个庞然大物？

答案导向了两种并行化策略之间一个有趣的架构选择。一种策略是数据并行，即将整个模型的完整副本复制到每台机器上，每台机器处理训练数据的不同子集。另一种是流水线并行，即将模型本身“分割”成段，每段放置在不同的机器上，形成一条巨大的分布式装配线。

这是一个深刻的权衡。数据并行在概念上很简单，但它要求每台机器都有足够的内存来容纳完整的、数十亿参数的模型。流水线并行通过只给每台机器模型的一部分，巧妙地规避了这一内存限制。你付出的代价是引入了“流水线气泡”——在批处理开始和结束时，由于流水线的填充和排空而产生的低效率。在这两种策略之间进行选择是大规模人工智能领域的一个核心困境，这个决策受到模型内存占用和流水线延迟带来的性能损失之间相互作用的制约。

一旦我们决定对模型进行流水线化，一个新的难题就出现了：我们应该在哪里进行切割？ 深度神经网络不是一条均匀的链条；它是一系列块和层，其中一些比其他的计算成本高得多。一个幼稚的分割方法，即给每个阶段分配相同数量的层，几乎肯定会导致一个不平衡的流水线，其中一个过载的阶段决定了所有其他阶段的步调。真正的艺术在于找到最佳的分割点，仔细划分各层，使每个阶段的总计算工作量尽可能地接近相等。这是一个复杂的优化问题，类似于在现实世界的装配线上弄清楚如何分配任务以确保没有工人闲置。解决这个问题对于高效地训练现存的最大模型至关重要。

最后，我们来看一个最发人深省的应用，它模糊了计算机体系结构与社会之间的界限。如果我们的流水线阶段不是在数据中心的不同处理器上，而是在属于不同组织或个人的不同设备上呢？这就是一种称为分割学习 (Split Learning) 的范式背后的思想。想象一下，使用来自多家医院的数据训练一个医疗人工智能模型，而这些医院都不能共享其原始患者数据。在分割学习中，神经网络被分割，然后流水线开始运作。医院 1 在其私有数据上执行前几层的计算，并将中间的、加扰的“激活值”发送给医院 2。医院 2 执行接下来的几层计算，并将其结果传递下去，依此类推。

从纯粹的性能角度来看，这种顺序流水线通常比联邦学习（Federated Learning）等替代方案要慢，在联邦学习中，每家医院都在本地训练模型，只共享学习到的参数。但其真正迷人的启示在于隐私。没有一家医院能看到另一家的原始数据。事实上，链条中间的医院只能看到来自其前驱的高度处理过的、抽象的数据表示。使用流水线这一架构选择从根本上改变了系统的通信模式和“隐私暴露面”。它以一种优美而深刻的方式证明，一个像装配线这样看似简单和机械的概念，可以与我们这个时代最紧迫的人类挑战——从科学发现到数据隐私——产生深刻的联系。流水线不仅仅是追求速度的工具；它是一种塑造我们计算方式的结构，并在此过程中，塑造了我们在数字世界中协作和共享知识的方式。