Linux 完全公平调度器

玻尔百科

定义

Linux 完全公平调度器是一种内核进程调度器，通过始终运行具有最小虚拟运行时间的任务来确保所有进程公平地按比例获取 CPU 资源。该调度器使用高效的红黑树数据结构管理可运行任务，并通过控制组实现分层资源管理与权重分配。尽管该机制能够防止任务饥饿，但在涉及锁竞争或配额限制时可能会产生性能延迟。

关键要点

CFS 通过始终运行虚拟运行时间 (vruntime) 最低的任务来实现公平性。vruntime 是一种度量标准，可确保所有任务随时间推移获得按比例分配的 CPU 份额。
调度器使用高效的红黑树数据结构来跟踪可运行的任务，使其能够快速找到 vruntime 最小的任务，从而防止饥饿。
通过控制组 (cgroups)，CFS 实现了分层资源管理，允许管理员通过比例权重和硬性配额来分配 CPU 时间。
虽然设计优雅，但 CFS 并不能免受系统范围问题的影响；与锁或配额的交互可能导致性能陷阱，如优先级反转和由节流引起的延迟。

引言

在众多相互竞争的任务之间公平有效地分配处理器时间，是操作系统设计中的一个基本问题。早期的调度方法常常导致不理想的结果，例如“护航效应”(convoy effect)，即长时间运行的进程使短时间的交互式进程陷入饥饿，从而降低了系统响应速度。这就产生了一个知识鸿沟：调度器如何才能近似实现“完全公平”的理论理想，即每个任务都同时获得其按比例分配的 CPU 片段？本文旨在揭开 Linux 完全公平调度器 (CFS) 的神秘面纱，它是解决这个古老问题的现代方案。在接下来的章节中，您将学习驱动 CFS 的优雅原则和机制，从其核心概念虚拟运行时间到使其高效的数据结构。随后，我们将探讨其多样化的应用和跨学科联系，揭示 CFS 如何用于管理复杂系统、调试性能，甚至增强网络安全。

原理和机制

要理解完全公平调度器 (CFS) 的精妙之处，我们必须首先领会它旨在解决的问题。这个问题与第一批共享计算机一样古老：如何将单一、不可分割的资源——处理器的注意力——公平地分配给众多相互竞争的需求？

队列的暴政与完全公平的梦想

想象一条单车道高速公路。管理交通最简单的方法是“先到先服务”(FCFS)。第一辆到达的汽车先行，其他所有车辆排队等候。这看起来很公平，但如果一个庞大而缓慢的车队上路了会怎样？突然之间，十几辆跑车，每辆只需要一分钟就能到达下一个出口，却被一辆笨重的长途卡车堵住了一个小时。这就是计算中臭名昭著的护航效应：一个长时间占用 CPU 的任务会阻碍大量短时间的交互式任务，导致其他所有任务的响应时间慢得令人沮丧。平均等待时间急剧上升，系统感觉迟钝且不公平。

理想的解决方案会是什么样呢？想象一下，如果处理器不是一条单行道，而是一种神奇的、可无限分割的资源。我们可以将处理器能力的 $1/n$ 精确地分配给 $n$ 个等待中的任务，而且是同时进行。这就是处理器共享 (Processor Sharing, PS) 的理论理想。在这个完美的世界里，我们由三个短任务组成的车队，每个任务只需要 1 毫秒的 CPU 工作，就不会被那个需要 20 毫秒的庞然大物所阻碍。总共有四个任务，每个任务将获得 $1/4$ 的 CPU 能力。这些短任务仅需 $1 / (1/4) = 4$ 毫秒的真实时间即可完成工作，飞速驶向目的地，而长任务则继续缓慢前行。护航效应被消除了。

但现实并没有那么神奇。一个真实的处理器一次只能做一件事。那么，问题就变成了如何在真实机器上近似实现这种完美的处理器共享理想。正是这一追求催生了完全公平调度器。

虚拟时间：伟大的均衡器

CFS 的核心创新是一个优美而简单的想法：如果你无法分割处理器，那就改变衡量时间的方式。CFS 不跟踪任务已运行的真实挂钟秒数，而是为每个任务维护一种特殊的“公平货币”，一个称为虚拟运行时间（vruntime）的量。

调度器的黄金法则是惊人地简单：永远运行虚拟运行时间最小的任务。

可以把它想象成一场比赛，目标是让每个人都跑相同数量的“虚拟圈数”。调度器是裁判，它总是把完成虚拟圈数最少的选手送回赛道。一个任务运行时会累积 vruntime。一个等待或休眠的任务则不会。通过总是选择在 vruntime 上“最贫穷”的任务，调度器确保了随着时间的推移，没有任务会远远落后。这个简单的规则是 CFS 隐式老化机制的基础，它自然地防止了饥饿。一个有一段时间没有运行的任务，其 vruntime 会保持不变，而其他任务的 vruntime 会增加，这使得它越来越有可能在下一次被选中。不需要复杂的、手动调整优先级的操作；公平性是系统的一种涌现属性。

但如果有些任务比其他任务更重要呢？CFS 处理这种情况不是通过打破其黄金法则，而是通过改变 vruntime 的“支付”方式。每个任务都被分配一个权重，这是其优先级的数值表示。权重越高的任务越重要。为了给予它更多的真实 CPU 时间，调度器让它累积 vruntime 的速度更慢。

让我们从第一性原理来推导。为了使调度器从长远来看是“公平”的，任何两个可运行任务（比如 $i$ 和 $j$ ）的总虚拟运行时间必须以大致相同的速率推进。所以， $\Delta v_i \approx \Delta v_j$ 。任务 $i$ 的 vruntime 仅当它在某个真实时间间隔 $\Delta t_i$ 内运行时才会增加。增加的速率由其权重 $f(w_i)$ 的某个函数决定。所以， $\Delta v_i = f(w_i) \Delta t_i$ 。这使我们得到 $f(w_i) \Delta t_i \approx f(w_j) \Delta t_j$ 。

现在，我们的目标是让真实 CPU 时间与权重成正比，即 $\frac{\Delta t_i}{\Delta t_j} = \frac{w_i}{w_j}$ 。如果我们将此代入前面的方程，我们会得到一个优美的结果： $w_i f(w_i) \approx w_j f(w_j)$ 。这对任何任务都必须成立，这意味着乘积 $w \cdot f(w)$ 必须是一个常数。因此，vruntime 累积的速率必须与任务的权重成反比： $f(w) \propto \frac{1}{w}$ 。

更高的权重就像虚拟时间的折扣。一个权重是另一个任务两倍的任务，其 vruntime 的增长速度将是后者的一半。因此，为了使其 vruntime 与低权重任务保持一致，它必须被允许在真实世界中运行两倍长的时间。比例共享不是通过一套复杂的规则实现的，而是通过一个单一、优雅的记账原则。

这种 vruntime 记账是稳健的。如果一个淘气的进程试图通过运行一瞬间然后让出（yield），希望很快再次被选中来“玩弄”系统，会怎样？这是行不通的。vruntime 是累积的。无论一个任务是一次性运行 10 毫秒，还是一百次微小的 0.1 毫秒爆发，它都消耗了 10 毫秒的真实 CPU 时间，其 vruntime 将增加相同的总量。在每次微小的爆发之后，它的 vruntime 不再是最小值，它必须再次等待轮到自己。账目总是平衡的。

公平的机制：权重、树和保证

在真实的 Linux 系统中，用户不会设置像 $1024$ 这样的原始权重。相反，他们使用一个熟悉的概念：nice 值，一个通常从 $-20$ （最高优先级）到 $+19$ （最低优先级）的整数。CFS 将这个 nice 值转换成一个权重。这种映射是几何级的：nice 值每增加一步（使任务“更友善”且优先级更低），其权重就减少约 $1.25$ 倍。公式是 $w_i = w_0 \cdot (1.25)^{-n_i}$ ，其中 $w_0$ 是 nice 为 $0$ 的任务的基准权重（通常是 $1024$ ）， $n_i$ 是 nice 值。

所以，如果任务 A 的 nice 值为 0（ $w_A = 1024$ ），任务 B 的 nice 值为 5（ $w_B \approx 335$ ），那么任务 B 的 vruntime 增长速率将比任务 A 快约 $\frac{w_A}{w_B} \approx \frac{1024}{335} \approx 3.057$ 倍。为了保持它们的 vruntime 相等，调度器必须给任务 A 大约三倍于任务 B 的真实 CPU 时间。

当有几十个或几千个任务时，调度器如何在不浪费时间扫描长列表的情况下找到 vruntime 最小的那个呢？它使用了一个聪明的数据结构：红黑树。这是一种自平衡二叉搜索树，它将所有可运行的任务按其 vruntime 排序。vruntime 最小的任务始终是树的最左边的节点，可以在对数时间内找到——速度快得惊人。当一个任务运行时，它的 vruntime 会增加，然后它会被重新插入到树中其新的正确位置。树的自平衡属性通过称为旋转和重新着色的操作来维护，确保它永远不会变得不平衡，并且操作保持高效。

这个简单规则（选择最小 vruntime）和高效数据结构（红黑树）的优雅结合提供了一个强有力的保证：只要一个任务在可运行树中，它最终会成为最左边的节点并获得运行机会。在 CFS 调度类内部，饥饿问题在设计上就被杜绝了。然而，值得注意的是，这个保证是有边界的。Linux 为实时任务提供了更高优先级的调度策略。如果有一连串的实时任务在运行，它们确实可以使所有 CFS 任务陷入饥饿。防止这种情况需要独立的机制来限制实时类可用的总 CPU 时间。

为大众实现公平：控制组及其风险

公平的原则可以从单个任务扩展到整个任务组。现代系统使用控制组 (cgroups) 来管理进程集合的资源。CFS 可以将整个 cgroup 视为其调度决策中的一个单一实体，从而创建了一个公平的层级结构。

想象一下两个 cgroup，A 和 B，每个都有一个权重。调度器首先根据它们的权重在组 A 和组 B 之间分配 CPU 时间。然后，分配给组 A 的时间再根据其内部任务各自的权重在这些任务之间进行划分。这种分层系统非常强大。

这种强大也伴随着复杂性。假设组 A 对其 CPU 使用有一个硬性上限——在每 100 毫秒的周期内有 40 毫秒的配额——而组 B 没有上限。即使它们的权重相等，配额也起到了硬性限制的作用。在周期的第一部分，它们可能会 50/50 地共享 CPU。但一旦组 A 达到了其 40 毫秒的配额，它就会被节流——在该周期的剩余时间内被置于休眠状态。在那段剩余时间里，组 B 获得了 100% 的 CPU。CPU 时间的最终分配是权重的“软”比例共享与配额的“硬”限制之间相互作用的结果。

这种层级结构也可能导致微妙的饥饿形式。考虑一个权重巨大的组 $G_1$ ，其中包含一个占用 CPU 的任务；以及一个权重很小的组 $G_2$ ，其中包含许多交互式的、受 I/O 限制的任务。调度器为了尊重组的权重，会把几乎所有的 CPU 时间都给 $G_1$ 。 $G_2$ 中的任务必须共享分配给它们组的微小时间片。如果它们中的许多任务在 $G_2$ 刚用完其时间片后立刻被唤醒，它们都必须等待庞大的 $G_1$ 完成其长时间的运行。等待时间可能会变得非常长，特别是如果 $G_2$ 中等待的任务集群很大的话。在这种情况下， $G_2$ 内部的公平性无济于事；整个组在更高层级上正在被饿死。

这揭示了一个关于调度的深刻真理：公平不是绝对的。它是一种策略，通过像虚拟运行时间这样的机制来实现。通过调整权重和调度周期等参数，我们可以在长作业的吞吐量和交互式作业的低延迟之间取得平衡。完全公平调度器并没有提供一个单一、完美的答案。相反，它提供了一个优雅而强大的框架来表达我们的意图，这证明了在系统设计中，正如在物理学中一样，最美的解决方案往往存在于简单、统一的原则之中。

应用与跨学科联系

在我们之前的讨论中，我们探究了 Linux 完全公平调度器 (CFS) 核心的优雅原则：一个理想化的、完全公平的处理器的概念，我们可以将其切片并分配。我们想象每个任务都在自己的切片上运行，切片的速度由任务的“权重”决定。这引出了虚拟运行时间的概念，一个将这一理想变为现实的优美而简单的机制。

但是，一个原则，无论多么优美，其价值取决于它与现实世界的联系。现在，我们的旅程将走出纯理论的领域，进入现实世界。我们将看到，这个单一而强大的计算公平性理念如何成为一个多功能工具，被系统架构师用来构建稳定的服务器，被性能工程师用来追捕瓶颈，甚至被安全分析师用来揭露数字幽灵。在这里，公平竞争的艺术与现代计算混乱复杂的现实相遇。

驯服野兽：复杂系统中的资源管理

在其最根本的层面上，CFS 给了我们一个可以调节的旋钮，一种表达策略的方式。想象一下，你正在运行一个 Web 服务。你可能希望你的关键数据库进程比不那么重要的日志记录进程拥有更多的 CPU 能力。使用 Linux 的控制组 (cgroups)，我们可以为这些任务组分配不同的权重。如果我们给数据库一个 400 的 cpu.weight，而给日志服务一个 100 的权重，在资源竞争的情况下，CFS 将确保数据库获得的 CPU 时间是日志服务的四倍。这是从策略到现实的直接而直观的映射，对真实系统的测量证实，调度器的行为非常接近这个理想的数学比例。

这种比例共享功能强大，但现代系统面临一个更严峻的挑战：防止饥饿。考虑一个开发者的工作站。一个大规模、多线程的代码编译——一个“构建”——可以轻易消耗所有可用的 CPU 核心。如果发生这种情况，处理网络连接或更新用户界面的基本后台“管家”服务可能会因 CPU 时间不足而陷入饥饿，导致整个系统感觉像被冻结了。这是一个典型的强大但低优先级的负载威胁系统稳定性的案例。

在这里，CFS 提供了另一种工具，不仅用于比例共享，还用于建立硬性保证。使用 cgroup 的 CPU 带宽控制器，我们可以设置一个严格的配额。我们可以告诉调度器：“无论如何，必须保证管家任务至少获得可用 CPU 时间的 $\eta$ 分数。”我们通过定义一个周期（比如 $\tau = 100$ 毫秒）和一个配额 $q_H$ 给管家任务组来实现这一点。这个配置确保在每个 100 毫秒的窗口内，管家任务至少被允许运行 $q_H$ 微秒。通过将构建组的相应配额设置为剩余的可用时间，我们创建了一个既能防止饥饿又能确保不浪费 CPU 时间的系统。贪婪的构建过程可以使用关键服务不需要的所有资源，但它永远无法排挤它们。

我们可以将这些思想——配额内的比例共享——结合起来，为真实世界的系统设计复杂的、分层的策略。想象一下同样的工作站，但现在它还运行由像 SLURM 这样的资源管理器提交的批处理作业，这些作业被分类为高、中、低优先级。期望的系统行为是复杂的：

当用户活跃地使用桌面时，交互式应用程序必须反应迅速。
当用户空闲时，批处理作业应该使用整个机器。
在批处理作业中，高、中、低优先级类别应以 4:2:1 的比例共享可用的 CPU。

一个优美的解决方案从 CFS 工具包中应运而生。我们创建一个顶层层次结构，包含两个组：desktop 和 batch。在 batch 内部，我们为 high、medium 和 low 创建子组，并以 4:2:1 的比例为它们分配权重。一个简单的守护进程监视用户活动。当用户活跃时，该守护进程动态地提高 desktop 组的权重以赋予其优先级，并且至关重要的是，对整个 batch 组应用 CPU 上限，以保证桌面有一定数量的核心（例如，8个中的2个）。当用户变为空闲时，上限被移除，batch 组可以自由扩展并消耗整个机器，其内部作业始终遵守 4:2:1 的公平比例。这是一个巧妙地融合比例权重和硬性配额以创建动态、响应迅速且高效系统的绝佳范例。

看不见的手及其不满：性能陷阱与调优

CFS 的公平模型旨在均衡虚拟运行时间，它有一个奇妙的副作用：它天然地有利于降低延迟。当一个交互式任务在休眠（例如，等待用户输入）后被唤醒时，与持续运行的 CPU 密集型任务相比，它的虚拟运行时间是“过去的”。调度器为了追求公平，会认为这个任务“落后了”并立即调度它。这为突发性的交互式应用程序提供了它们所需的快速唤醒服务，使它们感觉响应迅速。这种“追赶”行为是公平算法本身的一种涌现属性。

但正是这些提供公平性的机制，在与系统的其他部分相互作用时，可能会制造出微妙而危险的性能陷阱。其中最著名的一个是优先级反转。想象一个高优先级任务（在 cgroup A 中，权重 $w_A=900$ ）需要一个由低优先级任务（在 cgroup B 中，权重 $w_B=100$ ）持有的锁。高优先级任务必须等待。问题在于，锁的持有者，由于处于低优先级组，获得的 CPU 时间非常少。如果它需要，比如说， $t_h = 4\,\mathrm{ms}$ 的 CPU 时间来完成其工作并释放锁，它将无法在 4ms 的挂钟时间内运行。相反，它只能获得其微不足道的 $\frac{w_B}{w_A+w_B} = \frac{100}{1000} = 10\%$ 的 CPU 份额。因此，它累积 4ms 运行时间所需的挂钟时间被拉长到了惊人的 $4\,\mathrm{ms} / 0.1 = 40\,\mathrm{ms}$ 。高优先级任务被阻塞的时间不仅是临界区的持续时间，而是其十倍之久，因为调度器正在“公平地”将 CPU 分配给其他不相关的任务。

CPU 配额可以灾难性地放大这个问题。考虑同一个锁持有者，但现在它处于一个具有每个周期 $P$ 的 CPU 配额 $Q$ 的 cgroup 中。如果调度器在其临界区中间节流了该 cgroup——强制停止其运行——会怎样？锁持有者现在被冻结了，不是几微秒，而是直到下一个调度周期开始。而且因为它持有锁，高优先级的等待者也被冻结了。延迟在系统中级联。在一些简化但合理的假设下，可以推导出锁的期望等待时间不仅仅是临界区长度 $C$ ，而是被拉伸到 $E[T_W] = \frac{CP}{Q}$ 。这个简单、优雅的公式揭示了一个可怕的现实：等待时间被调度周期与配额的比率 $P/Q$ 放大了。一个看似良性的资源限制可能会在系统完全不同的部分造成无限制的延迟。

另一个陷阱源于调度和处理器亲和性之间的相互作用。为了提高性能，系统管理员经常使用 cpusets 将任务锁定到特定的 CPU 核心，希望从热缓存中受益。但这种僵化的分区可能会产生灾难性的反作用。考虑一个双 CPU 系统，其中任务 A 和 B 被锁定到 CPU 0，而任务 C（周期性休眠）被锁定到 CPU 1。当任务 C 进入休眠时，CPU 1 变为空闲。但任务 A 和 B 被困在 CPU 0 上；它们无法迁移到空闲的核心。它们被迫继续共享一个 CPU，获得的 CPU 资源远低于它们应得的系统总资源的公平份额，而一个完好的 CPU 却空闲着。这种现象，即“队头阻塞”的一个实例，展示了一个关键教训：僵化的分区可能会破坏调度器的全局公平性和工作保守性。

这些例子向我们表明，性能调优是一门精细的艺术。即使是调度器提供的调节旋钮也涉及权衡。例如，在设置 CPU 配额时，周期长度 $P$ 的选择很重要。较短的周期意味着如果一个任务被节流，它等待下一次运行机会的时间会更短，从而降低了最坏情况下的延迟。然而，较短的周期也意味着调度器必须更频繁地执行其记账工作，增加了开销。选择正确的周期是在响应性和效率之间寻求平衡。

超越内核：跨学科联系

公平调度的原则是如此基础，以至于它们的应用远远超出了在单个操作系统中管理进程的范畴。

在虚拟化和云计算的世界里，虚拟机监控程序 (hypervisor) 面临的挑战不仅是调度进程，而是调度整个虚拟机 (VM)。一个类似 CFS 的调度器非常适合这项工作。其细粒度的、基于权重的公平性和对突发性 VM 的出色唤醒延迟，使其成为比更粗粒度的、基于纪元的调度器（如经典的 Xen credit 调度器）更优越的设计，尤其是在具有多样化工作负载混合的现代云环境中。

为了管理、调优和调试这些复杂的系统，我们需要能够看到调度器在做什么。这就把我们带到了系统可观测性领域。Linux 内核暴露了大量的统计数据，但它们可能很晦涩。通过理解调度器的模型，我们可以解释这些数字。cgroup 的 cpu.stat 文件中的累积计数器，如 usage_us、nr_periods 和 throttled_time，是原始数据。通过随时间采集快照并计算差异，我们可以精确地测量任何时间间隔内一组任务的有效 CPU 利用率和节流行为。我们可以成为系统侦探，使用这些计数器来验证我们的策略是否按预期工作，或诊断性能异常。

也许最令人惊讶和深刻的联系是在网络安全领域。调度器如何帮助我们抓住小偷？想象一个为隐身而设计的恶意软件。为了避免触发基于高 CPU 使用率的监控警报，恶意软件可能会故意自我节流。它可能运行一个短促的爆发，然后自愿休眠一段固定的时间。从外部看，它的平均 CPU 使用率看起来很低。但从内部看，操作系统调度器看到了一个独特的、不自然的模式。这种行为在调度器的统计数据中留下了指纹。

一个正常的 CPU 密集型进程通常在其时间片结束时被调度器抢占；这是一个非自愿的上下文切换。然而，自我节流的恶意软件会让自己进入休眠，导致自愿的上下文切换。自愿与非自愿切换的高比率是一个危险信号。
如果恶意软件使用周期性休眠，它将以固定的间隔被内核计时器唤醒。高频率的基于计时器的唤醒，每次唤醒后只有少量的 CPU 执行，是另一个强烈的特征。
如果恶意软件使用 cgroup 来限制自己，节流统计数据将会亮起，显示该进程持续达到资源限制。

我们用于性能调优的计数器本身就成了法证工具。恶意软件在试图躲避简单阈值时，却在更深层次、更基本的模式分析中暴露了自己。调度器在其无情和公正地应用规则时，提供了异常现象得以凸显的基线。

一种公平的通用语言

我们的旅程向我们展示了完全公平调度器远不止是一段巧妙的代码。体现在虚拟运行时间简单算术中的公平原则，为描述、控制和推理极其复杂的系统行为提供了一种通用语言。它允许我们表达高层策略、保证稳定性、调优性能、构建虚拟世界，甚至揭露威胁。它证明了一个单一、优雅的思想在为混乱、竞争的计算世界带来秩序和正义方面的强大力量。