混合临界度调度

玻尔百科

关键要点

混合临界度调度通过为任务分配多个最坏情况执行时间 (WCET)，每个 WCET 对应不同的保证级别，从而解决安全性与效率之间的矛盾。
系统在高效的“LO 模式”下运行所有任务，但在检测到超时后会切换到安全的“HI 模式”，在该模式下，低临界度任务将被丢弃。
在模式切换期间牺牲低临界度任务，是释放处理器资源以保证高临界度任务截止时间的数学必然。
该模型的有效性通过严格的可调度性分析来保证，这种分析提供了数学证明，确保所有关键功能即使在最坏情况下也能满足其截止时间。
这种调度哲学对于设计自动驾驶汽车和飞机等复杂系统至关重要，它能在保护安全关键核心的同时实现优雅降级。

引言

现代工程系统，从飞机、汽车到医疗设备，都面临一个根本性的设计困境：它们既必须在绝对最坏情况下表现出可验证的安全性，又必须在日常运行中具备经济效益。为一个百万年一遇的灾难进行设计，可能会导致系统成本过高、过度设计；然而，当生命攸关时，忽视这种可能性又绝非选项。这在系统设计中造成了一个巨大的知识鸿沟，安全认证的要求与实际效率的需求似乎直接冲突。

混合临界度调度正是对这一难题的优雅而形式化的回答。它提供了一个理论框架，用于构建能够动态调整自身行为的系统，既能在正常条件下提供全部功能，又能在面临意外事件时保证关键功能的存续。本文旨在揭开这一强大概念的神秘面纱。第一章“原理与机制”将剖析其核心理论，解释时间的双重视角、运行模式以及提供信心的数学证明。随后的“应用与跨学科联系”将阐述这些抽象原理如何在现实世界中得到应用，从无人机控制器、汽车网络到设计自动驾驶汽车这一复杂挑战。

原理与机制

想象一下，你是一位负责建造桥梁的工程师。地震学家给了你两份报告。第一份报告基于广泛的历史数据和地质调查，指出在桥梁的生命周期内，你能实际预期的最强地震是 7.0 级。第二份报告来自一个为附近关键设施进行“绝对最坏情况”思考的团队，该报告称，如果一条特定的、未探明的断层线以百万年一遇的构型破裂，理论上可能产生 9.0 级地震。

你该怎么办？为 7.0 级地震建造的桥梁经济实惠，并且对于所有可预见的事件都是安全的。而为 9.0 级地震建造的桥梁则需要如此之多的钢筋和混凝土，以至于其成本将是天文数字，甚至可能高到无法承受。但如果你只为 7.0 级地震建造，那百万分之一的机会发生时又该怎么办？这正是信息物理系统（从飞机、汽车到医疗设备和电网）设计师所面临的核心困境。他们必须在可证明的安全性和经济效率之间取得平衡。混合临界度调度正是对这一难题的优美而巧妙的回答。

两种时间观：乐观主义者与悲观主义者

混合临界度理论的核心洞见在于，它正式承认我们生活在一个信心程度各不相同的世界里。我们不再为软件任务分配一个单一、笼统的“最坏情况”执行时间（WCET），而是为其分配多个 WCET，每个 WCET 对应不同的保证级别或临界度。

对于一个简单的双临界度系统，我们有两个级别：LO（低）和 HI（高）。

LO 视角 ( $C^{\text{LO}}$ )：这是乐观主义者的最坏情况。这是一个通过大量测试、性能分析和较不保守的分析得出的时间预算。我们有极高的信心——比如 $99.999\%$ ——任务将在其 $C^{\text{LO}}$ 时间内完成。在我们的桥梁类比中，这就是 7.0 级地震。我们预期这将是我们所能见到的极限。
HI 视角 ( $C^{\text{HI}}$ )：这是悲观主义者，或者说是安全认证机构的最坏情况。要获得像美国联邦航空管理局（FAA，依据 DO-178C 标准）或汽车标准机构（依据 ISO 26262 标准）这样的权威机构的批准印章，你必须以极高的信心水平证明安全性。这需要使用高度保守的静态分析工具，这些工具会考虑到各种罕见的、最坏中的最坏情况：未预见的处理器流水线状态、在完美风暴中发生的缓存未命中、宇宙射线翻转比特位，以及机器中的其他小问题。因此，这个经过认证的 WCET，即 $C^{\text{HI}}$ ，几乎总是会大于实际的 $C^{\text{LO}}$ 。

这为我们提供了混合临界度 WCET 的基本原则：对于任何给定的高临界度任务，其执行时间预算是单调的。

$C^{\text{HI}} \ge C^{\text{LO}}$

这不是一个随意的规则，而是一个逻辑上的必然。正如在形式化模型中精妙地阐述的那样，为 HI 级别分析所考虑的可能系统情境集合是为 LO 级别分析所考虑情境的超集。为了获得更高的确定性，你必须想象更多可能出错的事情。在一个更大可能性集合中的最坏情况，永远不可能小于其子集中的最坏情况。

调度器的社会契约：双模式的故事

那么，调度器如何利用这两种不同的时间观呢？它与任务之间创建了一份“社会契约”，这份契约包含两个截然不同的条款，对应两种运行模式。

LO 模式：晴天场景

系统以 LO 模式 启动。此处的契约基于效率和乐观主义。调度器承诺运行所有任务——既包括 HI 临界度的飞行控制系统，也包括 LO 临界度的客舱娱乐系统——并确保它们都能满足各自的截止时间。然而，这个承诺附带一个关键条件：它仅在每个任务都如预期般运行，并在其乐观的 $C^{\text{LO}}$ 时间预算内完成工作时有效。这使得系统能够高度利用并保持高效，同时运行许多功能，因为我们赌的是那个百万年一遇的地震今天不会发生。

触发器：警钟敲响

系统不仅仅是寄希望于最好的情况，它也为最坏的情况做好了计划。它持续监控自身的行为。具体来说，调度器跟踪每个正在运行的 HI 临界度任务的执行时间。一旦这些关键任务中的任何一个执行时间超过了其 $C^{\text{LO}}$ 预算但尚未完成工作，警钟就会敲响。这就是超时事件 (overrun event)。

这不是系统故障，而是一种预先计划好的应急措施。系统已经检测到，世界的行为并不像它所希望的那样乐观。7.0 级地震的强度已被超越，我们现在必须为 9.0 级地震做准备。调度器的契约必须改变，而且必须立即改变，以免错过任何截止时间。

HI 模式：应急协议

系统转换到 HI 模式。此时的社会契约发生了根本性的变化。调度器唯一且最高的优先级是保证 HI 临界度任务的存续。对 LO 临界度任务的承诺被撤销。它们被毫不客气地丢弃、暂停或降级。客舱娱乐系统可能会冻结，但飞行控制系统必须继续运行。

在此模式下，调度器向 HI 临界度任务做出新的承诺：“你们现在可以使用你们完整的、悲观的 $C^{\text{HI}}$ 预算，我仍然保证你们能满足截止时间。”通过卸载 LO 临界度的工作负载，调度器释放了必要的处理器时间，以适应关键任务增加的需求，从而确保整个系统的安全。

生存的算术：为何牺牲不可避免

丢弃 LO 临界度任务可能看起来很残酷，但这通常是一个简单且不可避免的算术问题。让我们通过一个具体的例子来看看为什么这种牺牲不是一种选择，而是一种数学上的必然。

想象一个单处理器正在为一个机器人装配线运行四个任务。我们使用利用率来衡量处理器的“繁忙程度”，即任务需要处理器的时间分数（其执行时间除以其周期）。单个处理器的总利用率不能超过 $1$ ，即 100%。

假设我们的任务是：

HI 任务 $\tau_1$ ：LO-利用率 $u_1^{\text{LO}} = 0.25$ ，HI-利用率 $u_1^{\text{HI}} = 0.45$ 。
HI 任务 $\tau_2$ ：LO-利用率 $u_2^{\text{LO}} = 0.24$ ，HI-利用率 $u_2^{\text{HI}} = 0.40$ 。
LO 任务 $\tau_3$ ：LO-利用率 $u_3^{\text{LO}} = 0.20$ 。
LO 任务 $\tau_4$ ：LO-利用率 $u_4^{\text{LO}} = 0.15$ 。

在 LO 模式下，总利用率是所有 LO-利用率的总和： $U_{\text{total}}^{\text{LO}} = 0.25 + 0.24 + 0.20 + 0.15 = 0.84$ 由于 $0.84 \le 1$ ，所有任务都能容纳。处理器 84% 的时间是繁忙的，所有四个任务都能满足其截止时间。

现在，假设 $\tau_1$ 超出了其 LO 预算，触发了向 HI 模式的切换。HI 任务现在需要它们的 HI 预算。如果我们试图继续运行 LO 任务会发生什么？新的总利用率将是： $U_{\text{what-if}}^{\text{HI}} = (\text{HI tasks at } u^{\text{HI}}) + (\text{LO tasks at } u^{\text{LO}}) = (0.45 + 0.40) + (0.20 + 0.15) = 0.85 + 0.35 = 1.20$

$1.20$ 的利用率意味着任务需要处理器 120% 的时间。这在物理上是不可能的。这就像试图将 1.2 升的水倒入一个 1 升的瓶子里——水必然会溢出。在我们的例子中，“溢出”就是错过截止时间。为了防止这种情况，调度器必须丢弃 LO 任务。此时利用率变为： $U_{\text{actual}}^{\text{HI}} = u_1^{\text{HI}} + u_2^{\text{HI}} = 0.45 + 0.40 = 0.85$ 由于 $0.85 \le 1$ ，关键任务现在是安全的。这种牺牲在数学上是保证可调度性的必要之举。

更大的舞台：多核的挑战

现代系统很少只有一个处理器；它们拥有多个核心。这为问题增添了另一层复杂性与美感。我们如何在（比如说）两个核心上调度我们的任务？主要有两种哲学。

分区调度：这是一种简单的方法。在系统启动之前，我们就将每个任务分配给一个特定的处理器，并且它永远待在那里。任务 $\tau_1$ 分配给核心 1， $\tau_2$ 分配给核心 2，依此类推。这就像在装配线上为工人分配固定的工位。
全局调度：这是一种灵活的方法。任何任务都可以在任何可用的核心上运行。有一个单一的就绪任务队列，调度器选择最紧急的任务在可用的核心上运行。这就像有一个工人池，他们可以移动到任何需要帮助的工位。

分区调度看起来更简单，并且避免了在核心之间移动任务的开销。但模式切换可能会暴露其隐藏的脆弱性。考虑一个双处理器系统（ $m=2$ ），我们已经将 HI 任务分区到核心 1，LO 任务分区到核心 2。在 LO 模式下，两个核心可能都在 100% 的利用率下愉快地运行。但是当模式切换发生时，会产生灾难性的不平衡。核心 2 上的所有 LO 任务都被丢弃，其利用率骤降至 0%。与此同时，在核心 1 上，HI 任务要求它们的 $C^{\text{HI}}$ 预算，它们的总利用率可能会飙升至（比如说）140%。核心 1 过载并失效，而核心 2 则完全闲置。尽管整个系统在两个核心上的总计算能力足以处理 HI 模式的工作负载，系统还是失败了。

全局调度通过允许任务迁移，有可能挽救局面。它可以将一些工作从过载的核心 1 移至现在闲置的核心 2，从而平衡负载并维持系统运行。这揭示了系统设计中一个深刻的权衡：静态分区的简单性与动态全局调度的稳健灵活性。

证明的承诺：复杂世界中的信心

这些原理和机制不仅仅是巧妙的启发式方法；它们有严格的数学证明作为支撑。一个完整的研究领域致力于为混合临界度系统开发可调度性分析技术。这些是算法，它们以一个任务集和一个调度策略作为输入，并对“这个系统能保证安全吗？”这个问题给出一个明确的“是”或“否”的答案。

例如，使用一种称为响应时间分析 (RTA) 的技术，我们可以计算一个任务完成所需的最坏情况绝对时间，其中考虑了其自身的执行时间以及来自更高优先级任务的所有可能干扰。分析分两个阶段进行：

LO-模式分析：证明在假设 $C^{\text{LO}}$ 预算的情况下，每个任务的最坏情况响应时间都小于其截止时间。
HI-模式分析：证明在假设 HI 任务使用 $C^{\text{HI}}$ 预算的情况下，每个 HI-临界度任务的最坏情况响应时间仍然小于其截止时间，即使考虑到模式切换本身的混乱情况。这个证明之所以能够成功，是因为来自所有 LO-临界度任务的干扰已经被消除了。

这种提供形式化、数学证明的能力是最终目标。它将我们对系统的信心从基于测试的感觉转变为基于逻辑的确定性。这就是我们建造那座既能在日常使用中经济实惠，又能在百万年一遇的事件中被证明足够坚固的桥梁的方法。

应用与跨学科联系

我们花了一些时间探讨混合临界度调度的巧妙规则与机制——那场优先级与预算的优雅舞蹈，使得一个系统能够兼具效率与安全。但这些并不仅仅是在白板上进行的抽象游戏。这些原理在我们这个世界最关键、最先进的技术中得以实现。在这里，调度理论的数学之美与物理现实的严苛要求相遇。现在，让我们踏上一段旅程，看看这些理论是如何付诸实践的。

问题的核心：代码与物理的对话

想象一下，你正在为一架高性能无人机设计控制器。无人机的稳定性取决于每秒对其螺旋桨进行数千次的微小调整。你的控制算法在小小的处理器上运行，计算这些调整量。现在，控制理论——这门让系统按我们意愿行事的科学——给了我们一个关键数字：最大容许延迟。如果一个驱动指令晚于这个截止时间到达，无人机可能不仅仅是摇晃一下，它可能会变得不稳定并从空中坠落。这个截止时间是由物理学决定的硬性法则。

我们的调度理论正是在这里加入了对话。控制器并非处理器上唯一的任务。可能还有一个处理视频压缩的低优先级任务，以及一个监控电池电量的、安全关键的高优先级任务。控制器任务可能会被抢占。实时系统理论给了我们另一个关键数字：最坏情况响应时间（ $R$ ），即从控制器计算出调整量到该指令最终发出的最长可能时间。因此，安全就是这样一个简单、优美而严格的不等式：来自计算机科学的最坏情况响应时间，必须小于来自控制理论的最大容许延迟。

混合临界度调度提供了严格执行此不等式的工具。我们可以设计系统，使其在正常的“低临界度”模式下，所有任务都能愉快运行。但如果发生关键事件——比如说，电池监控任务为处理突然的电压下降而需要比预期更多的处理时间——系统就会进入“高临界度”模式。视频压缩任务会立即被丢弃，从而保证处理器的全部注意力都可用于关键任务。我们可以计算出这种最坏情况下的响应时间 $R^{\text{HI}}$ ，并证明它仍然遵守稳定性的物理定律。

我们甚至可以在计算机内部构建我们无人机的“数字孪生”，在旋转任何一个螺旋桨之前进行测试。这种协同仿真将无人机物理学的数学模型与我们调度器的模型耦合起来。我们可以模拟一次模式切换，并观察增加的驱动延迟如何影响无人机的飞行。它稳定吗？它会振荡吗？振荡幅度有多大？这使我们能够以惊人的保真度分析软件时序与物理稳定性之间错综复杂的舞蹈，从而给予我们信心去构建我们能够信赖的系统。

从单芯片到系统交响乐

当然，现代系统很少是单个芯片。想想一辆现代汽车、一架飞机或一个工厂车间。它们是分布式系统——一个由相互通信的处理器组成的网络。一个单一的动作，比如在汽车中踩下刹车，可能涉及一个处理器上的传感器任务，通过网络发送消息，到另一个处理器上的执行器任务。端到端截止时间现在横跨了这整个链条。

仅仅保证每个部分足够快是不够的；我们必须保证所有延迟的总和——第一个处理器上的计算、网络传输以及第二个处理器上的计算——小于总的端到端截止时间。混合临界度的逻辑必须扩展到单个 CPU 之外。

而它确实做到了！同样地，这些原理现在正通过时间敏感网络 (Time-Sensitive Networking, TSN) 等标准被构建到计算机网络的结构中。想象一个网络交换机正在处理来自我们汽车系统的数据。来自制动控制器的关键数据，如命令，不能被来自信息娱乐系统的一个大的、不重要的数据传输所延迟。使用一种称为时间感知整形器 (Time-Aware Shaper) 的 TSN 机制，我们可以在网络交换机本身上创建一个时间表。在几百微秒的时间里，一个特殊的“门”只为高临界度流量开放。然后，那个门关闭，另一个为低临界度流量的门打开。如果一个大的、低优先级的信息娱乐数据包在其时间用尽时仍在发送，一种称为帧抢占 (Frame Preemption) 的机制允许交换机暂停它，让那个微小的、关键的刹车数据包通过，然后再恢复那个大的数据包。这是我们在 CPU 上看到的抢占式调度的一个优美回响，展示了我们在管理任何共享资源（无论是处理器周期还是网络带宽）的竞争时所采用方法的基本统一性。

现代挑战：多核与有限功耗

随着我们在设备中集成越来越多的智能，处理器本身也变得越来越复杂。我们不再拥有单核芯片；我们拥有多核巨兽。这带来了一个新的难题：如果我们有十几个任务和四个处理器核心，哪个任务应该在哪里运行？这就是*分区问题*。这有点像俄罗斯方块或装箱问题。我们需要巧妙的启发式算法来将任务分配到核心上，以使每个核心的负载均衡，更重要的是，每个核心的任务集合在 LO 和 HI 临界度模式下都是可调度的。例如，我们可能会将我们的高临界度任务从“最重”到“最轻”排序，然后将它们逐一放置到当前负载最轻的核心上，以确保没有单个核心成为瓶颈。

与此同时，我们面临着另一个无情的约束：能源。让处理器运行得更快并不仅仅是多用一点电；而是多用很多电。对于典型的 CMOS 芯片，功耗与频率的立方成正比（ $P \propto f^3$ ）。这意味着将速度加倍可能会耗费八倍的能量！所以，我们希望让我们的处理器尽可能慢地运行，以节省电池寿命或防止过热。

混合临界度为这个节能难题增添了一个引人入胜的维度。我们可以设计一个系统，在正常的 LO 模式下以低功耗、高能效的速度运行。但我们必须时刻准备好切换到 HI 模式，在这种模式下，关键任务可能需要运行得更快以满足其截止时间。挑战变成了一个优化问题：我们如何在严格的能源预算内，为我们的非关键任务提供最佳性能（例如，保持用户界面流畅），并始终保证我们能处理最坏情况？这引出了“优雅降级”的思想，即我们精确计算可以从非必要功能中削减多少，以确保我们的安全关键核心不受侵犯。

完整的交响乐团：自动驾驶汽车

在设计自动驾驶汽车时，所有这些线索汇集得最为生动。这样一辆汽车的“大脑”是一个极其复杂的计算平台，运行着一个由重要性迥异的任务组成的交响乐。

独奏者： 紧急制动控制器。这是一个最高临界度的硬实时任务。其截止时间由物理学决定，不容商榷。
弦乐部分： 运动规划和感知流水线。这些是中等临界度的软实时任务。它们需要快速响应，但偶尔错过一个截止时间可能只会导致乘坐体验不那么平顺，而不是灾难。
背景氛围： 信息娱乐系统和数据记录。这些是最低临界度的尽力而为任务。它们有固然好，但在紧急情况下完全可以牺牲。

这个系统必须管理我们可称之为由安全和任务定义的“外部”优先级，同时也要管理像热限制这样的“内部”优先级。当汽车在炎热天气下行驶，主处理器开始过热时会发生什么？一个内部约束——芯片的温度——即将被违反。系统必须降低其功耗。

一种天真的方法将是灾难性的。简单地节流功耗最高的任务可能意味着减慢感知系统，甚至更糟的是，减慢制动控制器！正是在这里，混合临界度哲学提供了一个优雅而稳健的解决方案：一个降级层次结构。操作系统不会惊慌失措；它遵循一个基于临界度的预定义、有序的计划。

首先，牺牲可有可无的。 信息娱乐系统被禁用。
其次，优雅地降级重要但非至关重要的。 感知系统的帧率从 60 FPS 降至 30 FPS。
然后，降低软实时功能的质量。 运动规划器可能会切换到一个更快但次优的算法。

在整个过程中，紧急制动任务的资源始终神圣不可侵犯。它的预算、它的优先级、它满足硬截止时间的能力从未受到影响。这种分层的、等级化的方法确保了系统从外到内优雅地失效，始终保护其安全关键核心。这是我们所讨论的调度理论的实际体现，通过像带有虚拟截止时间的 EDF (EDF with Virtual Deadlines, 这样预先加载关键工作的巧妙算法，以及提供安全数学证明的严格响应时间分析而成为可能。

因此，混合临界度调度远不止是一种学术上的好奇心。它是构建 21 世纪可靠、高效和安全技术的基础设计哲学——是一座桥梁，让我们能够将数学的抽象确定性转化为汽车在必须刹车时物理上的确定性。