基于管的模型预测控制 (MPC)

玻尔百科

核心要点

基于管的MPC将控制分解为一个在理想世界中运行的最优标称规划器和一个修正现实世界偏差的反射控制器。
它通过确保系统的实际状态保持在预先计算的“管”或围绕规划轨迹的鲁棒正不变集内来保证安全性。
规划器在“收紧”的约束下运行，留出余量以容纳管的大小，从而确保真实系统永远不会违反原始安全限制。
这个通用框架能够鲁棒地处理各种不确定性，从模型失配、执行器故障到网络延迟，并且可以与机器学习集成以实现安全自适应。

引言

在一个充满不可预测性的世界里，我们如何设计系统——从自动驾驶汽车到聚变反应堆——使其不仅能以最优方式运行，还能始终保持绝对安全？挑战在于，当未来被未知的扰动、传感器噪声和模型 inaccuracies 笼罩时，如何做出前瞻性的决策。这种在完美世界中规划与在混乱现实中操作之间的差距，是控制工程中的一个根本问题。基于管的模型预测控制 (MPC) 提供了一种极其优雅而强大的解决方案，为在不确定性面前确保安全性和稳定性提供了一个严谨的框架。它通过一种战略性的分工来实现这一点：将复杂的长期规划任务与简单的、纠正即时错误的反射行为分离开来。

本文探讨了这一深刻控制策略的理论与应用。第一章 “原理与机制” 将解析核心概念，解释控制问题是如何在规划器和反射控制器之间分解的。我们将深入探讨“管”（一个包含所有不确定性的安全气泡）背后的数学原理，并了解这一概念如何通过约束收紧和终端集来实现有保证的安全性。随后，“应用与跨学科联系” 章节将展示基于管的MPC在实践中的通用性。我们将遍览其在容錯控制、机器人学、聚变能源中的应用，并了解它如何与数字孪生、控制屏ň障函数和安全强化学习等现代范式形成共生关系。

原理与机制

想象一下，在一个大风天，你正试图沿着一条狭窄的车道开车。你的目标很简单：始终保持在车道线内。你有一个计划——沿着中心直行。但是，阵风这种不可预测的扰动，不断地将你的车推离轨道。你会怎么做？你不会只是僵硬地将方向盘保持在“直行”位置。相反，你会不断地做出微小、几乎是反射性的修正，以对抗风力，引导汽车回到车道中心。你已经将任务分成了两部分：一个高层次的计划（沿中间行驶）和一个低层次的反射（修正偏差）。

这个在大风中开车的简单行为，捕捉了基于管的模型预测控制 (MPC) 深刻而优雅的精髓。这是一种在不确定性下控制系统的策略，保证它将始终在其安全约束内运行，无论世界给它带来什么意外——只要这些意外不是无限强大的。

双角色策略：规划器与反射控制器

基于管的MPC的核心是对控制问题的美妙分解。任务不再由一个单一、庞大的控制器试图一次性完成所有事情，而是被分配给两个合作的代理，每个代理都有独特的个性。

让我们考虑一个系统，其在时间步 $k$ 的状态 $x_k$ （可以想象成汽车的位置和方向）根据某种动力学演化。我们希望施加一个控制输入 $u_k$ （转向角和加速度）来引导它。不幸的是，总有一个我们无法预测的未知扰动 $w_k$ （阵风），但我们知道其幅度是有界的。我们真实系统的运动方程是：

x_{k+1} = A x_k + B u_k + w_k

我们策略中的第一个角色是规划器。规划器是一个乐观主义者。它在一个完美、理想化的世界——我们系统的“数字孪生”——中运作，那里没有扰动。它的工作是展望未来，并计算一个最优的移动序列，即一个标称轨迹 $z_k$ ，以实现其目标。它使用一个干净、无扰动的世界模型：

z_{k+1} = A z_k + B v_k

在这里， $v_k$ 是规划器计算出的理想或标称控制输入。这就是名称中“模型预测控制”的部分：它预测未来以制定最佳计划。

第二个角色是反射控制器。反射控制器是一个实用主义者。它生活在现实世界中，并观察规划器的理想路径 $z_k$ 与系统实际状态 $x_k$ 之间的差异。这个差异就是误差， $e_k = x_k - z_k$ 。反射控制器的唯一任务就是抵消这个误差。它应用一个简单、快速的修正，该修正与它看到的误差成正比。这个修正动作由一个预先设计的反馈增益矩阵 $K$ 给出：修正量为 $K e_k$ 。

最终实际施加到我们汽车上的控制输入 $u_k$ 是规划器的理想移动和反射控制器的修正之和：

u_k = v_k + K e_k

解耦的魔力

现在，奇妙的事情发生了。让我们看看误差 $e_k$ 是如何随时间演化的。通过将我们的定义代入系统的真实动力学，我们得到了一个关于误差的非常简单的方程：

e_{k+1} = (A + B K) e_k + w_k

花点时间来体会一下这个方程。它告诉我们，误差的演化仅取决于当前的误差和外部扰动。它与规划器的复杂、前瞻性计算完全解耦！规划器可以专注于其宏伟战略（ $z_k, v_k$ ），而不必担心扰动的繁琐细节，而反射控制器则通过 $(A+BK)e_k$ 项，完全专注于抑制误差。

魔力在于增益 $K$ 的设计。我们一次性离线选择 $K$ ，使得矩阵 $(A+BK)$ 是Schur稳定的。简单来说，这意味着如果扰动突然停止（ $w_k = 0$ ），任何现有的误差都会随着时间的推移自然地收缩到零。反射控制器天生就被设计成一种稳定力量。 $K$ 的选择并非任意；一个“更强”的稳定增益（即能使 $(A+BK)$ 的动力学更快，或其范数更小）在抑制扰动方面会更有效，这一点我们稍后会回到。

安全气泡：鲁棒不变管

所以，我们的反射控制器总是在试图缩小误差，但扰动 $w_k$ 却总是在试图将其推离轨道。最终结果是什么？误差会无限增长吗？不会。因为 $(A+BK)$ 的稳定作用是一种收缩，而扰动 $w_k$ 是有界的，所以误差将被限制在标称轨迹周围的一个有限区域内。

这个区域被称为鲁棒正不变 (RPI) 集，我们可以将其想象为一个“管”或“安全气泡”，用 $\mathcal{E}$ 表示。这个集合有一个至关重要的特性：如果在任何时间点误差 $e_k$ 在这个气泡内部，那么无论系统受到哪种可能的扰动，明天的误差 $e_{k+1}$ 都保证会留在气泡内部。

想象一个碗里的弹珠。碗的形状被设计成让弹珠滚向中心（这就是 $A+BK$ 的稳定性）。扰动就像有人轻轻地摇晃碗。弹珠会四處滚动，但它永远不会飞出碗外。这个碗本身就是 RPI 集。

这个集合 $\mathcal{E}$ 是可以计算的。它本质上是所有未来可能扰动的总和，每个扰动都根据稳定的反射控制器随时间将其缩小的程度进行了折算。对于一个简单的标量系统，其半径 $s$ 由一个优美简洁的公式给出：

s = \frac{\bar{w}}{1 - |A+BK|}

其中 $\bar{w}$ 是可能的最大扰动幅度。这个公式揭示了固有的权衡：更小的扰动（ $\bar{w}$ ）或更激进的反射控制器（一个更小的 $|A+BK|$ 值）会导致一个更小、更紧凑的安全气泡。[@problem_to_be_added:4252574]

审慎规划：约束收紧的艺术

现在我们有了保证：真实状态 $x_k$ 将始终位于围绕标称路径 $z_k$ 的管 $\mathcal{E}$ 内。这是确保安全的最后一块拼图。

规划器必须意识到这个管的存在。如果原始的状态约束是，比如说，由 $\|x\|_{\infty} \leq 1$ 定义的一个方框，规划器就不能天真地规划一条直达这个方框边缘的路径 $z_k$ 。如果它这么做了，任何微小的误差 $e_k$ 都可能将真实状态 $x_k = z_k + e_k$ 推到方框之外，从而违反我们的安全约束。

为了安全起见，规划器必须在一个更小的、“收紧”的约束集内操作。要小多少呢？精确地是管的大小。这种从一个集合中“减去”另一个集合的操作称为Pontryagin差分，用 $\ominus$ 表示。规划器收紧后的状态约束集是 $\mathcal{X}_{\text{tight}} = \mathcal{X} \ominus \mathcal{E}$ ，其收紧后的输入约束集是 $\mathcal{U}_{\text{tight}} = \mathcal{U} \ominus K\mathcal{E}$ 。

这个几何概念非常直观。如果你原来的约束集 $\mathcal{X}$ 是一个边长为2的方框，而你的误差管 $\mathcal{E}$ 是一个边长为0.4的较小方框，那么规划器必须遵守的收紧集 $\mathcal{X} \ominus \mathcal{E}$ 就是一个边长为 $2 - 0.4 = 1.6$ 的方框。规划器必须在所有边上留出0.2的余量，以容纳任何可能的误差。通过在这些更保守的边界内解决其优化问题，规划器确保了真实系统，连同它的管，将始终遵守原始的安全限制。

确保长远：终局策略

一个短视的计划，即使是安全的，也可能导致麻烦。规划器的有限视界可能以系统处于一个不稳定的状态告终，一个难以在下一个时间步找到可行计划的“角落”。这就是递归可行性问题。

解决方案是给规划器一个强制性的“终局策略”。MPC问题的 formulation 要求其规划轨迹的最终状态 $z_N$ 必须落入一个称为终端集 $\mathcal{X}_f$ 的特殊区域。这个集合是一个“安全港”，具有两个关键特性：

不变性： 一旦进入 $\mathcal{X}_f$ ，简单的反射控制器（ $u=Kx$ ）就足以使系统永远保持在 $\mathcal{X}_f$ 内部，而不会违反任何收紧的约束。
Lyapunov递减： 与该集合相关的是一个终端成本 $V_f(x)$ ，它量化了从港内任何一点出发的“未来成本”。这个成本函数被设计成当系统在港内向其目标移动时严格递减。

通过强制计划在这个预先验证的安全区域内结束，我们提供了一个证书，证明从那时起将存在一条可行的路径。这不仅保证了递归可行性，而且还证明了整个系统是稳定的。MPC计划的总成本充当了一个Lyapunov函数——一个类似于总能量的数学概念——它保证在每一步都会减少，从而可控地将系统驱动到其期望状态。

管的统一力量

这种将问题分解为一个标称计划和一个包围误差管的框架，是极其强大和通用的。

如果系统是非线性的怎么办？ 我们仍然可以应用这个思想。我们对误差动力学进行线性化，并将剩余的非线性项视为一个额外的、与状态相关的扰动。通过找到这个“扰动”的界限，我们可以扩大我们的管以包含其影响，从而保留保证。
如果我们通过有延迟和丢包的Wi-Fi网络控制一个机器人怎么办？ 延迟意味着我们的反射控制器是基于过时的误差信息进行操作的。预测误差和实际误差之间的这种不匹配，成为系统的又一个扰动。但我们可以对其进行界定！通过描述最大延迟和丢包数量，我们可以计算出这个新不确定性的大小，并再次扩大我们的管以鲁棒地包含它。

在所有这些情况下，核心原则都熠熠生辉。它教我们通过将一个极其困难的问题分解为一个确定性的最优计划和一个鲁棒地包含所有不确定性（无论其来源如何）的“管”，来管理复杂性，而不是试图一次性解决所有问题。这是主动规划和被动反馈的美妙结合，为在不可预测的世界中导航提供了一种严谨而优雅的方式。

应用与跨学科联系

在遍历了基于管的模型预测控制的原理与机制之后，我们现在来到了探索中最激动人心的部分：见证这个美妙思想在现实世界中的应用。如果说上一章是关于理解工具，那么这一章就是关于欣赏我们能用这些工具建造的精巧之物。如同任何深刻的科学概念一样，管MPC的力量并不局限于单一领域；它是一个统一的原则，回响在工程、物理、计算乃至生物学等多个学科。它为在未知面前做出智能、前瞻性的决策提供了一种语言。

您会记得，其核心思想是一种 delightfully 战略性的思维。我们不是试图预测一个受不可预测扰动冲击的系统的确切未来，而是在一个标称的、理想化的路径周围创建一个“管”——一个确定性的走廊。我们知道系统的真实状态会在这条管内的某处游荡。只需让这条管足够窄，以完全容纳在安全操作的边界之内，我们就能获得一个强有力的保证：无论出现何种扰动（只要它们在其已知范围内），我们的系统都将保持安全。让我们看看这个优雅的策略如何在各种令人惊叹的应用中展开。

稳定的守护者：核心工程应用

在其核心，管MPC是一种实现鲁棒性的 master 策略，这一点在工程的细节之处尤为关键。

压力下的优雅：容錯控制

想象一下你正在设计一艘航天器。它的推进器应该提供一定的推力，但如果其中一个由于磨损而比规定值稍弱，会怎么样？这种与理想状态的偏差，本质上就是一种故障。一个不够复杂的控制器可能会因此失常，导致不稳定的轨迹。

然而，管MPC以其非凡的优雅处理了这种情况。它可以被设计成将这种执行器故障视为另一种形式的有界扰动。来自故障推进器的“缺失”推力被归入整体扰动模型中，与外力和传感器噪声并列。然后，控制系统计算出一个足够大的管，以包含这种组合不确定性的影响。标称控制器引导航天器，而辅助反馈控制器则不懈地工作，以保持实际状态接近标称路径，有效地吸收了来自故障的“意外”。系统保持稳定并按航线行进，展现出一种真正智能设计所特有的韧性。

不可动摇的路径：机器人学与信息物理系统

考虑一辆自动驾驶汽车或一架送货无人机在复杂环境中导航。计划是标称轨迹 $z_k$ 。但世界充满了扰动：一阵风、路面的一次意外颠簸、GPS读数的轻微误差。管 $\mathcal{E}$ 是无人机的个人安全气泡。通过确保规划的标称路径 $z_k$ 使其整个管 $z_k \oplus \mathcal{E}$ 都避开障碍物，我们可以保证无碰撞导航。

这个概念是现代信息物理系统 (CPS) 及其数字孪生范式的核心。数字孪生是物理资产的高保真实时仿真，它与现实世界数据并行运行并不断更新。当故障或大的扰动使物理系统偏离其计划路线时，数字孪生可以使用管MPC快速计算出安全的恢复 maneuvers。它规划一条新的标称轨迹，将系统引导回期望的操作区域。管的天才之处在于它保证了实际系统将到达目标区域，而不仅仅是理想化的标称计划，因为它考虑了在恢复过程中可能发生的所有扰动。这就是我们如何构建不仅在一切完美时工作，而且在出现问题时能够可靠恢复的系统。

驾驭复杂性：使用简化模型进行控制

许多现实世界的系统，如锂离子电池内部复杂的电化学过程或化学反应器中的流体动力学，其完美建模是令人望而生畏的复杂。为了实时控制它们，工程师们通常使用一个更简单的降阶模型 (ROM)。但是我们如何能信任一个基于简化的控制器呢？

管MPC提供了完美的数学桥梁。真实的、全阶系统与我们简化的ROM之间的差异被视为一种“模型不确定性”，我们可以对其进行界定。这种不确定性成为管必须包含的另一个“扰动”。控制器是围绕简单的ROM设计的，使其计算速度快，但管的大小是经过计算以严格考虑ROM所忽略的所有动力学。因此，我们可以使用一个简单的模型来控制一个复杂的现实，而无需牺牲我们对安全性和稳定性的保证。

跨越学科：物理、计算与生物学的交汇

管MPC的原则是如此基础，以至于它们超越了传统工程学，为一些最宏大的科学挑战提供了见解。

驾驭恒星：聚变能源的控制

在旨在实现核聚变的托卡马克裝置中，超高温等离子体由强大的磁场约束。保持这种等离子体的稳定性是一项巨大的挑战。一个关键参数是“安全因子”分布，必须仔细塑造以防止可能损坏机器的劇烈不稳定性。等离子体中一个特定表面，即 $q=1$ 表面的位置，是稳定性的关键指标。

科学家们可以使用定向微波束来控制这个位置，但是等离子体的响应受到其局部电阻率的影响——这是一个永远无法完美确知的属性。这个基本物理参数的不确定性，对系统来说就像一个扰动。在一个将控制理论应用于前沿物理学的惊人应用中，管MPC可以用来设计一个控制器，尽管电阻率存在未知变化，仍能将 $q=1$ 表面保持在其安全走廊内。控制器为该表面的位置规划一条标称路径，而管的大小则由电阻率不确定性的最坏情况效应决定。这是一个美丽的例子，说明了抽象的控制概念如何能为 monumental 的科学探索提供使能技术。

数字孪生：学习与控制的共生之舞

管MPC与数字孪生之间的关系是深刻而共生的。正如我们所见，数字孪生可以提供构建管所需的实时不确定性界限。“约束收紧”的过程正是将这种不确定性信息直接转化为标称规划器的安全操作包络。

但这场舞蹈并未就此停止。一个真正先进的数字孪生会学习。利用贝叶斯滤波或机器学习等技术，它在收集更多数据的同时不断完善其对物理系统的模型。例如，它可能对系统参数的真实值变得越来越确定，比如我们托卡马克中的等离子体电阻率或无人机的空气动力学系数。随着数字孪生信心的增长，其对模型的不确定性界限会收缩。

这个新的、更小的不确定性集被反馈给管MPC控制器。然后控制器可以重新计算一个更小、更紧凑的管。更小的管意味着从约束中“后退”得更少，给予标称规划器更多的操纵空间，以寻找更高效、更高性能的解决方案 [@problemid:4252519]。这创造了一个良性循环：更好的数据导致更好的模型，更好的模型导致更小的管，更小的管导致更好的控制，而更好的控制又可以用来收集更好的数据。这是数据驱动学习与基于模型的保证的完美结合。

众声交响：网络化系统的分布式控制

当我们面对的不是一个，而是许多相互作用的系统时——一个电网、一个无人机群或一个化工厂网络——会发生什么？一个单一的、集中式的控制器会成为瓶颈。管MPC的哲学可以被优美地去中心化，创造出一种“众声交响”。

在这种方案中，每个子系统运行自己的本地管MPC。每个子系统都有自己的标称计划和自己的误差管。然而，这些系统是耦合的；一个系统的行为和误差会影响其邻居。解决方案是优雅的：每个子系统将其邻居的潜在误差视为一个额外的扰动源。它向其邻居查询它們的计划标称轨迹及其误差管的大小。然后，它计算自己的管，使其足够大，不仅能包含自己的局部扰动，还能包含来自邻居管的“溢出”效应。这需要一定程度的合作和系统范围内的一致性（通常通过“小增益”条件来验证，确保误差效应不会在网络中不受控制地放大），但它允许一个完全分布式、可扩展且鲁棒的控制架构。

智能控制的前沿

最后，管MPC提供了一个框架，用于解决控制领域中一些最先进的问题，这些问题处于安全、自适应和人工智能的交叉点。

终极安全网：控制屏障函数

控制屏障函数 (CBFs) 是强制执行安全的强大工具。你可以将CBF想象成定义了一个数学“力场”，将系统推离不安全区域。一个标准的CBF条件确保，对于安全集边界上的任何状态，控制输入都将引导系统的速度向内。但在有不可预测扰动的系统中会发生什么？一阵突然的噪声可能会将状态推过屏障，从而违反安全。

管MPC提供了鲁棒的解决方案。我们不是对真实的、不可预测的状态 $x_k$ 强制执行CBF条件，而是对标称状态 $z_k$ 强制执行一个收紧的版本。这个“收紧”的余量 $\tau_i$ 是根据管的大小精确计算出来的。它代表了管内任何扰动可能提供的朝向边界的最坏情况下的推力。通过迫使标称状态与屏障保持这个额外的距离，我们保证了在管内游荡的真实状态永远不会越过安全边界。管充当了CBF力场的终极安全网。

控制的变色龙：适应变化的世界

许多系统不仅是不确定的，它们还在变化。车辆的动力学随其有效载荷而变，飞机的动力学随其速度和高度而变。此类系统通常被建模为线性参数变化 (LPV) 系统，其中矩阵 $A$ 和 $B$ 取决于一个可测量的、时变的参数 $\rho_k$ 。管MPC可以被设计成无缝适应这种变化。辅助反馈增益不再是一个固定的矩阵 $K$ ，而是一个由参数“调度”的函数 $K(\rho_k)$ 。在每一刻，控制器都会根据系统的当前操作模式调整其反馈动作，从而在广泛的条件下实现鲁棒的性能。

有守护天使的学习：安全强化学习

也许最激动人心的前沿是管MPC与强化学习 (RL) 的结合。RL在从数据中发现高度复杂和最优的控制策略方面拥有巨大潜力。然而，在医学或自动驾驶等安全关键应用中，学习的试错性质可能是危险的。一个RL代理可能会尝试一个看似有前途但会导致灾难性失败的动作。

在这里，管MPC可以扮演“守护天使”或“安全护盾”的角色。我们可以让RL代理学习并提出改进建议——例如，它可能会学习一个更精确的生理系统扰动模型，或者一个更好地逼近真实长期价值的终端成本函数。然而，这些建议不会被盲目采纳。它们被传递到一个基于管MPC的屏蔽层。该护盾根据其严谨的、最坏情况下的数学模型来验证这些建议。例如，它可能只在将学习到的扰动模型 $\widehat{\mathcal{W}}$ 放大以确保其包含原始的、保证安全的集合 $\mathcal{W}$ 之后，才接受它。它只有在可以证明学习到的终端成本函数是一个保证稳定性的有效控制Lyapunov函数时，才会接受它。

RL代理可以自由地进行创造性优化以提升性能，但管MPC框架作为安全的不可侵犯的保证者。这种强大的组合让我们能够两全其美：数据驱动AI的性能和自适应性，以及鲁棒控制理论的铁甲安全保证。

从其为一系列可能性而非单一未来进行规划的简单 premise 出发，我们看到基于管的MPC远不止是一个聪明的算法。它是一种鲁棒行动的哲学，一种统一不同领域的语言，以及构建未来安全、智能和 resilient 系统的基石。