鲁棒模型预测控制

玻尔百科

核心要点

鲁棒MPC通过保证系统在模型不确定性和外部扰动存在的情况下仍能遵守约束，解决了标准MPC可能失效的问题。
其核心策略是使用不变集作为“安全区域”，并施加终端约束，以确保控制器总能找到一个有效的未来规划。
基于管的MPC提供了一种实用方法，即为带有收紧约束的标称系统进行规划，为最坏情况下的误差留出“管”状空间。
鲁棒MPC的应用范围广泛，从工程学和机器人学到复杂的网络化系统、数据驱动学习以及生物细胞编程。

引言

在理想世界中，控制一个系统或许就像一次性计算出最优路径并沿其行进一样简单。然而，现实世界充满了不可预测性——从意料之外的外力、带噪声的传感器，到我们数学模型中固有的不完美性。这种理想化模型与复杂现实之间的差距，对模型预测控制（MPC）等控制策略构成了重大挑战，因为当不确定性将系统推向其运行极限之外时，MPC可能会灾难性地失效。我们如何才能设计出不仅最优，而且在面对未知时具有韧性并能保证安全的控制器呢？

本文将深入探讨鲁棒模型预测控制这一强大框架，它是一种为回答上述问题而设计的精密方法。在第一章“原理与机制”中，我们将剖析提供这种鲁棒性的核心概念，探索不变集、最小-最大优化以及优雅的“基于管”的方法等思想如何将对不确定性的悲观视角转化为对安全性和稳定性的形式化保证。随后，在“应用与跨学科联系”中，我们将超越理论，见证这些原理如何应用于解决从工程学和机器人学到网络化系统乃至合成生物学这一革命性前沿等多个领域的实际问题。

原理与机制

想象一下，你正沿着蜿蜒的山路驾车。你不会在旅程开始时只看一次地图，记住整个转弯序列，然后就闭上眼睛开车。那太疯狂了！相反，你会不断地向前看，预测未来几秒钟的道路弯曲情况，调整方向盘和速度，然后一遍又一遍地重复这个过程。这种简单、直观的向前看并重新规划的行为，正是模型预测控制（MPC）的精髓所在。

重新规划的力量：反馈作为第一道防线

其核心在于，MPC是一种重复优化的策略。在每一时刻，控制器都会观察系统的当前状态——例如你汽车的位置和速度——并求解一个有限时域最优控制问题。它计算在未来一小段时间（即预测时域）内的最佳动作序列（转向、加速），以便在遵循道路的同时，比如说，最小化燃油消耗。但关键在于：它只执行该最优规划的第一步。片刻之后，它会丢弃规划的其余部分，重新审视世界，并从新的起点计算一个全新的规划。

这种“滚动时域”策略将一个本可能僵化、预先确定的计划，转变为一种动态、响应式的状态反馈法则。任何时刻的控制动作都是当前测量状态的函数。这种持续的重新评估提供了一种内在而强大的反馈机制。如果一阵突风将你的车稍微吹离了理想路线，你不会固守那个已经过时的旧计划。在下一瞬间，你的控制器会看到新的位置，并计算出一个新的计划，将车带回正轨。这种纠正行为并非事后弥补，而是融入了MPC循环的本质结构中。

不确定性的幽灵与约束的危险

这种内置的反馈是对抗现实世界不可预测性的绝佳第一道防线。我们对系统的数学模型总是不完美的——存在被控对象-模型失配——而且世界充满了未建模的力，即扰动。简单的MPC以非凡的优雅处理这些微小的偏差。

但如果偏差很大，或者你正非常靠近悬崖边缘行驶呢？悬崖边缘代表一个状态约束——一个你绝不能越过的边界。你的方向盘只能转动那么多，你的引擎也有最大功率——这些是输入约束。现在，简单的反馈循环面临着一个深远的危险。一个扰动可能会将你推入一个任何可能计划都无法阻止未来违反约束的状态。如果你离悬崖边缘太近，再怎么转向也救不了你。优化问题变得不可行。控制器由于找不到安全的计划，便会直接失效。

这就是递归可行性问题：我们如何保证，如果现在能找到一个安全规划，那么在下一步、再下一步，乃至永远，我们都能找到一个安全规划？。

保障未来：不变集的庇护所

为了解决这个问题，控制科学家们发明了一个极为优雅的概念：终端约束与不变集相结合。把它想象成你地图上一个指定的“安全港”。MPC控制器被赋予一条额外的指令：“无论你制定什么计划，其最终预测步必须落在这个预先定义的安全区域 $\mathcal{X}_f$ 内。”

这个区域有何特别之处？它就是所谓的控制不变集。这意味着，对于这个安全港内的任何状态，我们都预先计算过，总会存在一个有效的控制动作，能使系统在下一步仍然保持在港内。集合 $\mathcal{X}_f$ 是一个能保证永久安全的区域。

通过强制预测轨迹终结于这个庇护所，我们构建了一条保证递归可行性的逻辑链。当控制器在时间上向前推进一步时，它可以通过简单地取其旧计划的尾部，并附加上来自不变集的已知安全操作，来构造一个新的候选计划。既然至少存在一个可行计划，优化器就总能找到一个最优的。控制器永远不会将自己规划到一个无路可逃的角落。

这个思想有几种变体。一个正不变集是指一个系统在固定控制器作用下永远无法离开的集合。一个控制不变集则更具一般性，它指出可以找到一个有效的控制来保持在集合内。对于鲁棒控制，我们需要一个鲁棒正不变（RPI）集，这是一个即使面对最坏情况下的扰动，系统也无法离开的集合。

拥抱最坏情况：最小-最大化哲学

不变集是一个强大的思想，但要使其真正鲁棒，我们必须直面不确定性。一个鲁棒的控制器，本质上是一个明智的悲观主义者。它遵循与自然进行最小-最大化博弈的原则。在每一步，它都试图找到最小化其目标函数的控制序列（“最小化”部分），同时假设宇宙（以扰动的形式）会尽其所能地最大化该目标函数（“最大化”部分）。

由此产生的优化问题大致如下：

$\min_{\text{control plan}} \left( \max_{\text{all possible disturbances}} \text{cost}(\text{control plan, disturbances}) \right)$

至关重要的是，约束不仅要对单一的预测未来满足，还必须对在最坏情况扰动冲击下可能展开的所有未来都满足。这是一个巨大的计算挑战。想象一下，在下棋时，要找到最佳走法，同时还要考虑对手未来十步的所有可能应对。虽然这种最小-最大化方法是鲁棒性的黄金标准，但其复杂性常常促使我们寻求更实用但同样强大的策略。

管的优雅：一种实用的鲁棒性策略

鲁棒MPC中最直观且应用最广泛的方法之一是基于管的MPC。这是一种巧妙的分而治之策略，它驯服了不确定性的复杂性。

两个系统的故事：飞行员与副驾驶

其核心思想是将系统的轨迹 $x_k$ 分解为两部分：一个标称轨迹 $z_k$ 和一个误差 $e_k$ ，使得 $x_k = z_k + e_k$ 。

标称系统（ $z_k$ ）根据我们完美的、无扰动的模型演化。我们可以将其视为飞行员计算出的理想飞行计划。
误差系统（ $e_k$ ）描述了实际状态与此理想计划的偏差。其动态由一个预先设计的、简单的反馈控制器支配，该控制器的唯一任务就是对抗扰动并将误差推向零。这就像副驾驶，不断进行微小调整以抵消湍流。

这种分解的美妙之处在于，对于许多系统，特别是带有加性扰动的线性系统（ $x_{k+1} = Ax_k + Bu_k + w_k$ ），误差动态 $e_{k+1} = (A+BK)e_k + w_k$ 与标称轨迹无关。这意味着我们可以离线地、一劳永逸地分析最坏情况下的误差行为。

我们可以为误差计算一个鲁棒正不变（RPI）集，我们称之为 $\mathcal{E}$ 。这个集合是状态空间中的一个“管”或“气泡”，只要误差 $e_k$ 从内部开始，就能保证它在所有未来时刻都包含在内。这个管的大小由扰动的大小和我们的纠错控制器的有效性决定。

收缩世界：约束收紧与庞特里亚金差

现在是关键一步。我们想确保我们的实际状态 $x_k$ 永远不会违反其约束（例如， $x_k \in \mathcal{X}$ ）。既然我们知道 $x_k$ 将永远位于以我们的标称状态 $z_k$ 为中心的误差管 $\mathcal{E}$ 内部，我们可以通过一个简单的技巧来保证安全：我们命令标称状态 $z_k$ 保持在一个收紧的约束集内。

我们将约束收紧多少？不多不少，正好是误差管的大小。如果道路有10英尺宽，而我们的误差管告诉我们汽车可能会在其计划路径的任一侧最多摆动1英尺，我们只需命令计划路径保持在道路中央8英尺的范围内。

这种“收缩”操作是通过一个名为庞特里亚金差（Pontryagin difference）的数学工具来执行的，用 $\ominus$ 表示。收紧后的状态约束集为 $\mathcal{X}_{\text{tight}} = \mathcal{X} \ominus \mathcal{E}$ 。这个集合被定义为所有标称点 $z_k$ 的集合，使得如果你加上来自管 $\mathcal{E}$ 的任何可能的误差 $e_k$ ，得到的点 $z_k + e_k$ 仍然在原始约束集 $\mathcal{X}$ 内。

我们来具体说明一下。假设我们的状态约束是一个简单的区间 $x \in [-1, 1]$ ，而我们的误差管是 $e \in [-\delta, \delta]$ 。收紧后的集合 $\mathcal{X} \ominus \mathcal{E}$ 将是所有点 $z$ 的集合，满足对于所有 $e \in [-\delta, \delta]$ 都有 $z+e \in [-1,1]$ 。这要求 $z \le 1 - \delta$ （以防止最大的正误差）和 $z \ge -1 + \delta$ （以防止最大的负误差）。因此，收紧后的集合是 $[-1+\delta, 1-\delta]$ 。原来长度为 2 的安全区域被缩短了 $2\delta$ 。类似的逻辑也适用于输入约束以及更高维度的情况，此时我们收紧的是长方体或更复杂的多胞体。

通过为标称系统求解一个带有这些智能收紧约束的标准MPC问题，我们为真实的、不确定的系统获得了鲁棒的保证，而这一切都无需付出完全最小-最大化优化的巨大在线计算成本。

终极大奖：稳定性的保证

那么，所有这些机制——反馈、不变集、管和约束收紧——为我们带来了什么？它们提供了一个形式化的、数学上的稳定性保证。对于一个面临有界、持续扰动的系统，其目标不一定是精确地返回到一个目标状态（如原点），而是确保状态被限制在目标状态周围的一个小邻域内。

这个特性被称为输入到状态稳定性（ISS）。一个具有ISS特性的系统就像一个能自动扶正的玩具船。如果没有波浪（无扰动），它会完全直立稳定下来（收敛到原点）。如果有波浪（有扰动），它不会完全静止，而是会来回摇晃，但它会保持直立，并且其摇晃的幅度与波浪的大小成正比。它永远不会倾覆。

鲁棒MPC提供了构建控制器所需的工具，能赋予系统这种ISS特性。无论是通过基于管的方法的显式鲁棒性，还是通过为小扰动情况下的标称MPC精心设计终端成本和约束，目标都是相同的：创建一个可证明其行为良好、安全且稳定的闭环系统，无论现实世界带来何种意外。这是将悲观主义转化为性能，将不确定性转化为保证的过程。

应用与跨学科联系

在深入研究了鲁棒模型预测控制的数学机制之后，你可能会倾向于将其视为一种巧妙但抽象的构造。但事实远非如此。我们所揭示的原理——远见、为最坏情况做准备同时为最佳结果进行优化、在充满未知的世界中开辟出一条“确定性之管”——不仅仅是优雅的数学。它们代表了一种深刻且出人意料的普适策略，用以应对现实世界的复杂性。

现在，让我们踏上一段旅程，看看这些思想在实践中的应用。我们将看到，这种单一的鲁棒预测哲学如何赋予我们能力，去应对从我们自身机器的缺陷到定义现代生活的庞大互联网络，乃至生物系统基本构造的各种挑战。正是在其应用中，这一概念的真正美感和统一性才得以显现。

工程师的世界：驯服不完美，拥抱韧性

工程师向来是实用主义者，他们敏锐地意识到现实世界很少与蓝图的完美无瑕相匹配。机器会磨损，传感器有噪声，意外事件时有发生。鲁棒MPC为这种实用主义提供了一种形式化语言。

想象一下，你正在使用卫星导航系统驾驶一艘大船。系统会给你一个位置，但你知道它并非完全精确，总会有一个小的、有界的误差。你必须通过一条狭窄的航道，撞到两岸将是灾难性的。你会怎么做？你不会将船的估计中心正好沿着航道中心线驾驶。相反，你会致力于将你的估计位置保持在一条更窄的、想象中的航道内，在两侧都留出安全余量。这个余量的宽度直接取决于你对真实位置的不确定程度。

这正是基于管的输出反馈MPC的逻辑。当我们无法直接测量系统的真实状态 $x_k$ 时，我们构建一个“观测器”来生成一个估计值 $\hat{x}_k$ 。两者之差 $e_k = x_k - \hat{x}_k$ 是估计误差。因为我们处理的是受不可预测的颠簸和冲击（过程扰动）以及充满静电噪声的传感器读数（测量噪声）影响的真实系统，这个误差永远不会真正消失。然而，我们可以设计观测器，使得误差被保证保持在一个小的、有界的集合内——即我们的不确定性“管” $\mathcal{E}$ 。

知道了这一点，MPC控制器便以审慎的远见行事。为确保真实状态 $x_k$ 永不违反约束，比如 $|x_k| \le X_{\max}$ ，它对其标称规划施加更严格的约束： $|\bar{x}_k| \le X_{\max} - r_e$ ，其中 $r_e$ 是误差管 $\mathcal{E}$ 的半径。它故意“收紧”自己的约束，为不可避免的、有界的不确定性留出空间。

但在这里，自然揭示了一个美妙的微妙之处。人们可能认为最好的观测器是那个对新测量反应最激烈以修正其估计的观测器。然而，情况并非总是如此。一个过于激进的观测器可能会开始将随机的测量噪声视为真实信号，导致其估计值剧烈跳动。这种对噪声的放大，矛盾的是，可能会使误差管变大，从而要求更保守的约束收紧，并降低系统性能。因此，最优设计涉及一种微妙的权衡：观测器必须足够快以跟踪系统，但又必须足够温和以免被噪声迷惑。在估计速度和噪声放大之间找到这种平衡，是鲁棒控制设计中的一门核心艺术。

这种“界定坏情况，规划于好范围”的哲学自然地延伸到创建能够抵御故障的系统。考虑一架飞机的控制面或一个机器人的电机。如果它出现故障，导致其提供的力略小于指令值怎么办？只要我们能够描述这个故障——例如，通过知道所提供力的最大可能偏差——我们就可以把它当作另一个有界扰动来处理。鲁棒MPC框架不区分来自环境的扰动和来自内部故障的扰动。它只是将它们归为一个“总不确定性”集合，并计算出必要的安全管以保证安全运行。这使得系统即使在部分组件性能不完美的情况下，也能继续以一种可能降级但仍然安全的方式运行——这一原则被称为容错控制。

网络化世界：远程控制

我们的世界日益由相互连接的系统构成：电网、无人机群、自动化高速公路和远程机器人。控制不再局限于一个带有电线的单一盒子；它通过网络运行，带来了延迟、数据丢失和分散协调等挑战。

想象一下在火星上控制一辆探测车。当你发送一个命令时，它可能需要很多分钟才能到达。你不能等到上一个动作的确认信息传来才决定下一步。你必须提前规划一整套动作序列，预测当命令最终到达时探测车的状态会是怎样。这就是模型预测控制的本质，而其鲁棒性是关键。

鲁棒MPC为网络化控制系统（NCS）提供了一个强大的框架。通过对网络的不完美性（如可变的时间延迟和数据包丢失的可能性）进行建模，我们可以将它们直接纳入预测中。例如，控制器可以优化一个未来的输入序列，同时假设最坏情况的延迟场景。然后它将这整套动作包发送出去。另一端的执行器将这些动作存储在缓冲区中并按顺序执行。即使后续的一些数据包丢失，执行器也有一套预先规划好的安全序列可以遵循。MPC展望未来的能力使其能够“安然度过”暂时的通信中断。

当我们考虑没有中央大脑的大规模系统时，挑战变得更加引人入胜，比如国家电网或一支自主送货无人机队。这是分布式MPC的领域。每个子系统（例如，一个发电厂或一架无人机）都有自己的本地MPC控制器。然而，一个子系统的状态会影响其邻居。从本地控制器的角度来看，其邻居的行动是一种扰动，因为它无法提前完美地知道它们。

基于管的框架提供了一个绝妙的解决方案。每个本地控制器都假设其邻居的状态将保持在它们各自的安全管内。然后，它计算这可能对其自身动态造成的扰动，并相应地扩大自己的安全管。这导致了网络中一系列耦合的条件，其中每个控制器的安全余量都依赖于其邻居的余量。如果这个全网络范围的协商存在一个稳定的解——这个条件可以用矩阵理论优雅地进行检验——那么整个分布式系统就可以被保证安全运行，每个子系统都遵守其约束，而这一切都无需中央协调器 [@problem_g_id:2736407]。

前沿领域：数据驱动与生命世界

也许鲁棒MPC最激动人心的应用在于科学和技术的前沿，在那里我们的模型不完整，系统本身是活的。

在我们之前的所有讨论中，我们都假设我们对系统有一个相当好的模型。但如果我们没有呢？如果系统是由别人或大自然构建的，而我们必须边做边学其规则呢？这就是数据驱动控制的挑战。利用实验数据，我们可能无法精确地确定系统的参数 $(A,B)$ 。相反，我们或许只能说它们位于某个有界的可能性集合 $\mathcal{M}$ 内。鲁棒MPC是应对这种情况的完美工具。它可以被设计为对已识别集合 $\mathcal{M}$ 内的每一个可能的模型都保证稳定性和约束满足性。它所规划应对的“扰动”不仅仅是外部噪声，还有我们自身的模型不确定性。

这将控制与机器学习结合起来，形成了所谓的自适应MPC。开始时，我们的知识贫乏，因此不确定性集合 $\Theta_k$ 很大。控制器必须非常保守，使用一个粗的安全管，这可能会限制性能。但随着系统的运行，控制器收集更多数据并改进其对真实参数的估计。不确定性集合 $\Theta_{k+1}$ 随之缩小。作为响应，自适应控制器可以收缩其安全管，从而实现不那么保守、性能更高的操作。这是一种美妙的共生关系：控制动作产生数据以支持学习，而学习又促成更好的控制。

这种范式的终极体现可能是在合成生物学中。想象一下，对一个活细胞（如细菌）进行编程，以生产有价值的药物或酶。我们插入的基因回路与细胞的自然过程竞争有限的资源，如核糖体和能量。如果我们过分驱动我们的合成回路（一个大的控制输入 $u_k$ ），就会给细胞带来沉重的“负担”，减缓其生长甚至杀死它。如果我们太温和，产品产量又太低。

这是一个为MPC量身定做的多变量约束优化问题。我们希望最大化产量，同时受到允许的代谢负担和最低生长速率的约束。利用细胞资源分配的线性化模型，MPC可以预测给定的基因表达指令对产物和宿主细胞健康两方面的影响。然后，它可以计算出一个最优控制策略，在生产力和细胞活力之间的细微界限上游走。

这一愿景延伸到让控制器生活在细胞内部。MPC复杂的在线优化对于今天的分子计算来说要求太高。然而，人们可以离线预先计算出最优控制律。对于许多MPC问题，这种“显式”解是状态的分段仿射函数。可以想象，这个函数的一个简化版本可以被编码到一个基因回路中——一个由相互作用的基因和蛋白质组成的网络，它测量代表状态的细胞代理指标（例如，报告蛋白的荧光），并执行相应的控制动作（例如，表达一个阻遏蛋白来调低合成途径）。这将是一个真正自主的、活的工厂，其DNA中就编码了一个鲁棒的预测控制器。

从驾驶船舶到协调电网，从学习未知物理到编程活细胞，鲁棒远见的原理始终如一。鲁棒MPC提供了一个统一的框架，用于在面对我们宇宙中不可磨灭的约束和不确定性时，做出智能决策。