首页约束强化学习

约束强化学习

玻尔百科

定义

约束强化学习是一种通过将决策过程重新表述为受限马尔可夫决策过程，在标准强化学习基础上引入成本函数和安全预算的学科。该领域利用拉格朗日对偶法和条件风险价值等风险敏感度量，在最大化奖励的同时确保智能体满足特定的安全约束。这种方法为医疗、融合能源和机器人等高风险领域负责任地部署人工智能提供了核心工具，确保智能体严格遵守物理定律和伦理准则。

核心要点

约束强化学习（CRL）通过引入成本函数和安全预算来增强标准强化学习，将决策问题重新表述为约束马尔可夫决策过程（CMDP）。
拉格朗日对偶方法是 CRL 的核心技术，它对风险进行动态定价，使智能体能够学习在最大化奖励和满足安全约束之间的最优权衡。
为了应对罕见但灾难性的事件，CRL 使用风险敏感性度量，如条件风险价值（CVaR），该度量关注最坏情况的严重性，而不仅仅是平均成本。
“安全第一”的方法，如字典序优化和动作屏蔽，确保了不可协商的安全规则在每一步都优先于寻求奖励的行为。
CRL 为在医学、聚变能源和机器人等高风险领域负责任地部署人工智能提供了必要的工具，确保智能体遵守物理定律、伦理准则和系统限制。

引言

标准强化学习（RL）已使智能体在游戏和模拟中达到超人水平，其驱动力源于一个单一的目标：最大化累积奖励。然而，在现实世界中，这种对高分的单一追求往往是不够的，甚至是危险的，因为在现实世界中，行动会产生复杂的后果，而安全至关重要。自动驾驶汽车必须遵守交通法规，医疗人工智能必须避免有害的副作用，机器人系统必须在物理限制内运行。标准强化学习的简单目标与现实世界复杂且受约束的本质之间的这种差距，凸显了一个关键挑战：我们如何构建不仅智能而且负责任的智能体？

本文深入探讨了约束强化学习（CRL），这是一个为解决此问题而设计的框架。CRL 扩展了强化学习的语言，引入了安全约束的概念，使智能体能够在实现目标和遵守关键规则之间取得平衡。我们将探索使之成为可能的核心原则，从抽象理论走向实际影响。

首先，在“原理与机制”一章中，我们将剖析 CRL 的基本构建模块。我们将探讨如何使用约束马尔可夫决策过程（CMDP）来形式化地定义问题，并检验那些让智能体能够学习安全策略的精妙数学技术，例如拉格朗日对偶和如 CVaR 等风险敏感性度量。随后，“应用与跨学科联系”一章将展示 CRL 的实际应用，演示这些原则如何应用于解决医学、物理学、工程学等领域的高风险问题，从而在理论模型与值得信赖的自主系统之间架起一座桥梁。

原理与机制

在标准强化学习的世界里，智能体的生活简单，甚至近乎享乐主义。它只有一个目标：最大化一个单一的数值分数，即累积奖励。就像一个为考试而死记硬背的学生，它会不惜一切代价获得最高分，而不顾后果。但在现实世界中，成功很少是如此一维的。自动驾驶汽车不仅要快速到达目的地，还要避免碰撞。医生的 AI 不仅要提出能最大化康复效果的治疗方案，还要将有害副作用的风险降至最低。我们需要一种方法来教导我们那些聪明但鲁莽的智能体审慎的美德。这就是约束强化学习（CRL）的世界。

约束的语言：超越单一评分

创建更负责任的智能体的第一步是扩展其词汇量。我们必须赋予它一种方式来理解某些结果除了仅仅是“低回报”之外，还是主动不希望发生甚至是危险的。我们通过引入第二种并行的反馈渠道来实现这一点：成本函数。对于每个状态和动作，除了表示“这很好”的奖励 $r(s,a)$ 外，智能体现在还会收到一个表示“这有风险”的成本 $c(s,a)$ 。

这个简单的补充改变了问题的整个格局。我们从标准的马尔可夫决策过程（MDP）转向约束马尔可夫决策过程（CMDP）。智能体的任务不再是简单地最大化其期望总奖励 $J(\pi)$ 。相反，它必须解决一个更细致的问题：

\max_{\pi} J(\pi) \quad \text{subject to} \quad C(\pi) \le d

在这里， $C(\pi)$ 是遵循策略 $\pi$ 所累积的期望总成本，而 $d$ 是一个安全预算——我们愿意容忍的总风险的硬性上限。例如，在医疗环境中， $J(\pi)$ 可能代表患者病情的预期改善，而 $C(\pi)$ 可能代表自动胰岛素泵引起的预期低血糖事件次数，其中 $d$ 是一个临床确定的、不可协商的不良后果上限。智能体的目标现在是在安全范围内做到最好。

权衡的艺术：拉格朗日对偶

一个智能体如何可能学会解决这样一个有约束的问题？一个朴素的想法可能是简单地从奖励中减去成本，创建一个新的“惩罚性”奖励，如 $r'(s,a) = r(s,a) - \lambda c(s,a)$ ，其中 $\lambda$ 是某个固定的惩罚权重。但我们如何选择 $\lambda$ ？如果它太小，智能体可能会忽略约束。如果它太大，智能体又会变得过于谨慎，无法完成其主要任务。更重要的是，没有一种有原则的方法来选择一个固定的 $\lambda$ 来保证最终的策略会满足特定的预算 $d$ 。这就像告诉飞行员“飞得快，但也要小心”，却没有告诉他们如何平衡两者。

幸运的是，一个来自优化数学的优美思想——拉格朗日乘子法——为我们提供了解决方案。想象一下学习过程是一场谈判。智能体，即“原始参与者”，试图最大化其性能。第二个虚拟的参与者，即“对偶参与者”，充当监管者，其工作是强制执行约束。拉格朗日乘子 $\lambda$ 就是这场谈判的工具。

$\lambda$ 不再是一个固定的惩罚，而是变成了对违反约束的动态定价。学习过程变成了智能体和监管者之间的一场博弈：

智能体的行动（原始更新）： 在任何时刻，智能体看到当前的风险“价格” $\lambda$ 。然后，它学习最大化一个结合了奖励和这个动态定价成本的修正目标：实际上，它试图在奖励函数 $r(s,a) - \lambda c(s,a)$ 上获得最佳回报。智能体不是直接解决原始问题；它只是对当前的惩罚做出反应。
监管者的行动（对偶更新）： 在智能体调整其策略后，监管者检查约束是否得到满足。期望成本 $C(\pi)$ 是高于还是低于预算 $d$ ？
- 如果智能体超出预算 ( $C(\pi) > d$ )，这意味着当前的风险价格太低。监管者增加 $\lambda$ ，使高成本的行动更不具吸引力。
- 如果智能体远低于预算 ( $C(\pi) d$ )，这意味着风险价格太高，导致智能体不必要地胆怯。监管者降低 $\lambda$ ，鼓励智能体在追求奖励时更大胆一些。

这个原始-对偶更新过程非常出色。对偶变量 $\lambda$ 会自动调整，上下浮动，直到稳定在恰好能将智能体策略推向安全边界边缘的正确值——在刚好满足约束的同时实现最高可能的奖励。其背后的数学原理表明，智能体用于学习的梯度被巧妙地修正了。它不再纯粹由未来的奖励驱动，而是由未来奖励和未来成本的加权组合驱动，其中 $\lambda$ 就是权重。这个单一而强大的思想可以应用于所有现代强化学习算法，从像 Q-learning 这样的基于值的方法到策略梯度方法。

当平均值不足时：控制尾部风险

拉格朗日方法提供了一种处理关于平均或期望成本约束的强大方法。但在许多高风险领域，平均值具有危险的误导性。一家其飞机“平均而言”不坠毁的航空公司并非安全航空公司；罕见但灾难性的故障才是关键。同样，一种“平均”毒性低的癌症疗法如果存在 1% 的致命反应风险，也是不可接受的。

这就是尾部风险问题——由低概率、高影响事件构成的风险。基于期望的约束，由于其本质，可能会掩盖这些风险。期望成本低，可能是因为成本总是很小，也可能是因为灾难性成本极少发生。要构建真正安全的系统，我们需要对最坏情况敏感的工具。

这引导我们采用更复杂的风险度量。让我们考虑一个具体的例子：预测聚变托卡马克中等离子体破裂的概率 $P$ 。假设一组模型为我们提供了某个特定动作的风险分布。它可能告诉我们，98% 的情况下风险很小 ( $P = 0.002$ )，但 1% 的情况下风险中等 ( $P = 0.02$ )，还有 1% 的情况下风险危险地高 ( $P = 0.1$ )。

期望风险是 $\mathbb{E}[P] = 0.00316$ 。一个关于平均值的约束可能很容易满足。
风险价值（VaR）问：“我们在 99% 的时间内不会超过的风险水平是多少？”在我们的例子中， $\mathrm{VaR}_{0.99}(P) = 0.02$ 。这告诉我们尾部的阈值，但没有告诉我们其严重程度。
条件风险价值（CVaR）问一个更重要的问题：“鉴于我们处于最坏的 1% 的情况中，我们的平均风险是多少？”在我们的例子中，最坏的 1% 的情况是 $P=0.1$ 的单一结果。所以， $\mathrm{CVaR}_{0.99}(P) = 0.1$ 。

区别是显著的。CVaR 直接衡量尾部风险的大小。通过对成本的 CVaR 制定约束，例如 $\mathrm{CVaR}_{\alpha}(C(\pi)) \le d$ ，我们可以迫使智能体学习不仅在平均意义上安全，而且能抵御罕见灾难性故障的策略。

替代哲学：安全优先

拉格朗日方法本质上是关于寻找最优权衡。但如果某些安全规则是绝对的呢？在医院里，“不造成伤害”不是一个可以与临床效用权衡的建议；它是一个首要指令。对于这种情况，我们可以采用不同的机制，将安全视为不可协商的优先事项。

其中一种方法是字典序优化。“字典序”这个词就是指“按字典顺序”：你先按第一个字母排序，只有在出现平局时才看第二个字母。在强化学习中，这转化为一个“安全第一”的原则。对于任何给定的状态，智能体的决策过程变为：

首先，识别所有“安全”动作的集合——那些保证能将预期风险保持在阈值以下的动作。
然后，且仅当此时，从那个预先筛选的安全集合中，选择能够最大化预期奖励的动作。
如果没有动作被认为是安全的，智能体完全放弃寻求奖励，并默认选择风险最小的动作。

这种方法有一个优美的几何解释。原本对奖励最优的动作被“投影”到安全动作集的边界上。这是将伦理优先级明确编码到智能体决策逻辑中的一种方式。

这种“安全第一”的哲学也延伸到了学习过程本身。一个纸面上安全的策略，如果智能体需要让系统崩溃一千次才能学会它，那也是无用的。安全探索技术通过确保即使在充满不确定性的试错阶段也能保证安全来解决这个问题。这可以通过将学习智能体的动作与一个已知可靠的基线“安全控制器”的动作相融合来实现。学习智能体的影响被严格控制，确保其探索性动作不会将系统推入不可恢复的状态。另一个强大的技术是动作屏蔽，通常通过控制屏障函数实现。屏障函数就像一个“守护天使”模型，模拟强化学习智能体提议的任何动作的直接后果。如果提议的动作会违反安全裕度，屏蔽器会否决它并强制执行一个安全的替代方案，从而提供严格的、步步为营的安全保证。

拥抱不确定性：不完美模型的挑战

所有这些精巧的机制都有一个潜在的致命弱点：它们依赖于一个世界模型，特别是成本函数 $c(s,a)$ 的模型。但如果那个模型是错误的呢？在许多应用中，从信息物理系统到医学，成本函数本身是从数据中学习的，因此是不确定的。一个在模拟器或“数字孪生”中看起来安全的策略，在部署到真实世界中时，如果真实动态有所不同，可能会是灾难性的。

为了跨越这个“模拟到现实”（sim-to-real）的差距，我们必须设计我们的算法，使其对自身的无知具有鲁棒性。如果我们的安全约束模型 $h(x) \ge 0$ 带有自身不确定性的度量——例如，来自高斯过程等机器学习模型的标准差 $\sigma(x)$ ——我们可以采纳一种“对奖励持乐观态度，对安全持悲观态度”的策略。

这引出了鲁棒约束收紧的原则。我们不是信任我们的名义安全模型 $\hat{h}(x)$ 并强制执行 $\hat{h}(x) \ge 0$ ，而是根据我们的不确定性减去一个缓冲。我们强制执行一个更严格的条件：

\hat{h}(x) - \beta \sigma(x) \ge 0

在这里， $\beta$ 是一个让我们控制谨慎程度的参数。这个简单的“收紧”约束的行为产生了深远的影响。它缩小了智能体认为安全的状态空间区域。如果名义上的安全集是一个半径为 $R$ 的球，那么鲁棒安全集就变成了一个半径为 $R - \beta \sigma$ 的更小的球。在安全模型不确定的区域，智能体会变得更加保守。这种有原则的悲观主义使我们能够提供高概率的保证，即即使我们的模型不完美，我们的策略在部署到复杂、不可预测的真实世界时仍将保持安全。

这些原则——成本的语言、对偶的博弈、对尾部风险的关注、安全性的优先以及对不确定性的拥抱——是将强化学习从一个强大的优化工具转变为创建智能、负责任和可信赖的自主系统框架的基石。

应用与跨学科联系

在我们之前的讨论中，我们探讨了约束强化学习（CRL）的原理和机制。我们看到它不仅是教智能体赢得游戏，更是教它遵守规则的一种方式。现在，我们将踏上一段更激动人心的旅程。我们将看到这些抽象概念如何为现实世界的应用注入生命，从纯粹的数学领域走向混乱、高风险的科学、医学和工程领域。这里是理论与实践交汇的地方，一个小数点的错位不再是失败的测试用例，而是一场潜在的灾难。我们将发现，CRL 不仅仅是强化学习的一个巧妙扩展；它是让智能体能够在我们的世界中安全、负责任地运行的必要桥梁。

不可违背的自然法则

在人工智能能够治愈病人或设计新材料之前，它必须首先尊重宇宙中那些基本的、不可协商的法则。这些不是建议或指导方针；它们是现实的结构本身。

想象一个AI被赋予发现新药的任务。它的工作是在一个巨大的虚拟实验室中，逐个原子、逐个化学键地构建新分子。一个标准的强化学习智能体，仅仅被发现有效药物的奖励所驱动，可能会尝试给一个碳原子连接五个化学键。在一个简单的视频游戏中，这会是一个无效的移动，也许会受到小小的惩罚。但在化学中，这是不可能的。这样的分子无法存在。碳的化合价这个约束是绝对的。

这是CRL的完美应用场景。我们不是在智能体提出化学上荒谬的结构后再惩罚它，而是使用一种称为动作掩码的技术。在智能体做出选择之前，它只会被呈现一个化学上有效的移动列表。它从根本上无法提出一个五键碳，就像一个下棋的AI无法斜着移动车一样。这不仅使智能体更有效率；它将化学的基本法则嵌入到其本质之中。智能体学会在无限可能的分子空间中探索，但其探索始终被限制在物理上可能的领域内，确保它生成的每一个分子，从最简单的到最复杂的，从第一个原子到最后一个，都是化学上合理的 [@problem_-id:4332981]。

当我们观察在地球上重现的恒星之心——托卡马克聚变反应堆时，风险变得更高。目标是使用强大的磁场控制比太阳还热的等离子体。奖励是清洁、无限能源的未来。但存在一个持续的危险：等离子体可能变得不稳定并“破裂”，可能损坏价值数十亿美元的设备。用于托卡马克的强化学习控制器必须在刀刃上行走，最大化性能的同时远离破裂的悬崖。

这里的挑战在于，破裂的风险从未能被完全确定地知晓。我们可能有一个复杂的模型，能给出破裂的概率，但那个模型本身也有不确定性。CRL提供了管理这种不确定性的工具。与其使用一个简单的规则如“将风险保持在1%以下”，我们可以设定一个更细致的机会约束：我们要求估计风险本身超过我们1%阈值的概率，比如说，小于2%。这就像在说，“我希望非常有信心地确定我甚至没有处于看起来有风险的境地。”

或者，我们可以使用像条件风险价值（CVaR）这样的度量。这不仅关注坏事件的概率，而且会问：“当坏事件确实发生时，它们平均有多糟糕？”一个CVaR约束可能会限制最坏1%可能场景的平均风险。这迫使智能体变得保守，特别关注尾部风险——那些对于一个简单的期望最大化智能体来说太容易忽略的罕见但灾难性的事件。

生命的精巧机制

从物理学不可改变的法则，我们转向生物学和医学中脆弱而复杂的系统。在这里，约束不是关于物理上的不可能性，而是关于伦理的迫切要求和关爱人类生命的深重责任。医学的古老格言，“首先，不造成伤害”，是最终的约束。

考虑一个旨在帮助重症监护室医生管理病人胰岛素水平的人工智能。这个人工智能可能会推荐低、中、高三种剂量。一个标准的强化学习智能体可能会学到，平均而言，更激进的给药策略能带来更好的血糖控制。但如果这种激进策略虽然在大多数时候成功，却对某些患者带来虽小但显著的严重低血糖事件风险呢？

“不造成伤害”的原则不是关于平均值；它是对每一位患者的承诺。CRL使我们能够将这一承诺形式化。我们可以施加一个严格的约束，即策略可能推荐的任何行动都必须在统计上被高度可信地证明其伤害概率低于一个非常小的阈值。如果特定剂量（比如高剂量）的历史数据无法提供这种统计保证，那么该行动就会被从人工智能的行动手册中移除。部署的人工智能可能会使用一个“修剪过的”策略，只被允许推荐那些经过严格安全认证的行动。

我们可以通过构建患者的数字孪生——一个模拟其独特生理机能的复杂数学模型——来更进一步。想象一下，使用这样的孪生来优化化疗方案。目标是杀死癌细胞，但约束是避免杀死过多的健康细胞，特别是对免疫系统至关重要的患者中性粒细胞。

利用数字孪生，我们可以构建一个安全护盾。在强化学习智能体建议的剂量被施用前，它首先在数字孪生上进行“测试”。通过使用数学技术计算“可达集”——即未来几小时内患者所有可能状态的包络线——护盾可以验证建议的剂量是否能将患者的药物浓度和中性粒细胞计数保持在安全范围内。如果建议的剂量过于激进，护盾会自动且可证明地将其减少到仍被认证为安全的最大可能剂量。这结合了模型的预测能力和强化学习的自适应学习能力，创建了一个在每一步都学习如何有效，同时又可证明安全的系统。

有时，安全不仅仅是避免单一的坏行动，而是确保在整个轨迹中保持良好行为。对于胰岛素控制，我们可能要求患者的血糖在24小时内至少有95%的时间保持在目标范围内。这是对智能体行为整个历史的约束，而不仅仅是某个时刻。

也许CRL在医学中最深远的应用在于其目标函数本身的设计。在管理感染性休克时，医生必须平衡短期目标（如稳定血压）与患者生存的最终长期目标。一个幼稚的强化学习智能体可能会因为积极使用血管加压药来提高血压而获得奖励，这种行为被称为“奖励滥用”。它实现了即时目标，但最终可能以有害的方式进行。

CRL允许进行更有原则的设计。我们可以创建一个多目标奖励，平衡血流动力学稳定的短期目标和生存的长期目标。关键是，我们将安全考虑——如使用过高剂量的药物或允许长时间低血压——分离出来，并将其作为明确的约束。智能体的任务是在不从事不安全行为的约束下最大化其性能。它学会了不能为了多得几分奖励而牺牲患者的安全，从根本上防止了奖励滥用，并使人工智能的行为与合理的临床实践保持一致。

复杂系统的架构

最后，我们放大视角，审视我们构建和居住的大规模工程和社会系统。在这里，约束源于物理限制、经济预算和伦理原则。

考虑边缘计算的世界，像自动驾驶汽车处理器这样的设备必须决定是本地执行计算还是将其卸载到附近的边缘服务器。这个决定取决于多种因素的复杂相互作用：当前的网络质量、边缘服务器的负载以及任务的大小。一个标准的强化学习智能体可能会试图优化平均速度。但对于一个关键任务，存在一个硬性截止时间。任务平均速度快是不够的；它必须每次都在，比如说，80毫秒内完成。

CRL可以强制执行这一点。通过构建系统延迟的模型——包括通信延迟和服务器上的排队延迟——智能体可以预测每个选项的端到端时间。如果卸载的预测时间超过了截止时间，该动作就会被屏蔽。智能体被迫选择安全但可能较慢的本地选项。这确保了系统尊重其硬性实时约束，这是任何安全关键的信息物理系统所必需的。

CRL还为协调多个智能体提供了一个优美的框架。想象一下，一家医院里有几个AI智能体在帮助管理不同的病人，但它们都使用一种共享且有限的资源——也许是一种昂贵但有效的治疗方法的预算。我们如何确保这些智能体合作，在不超过全球预算的情况下，为所有病人最大化总利益？

借鉴经济学的思想，我们可以使用CRL的数学机制为共享资源的消耗设定一个“价格”（一个拉格朗日乘子）。在集中训练阶段，系统学习最优价格。然后，在分散执行中，这个单一的标量值被广播给所有智能体。每个智能体独立行动，最大化其自身局部利益减去其消耗资源的“成本”。智能体学会了节俭，只有在临床效益高到足以证明价格合理时才使用资源。这种精巧的机制允许一组独立的智能体在没有复杂协调的情况下共同遵守一个全局约束，这反映了市场经济分配资源的方式。

最高层次的应用将我们带到了人工智能、医疗保健和伦理的交叉点。当我们使用人工智能重新设计临床护理路径时，我们不仅仅是在优化一个技术系统；我们是在干预一个社会技术系统。医疗保健的“三重目标”是改善人口健康、提升患者体验和降低成本。任何部署在此背景下的人工智能都必须遵守这一标准。

此外，我们有道德义务确保此类系统不会延续或加剧现有的健康差异。使用CRL，我们可以将这些伦理要求转化为形式化的约束。我们可以设计一个强化学习系统来优化健康结果和效率，但要遵守以下约束：任何人口群体的患者体验不低于其当前基线，并且不同群体之间的健康结果差异不增加。通过在部署前使用历史数据评估这些约束，并在部署后持续监控它们，我们可以将CRL用作负责任创新的工具——一种在追求进步的同时，建立明确的保障措施以保护公平和患者尊严的方法。

从化学不可动摇的规则到公正社会的伦理基础，约束强化学习提供了一个强大而统一的框架。它证明了真正的智能不仅仅是实现目标，而是理解并尊重必须在其中运作的边界。这是构建不仅聪明，而且智慧的智能体的科学。