首页基于势能的奖励塑造

基于势能的奖励塑造

玻尔百科

定义

基于势能的奖励塑造是一种旨在加速强化学习训练的技术，其核心机制是向原始奖励中添加一个由前后状态势能差定义的辅助奖励。该方法通过数学上的势能函数结构确保了策略不变性，可以在不改变智能体最优行为或产生奖励欺骗的情况下提高学习效率。这种方法作为一项基础原理，被广泛应用于机器人学、药物研发以及科学建模等多个领域。

核心要点

基于势能的奖励塑造通过增加一个特殊形式的奖励 $F = \gamma \Phi(s') - \Phi(s)$ 来加速强化学习。
此方法保证了策略不变性，意味着它在加速学习的同时，不会改变智能体的最优行为或造成奖励作弊。
由于其数学结构是一个伸缩求和，任何轨迹上的总塑造奖励仅取决于起始状态和结束状态。
PBRS是一项基本原则，其应用范围广泛，从实体机器人和药物发现，到抽象的科学建模和经典算法。

引言

强化学习为机器教学提供了一种强大的范式：奖励期望的行为，让它们通过试错来学习。然而，这一过程常常受到两大挑战的阻碍。首先，在许多现实世界问题中，奖励是稀疏的——智能体可能在一长串动作之后才能收到反馈，这使得学习过程异常缓慢。其次，试图提供更频繁的中间奖励可能会事与愿违，导致“奖励作弊”，即智能体找到巧妙的方法来最大化这些提示，却未能实现真正的目标。这就提出了一个关键问题：我们如何才能有效地引导一个学习中的智能体，而又不会无意中改变它的最终目标？

本文探讨了基于势能的奖励塑造，这是一种优雅且可证明安全的方法来解决此问题。它提供了一种形式化的方法来设计奖励，既能加速学习，又能保证最优策略保持不变。在接下来的章节中，我们将揭示这项强大技术的工作原理及其应用领域。

第一章 原理与机制，将详细剖析基于势能的塑造方法的数学基础。我们将探讨它如何利用与势能场的类比来提供密集的奖励，为何这种结构能防止奖励作弊，以及其保证成立的精确条件。

第二章 应用与跨学科联系，将揭示这一概念惊人的普适性。我们将从机器人学和纳米技术的物理世界，走向科学发现乃至经典计算机科学的抽象领域，探索基于势能的塑造方法如何成为贯穿多个学科的引导式搜索和优化的统一原则。

原理与机制

所以，我们有了一个绝妙的想法：通过给予奖励来教机器，就像用零食训练小狗一样。但正如任何训练过小狗的人所知，事情可能会以极具创意的方式出错。强化学习的艺术和科学不仅仅在于给予奖励，而在于以正确的方式给予正确的奖励，从而引导我们的智能体，而不会无意中使其误入歧途。这正是我们深入探讨基于势能的奖励塑造的美妙机制的地方。

奖励作弊的“海妖之歌”

想象一下，我们制造了一个小机器人，并将其放置在一个简单的迷宫中。它的宏伟目标是找到出口，到达那个光荣的状态后，它会获得+1的丰厚奖励。迷宫的其他地方都是一片贫瘠，每走一步奖励都为零。我们的机器人作为一个学习机器，最终会四处游荡，并偶然找到出口。但这可能需要很长时间。我们等不及了，于是想：“我们来帮帮它吧！我们在路上放一点面包屑——一个小的中间奖励——来鼓励它。”

让我们具体点。假设我们的迷宫是一个小型的 $3 \times 3$ 网格。机器人从(1,1)出发，出口在(3,3)。我们在起点旁边的(1,2)方格处放置了一个价值0.2分的“金币”。到达出口的最短路径需要四步。如果我们的机器人足够聪明，它可能会选择一条穿过金币方格的路径，立即收集0.2分，然后继续前往出口以获得最终的+1奖励。但我们必须记住，未来的奖励不如即时奖励有价值——每向未来推进一步，它们就会被一个因子（比如 $\gamma = 0.9$ ）“折扣”。即使通过金币位置到达出口的总价值也大约是0.929。

但如果机器人发现了另一种策略呢？它从(1,1)开始，走一步到(1,2)收集0.2的金币。然后，它退一步回到(1,1)。接着，它又走到(1,2)，再次收集0.2（嗯，是经过折扣的0.2）。它可以永远这样做：右、左、右、左……一遍又一遍地收集金币。

我们来算算数，这是唯一能确定的方法。这个无限循环的总折扣奖励是一个几何级数： $0.2 + 0 + \gamma^2(0.2) + 0 + \gamma^4(0.2) + \dots$ 。当 $\gamma=0.9$ 时，这个和大约是1.053。现在比较一下：找到出口的“好”行为价值0.929，而在金币旁循环的“坏”行为价值1.053。我们的机器人，在它追求奖励最大化的逻辑驱使下，会选择永远循环而不去寻找出口。我们本想帮忙，却制造了一个陷阱。这是一个典型的奖励作弊案例：智能体在我们的奖励系统中找到了一个漏洞，以获得高分而未实现真正的目标。

我们提供指导的天真尝试从根本上改变了我们试图解决的问题。我们如何才能在不改变最终目的地的情况下，给我们的智能体一个“推动”呢？

物理学家的巧思：势场

让我们从物理学中借鉴一个想法。当你把一本书从地板上举到书架上时，你在对抗重力做功。这本书获得了势能。如果它掉回地板，它会释放那些能量。关于势能的关键在于，一次往返——比如从地板到书架，再回到地板——的总能量变化恰好为零。此外，地板和书架之间的能量差是一个固定值，无论你走哪条路径到达那里都无关紧要。

如果我们能在迷宫上创建一个人工的“势场”呢？我们可以为每个状态 $s$ 定义一个势函数 $\Phi(s)$ 。假设这个势代表着某种“高度”，其中目标状态 $s_G$ 是“最低”点。一个好的选择是将一个状态的势设置为其到目标距离的负值。离目标远的状态“位置高”，离目标近的状态“位置低”。

现在，我们可以为智能体从状态 $s$ 移动到新状态 $s'$ 的任何动作提供一个额外的塑造奖励 $F$ 。这个额外的奖励不是任意的；它被精确地定义为势的变化，并根据折扣因子进行了调整：

$F(s, a, s') = \gamma \Phi(s') - \Phi(s)$

当智能体向“下坡”移动（更接近目标）时， $s'$ 是一个比 $s$ 具有更负势能的状态，所以 $\Phi(s')$ 小于 $\Phi(s)$ 。这使得塑造奖励为正，给了智能体一个小小的鼓励。当它向“上坡”移动时，塑造奖励为负。

在整个旅程中，智能体得到的总额外奖励会发生什么呢？让我们看一个状态序列 $s_0, s_1, s_2, \dots, s_T$ 。总折扣塑造奖励是：

$\sum_{t=0}^{T-1} \gamma^t F(s_t, a_t, s_{t+1}) = \sum_{t=0}^{T-1} \gamma^t (\gamma \Phi(s_{t+1}) - \Phi(s_t))$

如果我们写出这个和的前几项，奇迹发生了：

$(\gamma \Phi(s_1) - \Phi(s_0)) + \gamma(\gamma \Phi(s_2) - \Phi(s_1)) + \gamma^2(\gamma \Phi(s_3) - \Phi(s_2)) + \dots$ $= (\gamma \Phi(s_1) - \Phi(s_0)) + (\gamma^2 \Phi(s_2) - \gamma \Phi(s_1)) + (\gamma^3 \Phi(s_3) - \gamma^2 \Phi(s_2)) + \dots$

你看到了吗？每一项括号里的第一项都与前一项的第二项相消！这是一个伸缩求和。几乎所有的项都抵消掉了，只剩下最开始和最末尾的部分： $\lim_{T\to\infty} \gamma^T \Phi(s_T) - \Phi(s_0)$ 。对于任何最终会终止的问题（或者势有界的问题），极限项趋于零，整个回合中所有额外奖励的总和就简化为了 $-\Phi(s_0)$ 。

这意义深远。我们的塑造奖励给智能体带来的总额外奖励只取决于起始状态，而与所走的路径无关。一条漫长曲折的路径和一条直接路径得到的总奖励加成是相同的。一个从同一起点出发并回到同一起点的闭环，得到的总奖励加成为零。我们创造了一个引导系统，其中旅途过程不会改变不同目的地之间的最终价值计算。

为何目的地永不改变

从一个固定起点到固定终点的任何路径，其总奖励加成都是恒定的，这一事实正是该方法如此强大的关键。它保证了我们没有改变最优策略。为了看得更清楚，让我们看一下动作价值函数 $Q(s,a)$ ，它告诉我们在状态 $s$ 采取动作 $a$ 然后按最优策略继续执行所能得到的总未来奖励。

当我们加入基于势能的塑造奖励后，我们得到了一个新的、塑造过的动作价值函数 $Q'(s,a)$ 。一些代数运算（如问题和所示）揭示了一个惊人简单的关系：

$Q'(s,a) = Q(s,a) - \Phi(s)$

在状态 $s$ 采取任何动作 $a$ 的价值都被平移了一个量 $-\Phi(s)$ 。关键是，这个平移量只取决于状态 $s$ ，而与动作 $a$ 无关。

想象一下你正处在一个岔路口，要在路径A和路径B之间做选择。路径A的价值是9，路径B的价值是2。你显然会选择A。现在，如果我告诉你，因为某个新的势场，两条路径的价值都减少了3呢？路径A现在价值6，路径B现在价值-1。你选哪个？你仍然会选择A！绝对价值改变了，但偏好顺序没有改变。它们之间的价值差异保持不变： $9-2=7$ 以及 $6-(-1)=7$ 。

这正是基于势能的塑造奖励所发生的情况。一个动作相对于另一个动作的优势， $A(s,a) = Q(s,a) - V(s)$ ，在原始问题和塑造后的问题中保持绝对相同。因为在任何状态下选择最佳动作只取决于不同动作 $a$ 的 $Q(s,a)$ 的相对价值，所以最优策略不会改变。我们找到了一种提供指导，同时可证明地保留原始目标的方法。

真正的奖赏：对速度的需求

如果基于势能的塑造不改变最终的最优策略是什么，你可能会问：“那何必多此一举？”答案是，它可以极大地改变智能体找到该策略的速度。

在一个只有一个奖励在终点的大型迷宫中，关于那个奖励的信息必须在学习过程中一步步地向后传播。这就像一个谣言从目标点慢慢散播开来。一个从远处开始的智能体不知道该往哪个方向走；在目标状态的“好处”还没来得及传遍整个状态空间之前，所有动作看起来都同样无用。这可能非常低效。

一个精心设计的势函数，比如一个基于到目标距离的函数，就像那个谣言的扩音器。它在每一个状态都提供了关于目标大致方向的即时、局部信息。塑造奖励 $F = \gamma \Phi(s') - \Phi(s)$ 在每一步都为智能体提供了密集且信息丰富的信号。它在远未到达最终目标状态之前，就学会了导致势能“下坡”的动作是好的。

正如在模拟中所展示的，一个带有基于势能塑造奖励的智能体收敛到最优策略的时间，可能只是未塑造智能体所需时间的一小部分。被塑造的智能体不是在学习一个不同的解决方案；它只是在学习相同的解决方案，但速度快得多。这就像在一个黑暗的迷宫中探索，一个只有出口地图，另一个则带有一个始终指向出口的指南针，两者之间的区别。

游戏规则

这种既能加速学习又不改变解决方案的“免费午餐”似乎好得令人难以置信。和科学中所有强大的工具一样，它的有效性在于它遵循非常具体的规则。如果你打破了这些规则，保证就会消失。像这样的问题中的分析阐明了这些边界。

规则1：形式神圣不可侵犯。 塑造奖励必须具有 $F(s, a, s') = \gamma \Phi(s') - \Phi(s)$ 的形式。任何其他形式的奖励，即使看起来有帮助，通常也会破坏策略不变性的保证。我们最初的“金币”例子完美地说明了这一点：一个只依赖于到达状态的奖励， $R'(s') = R(s') + c$ ，不属于基于势能的形式，并立刻造成了奖励作弊。
规则2：折扣因子必须匹配。 塑造项中的 $\gamma$ 必须与环境用来折扣未来奖励的 $\gamma$ 相同。如果你使用一个不同的折扣因子 $\bar{\gamma} \neq \gamma$ ，伸缩求和的美妙抵消就会变得不完美。会留下一个额外的、依赖于路径的项，策略就可能改变。
规则3：势仅依赖于状态。 势函数 $\Phi$ 必须是仅关于状态 $s$ 的函数。如果你试图让它也依赖于动作，即 $\Phi(s, a)$ ，那么Q值的偏移量就变成了 $Q'(s,a) = Q(s,a) - \Phi(s,a)$ 。由于现在每个动作的偏移量都不同，动作的相对排序就可能被打乱，最优策略也可能改变[@problemid:3145284]。
规则4：保证有其局限。 策略不变性的标准证明对于有限时域问题或带折扣（ $\gamma < 1$ ）的无限时域问题是坚如磐石的。然而，在无折扣（ $\gamma=1$ ）的无限时域问题的奇特世界里，你可以构建出这样的场景：智能体可以进入一个带有正塑造奖励的循环，从而将最优策略从一个会终止的策略改变为一个会永远循环的策略。

通过理解这些原则及其边界，我们将奖励设计从一门玄学提升为一门优雅的科学。我们可以充满信心地引导我们的学习智能体，因为我们只是在照亮道路，而不是暗中改变目的地。

应用与跨学科联系

我们刚刚接触了一种颇为神奇的数学工具：基于势能的奖励塑造。通过在智能体的奖励中加入一个精心构造的项 $F(s, a, s') = \gamma \Phi(s') - \Phi(s)$ ，我们可以为它提供源源不断的有用提示、推动和路标。这种密集的反馈可以极大地加速学习，将黑暗中令人沮丧的搜索转变为有引导的旅程。而其美妙之处在于，这种“建议”被证明是无偏的；它从不腐化智能体的最终目标，也不改变真正最优的选择。

这可能看起来只是强化学习领域里一个巧妙但狭隘的技巧，一点聪明的代数运算。但它仅此而已吗？我们即将看到，这根本不是一个技巧，而是一条深刻而基本的原则，其回响贯穿机器人学、纳米技术、化学、生物学，甚至计算机科学的理论基础。它是给予良好建议的形式化体现，事实证明，大自然——以及聪明的计算机科学家们——早已在许多不同的伪装下发现了这一原则。让我们踏上旅程，看看这个简单的想法能带我们走向何方。

物理世界：通过能量和几何进行引导

势函数最直观的应用或许是在物理世界中导航。如果你想引导一个学习中的智能体，还有什么比利用支配其环境的物理定律更好的方法呢？

想象一个简单的机械臂，任务是将一个物块推到桌上的特定目标位置。最终奖励是稀疏的：当物块到达目标时获得一大笔奖励，否则什么都没有。一个从零开始学习的智能体会在目标附近 случайно摸索很久。我们如何帮助它？我们可以定义一个势函数 $\Phi(s)$ ，作为物块到目标距离的负值。这样，塑造奖励 $\gamma \Phi(s') - \Phi(s)$ 在物块靠近目标时为正，远离时为负。我们实际上给了机器人一个始终指向目的地的指南针。它没有告诉机器人如何移动，但它不断地反馈其动作是“更近了”还是“更远了”。机器人仍然可以自由地找出推动物块的最佳方式，但它不再迷路了。

当我们进入分子的世界时，这种在“景观”中导航的想法变得更加强大和具体。考虑分子对接问题，这是药物发现的基石，其目标是找到一个小分子（配体）与一个大蛋白质（受体）的结合位点的最佳契合方式。“最佳”契合是结合能最低的方式。我们可以将配体建模为一个智能体，其动作是微小的平移和旋转。评分函数 $S(\mathbf{r})$ 给了我们给定姿态 $\mathbf{r}$ 的能量估计。

在这里，势函数很自然地被定义为能量得分的负值： $\Phi(s) = -S(s)$ 。对于一个无折扣的过程（ $\gamma=1$ ），从姿态 $s_t$ 移动到 $s_{t+1}$ 的塑造奖励变为 $r_{t+1} = \Phi(s_{t+1}) - \Phi(s_t) = S(s_t) - S(s_{t+1})$ 。这恰好是能量的减少量！整个对接轨迹的总奖励是一个伸缩求和，它漂亮地简化为 $G_0 = S(s_0) - S(s_T)$ ，即初始能量和最终能量之差。通过最大化这个回报，智能体被完美地激励去最小化最终能量 $S(s_T)$ ，这正是我们的原始目标。智能体学会了沿着能量景观向下滑动，以找到最稳定的结合姿态。

我们可以将这种物理直觉提升到纳米技术中更复杂的层次，例如，在控制原子力显微镜（AFM）时。AFM通过一个位于柔性悬臂末端的微小尖锐探针“触摸”表面来成像。一个关键的挑战是在不损坏样品的情况下快速扫描。如果探针遇到一个尖锐的特征，控制系统可能会“过冲”，施加一个破坏性的大力。我们可以训练一个强化学习智能体来控制扫描速度和反馈增益，以在遵守物理推导出的安全力限制的同时最大化吞吐量。终端奖励与扫描的总面积有关，但我们需要给智能体提供中间指导。

这里什么是好的势函数呢？一个物理上绝妙的选择是悬臂中存储势能的负值， $\Phi(s) = -\frac{1}{2} k d^2$ ，其中 $k$ 是悬臂的刚度， $d$ 是其偏转量。通过用 $\gamma \Phi(s') - \Phi(s)$ 奖励智能体，我们鼓励它采取能减少存储的弹性势能的动作。这教会了智能体要“温柔”，并预见特征，主动减速以避免积累会导致破坏性过冲的能量。我们正在利用仪器本身的物理特性来教智能体如何安全有效地使用它。

抽象世界：通过逻辑和发现进行引导

基于势能的塑造方法的力量并不局限于物理空间。它同样优雅地适用于思想、假设和设计的抽象空间。

考虑自主科学发现的宏大挑战。想象一个在材料科学实验室中的人工智能，试图合成一种具有理想性质的新材料。它的动作是调整温度、压力和化学前驱物等参数。合成材料的最终质量是一个稀疏奖励，只有在漫长而昂贵的实验之后才能获得。为了引导这个过程，我们可以使用原位表征工具，在材料生长期间测量其性质。如果根据物理学我们知道，比如，生长过程中更完美的晶格与更好的最终性质相关，我们就可以基于该晶格质量的实时测量来定义一个势函数 $\Phi(s)$ 。然后，智能体会因将合成过程引向已知有希望的状态而获得奖励，从而大大减少失败实验的数量。

这可以推广到纯粹的科学假说空间。一个智能体可能被赋予提出理论来解释一个数据集的任务。大多数随机生成的理论都是无稽之谈，因为它们违反了基本原则，比如能量守恒。一个天真的方法是对任何导致违反此类定律的理论的动作施加巨大的惩罚。然而，这可能是危险的；它可能会阻止智能体探索一条暂时看起来违反了定律（由于信息不完整）但最终通向革命性、正确理论的路径。

基于势能的塑造提供了优雅的解决方案。我们可以定义一个势函数 $\Phi(s)$ ，它量化了一个部分假说 $s$ 遵守已知守恒定律的程度。塑造奖励 $\gamma \Phi(s') - \Phi(s)$ 鼓励智能体探索“理论空间”中更合理的部分，但关键是，它不会改变最优策略。如果真正突破性的理论需要通过一个奇怪的中间想法，塑造奖励不会禁止它；它只是让智能体意识到它正在进入未知领域。它提供了指导，而不会变得教条。

生物世界：引导生命蓝图

没有什么地方的搜索空间比生物分子的设计更广阔，奖励更稀疏。在合成生物学中，我们可能想要设计一个执行特定功能的DNA序列或蛋白质，比如与癌细胞结合。智能体的任务是逐个构建序列。最终完整分子的功能是唯一真正重要的，但我们不能等到最后才提供反馈。

在这里，我们的势函数 $\Phi(s_t)$ 可以从代理模型中推导出来——这些机器学习模型是在现有的生物数据上训练的。对于一个部分序列 $s_t$ ，我们可以使用这些模型来预测其潜力。例如， $\Phi(s_t)$ 可以是部分形成的蛋白质的预测结合亲和力，或者部分DNA链正确折叠的概率。通过给予基于这个预测潜力变化的奖励，我们在每一步都引导着生成过程。智能体学会了一种直觉，就像人类专家一样，知道哪些部分设计“看起来有希望”并值得扩展，使其能够驾驭天文数字般的可能序列空间，找到少数几个有效的序列。

意想不到的统一：从人工智能到经典算法

也许对这个想法的力量最深刻的阐释来自一个意想不到的地方：经典[计算机科学算法](@article_id:331821)理论。事实证明，基于势能的塑造不仅仅是人工智能的一项现代发明；几十年来，它一直隐藏在众目睽睽之下。

考虑Johnson算法，这是一种著名的用于寻找图中所有节点对之间最短路径的方法，尤其是在某些边权重可能为负的情况下。负权重对于许多高效算法（如Dijkstra算法）来说是个问题。Johnson的巧妙解决方案是首先对整个图进行“重新加权”，以消除所有负边，同时不改变哪些路径是最短的。

它是如何做到的呢？它首先为图中的每个顶点 $v$ 计算一个值 $h(v)$ 。然后，它将每条边 $(u,v)$ 的权重从 $w(u,v)$ 转换为一个新的权重 $w'(u,v) = w(u,v) + h(u) - h(v)$ 。让我们看一下从起始节点 $s$ 到终点节点 $t$ 的整条路径的成本。新的路径成本是新边权重的总和，经过伸缩求和后变成了原始路径成本加上一个常数： $w'(p) = w(p) + h(s) - h(t)$ 。

这与无折扣过程（ $\gamma=1$ ）的基于势能的塑造逻辑完全相同！值 $h(v)$ 就是势函数。通过转换边权重（“奖励”），任意两点之间每条路径的成本都平移了完全相同的量。因此，在新的非负权重图中的最短路径与在原始棘手的图中的最短路径是相同的。Johnson算法本质上是利用基于势能的塑造来使一个难题变得简单。这揭示了现代强化学习核心概念与算法设计经典成果之间一种美丽而深刻的统一。

从机器人到分子，从发现新材料到设计新药物，从人工智能的前沿到计算机科学的教科书，基于势能的塑造原则是一条贯穿始终的智慧之线。它证明了一个单一、优雅的数学思想如何能成为一个强大的透镜，用以理解和解决人类众多领域中的问题。