Actor-Critic 模型

玻尔百科

核心要点

Actor-Critic 模型结合了基于策略的“行动者”（Actor，决定动作）和基于价值的“评论家”（Critic，评估这些动作）。
学习由时间差分（TD）误差驱动，这是来自评论家的信号，它告诉行动者某个动作比预期好或差多少。
该框架为生物学习提供了一个令人信服的模型，其中基底神经节扮演行动者-评论家的角色，而多巴胺信号则充当TD误差。
Actor-Critic 方法应用广泛，从控制机器人和数据中心到设计智能医疗设备和协调智能体团队。

引言

在构建智能系统的探索中，最基本的挑战之一就是从交互中学习。一个智能体，无论是生物的还是人工的，如何在一个复杂的世界中通过简单的试错来学会做出好的决策？虽然基础的强化学习提供了一个框架，但这个过程可能缓慢而低效。Actor-Critic 模型作为解决这一问题的强大而优雅的方案应运而生，它将学习过程构建为两个组件之间的协同对话：一个提出动作的“行动者”（Actor）和一个评估其结果的“评论家”（Critic）。这种架构极大地加速了学习，并且事实证明，它不仅仅是一种工程上的便利；它为人类大脑中学习的发生方式提供了一幅惊人准确的蓝图。本文将深入探讨这一卓越的框架。首先，在“原理与机制”部分，我们将剖析该模型的核心组件，从行动者与评论家之间的数学之舞到时间差分误差这一通用学习信号。随后，在“应用与跨学科联系”部分，我们将探索这一思想在不同领域的深远影响，从它在神经科学和医学中的作用，到它在复杂工程和多智能体系统中的应用。

原理与机制

为了真正理解 Actor-Critic 模型，让我们想象一个简单而深刻的学习过程。设想你正在学习玩飞镖。你站在一条线后（你的状态），你掷出飞镖（你的动作），然后看它离靶心有多近（你收到一个奖励）。一种自然的学习方式是试错：如果某次投掷离靶心很近，你就试着重复那个动作。如果偏得太远，你就进行调整。这就是强化学习的核心。

但这个过程可能非常缓慢。如果你有一个教练呢？这个教练可能不是世界冠军，但他们有敏锐的眼光。他们无法告诉你确切的完美动作，但在你投掷之后，他们能给你一条关键的反馈：“从那个站姿来看，这次投掷比我预期的要好得多，”或者“这次对你来说比平时要差。”

在我们的故事中，你就是行动者。你是决策者、行动者，你改变着如何投掷的策略。教练则是评论家。评论家的工作不是行动，而是观察和评估，学习何为“好”或“坏”的状态。Actor-Critic 模型讲述的就是这场对话的故事——一场行动与评判之间美妙的、协同的舞蹈，它使得卓越而高效的学习成为可能。

行动者与评论家：一场学习的对话

让我们为这些概念赋予一些数学内涵。行动者是一个策略，我们可以写作 $\pi_{\theta}(a \mid s)$ 。它是一台由一组“旋钮” $\theta$ 参数化的机器，接收一个状态 $s$ 并输出一个关于可能动作 $a$ 的概率分布。行动者的工作是调整它的旋钮 $\theta$ 以增加做出好动作的可能性。

另一方面，评论家是一个价值函数。它可以有两种常见形式。它可能是一个状态价值函数 $V_{w}(s)$ ，试图预测从状态 $s$ 开始将获得的未来总奖励。或者它可能是一个动作价值函数 $Q_{w}(s,a)$ ，预测如果你从状态 $s$ 采取动作 $a$ 然后以最优方式继续下去将获得的未来总奖励。评论家有自己的一套旋钮 $w$ ，其工作是学习状态或状态-动作对的真实价值。

那么，它们之间如何沟通呢？评论家的判断如何为行动者的改进提供信息？答案在于一个单一而优雅的信息，它充当了两者之间的通用货币。

通用货币：时间差分误差

评论家和行动者一样，通过观察世界来学习。想象一下，它处于状态 $s_t$ ，并认为该状态的价值是 $V_w(s_t)$ 。接着，行动者采取动作 $a_t$ ，获得即时奖励 $r_t$ ，并进入新状态 $s_{t+1}$ 。现在，评论家有了新的视角。它可以对 $s_t$ 的价值形成一个更好的估计：它应该等于我们刚刚获得的奖励（ $r_t$ ）加上我们所到达状态的（折扣后）价值（ $\gamma V_w(s_{t+1})$ ）。

这个新的、更好的估计与旧的、原始的估计之间的差异就是时间差分（TD）误差：

$\delta_t = r_t + \gamma V_w(s_{t+1}) - V_w(s_t)$

这个 $\delta_t$ 是评论家的“惊喜”。如果它是正的，说明现实比预期的要好。如果它是负的，说明现实比预期的要差。评论家利用这个误差信号来调整其参数 $w$ ，使其对 $V_w(s_t)$ 的预测更接近目标 $r_t + \gamma V_w(s_{t+1})$ 。这就是评论家的学习规则。

但美妙的洞见在于，这同一个“惊喜”信号正是行动者所需要的！TD 误差 $\delta_t$ 是一个被称为优势函数的完美、低方差的估计。它精确地告诉行动者，它所选择的动作 $a_t$ 与状态 $s_t$ 的平均动作相比，好或差了多少。

如果 $\delta_t$ 为正，行动者被告知：“你刚刚采取的动作 $a_t$ 比预期的要好！增加它的概率。”如果 $\delta_t$ 为负，信息则是：“那个动作比预期的要差。降低它的概率。”因此，行动者的更新规则变得异常简单：将 $\theta$ 朝着与由 TD 误差 $\delta_t$ 缩放的 $\nabla_{\theta} \log \pi_{\theta}(a_t \mid s_t)$ 成正比的方向调整。例如，经过一次转移后，行动者的参数 $\theta$ 可能更新量为 $\Delta \theta_t = \alpha_{\theta} \delta_t \nabla_{\theta} \log \pi_{\theta}(a_t|s_t)$ 。

这种优雅的耦合，即评论家的误差信号直接作为行动者的学习指导，是大多数 Actor-Critic 方法的核心机制。一个引人入胜的巧合是，人们认为神经递质多巴胺在人脑中提供的正是这种 TD 误差信号，这表明大自然可能在生物学习中偶然发现了类似的架构。

收敛之舞：两种时间尺度的故事

为了使这场对话富有成效，必须遵循一定的节奏。想象一位教练试图给一个每秒钟都在彻底改变自己技术的球员提供反馈。教练的建议总是会过时，很可能毫无用处。我们的行动者和评论家也是如此。

行动者的更新依赖于评论家的价值估计。如果行动者的策略变化太快，评论家就总是在评估一个移动的目标。它的价值估计对于当前策略永远不会准确，其提供的 TD 误差信号也会充满噪声且不可靠。

为确保稳定性，学习必须在两种不同的时间尺度上进行。评论家的学习必须比行动者快。它需要有足够的时间，在行动者对策略做出重大改变之前，对行动者当前策略的价值形成一个相对准确的估计。在随机近似的数学中，这通过使用两组学习率来形式化，即评论家的 $\alpha_t$ 和行动者的 $\beta_t$ ，并确保行动者的学习率随时间推移相对于评论家的学习率变得无穷小（即 $\lim_{t \to \infty} \beta_{t}/\alpha_{t} = 0$ ）。

这整个方案——让一个行动者改进策略，一个评论家评估策略，两者相互作用和更新，而无需任何一方达到完美——是强化学习中一个更普适的原则，即广义策略迭代（GPI）的美妙实例。这是一场评估与改进交织的舞蹈，螺旋式地趋向最优解。

评论家的艺术：在偏差和方差之间导航

评论家评估行动者策略的任务本身就是一门艺术，涉及一个根本性的权衡。它应该如何为其 TD 误差设定目标？

在一个极端，它可以使用我们已经讨论过的单步自举： $r_t + \gamma V_w(s_{t+1})$ 。这是 $\mathrm{TD}(0)$ 方法。它的目标仅依赖于一步的真实奖励，因此具有低方差。然而，它严重依赖于自身对下一个状态价值 $V_w(s_{t+1})$ 的估计，而这个估计很可能是不完美的，这使得它有偏。

在另一个极端，评论家可以等到整个“游戏”或回合结束，然后查看收到的完整、真实的回报。这是蒙特卡洛方法。其目标是实际观测到的累积奖励，这是对状态价值的无偏估计。然而，这个回报是许多随机奖励的总和，因此具有非常高的方差。

自然界和数学提供了一种美妙的方式来在这两个极端之间进行插值。通过一种称为资格迹的机制，由一个参数 $\lambda \in [0,1]$ 控制，我们可以创建混合了单步、两步……直到最终回报的目标。当我们将 $\lambda$ 从 0 增加到 1 时，我们以增加评论家估计方差为代价，平滑地减小了其偏差。这使得实践者可以根据具体问题微调评论家的学习过程。

从蹒跚到阔步：行动者的演进

正如评论家有其精妙之处，行动者也发展出了复杂的策略表示和改进方法。

一个随机性行动者是会进行探索的。对于连续动作空间（如机械臂的角度），它可能是一个高斯策略， $\pi_\theta(a|s) = \mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))$ ，它在一个学习到的均值周围采样动作。对于离散动作空间（如向左、向右或向上移动），它会是一个分类策略。在这两种情况下，学习机制是相同的：使用得分函数 $\nabla_{\theta} \log \pi_{\theta}(a \mid s)$ 将概率分布推向评论家 TD 误差所建议的方向。

然而，对于许多连续控制问题，从分布中采样可能效率低下。如果行动者能直接输出它所知的唯一最佳动作呢？这是一个确定性行动者， $\mu_\theta(s)$ 。在这里，旧的得分函数技巧失效了；你无法对一个给单点赋予概率为 1 的策略取对数。解决方案是另一项优美的数学成果：确定性策略梯度（DPG）定理。

评论家不再使用 TD 误差来说“你刚才的动作是好/坏”，而是提供了一个更精细的信号。它计算其自身价值估计相对于动作的梯度， $\nabla_a Q_w(s,a)$ 。这告诉行动者：“在状态 $s$ 下，如果你将你的动作朝这个方向稍作改变，价值会增长得最多。”然后，行动者使用链式法则将其转化为对其自身参数 $\theta$ 的更新。这是一种在学习高维连续动作空间时远为直接且通常方差更低的方式。

直面现实：深度强化学习的挑战

当我们将这些强大的 Actor-Critic 思想与深度神经网络巨大的表示能力相结合时，我们便进入了深度强化学习的领域。然而，这种结合引入了一系列新的挑战，即著名的“死亡三元组”：同时使用（1）强大的函数逼近（深度网络），（2）自举（评论家从自己的估计中学习），以及（3）离策略数据（从过去经验的回放缓冲区中学习）。这个三元组可能导致评论家的价值估计失控，从而引发灾难性的发散。

学术界的回应是一系列巧妙的架构和算法修正。为了稳定自举目标，我们引入一个目标网络——一个缓慢更新的评论家副本，它为主评论家提供一个稳定的、暂时固定的学习目标。为了对抗评论家在价值估计中变得过于乐观的倾向，双评论家（Twin Critic）方法应运而生：训练两个评论家，并在形成学习目标时使用两者中较为悲观的估计。这些在像 TD3 这样的算法中可以找到的创新，不一定带有铁定的收敛保证，但它们在实践中已被证明对于使深度 Actor-Critic 方法稳定和有效至关重要。

统一的线索：更深层次的原理

在这些算法的表象之下，隐藏着更深层、更具统一性的原理。其中最深刻的思想之一是兼容函数逼近。它提出了一个惊人的问题：即使我们的评论家有偏，我们能否得到行动者梯度的精确无偏估计？令人惊讶的答案是肯定的，前提是评论家的特征被选择为与行动者的策略“兼容”——具体来说，如果它的基函数是策略的得分函数 $\nabla_\theta \log \pi_\theta(a|s)$ 。在这些条件下，评论家的误差在数学上保证与策略梯度方向正交，因此其偏差效应在期望上会抵消。这一深刻的结果将 Actor-Critic 方法与强大的自然梯度思想联系起来，后者代表了策略改进的最高效方向。

最后，我们甚至可以改变学习的目标本身。到目前为止，我们考虑的是一个折扣回报目标，它更看重即时奖励而非长远奖励。但对于某些任务，比如维持电网的稳定性，我们可能更关心无限时间范围内的性能。此时，我们可以切换到平均奖励目标。数学公式会相应地优美地调整。评论家不再学习一个绝对价值，而是一个微分价值——一个状态与长期平均水平相比好多少或差多少？折扣因子 $\gamma$ 从 TD 误差中消失了，取而代之的是减去一个对平均奖励本身的估计。系统的稳定性不再依赖于几何收缩，而是依赖于策略最终会稳定到一种重复的状态模式（遍历性）的假设。这种适应性展示了 Actor-Critic 框架深刻的灵活性和丰富性。

从一个行动者和一个评判者之间的简单对话开始，Actor-Critic 范式绽放出算法和理论的丰富织锦，触及了来自神经科学、优化和控制论的思想，所有这些都由一个简单而强大的原则——从有指导的试错中学习——统一起来。

应用与跨学科联系

现在我们已经熟悉了 Actor-Critic 模型的内部运作——这场行动与评估的优雅二重奏——我们可以开始一段真正激动人心的旅程。我们将从算法的抽象领域出发，去发现这个思想是多么深刻地编织在我们周围、甚至我们内在的世界的结构之中。孤立地理解一个原理是一回事；而将其视为解开看似无关的科学和工程领域秘密的钥匙，则是另一回事，一种远为深刻的体验。我们会发现，Actor-Critic 不仅仅是一个巧妙的计算技巧；它是自然界和人类一次又一次发现和再发现的一种学习的基本模式。

作为学习机器的大脑

我们的第一站是我们所知的最私密、最复杂的学习机器：人类大脑。几个世纪以来，我们一直在试图理解这个三磅重的神经元宇宙是如何从试错中学习的，一个婴儿是如何学会走路的，或者一个音乐家是如何掌握一门乐器的。强化学习为描述这一过程提供了一种强大的语言，而 Actor-Critic 模型尤其提供了一幅惊人可信的生物学蓝图。

神经科学家在大脑深处，一个被称为基底神经节的结构集合中，找到了这一架构的有力候选者。该区域是动作选择的中心枢纽，是大脑决定下一步做什么的地方。在这个框架内，基底神经节的关键输入结构——纹状体被认为扮演着行动者的角色。它学习并代表着策略，即将给定情境映射到特定动作的策略。大脑中正是这个部分学习了看到红灯就踩刹车的关联。

但谁是评论家呢？几十年来，神经递质多巴胺一直被著名而简单地标记为“快乐分子”。Actor-Critic 模型提供了一种远为微妙和有力的解释。从中脑一个称为黑质致密部（SNc）的区域释放的多巴胺的阶段性爆发，似乎是评论家教学信号的物理体现：时间差分（TD）误差。

想象一下，大脑在不断地对期望发生的事情做出预测。当一个动作导致的结果好于预期——一个意想不到的款待，一个令人惊喜的捷径——多巴胺神经元会爆发式放电，向纹状体发送一阵多巴胺。这是一个正的TD误差信号，有效地告诉行动者：“那很好！无论你刚才做了什么，将来让它更有可能发生。”相反，如果结果比预期的要差——一个承诺的奖励从未到来——多巴胺神经元会暂停其背景放电，导致多巴胺水平下降。这个负的TD误差是评论家在说：“那没成功。下次让那个动作发生的可能性小一些。”多巴胺不仅仅是快乐；它是相对于期望的惊喜信号，是学习的通用货币。

完善蓝图：从“什么”到“如何”

这个生物学故事变得更加错综复杂和美丽。行动者和评论家可能并非完全独立的结构，而是相互交织的功能。研究表明，甚至在纹状体内部也存在劳动分工。腹侧纹状体（一个与动机和情感相关的区域）似乎更像评论家，学习评估一个情境的“价值”——“在这里有多好？”。与此同时，背侧纹状体（一个更多参与习惯和运动控制的区域）则扮演行动者的角色，学习策略——“我在这里应该做什么？”。

这引出了一个有趣的难题：如果多巴胺信号广泛地广播到整个纹状体，它如何能同时在一个部分教授“价值”，而在另一部分教授“策略”？答案在于局部环境。多巴胺信号的效果取决于信号到达前局部突触正在做什么。一个最近活跃的突触会变得“有资格”学习。这个“资格迹”就像一个临时标签，告诉多巴胺信号在哪里起作用。这是一个难题的漂亮解决方案：一个全局信号可以协调高度特定的局部变化，使得大脑能从完全相同的反馈中学习到想要什么和该做什么。

这个框架甚至开始解释我们不仅选择做什么，而且以何种活力去做。想一想走着去赶公交车和在公园里散步。动作是相似的，但它们的执行却天差地别。有理论提出，我们多巴胺的基础（紧张性）水平反映了我们环境的平均奖励率。当我们处于一个高回报情境中（高基础多巴胺水平）时，时间的机会成本很高，以更大的活力行动——更快、更有力地移动——就成为最优选择。然后，我们TD误差的阶段性多巴胺爆发，指导着这些充满活力的动作的即时学习和改进。因此，Actor-Critic 模型将高层次的决策演算与低层次的运动物理学联系起来。

当学习者出错：一扇通往疾病的窗户

也许一个模型最有力的证据是它不仅能解释功能，还能解释功能障碍。如果 Actor-Critic 架构是大脑的一个好模型，那么它的失效模式应该类似于现实世界中的神经系统和精神疾病。

考虑某些作为多巴胺 D2 受体拮抗剂的抗精神病药物的效果。在纹状体中，有两条主要通路：一条促进动作的“Go”（执行）通路，和一条抑制动作的“NoGo”（抑制）通路。从积极反馈（多巴胺激增）中学习被认为可以加强“Go”通路，而从消极反馈（多巴胺下降）中学习则加强“NoGo”通路。D2 拮抗剂专门阻断“NoGo”通路的机制。Actor-Critic 模型做出了一个惊人精确的预测：这类药物应选择性地损害个体从惩罚或负面结果中学习的能力，而对基于奖励的学习影响相对较小。受这种药物影响的智能体在学习避免错误选择时会更慢，这种现象在计算模型和临床现实中都已观察到。

该模型还为审视运动障碍提供了一个强有力的视角。考虑局灶性肌张力障碍，这是一种悲剧性疾病，技艺高超的音乐家或作家通过数千小时的练习，反而失去了对他们已臻完美的肌肉的控制。从强化学习的角度来看，这可能是一个学习出错的案例。在追求速度和精度的巨大压力下，Actor-Critic 系统可能会发现一个“病态”解。协同收缩激动肌和拮抗肌的策略，虽然代谢成本高且笨拙，但极其僵硬且方差低。如果学习系统对风险过于敏感，或只专注于像速度这样的狭隘目标，它就可能锁定在这个糟糕的局部最优解中。大脑自身的优化过程，在 Actor-Critic 对话的驱动下，用练习筑成了一座监狱。这个计算假设不仅解释了症状，还提出了新的治疗方法，如感觉运动再训练或可变性训练，旨在帮助智能体逃离这个自制的陷阱。

从建模到修复：利用大脑进行工程设计

理解大脑的学习规则是第一步。下一步是利用这些规则来帮助它。Actor-Critic 框架不仅仅是一个描述性模型；它还是一个用于构建智能控制系统的指导性模型，包括那些直接与大脑交互的系统。

这就是闭环神经调控的前沿领域。想象一个为帕金森病或癫痫患者设计的“智能”深度脑刺激器。该设备不是提供恒定的刺激，而是可以监测一个相关的神经生物标志物（状态），并学习一个提供刺激（动作）的策略，以将该标志物保持在健康范围内。这正是一个 Actor-Critic 问题。

然而，控制大脑伴随着一项关键责任：安全。你不能简单地最大化一个奖励函数，如果这样做可能冒着传递危险高水平刺激的风险。这引出了工程概念中的约束强化学习。在这里，算法必须在优化其目标的同时，遵守严格的安全边界。这通常通过一种称为拉格朗日松弛的方法实现，该方法引入一个“对偶变量”——一种计算会计师，其工作是跟踪安全预算。如果行动者开始采取过于接近安全限制的动作，这个对偶变量就会增加，给评论家看到的成本函数增加一个沉重的惩罚。这迫使行动者学习一个新的、更安全的策略。这是控制理论和机器学习的美妙结合，为自适应、个性化的疗法铺平了道路，从智能起搏器到自动化药物剂量系统。

通用控制器

至此，我们可能会倾向于认为 Actor-Critic 模型是神经科学和医学领域的专用工具。但一个基本原理的真正美妙之处在于其普适性。提出一个动作并评估其后果之间的对话，是一种超越生物学的模式。

考虑管理一个大规模云计算服务的挑战。在每一刻，一个操作员（或一个自动化系统）都必须决定运行多少台服务器。这是行动者的策略。运行太少的服务器会导致用户的高延迟，这是一种成本。运行太多的服务器会产生高昂的电费和硬件账单，这也是一种成本。系统需要一个评论家来评估这种权衡。目标是学习一个策略，在满足服务水平目标（SLO）（例如将违规率保持在某个阈值以下）的同时，最小化总成本。这又是一个约束 Actor-Critic 问题。描述基底神经节中多巴胺的相同数学原理，可以用来决定应该有多少台计算机来支持你最喜欢的网站。基底变了，但自适应控制的逻辑依然存在。

超越个体：智能体社会

为我们的旅程画上句号，让我们将 Actor-Critic 的思想推向最后一个前沿：从单个智能体到智能体社会。在任何合作性活动中，从蜂群到足球队，都会出现一个根本问题：多智能体信用分配。如果团队获胜，哪个球员的行动对胜利的贡献最大？平等奖励每个人是低效的；它没有告诉个体球员如何改进。

Actor-Critic 框架提供了一个巧妙的解决方案，称为反事实多智能体（COMA）策略梯度。在这里，学习系统采用一个能够看到全局的中心化评论家，但它为每个个体行动者提供个性化的教学信号。对于每个智能体，评论家通过提出一个反事实问题来计算一个特殊的优势函数：“在其他人做了他们所做的事情的情况下，你所采取的行动与你根据你的策略本可以采取的平均行动相比，要好多少？”。通过减去这个复杂的、针对特定智能体的基线，评论家可以分离出每个智能体对团队成功的边际贡献。它通过为每个智能体创造一个不同的现实来解决信用分配问题，使其能够理解自己在集体中的独特作用。

从单个神经元的安静放电，到数据中心繁忙的协调，再到一组机器人复杂的舞蹈，行动者与评论家之间简单而深刻的对话，回响在可见与不可见的世界中。它证明了简单规则生成复杂、智能行为的力量，并提醒我们，学习的原则是宇宙中最基本、最统一的力量之一。