对数导数技巧

玻尔百科

定义

对数导数技巧是一种将期望的导数转化为新量的期望的数学方法，通过蒙特卡洛采样实现梯度估计。该方法也被称为分值函数估计器或 REINFORCE 算法，是强化学习策略梯度方法及能量模型等生成模型训练的基础原理。虽然该技巧具有很强的普适性，但其梯度估计往往存在高方差问题，在实际应用中通常需要引入基准值等控制变量技术来降低方差。

核心要点

对数导数技巧将计算期望导数的难题转化为计算一个新量的期望，从而可以通过蒙特卡洛采样来估计梯度。
这种方法，也称为得分函数估计器或 REINFORCE，具有很强的通用性，但其梯度估计值通常具有高方差。
通过从函数值中减去一个基线（控制变量），可以在不引入偏差的情况下显著降低方差，这是实践中一项至关重要的技术。
它是强化学习中策略梯度方法以及训练能量基模型等生成模型的基础性原则。
该技巧的适用性仅限于分布的支撑集不依赖于参数的情况，这与需要可微模型的重参数化技巧形成对比。

引言

在许多复杂系统中，从金融市场到机器人技术，成功并非由单一结果决定，而是由多种可能性下的平均表现决定。当我们想要优化这类系统时，一个核心挑战便随之产生：当系统本身具有内在随机性时，我们应如何调整参数以改善这种平均结果？这引出了一个困难的数学问题：如何计算期望值相对于定义结果概率分布的参数的梯度？直接的方法通常是行不通的，因为概率空间本身会随着我们希望优化的参数而改变。

本文探讨了一个极其巧妙的解决方案，即对数导数技巧，也称为得分函数方法或 REINFORCE。这一强大的技术为估计这些看似棘手的梯度提供了一种方法，为在各种随机环境中进行优化打开了大门。我们将首先深入探讨“原理与机制”，揭示其核心的简单微积分恒等式，将其与主要竞争对手——重参数化技巧进行对比，并解决其高方差这一主要的实践缺陷。随后，“应用与跨学科联系”一节将揭示这一数学思想如何成为一个统一的发现引擎，推动着强化学习、生成建模和计算生物学等不同领域的进步。读完本文，您将不仅理解一个数学“技巧”的机制，更会领会一个在随机世界中学习的基本原则。

原理与机制

想象你是一位正在调试精密机器的工程师。这台机器有一个控制旋钮，我们称其设置为 $\theta$ 。对于任何给定的设置 $\theta$ ，机器都会生产物品，但由于某种内在的随机性，生产出的物品并非完全相同。我们可以用一个数字 $x$ 来描述一个物品的特性。获得特性为 $x$ 的物品的概率由一个分布 $p(x | \theta)$ 给出。现在，假设有一个函数 $f(x)$ ，它告诉你物品 $x$ 的“价值”或“质量”。你的目标很简单：你希望通过调整旋钮 $\theta$ 来最大化机器生产物品的平均价值。

这个平均价值就是 $f(x)$ 的期望，记作 $\mathbb{E}_{X \sim p(\cdot|\theta)}[f(X)]$ 。为了确定应该朝哪个方向转动旋钮，你需要计算梯度：当你对 $\theta$ 做一个微小改变时，这个平均价值会如何变化？用数学语言来说，你想要计算：

\nabla_{\theta} \mathbb{E}[f(X)] = \nabla_{\theta} \int f(x) p(x | \theta) dx

这里存在一个微妙但深刻的问题。你不能简单地将梯度 $\nabla_{\theta}$ 移到积分内部并作用于 $f(x)$ ，因为 $f(x)$ 并不依赖于 $\theta$ 。参数 $\theta$ 是机器的一部分；它影响的是看到某个 $x$ 的概率 $p(x | \theta)$ 。当我们转动旋钮时，概率空间本身的结构正在发生变化。那么，我们究竟如何才能计算这个梯度呢？

魔术师的巧手

这时，一个极其巧妙的微积分技巧前来救场，这个技巧非常有用，以至于它有许多名字：对数导数技巧、得分函数方法，或在强化学习中称为 REINFORCE。该技巧基于一个来自大一微积分的简单恒等式：函数 $g(\theta)$ 的对数的导数是 $\frac{d}{d\theta} \ln g(\theta) = \frac{1}{g(\theta)} \frac{d g(\theta)}{d\theta}$ 。重新整理这个式子，我们得到一种表示 $g(\theta)$ 导数的方法：

\frac{d g(\theta)}{d\theta} = g(\theta) \frac{d}{d\theta} \ln g(\theta)

现在，让我们将这个“神奇”的恒等式应用到我们的概率密度 $p(x|\theta)$ 上。我们有：

\nabla_{\theta} p(x | \theta) = p(x | \theta) \nabla_{\theta} \ln p(x | \theta)

让我们看看将它代回我们最初的问题会发生什么。首先，我们做一个“君子协定”，即我们可以交换微分和积分的顺序。这是一个关键步骤，我们稍后会更仔细地审视它，但现在，我们先假设它是有效的。

\nabla_{\theta} \mathbb{E}[f(X)] = \int f(x) \left( \nabla_{\theta} p(x | \theta) \right) dx

现在，代入我们的恒等式：

= \int f(x) \left( p(x | \theta) \nabla_{\theta} \ln p(x | \theta) \right) dx

仔细观察这个表达式。我们可以重新整理积分内的各项：

= \int \left( f(x) \nabla_{\theta} \ln p(x | \theta) \right) p(x | \theta) dx

最后这一行的结构非常优美。根据定义，它就是括号内量在原始分布 $p(x|\theta)$ 下的期望。所以，我们发现：

\nabla_{\theta} \mathbb{E}[f(X)] = \mathbb{E}_{X \sim p(\cdot|\theta)} \left[ f(X) \nabla_{\theta} \ln p(X | \theta) \right]

这是一个突破！我们从一个期望的导数开始——一个似乎无法直接估计的量——并将其转化为一个新量的期望。这种新形式非常适合进行蒙特卡洛估计。要得到梯度的估计值，我们只需要：

从我们当前的分布 $p(x|\theta)$ 中抽取一批样本 $x_i$ 。
对每个样本，计算其值 $f(x_i)$ 和项 $\nabla_{\theta} \ln p(x_i | \theta)$ 。
将它们相乘并对结果求平均。

$\nabla_{\theta} \ln p(x | \theta)$ 这一项非常重要，它有自己的名字：得分函数。它衡量观察到特定结果 $x$ 的对数概率对于参数 $\theta$ 微小变化的敏感程度。在某种程度上，它告诉你一个特定的结果 $x$ 在多大程度上“偏好” $\theta$ 的某个变化方向。梯度就是我们的函数 $f(x)$ 由这个得分加权的期望值。这正是在和等问题中计算梯度所使用的机制。

两条通往顶峰的道路：路径导数竞争者

对数导数技巧提供了一种强大、“黑盒”式的梯度估计方法。你不需要知道 $f(x)$ 是如何工作的；你只需要能够评估它，并知道你的概率分布的得分函数。但如果你能看透机器内部呢？如果你有一个“白盒”模型呢？

这就引出了第二种竞争方法：重参数化技巧，也称为路径导数估计器。假设我们可以用一种不同的方式来描述生成物品 $x$ 的过程。我们不只是说 $x$ 来自一个神秘的分布 $p(x|\theta)$ ，而是可以把它写成我们的参数 $\theta$ 和某个独立噪声源 $\epsilon$ 的确定性函数。例如，要从正态分布 $x \sim \mathcal{N}(\mu, \sigma^2)$ 中采样，我们可以先从 $\epsilon \sim \mathcal{N}(0,1)$ （我们的固定随机源）中采样，然后计算 $x = \mu + \sigma\epsilon$ 。

通过这种重参数化，期望变成了：

\mathbb{E}[f(X)] = \mathbb{E}_{\epsilon}[f(\mu + \sigma\epsilon)]

现在，期望是关于 $\epsilon$ 的，而 $\epsilon$ 的分布不依赖于我们的参数 $\mu$ ！我们成功地将“随机性”从对 $\theta$ 的依赖中“分离”了出来。梯度的计算变得轻而易举——我们只需将导数移到期望内部：

\nabla_{\mu} \mathbb{E}[f(X)] = \mathbb{E}_{\epsilon}[\nabla_{\mu} f(\mu + \sigma\epsilon)]

我们可以通过采样 $\epsilon$ ，计算该样本路径下 $f$ 的梯度，然后求平均来估计这个值。这种方法要求我们能够“穿透”函数 $f(x)$ 进行微分，但当它适用时，它为实现同一目标提供了另一条途径。

通用性的代价：方差问题

所以我们有两种方法。得分函数方法似乎更通用——它不需要我们对 $f(x)$ 进行微分，甚至适用于重参数化通常不可行的离散分布。但这种通用性伴随着巨大的代价：高方差。

让我们再思考一下得分函数估计器： $\mathbb{E}[f(X) \cdot (\nabla_{\theta} \ln p(X | \theta))]$ 。我们通过采样来估计它。单个样本对梯度的贡献是两个随机量的乘积：值 $f(X)$ 和得分 $\nabla_{\theta} \ln p(X | \theta)$ 。如果这两者中的任何一个波动剧烈，它们的乘积在不同样本间的变化可能会更加剧烈。这意味着你可能需要极大量的样本才能得到一个可靠的梯度估计。

相比之下，路径导数通常具有低得多的方差。它直接遵循了 $\theta$ 如何影响结果 $x$ ，以及这种变化如何影响损失 $f(x)$ 的因果链。信号更加直接。

这不仅仅是一个模糊的直觉。对于一个简单的例子，其中 $z \sim \mathcal{N}(\mu, \sigma^2)$ 且损失为 $L(z) = (z-c)^2$ ，我们可以精确计算出方差。重参数化估计器的方差仅仅是 $4\sigma^2$ 。然而，得分函数估计器的方差是一个更令人生畏的表达式： $\frac{(\mu-c)^4}{\sigma^2} + 14(\mu-c)^2 + 15\sigma^2$ 。注意两点：得分函数的方差随着当前参数 $\mu$ 离目标 $c$ 越远而增长，并且当噪声 $\sigma$ 趋于零时，它会爆炸到无穷大！而重参数化估计器的方差则会愉快地趋于零。

驯服狂野的梯度：基线的力量

幸运的是，我们并非对这种高方差束手无策。我们可以使用另一个巧妙的想法来驯服得分函数估计器：控制变量，或者在这个语境下更常被称为基线。

考虑我们的估计器，它涉及到项 $f(x) \cdot (\text{score})$ 。如果我们从 $f(x)$ 中减去一个常数 $b$ 会怎样？新的估计器将涉及 $(f(x) - b) \cdot (\text{score})$ 。这会破坏我们的无偏性吗？让我们检查一下我们减去的项的期望：

\mathbb{E}[-b \cdot \nabla_{\theta} \ln p(X | \theta)] = -b \cdot \mathbb{E}[\nabla_{\theta} \ln p(X | \theta)]

那么得分函数的期望是什么呢？

\mathbb{E}[\nabla_{\theta} \ln p(X | \theta)] = \int (\nabla_{\theta} \ln p(x | \theta)) p(x | \theta) dx = \int \nabla_{\theta} p(x | \theta) dx = \nabla_{\theta} \int p(x | \theta) dx = \nabla_{\theta}(1) = 0

得分函数的期望为零！这是一个深刻而有用的事实。它意味着从我们的估计器中减去 $b \cdot (\text{score})$ 完全不改变其期望值。对于任何不依赖于具体样本 $x$ 的 $b$ 的选择，梯度估计都保持无偏。

这给了我们一个可以自由发挥的参数 $b$ 。我们可以选择它来最小化估计器的方差。推导表明，最优基线 $b^*$ 是 $f(X)$ 乘以得分平方的期望，除以得分平方的期望。在实践中，一个更简单且非常有效的选择是将基线 $b$ 设置为 $f(X)$ 的平均值，即 $b \approx \mathbb{E}[f(X)]$ 。这背后有一个优美的直觉：它确保我们增加比平均水平更好的行动的概率，并减少比平均水平更差的行动的概率。

细则与宏图

在结束之前，我们必须遵守我们的“君子协定”，讨论这些方法的适用条件。

得分函数方法依赖于微分和积分的交换。这仅在分布的支撑集——即 $x$ 可以取的值的集合——不依赖于参数 $\theta$ 时才有效。对于像 $\text{Uniform}(0, \theta)$ 这样的分布，其上界就是参数，该技巧会失效，因为它忽略了移动边界的贡献。
另一方面，重参数化技巧要求从噪声 $\epsilon$ 到输出 $x$ 的路径，以及函数 $f(x)$ 本身，都是可微的。它对于不连续函数，如指示函数 $f(x) = \mathbf{1}_{x > a}$ ，会失效，因为其导数几乎处处为零。而得分函数方法则可以轻松处理这类情况。

这凸显了梯度估计中优美的对偶性：我们有两个强大的工具，每个工具都有其独特的优势和劣势领域。

一旦理解了对数导数技巧，它就展现为现代人工智能中许多先进算法背后的统一原则。在强化学习中，著名的 REINFORCE 算法正是得分函数估计器，其中 $f(x)$ 是奖励， $p(x|\theta)$ 是智能体的策略。使用基线来减少方差是标准实践，对于使这些算法正常工作至关重要。在生成模型的世界里，训练能量基模型涉及一个梯度，该梯度巧妙地分裂为由真实数据驱动的“正相”和由模型自身生成样本驱动的“负相”。这个负相梯度正是使用对数导数技巧计算的。

从一个简单的微积分恒等式出发，一个充满强大算法的宇宙应运而生，通过一个共同的基本原则将不同领域联系起来。这段从一个棘手的积分到人工智能前沿的旅程，展示了数理物理在实践中的美和统一性。

应用与跨学科联系

在我们探索了对数导数技巧的原理之后，我们可能会留下这样一种印象：它是一个巧妙但或许小众的数学工具。事实远非如此。我们所揭示的不仅仅是一个技巧，而是一个学习和优化的基本原则，其回响遍及令人惊叹的广泛科学学科。它是从经验中学习的数学体现，是一个引导随机系统——从机器人的动作到基因的表达——朝向期望目标的通用杠杆。它的美在于其简单性，其力量在于其普适性。它允许我们对任何结果是概率性的系统提问：“我应该如何改变我的参数以获得更好的平均结果？”并提供了一个优雅的答案：根据特定随机结果对良好结果的偏好程度来调整你的参数。

让我们开启一段应用之旅，看看这个单一思想如何绽放出千姿百态的形式，每一种都适应其领域的独特挑战。

学会行动：强化学习的引擎

对数导数技巧最著名的应用或许是在强化学习（RL）中，它是所谓“策略梯度”方法的核心。想象一个智能体，无论是一个学习走路的机器人还是一个学习玩游戏的程序，试图找出一个在世界中行动以最大化其总奖励的“策略”。这个策略是随机的；在给定状态下，它为采取每种可能的行动提供一个概率。智能体如何学习呢？它进行尝试，创造出一系列状态和行动的轨迹，并最终获得奖励。

核心挑战是“信用分配”：沿途的众多行动中，哪些对最终的好（或坏）结果负责？对数导数技巧，在其 RL 化身 REINFORCE 算法中，给出了一个优美的答案。期望奖励的梯度是关于轨迹的期望。对于每个轨迹，我们计算所采取行动的对数概率梯度的总和，并用获得的总奖励来加权这个总和。

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \sum_{t} \nabla_\theta \log \pi_\theta(a_t | s_t) \right]

简单来说，如果一系列行动导致了高奖励，我们就增加未来采取这些行动的概率。如果导致了低奖励，我们就降低它们的概率。我们正在“强化”好的行为。

这个简单的想法带来了深远的影响。在蓬勃发展的从头分子设计领域，科学家们正利用这一原理教计算机成为化学家。“行动”是构建分子的顺序步骤——在这里添加一个原子，在那里形成一个化学键——例如，用 SMILES 字符串中的字符来表示。“奖励”是最终分子的计算属性，比如其作为药物的预测有效性或其催化活性。通过运行数千次这样的生成“回合”并应用策略梯度更新，模型（通常是循环神经网络）的策略逐渐学会生成具有高度期望属性的新型分子。从非常真实的意义上讲，这是一台通过试错来学习化学直觉的机器。

该框架的优雅使其能够扩展到极其复杂的场景。考虑一个分层组织：经理不指定项目的每个微小细节，而是设定高层目标并委派具体任务。分层 RL 也遵循同样的原则。一个高层策略学习选择“选项”或子目标（例如，“穿过房间”），一个低层策略学习如何执行该选项（例如，特定的运动指令序列）。对数导数技巧无缝地应用于两个层面，使得整个层次结构能够协同学习，每个层面都因其对最终奖励的贡献而获得信用。同样的灵活性也扩展到处理复杂的多目标权衡问题，例如，通过简单地将该技巧应用于向量值奖励的标量化组合，来寻找既快速又节能的策略。

窥探无形：潜变量模型的推断

世界充满了隐藏的过程，我们能观察到它们的影响，但其内部运作却是不可见的。从量子系统的隐藏状态到个人的隐藏意图，科学往往是一个从观察到的现象推断潜在本质的故事。对数导数技巧是这项工作中一个关键的工具，尤其是当我们想要拟合包含这类隐藏变量的模型参数时。

考虑经典的隐马尔可夫模型（HMM），它是分析语音、金融数据或生物序列等时间序列数据的主力。我们观察到一系列输出（例如，说出的声音），但底层的状态序列（例如，音素）是隐藏的。假设我们想要调整模型的参数——比如说，描述在某个特定状态下产生的声音的高斯分布的均值——以最好地解释观察到的数据。数据的似然是所有可能通过隐藏状态的路径的总和，这是一个难以处理的大数。对这个总和进行微分似乎是不可能的。

在这里，对数导数技巧前来救场。对数似然的梯度可以表示为在观察到数据的条件下，对隐藏路径的期望。这个期望将梯度转化为一种极其直观的形式：一个在所有时间步上的加权和，其中每一步的权重是给定所有证据下，系统处于特定隐藏状态的后验概率。这就是期望最大化（EM）算法的核心，该算法利用这一原理迭代地优化模型参数。我们不需要知道真实的隐藏路径；我们只需要知道每条可能路径的概率，就能指导我们的参数更新。

这一原理在现代生物学中找到了惊人的应用，即在理解单个细胞内基因的嘈杂、随机的舞蹈。“电报模型”描述了一个基因的启动子在“开启”和“关闭”状态之间随机切换。当“开启”时，它会产生 mRNA 分子，然后这些分子会降解。实验人员可以计算数千个单细胞中 mRNA 分子的数量，但他们无法直接看到基因的开启和关闭。目标是从嘈杂的 mRNA 计数中推断出这个隐藏开关的动力学速率（ $k_{\text{on}}$ , $k_{\text{off}}$ ）。观察到特定数量 mRNA 的似然是关于启动子活动未知历史的积分。再一次，对数导数技巧使我们能够计算对数似然相对于动力学参数的梯度，将其表示为在观察到的 mRNA 计数的条件下，对隐藏启动子状态的期望。这将一个令人生畏的推断问题转化为一个可解的优化问题，使我们能够将细胞群体的宏观、嘈杂的数据与生命机器的微观、基本参数联系起来。

更深层次的联系：几何、因果与发现

对数导数技巧不仅是一个计算工具；它还是通往机器学习和科学领域更深层次概念理解的门户。

当我们使用策略梯度更新参数时，我们是在一个高维景观中迈出一步。但什么是“正确”的步进方式？参数的微小变化可能导致策略行为的巨大变化。像信赖域策略优化（TRPO）这样的先进 RL 方法通过认识到参数空间具有由 Kullback-Leibler (KL) 散度定义的自然几何结构来解决这个问题，KL 散度衡量策略之间的“距离”。对数导数梯度（“预测器”）告诉我们最陡峭的上升方向，但 KL 约束（“校正器”）确保我们停留在梯度估计可靠的“信赖域”内。从这个角度看，对数导数技巧是通往学习的信息几何之旅的起点，它导向更稳定、更强大的算法，这些算法在尊重策略空间内在曲率的情况下进行导航。

此外，该技巧迫使我们面对因果性的基本问题。当我们使用从一个策略（例如，医生当前的治疗策略）收集的数据来优化一个新策略时，我们的梯度估计是否有效？基于对数导数技巧构建的估计器是一个统计量。真正的因果梯度是关于如果我们改变策略会发生什么的陈述。两者仅在强假设下才相等，最著名的是“条件可忽略性”——即假设在给定观察到的上下文的情况下，没有未观察到的混淆变量同时影响所采取的行动和结果。这将对数导数估计器重新定义为一个因果推断工具，其有效性关键取决于数据来源世界的结构，而不仅仅是一个纯粹的数学对象。它将优化的机制与区分相关性与因果关系的深刻而困难的科学联系起来。

也许最鼓舞人心的应用位于科学方法的核心：实验设计。想象你是一位试图测量宇宙基本常数的物理学家。你可以控制实验的某些方面——束流能量、探测器设置。你应该如何选择这些设置以尽可能多地了解该常数？理想情况是最大化“期望信息增益”（EIG），这是一个来自贝叶斯统计的量，衡量实验平均期望能减少我们对未知参数不确定性的程度。EIG 是对所有可能实验结果的期望。我们如何优化它？再一次，对数导数技巧提供了关键。它使我们能够计算 EIG 相对于实验设计参数的梯度。然后我们可以使用梯度上升来自动发现最优的实验配置。在这种背景下，对数导数技巧不再仅仅是用于从数据中学习；它是用于优化发现过程本身。

从教机器发明药物，到解码活细胞的秘密，再到设计下一代物理实验，对数导数技巧无处不在。它是一个简单、深刻且统一的原则，提醒我们在一个随机的世界里，通往改进的道路是由我们过去经验的加权平均铺就的。从非常真实的意义上讲，它就是发现的得分。