基于分数的生成模型

玻尔百科

定义

基于分数的生成模型是一类利用分数函数（即数据对数概率密度的梯度）引导从噪声到相干样本生成过程的生成模型。该框架通过训练神经网络执行去噪任务来学习分数函数，并利用朗之万动力学等迭代过程合成新数据。通过将学习到的通用数据先验与特定测量似然项相结合，该方法为机器学习领域的多种逆问题提供了统一的解决方案。

核心要点

基于分数的模型使用“分数函数”——即数据对数概率的梯度——来引导从噪声到连贯样本的生成过程。
该分数函数是通过训练一个强大的神经网络来间接学习的，这个网络执行一个简单的任务：对被故意添加噪声损坏的数据进行去噪。
新数据通过类似朗之万动力学的过程合成，该过程迭代地将沿学习到的分数方向的步进与少量随机噪声相结合。
该框架通过将一个通用的、学习到的数据先验（即分数）与一个特定于测量的似然项相结合，为各种逆问题提供了统一的解决方案。

引言

机器如何能学会创造出全新但又完全逼真的事物，比如一张不存在的人的照片，或对宇宙中一个未见角落的模拟？这是生成式建模的核心挑战。虽然存在许多方法，但其中最强大和优雅的范式之一是基于分数的生成模型。这些模型从统计物理学中汲取了深刻的灵感，将生成问题重新构想为在一个巨大、无形的“能量景观”中导航，其中逼真的数据对应于高概率的深谷。本文探讨了当只有数据样本而没有明确的概率公式时，如何绘制并穿越这片景观的根本问题。

本次探索分为两部分。首先，在“原理与机制”部分，我们将揭示其核心理论，解释分数函数、用于学习分数的巧妙“去噪技巧”以及生成新数据的“朗之万之舞”等关键概念。我们还将看到该框架如何为解决复杂的逆问题提供一个通用引擎。随后，“应用与跨学科联系”部分将展示这些模型的非凡广度，揭示它们如何革新从计算摄影和医学成像到宇宙学模拟和基础物理学的各个领域，展现了一种连接数据、动力学和几何的统一语言。

原理与机制

要真正掌握基于分数的生成模型的力量，我们必须像物理学家一样思考。想象一下，任何事物的概率——无论是照片中的像素，还是分子中的原子，任何一种世界的构型——不仅仅是一个抽象的数字，而是一个巨大、无形景观上的一个点。在这个景观中，高概率的构型，比如一张逼真的猫的图片，位于深邃的山谷中。而难以置信的构型，比如一堆随机的静态噪声，则栖居于高耸的山峰上。物理学家将这片景观的“海拔”称为能量；低能量状态是稳定的，因此概率很高，而高能量状态则不然。一个状态 $x$ 的概率 $p(x)$ 可以写成与 $\exp(-E(x))$ 成正比，其中 $E(x)$ 是它的能量。

这个“能量景观”是一个非常直观的图景。要找到一个合理的构型，我们只需下山。但我们如何知道哪条路是下山的路呢？

概率的景观

在任何景观上，最陡峭的上升方向由一个名为梯度的数学算子给出。如果我们考虑概率的对数 $\log p(x)$ ，它等于 $-E(x)$ 加上一个常数，其梯度直接指向“上坡”方向，即概率越来越高的区域。这个梯度向量 $\nabla_x \log p(x)$ 就是我们故事的主角。它被称为分数。

对于我们广阔可能性空间中的每一个点 $x$ ，分数函数 $s(x) = \nabla_x \log p(x)$ 都为我们提供了一个小箭头。顺着箭头走，你就在攀登概率之山。逆着箭头走，你就会下降到山谷中——也就是事物“有意义”的分布模式所在之处。

这个由箭头组成的场并不仅仅是任意的集合；它具有优美的内在结构。因为分数是一个标量势（对数概率）的梯度，所以数学家称之为保守场。这意味着该场没有“涡旋”（其旋度为零），这一性质确保了模型的深层一致性。它还暗示了一个深刻的道理：如果你从点 $A$ 走到点 $B$ ，并将沿途的分数分量累加起来（即计算线积分），其结果将精确地告诉你，你在对数概率景观上的“海拔”变化了多少，而这与你所走的路径无关。整个景观都隐含地编码在分数场中。

我们还可以将这个分数场想象成一种神奇流体的速度场。想象悬浮在这种流体中的粒子；分数告诉它们流向何方。它们最终会去哪里？它们会流向驻点，即分数向量为零的地方。这些地方正是概率分布的峰值——我们山谷的中心。

所以，计划似乎很简单：找到分数函数，我们就有了通往所有好东西的地图。但只有一个问题。定义 $s(x) = \nabla_x \log p(x)$ 要求我们必须解析地知道概率函数 $p(x)$ 。但在现实世界中，我们几乎永远无法做到。我们没有“猫的图片概率”的公式。我们所拥有的只是样本——数以百万计的猫的图片。我们怎么可能计算一个我们甚至都不知道的函数的梯度呢？

去噪技巧：从数据中学习分数

这正是一个真正科学巧思的闪光时刻。解决方案是一个奇妙的、反直觉且优雅的技巧，称为去噪分数匹配。

想象一下，我们拿来原始的、纯净的数据——我们完美的猫的图片——然后故意损坏它们。我们加入一点随机的、无特征的噪声，就像老式电视机上的雪花。我们一遍又一遍地这样做，创建一个庞大的（干净图像，含噪图像）对的数据集。

现在，我们训练一个强大的神经网络来完成一个非常简单的任务：看一张含噪图像，并预测被添加进去的噪声。这是一个标准的监督学习问题，也是神经网络特别擅长解决的问题。学会做这件事的网络被称为去噪器。

神奇之处在于：一个与所谓的 Tweedie's formula 密切相关的数学结果，揭示了这项去噪任务与我们看似不可能的分数寻找问题之间的深刻联系。它指出，含噪数据分布的分数与最优去噪器对所添加噪声的估计成正比。更正式地说，如果 $y = x + \epsilon$ 是一个含噪样本，那么分数 $\nabla_y \log p_{\text{noisy}}(y)$ 与最优去噪器对干净图像的猜测 $\mathbb{E}[x|y]$ 和含噪图像 $y$ 本身之间的差值成比例。这个差值 $(\mathbb{E}[x|y] - y)$ 正是期望噪声的负值。

这是一个具有巨大影响的突破。通过训练神经网络来对图像进行去噪，我们实际上是在教它计算分数函数！我们已经将一个无法解决的问题转化为了一个实际的工程任务。我们现在可以构建一个模型，称之为 $s_\theta(x, \sigma)$ ，对于任何输入 $x$ 和任何噪声水平 $\sigma$ ，它都能为我们提供一个非常好的分数近似。

朗之万之舞：生成新世界

现在我们有了向导 $s_\theta(x)$ ，我们如何用它从零开始创作一幅新的猫的图片呢？我们不能简单地沿着分数箭头走，因为那样每次都会引导我们走向那张概率最高的猫的图片。为了生成多样性，我们需要探索整个山谷，而不仅仅是它的最低点。

我们再次向物理学寻求灵感，特别是朗之万动力学的概念，它描述了一个粒子在液体中晃动时的运动，同时受到力场的牵引和随机分子碰撞的踢动。我们的生成过程将是一场模仿这种运动的“舞蹈”。

我们从一张纯粹的随机噪声画布开始——能量山上的一个高点。然后，我们开始迈步。每一步都包含两个部分：

沿着分数向量 $s_\theta(x)$ 的方向迈出一小步，引导该点向更高概率的“上坡”方向移动。
一个从高斯分布中抽取的小的随机踢动，代表热扰动。

更新规则大致如下： $x_{new} = x_{old} + \eta \, s_\theta(x_{old}) + \sqrt{2\eta} \, \text{random\_kick}$ 。步长 $\eta$ 是一个关键参数，它平衡了分数的确定性牵引与噪声的随机探索。经过许多步这样的“朗之万之舞”后，我们那个始于随机噪声的点将会沿着景观下降，并稳定在某个低能量的山谷中。它将成为我们目标分布的一个全新的、连贯的样本。更复杂的采样器可能会使用“预测-校正”方法，即在一个含噪的预测步之后，跟随一个仅使用分数的校正步，帮助采样器更紧密地贴近真实路径。

综合的力量：解决逆问题

基于分数框架的真正优雅之处在于，它所能做的远不止从无到有地生成样本。它为解决逆问题提供了一个通用引擎，而逆问题是科学发现和数据分析的核心。逆问题是指我们观察到间接、含噪或不完整的数据，并希望推断出其背后真实情况的任何情景。想象一下锐化一张模糊的照片，填补古代文本中缺失的部分，或者从扫描仪数据中重建医学图像。

解决方案在于贝叶斯法则的一个简单而优美的应用。我们想找到一个在给定我们的测量值 $y$ 的情况下是合理的 $x$ 。其指导景观是后验对数概率 $\log p(x|y)$ 。贝叶斯法则告诉我们：

$\log p(x|y) = \log p(y|x) + \log p(x) + \text{constant}$

现在，让我们看看这个后验景观的分数——也就是梯度：

$\nabla_x \log p(x|y) = \nabla_x \log p(y|x) + \nabla_x \log p(x)$

这个方程是一个启示。它表明，解决我们逆问题的向导（后验分数）仅仅是另外两个向导之和：

$\nabla_x \log p(x)$ ：先验分数。这正是我们的去噪网络 $s_\theta(x)$ 所学到的东西！它告诉我们一个“好的”或“自然的” $x$ 通常是什么样子，与我们的具体测量无关。这是我们对世界的先验知识。
$\nabla_x \log p(y|x)$ ：似然分数。这一项取决于我们的测量过程。如果我们知道 $x$ 是如何产生 $y$ 的（例如， $y = \text{Blur}(x) + \text{noise}$ ），我们通常可以写出似然 $p(y|x)$ 并计算其梯度。这个梯度像一种力，将 $x$ 拉向与我们观察到的数据 $y$ 一致的构型。

这个原理是完全通用的。即使在像贝叶斯逻辑回归这样的经典统计问题中，引导采样算法的对数后验梯度也是由一个来自似然的项和一个来自先验的项组成的。

因此，要解决一个逆问题，我们只需再次运行我们的朗之万之舞，但这一次的引导力有两个组成部分：一个来自我们通用的去噪器，确保解决方案看起来自然；另一个来自我们测量的物理过程，确保解决方案与数据相符。采样器优雅地平衡了这两种相互竞争的愿望，以找到最合理的答案。

与现实的碰撞

当然，这个美丽的理论图景也会遇到现实世界的复杂性。我们的神经网络并非无限强大。一个常见的挑战是，当真实数据分布具有非常尖锐的模式时，这对应于能量景观上曲率很高的区域。在这些区域，真实的分数函数变化非常迅速。一个容量有限的网络，可以形式化为具有有界的利普希茨常数，可能不够“灵活”来复制如此陡峭的梯度。它会学习到一个过于平坦的分数近似。当我们使用这个被低估的分数进行采样时，朝向模式的拉力会比应有的要弱。结果生成的样本会比真实数据略显“模糊”或更分散——模型未能捕捉到最锐利的特征。

此外，如果我们的数据不是连续的，会发生什么？例如，由纯二元像素组成的图像，或一个DNA序列。梯度 $\nabla_x$ 的概念没有明确定义。在这些离散的世界里，朗之万之舞不再适用。然而，能量景观 $E_\theta(x)$ 的核心思想仍然成立。我们只需要使用一种不同的方法来探索它，一种不依赖于梯度的方法。Metropolis-Hastings MCMC 就是这样一种方法，我们不是迈出一小步，而是提出一个离散的变化（比如翻转一个像素），并根据能量的变化来决定是否接受它。原理是相同的；只是遍历的机制根据空间的性质作了调整。

这种适应性证明了该框架的强大和统一。通过将概率视为一个景观，将分数视为其梯度，我们解锁了一套强大而直观的工具，用于理解、生成和推断复杂数据中的信息，完美地连接了物理学、统计学和机器学习的世界。

应用与跨学科联系

在我们之前的讨论中，我们遍历了基于分数建模的基础原理。我们发现，对于任何光滑的概率分布，都存在一个向量场——分数——指向概率最陡峭上升的方向。就像登山者的地图显示最快的上山路径一样，这个分数场编码了整个数据景观。然后我们看到了如何逆向遵循这张地图，使用随机微分方程将简单的噪声转化为结构化的复杂数据。

这是一个优美而优雅的理论。但真正的魔力，一个科学思想的真正衡量标准，在于其连接、解释和构建的力量。我们能用这个指向可能现实的“通用指南针”来做什么？事实证明，答案惊人地广泛。这一个思想构筑了一座概念的桥梁，连接了机器学习、经典信号处理、科学模拟，甚至统计物理学的抽象基础。现在，让我们来探索这片广阔、相互关联的应用景观。

锐化我们的视觉：逆问题的革命

许多科学和工程都像一个侦探故事。我们常常面对模糊的照片、充满噪声的医学扫描或不完整的天文数据，必须从这些损坏的线索中推断出真实的、潜在的现实。这就是经典的“逆问题”：给定测量值 $y$ ，它是真实信号 $x$ 的退化版本（也许可以建模为 $y = Ax + \text{noise}$ ），我们如何最好地恢复 $x$ ？

几十年来，标准方法涉及一种平衡行为。解决方案的一部分试图忠实于测量值——“数据一致性”项。另一部分，称为“先验”或“正则化项”，则强制执行我们对解决方案应有样貌的信念。例如，我们可能假设原始图像应该是平滑的或具有锐利的边缘。这些先验通常是简单的、手工制作的，最终只是对现实世界无限复杂性的一个苍白模仿。

在这里，基于分数的模型引发了一场革命。如果，我们不使用简单的先验，而是使用一个已经学会了所有自然图像结构本身的生成模型呢？这正是基于分数的方法所允许的。

一种优雅的策略是所谓的“即插即用”（PnP）。我们可以采用一个经过实战检验的经典优化算法，如交替方向乘子法（ADMM），它旨在通过将问题分解为更小、更易于管理的部分来解决问题。一部分处理数据一致性，另一部分处理先验。PnP的洞见在于，“先验”步骤可以被一个预训练的神经网络去噪器整体替换。起初，这似乎是一个临时的技巧。但其联系是深刻的。正如我们已经暗示的，最优去噪过程通过 Tweedie's formula, $\mathbb{E}[x \mid z] = z + \sigma^2 \nabla_z \log p_z(z)$ ，与分数函数紧密相连，其中 $z$ 是含噪数据。一个去噪器，在学习去除噪声的过程中，含蓄地学习了数据分布的分数。所以，通过“插入”一个去噪器，我们正在以一种有原则的方式，将一个丰富的、学习到的世界先验注入到一个经典的优化框架中。

一个更直接、或许更优雅的方法直接源于扩散过程本身。想象一下逆向扩散过程，我们正在慢慢地将噪声转化为一个清晰的样本。在每一个小步骤中，我们可以执行一个两部分的舞蹈。首先，预测步：我们使用学习到的分数函数迈出一小步，受生成先验的引导，将我们当前的估计向一个更“自然”的状态移动。其次，校正步：我们轻轻地调整结果，使其与我们拥有的实际测量值更加一致。这可能是一个近端更新，将样本拉向所有可能产生我们数据的信号集合。通过从纯噪声一直到清晰信号，迭代这种“预测-校正”的舞蹈，我们最终得到一个既是合理的、看起来自然的信号，又与我们的观测结果一致的最终样本。这个预测-校正框架现在是解决从医学成像到计算摄影等大量逆问题的最先进方法的核心。

从图像到宇宙：模拟现实的构造

基于分数的模型的力量远远超出了重建图像。它为我们提供了一个新的、强大的引擎来模拟现实本身。如果我们能写下一个物理系统所遵循的统计规则，我们通常可以构建一个概率分布及其对应的分数函数，然后使用我们的朗之万采样器来抽取该系统全新的、独立的构型。

例如，考虑宇宙学的宏伟画卷。宇宙的大尺度结构——星系和空洞构成的复杂网络——被认为是从早期宇宙的微小量子涨落中演化而来的。这个宇宙网的大尺度统计特性可以用一个高斯随机场来描述，其性质完全由其功率谱编码。功率谱告诉我们不同物理尺度上存在多少结构。

我们可以定义这些宇宙学场上的一个概率分布，并从中推导出精确的分数函数。值得注意的是，这个分数函数在傅里叶空间中具有一个非常简单和高效的形式。它的作用是抑制或放大那些不符合目标功率谱的傅里叶模式。通过从纯粹的随机噪声场开始，并应用我们由分数引导的朗之万动力学，我们可以在计算机中生成全新的、统计上正确的“玩具宇宙”。这使得物理学家能够创建大量的模拟来测试结构形成理论，并理解他们对真实巡天数据分析中的不确定性。

这个原理具有惊人的普遍性。在高能物理学中，我们可以生成模拟的粒子对撞机事件。更重要的是，我们可以增强训练过程，以确保这些生成的事件尊重基本的物理定律，如动量和能量守恒。通过在训练目标中增加一个惩罚项，该惩罚项衡量生成样本中某个物理量的分布与其已知的理论分布之间的不匹配，我们可以“引导”模型使其在物理上保持一致。这为生成模型打开了大门，它们不仅能模仿数据，还能被赋予自然法则。同样的想法可以应用于模拟复杂分子的行为、流体流动的模式或蛋白质的折叠——任何系统统计力学已知的领域。

通向热力学的桥梁：衡量不可见之物

或许，基于分数的模型揭示的最深刻的联系之一，是与统计力学本身的基础的联系。该领域一个核心且出了名困难的问题是计算配分函数， $Z = \int \exp(-E(x)) dx$ 。这个量对系统的所有可能状态按其能量进行加权求和，是计算几乎所有宏观热力学性质的关键，比如自由能（ $F = -k_B T \ln Z$ ）。除了最简单的系统外，直接计算这个积分是不可能的。

然而，计算两个系统之间配分函数的比率 $Z_1/Z_0$ 通常就足够了，这对应于它们自由能的差异。在这里，我们的生成工具包提供了一种惊人有效的方法。该技术被称为退火重要性采样（AIS），它在一个简单系统（如标准高斯分布，其配分函数 $Z_0$ 已知）和我们希望找到其配分函数 $Z_1$ 的复杂目标系统之间，构建了一座由中间分布构成的概念“桥梁”。

想象一下，从大量从简单分布中采样的粒子开始。然后我们慢慢地“退火”或“变形”能量景观，从简单的变为复杂的。在这个变形的每一步，我们做两件事：我们收取一个小的“过路费”，即一个衡量概率密度在我们脚下如何变化的重要性权重，并且我们让粒子“热化”或稳定到新的、稍有改变的景观中。这个热化步骤至关重要，它是由我们信赖的朋友——分数引导的朗之万动力学——来执行的。每个中间分布的分数是起始分布和结束分布分数的一个简单加权平均。在穿越整个桥梁之后，累积的总权重为我们提供了比率 $Z_1/Z_0$ 的一个稳健估计。这个源于生成式建模的工具，已经成为计算物理和化学领域一个基础性问题的强大新方法。

驯服无限：为何这一切在高维空间中有效

一个幽灵困扰着所有高维统计学：“维度灾难”。高维空间异常广阔和空旷。随着维度数量 $D$ 的增长，空间的体积呈指数级增长，使得任何在网格上探索或描述它的尝试都变得毫无希望。一张有一百万像素的图像生活在一百万维的空间中。我们的方法怎么可能在那里起作用呢？

答案在于一个关于数据本质的关键洞见，即“流形假设”。现实世界的数据，尽管嵌入在高维环境空间中，但并非均匀分布。相反，它集中在一个维度低得多的、平滑弯曲的曲面或“流形”上或其附近。例如，所有面孔的集合，在所有可能图像的广阔空间中，构成了一个微小而复杂的子空间。

基于分数的方法优雅地避开了维度灾难，因为它们作用于这种内在几何结构。描述概率密度演化的偏微分方程——Fokker-Planck 方程，如果我们在网格上求解它，确实会受到维度的诅咒。但我们模拟的随机微分方程是一种粒子方法。它不关心空间中广阔的空无区域。它遵循的轨迹，在学习到的分数的引导下，基本上被限制在低维数据流形上。分数函数本身就是这个流形上“高速公路”的地图。通过学习分数，模型就学会了数据的几何结构。我们甚至可以通过观察数据或学习到的分数场的局部统计信息来诊断该流形的内在维度 $d$ ，例如，通过检查附近点的数量如何随距离增长，或通过分析局部协方差矩阵的谱衰减。动力学实际上发生在一个 $d$ 维世界中，即使坐标生活在一个 $D$ 维空间里，这就是为什么这些方法能够如此成功地驯服无限。

通用指南针

我们的旅程结束了。我们从在概率景观上上山这个简单的想法开始。我们发现这个指南针可以用来解决重建的难题，从宇宙学到粒子物理学生成新世界，衡量物理系统不可见的自由能，以及在高维空间的险恶地形中导航。

真正的美，正如科学中常有的那样，在于这种统一。一个为创造逼真图片而发展的想法，结果却能与热力学和几何学说着同一种语言。分数函数不仅仅是一个梯度；它是一块罗塞塔石碑，在数据的静态世界、随机过程的动态世界和流形的几何世界之间进行翻译。通过学习这种语言，我们解锁了一种强大的新方式来建模、模拟和理解我们的世界。