首页扩散模型：从物理学到生成式AI

扩散模型：从物理学到生成式AI

玻尔百科

定义

扩散模型：从物理学到生成式AI 是一个将微观随机运动的物理原理转化为生成式人工智能计算框架的领域。该模型通过学习逆转扩散过程，通过迭代去噪随机信号来生成图像或蛋白质结构等复杂数据。虽然扩散模型在生物学和神经科学等领域提供了稳定的训练和高质量输出，但其生成过程通常比其他生成方法更慢且需要更多迭代。

核心要点

扩散是一个基本过程，其中如布朗运动等微观随机运动，会导致可预测的宏观扩散，即物质从高浓度区域向低浓度区域扩散。
生成式AI扩散模型通过学习逆转这一过程来运作，它们迭代地对随机信号进行去噪，从而创造出如图像和蛋白质结构等连贯的数据。
扩散的数学框架为理解从细胞内离子输运到神经退行性疾病扩散等多种现象，提供了一个强大而统一的视角。
与其他一些生成方法不同，扩散模型能提供稳定的训练过程和高质量的输出，尽管这通常以更慢的、迭代式的生成过程为代价。

引言

扩散，即物质通过随机分子运动逐渐混合的现象，是自然科学中最基本的原理之一。我们或许会在一滴墨水在水中散开时见证它，但其数学上的优雅描述了从钢的硬化到基因在种群中传播等各种现象。然而，在这种经典理解与人工智能的前沿世界之间，通常存在着巨大的鸿沟。一个与衰退和无序增加同义的过程，如何能成为创造的强大引擎？本文旨在通过揭示物理学中的扩散与生成式扩散模型这一革命性技术之间的深刻联系，来弥合这一鸿沟。

在接下来的章节中，我们将首先探讨扩散的核心原理与机制。我们将深入研究随机游走的数学、随机微分方程，以及这些概念如何统一地描述物理和生物系统。随后，在应用与跨学科联系部分，我们将遨游于扩散作为解释和预测工具的广阔领域，从材料科学和神经生物学到演化过程本身，最终探讨人工智能如何令人惊叹地逆转这一过程，从纯粹的噪声中生成新颖的艺术、蛋白质和物理解决方案。

原理与机制

理解扩散模型的旅程，并非踏入人工智能这一陌生新领域的探险，而是回归到所有科学中最基本、最普适、最美丽的理念之一：扩散过程本身。要理解计算机如何能从纯粹的噪声中构想出逼真的图像或新颖的蛋白质，我们必须首先领会同样的物理学原理——它既支配着墨滴在水中的扩散，也控制着化学反应的缓慢进行，乃至演化这场伟大博弈中基因的重组。

不可阻挡的随机性进程

从本质上讲，扩散是微观混沌导致宏观有序的故事。想象一群分子，每个分子都像醉汉一样随机地抖动、碰撞。虽然任何单个分子的路径都是不可预测的，但整个群体的行为却是完全可预测的：作为一个整体，它们将从高浓度区域扩散到低浓度区域。这种向平衡状态的不可阻挡的进程，是自然界最可靠的趋势之一。

通常，这种缓慢而稳定的扩散是一个更大过程的瓶颈。以高级陶瓷的制备为例，这通常涉及两种固体粉末的相互反应。为了使反应进行，来自一个颗粒的原子必须穿过其表面已形成的新产物材料，才能到达另一个反应物。随着这个产物层越来越厚，这些原子的旅程变得越来越长、越来越艰难。反应的整体速率不再受化学键形成速度的限制，而是受限于跨越这个不断扩大的障碍的缓慢扩散速度。该过程的早期模型，如Jander模型，恰恰抓住了这个思想，揭示了随着扩散路径长度的增加，反应如何逐渐停止。同样的原理也支配着电池和燃料电池的性能，其中电流可能受到离子通过电解质扩散到电极表面的速度的限制。扩散是宇宙的伟大平衡器，但它通常不慌不忙。

扩散的锯齿状指纹

我们如何用数学来描述这种抖动的运动？一个平滑、可预测的路径，比如投掷棒球的轨迹，可以用微积分来描述。如果你观察一个微小的时间间隔 $\Delta t$ ，移动的距离与 $\Delta t$ 成正比。但一个扩散粒子的路径——一种被称为布朗运动的路径——则有着根本的不同。它是连续的，但处处不可微。它是一种无限锯齿状的存在。

有一种优美的方式可以观察这种差异，一种被称为二次变分的数学指纹。想象一下，追踪一个粒子的位置 $X(t)$ ，并将其在时间间隔 $T$ 内的微小位移的平方加起来。对于一个平滑的路径，这个和 $\sum [X(t_{i+1}) - X(t_i)]^2$ 在我们的时间步长变小时会收缩到零。为什么？因为每个位移都与时间步长 $\Delta t$ 成正比，所以它的平方与 $(\Delta t)^2$ 成正比。将这些加起来，得到的结果会在 $\Delta t \to 0$ 时消失。

但对于一条扩散路径，位移与 $\Delta t$ 不成正比，而是与其平方根 $\sqrt{\Delta t}$ 成正比。这是随机游走的标志。当我们对这些位移进行平方时，我们得到的结果与 $\Delta t$ 成正比。在整个区间内将这些加起来，会得到一个有限的、非零的数！事实上，它会收敛到一个值 $\sigma^2 T$ ，其中 $\sigma$ 是衡量随机冲击强度的波动率或“扩散系数”。平方增量之和不为零的事实，是真正扩散的标志；它是路径内在粗糙度的一种度量。

这种对单个粒子路径的微观描述，通过随机微分方程（SDE）来捕捉，可以被推广以描述整个群体密度 $p(\mathbf{x}, t)$ 的演化。这引出了一个被称为福克-普朗克方程的偏微分方程（PDE）。值得注意的是，这个方程是著名的热传导方程的近亲。这揭示了一种深刻的统一性：描述金属棒中热量流动的相同数学结构——一种抛物型偏微分方程——也描述了一群扩散粒子的概率云的扩散。

当随机性变得富有创造力

扩散不仅仅是一个衰减和耗散的过程。当与其他力量结合时，它成为一个强大的创造引擎。想象一个生物种群，比如培养皿上的细菌。它们繁殖（一种“反应”），并随机地四处游荡（一种“扩散”）。“反应”倾向于在一个地方积聚种群，而“扩散”则倾向于将其分散开来。

这两种对立力量之间的斗争，催生了涌现的、特征性的尺度。例如，一个特征长度尺度 $\ell \sim \sqrt{D/r}$ 自然而然地出现，其中 $D$ 是扩散常数， $r$ 是繁殖率。这大致是一个生物在有机会繁殖之前可以游荡的距离。这些简单的成分足以产生复杂的模式，从菌落扩张的行波到动物皮毛上复杂的斑点和条纹（图灵斑图）。

同样的逻辑为审视演化提供了一个强大的视角。种群中某个基因的频率受到自然选择的确定性推动（数学意义上的“漂移”）和遗传漂变的随机波动（“扩散”）的影响。利用扩散近似，我们可以计算出演化生物学中最重要的量之一：一个从低频率 $x_0$ 开始的单一新突变等位基因，最终克服遗传的随机性并扩散到整个种群的概率，这一事件被称为固定。这个问题的优雅解， $u(x_0) = \frac{1 - \exp(-2N\sigma x_0)}{1 - \exp(-2N\sigma)}$ ，其中 $N$ 是种群大小， $\sigma$ 是选择优势，证明了扩散数学的预测能力。看来，自然界利用扩散来进行探索和创造。

重组碎蛋的艺术：逆向扩散

这就把我们带到了生成式AI的现代革命。扩散模型的绝妙之处在于，它们将这种自然的、破坏信息的过程，学习如何反向运行。

前向过程：从有序到混沌。 我们从一个数据片段开始——比如说，一张猫的图片 ( $\mathbf{x}_0$ )。然后我们执行一个前向扩散过程，在许多时间步长 $t=1, 2, \dots, T$ 中的每一步，故意添加少量高斯噪声。这由一个简单的规则描述： $\mathbf{x}_t = \sqrt{1-\beta_t}\mathbf{x}_{t-1} + \sqrt{\beta_t}\boldsymbol{\epsilon}$ ，其中 $\boldsymbol{\epsilon}$ 是随机噪声。经过数百或数千步后，原始图像被完全冲刷掉，只剩下纯粹的、无结构的静态噪声 ( $\mathbf{x}_T$ )。我们以一种受控的、数学上精确的方式成功地销毁了所有信息。
逆向过程：从混沌到有序。 现在是见证奇迹的时刻。我们能否从一片纯粹的随机噪声开始，一步步逆转这个过程，创造出一张全新的、可信的猫的图片？这听起来像是试图重组一个打碎的鸡蛋。“逆热传导方程”之类的扩散过程的逆过程是出了名的不稳定和不适定的。
秘密武器：神经网络引导。 这就是关键所在。虽然从一个嘈杂的状态 $\mathbf{x}_t$ 逆转过程通常是不可能的，但如果我们有一点提示——原始图像 $\mathbf{x}_0$ ——它就变得可能了。数学表明，给定当前状态 $\mathbf{x}_t$ 和原始状态 $\mathbf{x}_0$ ，前一个状态 $\mathbf{x}_{t-1}$ 的分布是一个简单的、行为良好的高斯分布。它的均值只是 $\mathbf{x}_t$ 和 $\mathbf{x}_0$ 的一个特定加权平均。

当然，当我们从零开始生成时，我们并没有一个 $\mathbf{x}_0$ 。因此，我们训练一个强大的神经网络，我们称之为 $\boldsymbol{\epsilon}_\theta$ ，来做一件聪明的工作：在任何步骤 $t$ ，给定嘈杂的图像 $\mathbf{x}_t$ ，它预测将原始图像破坏到这个程度所添加的噪声 $\boldsymbol{\epsilon}$ 。

有了这个训练好的网络作为我们的向导，生成过程就变成了一个优美的、迭代的精炼过程。我们从纯粹的噪声 $\mathbf{x}_T$ 开始。我们将其输入我们的网络，网络估计出噪声分量。然后我们减去少量这个估计出的噪声，在时间上向后迈出一小步，得到一个稍微不那么嘈杂的图像 $\mathbf{x}_{T-1}$ 。我们重复这个过程——预测噪声、减去噪声、后退一步——数百次。每一步都是一个小小的修正，由网络对“自然图像”应该是什么样子的知识所引导。慢慢地，奇迹般地，结构从静态中浮现。一个模糊的轮廓出现，纹理形成，最后，一个连贯、详细的图像得以实现。该模型本质上是在一块随机的大理石上“雕刻”出最终的图像，而神经网络在每一步都引导着凿子。这个过程让人想起生物学中的易化扩散，其中蛋白质在DNA上找到其目标位点的速度远快于随机的3D搜索，因为它可以在DNA链上进行引导下的1D“滑动”。我们的神经网络提供了类似的引导支架。

这种迭代、渐进的方法是扩散模型与众不同之处。与可能遭受不稳定训练和“模式崩溃”（只学会生成几种类型的图像）的生成对抗网络（GAN）不同，扩散模型的训练是稳定的。与有时会忽略其自身潜在编码（“后验坍塌”）的变分自编码器（VAE）不同，扩散模型稳健地利用了整个生成路径。这种稳定性和高质量的代价通常是缓慢的采样过程，这呼应了扩散本身缓慢而稳定的特性。但在那从混沌中耐心、一步步的重建过程中，蕴藏着创造出惊人复杂性和真实感作品的力量。正是那个让一杯水中的墨迹褪色的原理，如今被用来将想象变为现实。

应用与跨学科联系

现在我们已经掌握了扩散的数学核心——那将微观随机碰撞转变为可预测宏观流动的优雅的概率与统计之舞——我们可以提出科学中最激动人心的问题：“那又如何？”这个思想将我们引向何方？事实证明，随机游走这个简单的概念是一把万能钥匙，能解开众多领域中的秘密。从钢梁的冰冷坚硬到活细胞的温热湿润和复杂，从思想在大脑中的传播到计算机创造艺术，扩散的印记无处不在。让我们踏上一段旅程，看看这一个原理如何贯穿科学世界的经纬，揭示其内在的美与统一。

有形世界：物质与生命中的扩散

我们从最具体的地方开始：固体物质世界。例如，一块铁晶体似乎是静止和不变的典范。但在其刚性的原子晶格内部，一场狂热的舞蹈正在进行。像碳这样的杂质原子在材料中不断“扩散”。这不是平滑的流动，而是一系列孤注一掷的跳跃。想象一下，碳原子是一个微小的探险家，在一个由铁原子构成的巨大三维丛林健身房中穿行。它位于一个被称为间隙位置的小空隙中，随着热能而振动。每隔一段时间，它会积聚足够的能量，跳跃到相邻的空隙中，挤过构成其笼子墙壁的庞大铁原子。它所走的路径和必须克服的能垒，都由晶体的精确几何结构决定。这种微观的扩散过程使钢变得坚硬，使得新合金的创造成为可能，并决定了材料在极端环境下的寿命。

现在，让我们离开有序的晶体，潜入生物学中那个柔软、拥挤的世界。一个抗生素分子是如何在细菌内部找到其靶点的？其路径并非穿过空荡荡的水。细菌可能被一层荚膜包裹，这是一个被称为糖萼的水合、缠结的聚合物网络。对于药物分子来说，这是一个险恶的障碍赛。它的旅程是一次受阻随机游走。斯托克斯-爱因斯坦关系为我们提供了其扩散的基准，但现实更为复杂。由于荚膜的迷宫般结构，有效扩散系数被显著降低。分子必须在狭窄、曲折的孔隙中找到出路，每一步的前进都会被延缓。这场由多孔介质中扩散原理支配的物理战斗，往往是成功治疗与耐药感染之间的分水岭。

但如果我们的扩散粒子不是中性的呢？如果它们带有电荷，就像驱动我们身体的离子一样，情况又会如何？在这里，随着扩散与电学的相遇，故事又增加了一层复杂性。像钙离子（ $Ca^{2+}$ ）、钠离子（ $Na^{+}$ ）和钾离子（ $K^{+}$ ）等离子的输运是所有电生理学的基础——正是它使神经冲动得以激发，心脏得以跳动。支配原理不再仅仅是菲克定律，而是更完整的能斯特-普朗克方程。这个优美的方程告诉我们，离子的总通量有两个组成部分：一个是由从高浓度向低浓度扩散的随机趋势驱动的扩散部分，另一个是由电场无情的推或拉驱动的漂移部分。离子既在漫无目的地游荡，又被外力引导。这场扩散与电漂移精心编排的舞蹈，在每个细胞的膜上上演，构成了思想、感觉和运动的物理基础。

这一切听起来很美妙，但我们如何能确定它正在发生？我们真的能观察到这种微观舞蹈吗？值得注意的是，可以。借助像荧光漂白恢复（FRAP）这样出色的实验技术，我们可以在活体组织中测量扩散。想象一下，你已经将一个关键的发育信号蛋白，如骨形态发生蛋白（BMP），改造为可发荧光。你使用高能激光在一个活体胚胎内瞬间漂白一个小圆形区域，使该区域内的BMP分子变暗。然后，你只需观察。几秒到几分钟后，随着周围区域新的、未被漂白的BMP分子扩散进来，这个黑暗的斑点开始重新发光。这种恢复的速率告诉我们扩散系数 $D$ ！这些实验揭示了惊人的复杂性。例如，当BMP与像Chordin蛋白这样的大抑制蛋白结合时，所形成的复合物在组织中移动得慢得多。我们测量的有效扩散系数是快速的、自由的BMP和缓慢的、结合的复合物的加权平均值。我们不仅仅是在计算一个数字；我们正在直接观察塑造发育中生物体的复杂分子伙伴关系。

抽象世界：扩散作为一个普适过程

到目前为止，我们一直在物理空间中想象扩散。但这个概念远比这强大得多。如果“空间”本身是一个抽象概念——一个友谊网络、网页网络或神经通路网络呢？在图上，扩散不再是关于一个场中的邻近性，而是关于连接节点之间的流动。一个节点上的量只会扩散到其直接邻居，整个过程可以通过一个简单而优雅的矩阵运算来捕捉： $\mathbf{x}^{(t+1)} = T \mathbf{x}^{(t)}$ 。图的属性被编码在一个转移矩阵 $T$ 中（该矩阵由图的邻接矩阵构建），它决定了信息、影响或疾病将如何传播。核心思想依然存在：从高浓度到低浓度的流动，但受限于网络的拓扑结构。

这种网络模型不仅仅是一个数学上的奇趣之物；它具有深刻的，有时是悲剧性的现实世界影响。其中一个最引人注目的应用是在模拟神经退行性疾病的传播，如肌萎缩侧索硬化症（ALS）和额颞叶痴呆（FTD）。一个主流假说认为，错误折叠的有毒蛋白质从一个神经元传播到另一个神经元，利用大脑自身的远程布线图——连接组——作为其高速公路。通过将连接组建模为一个图，将有毒蛋白质的传播建模为一个扩散过程，科学家可以写下一个看似简单但功能强大的方程： $\frac{d\mathbf{x}}{dt} = - \beta L \mathbf{x} - \alpha \mathbf{x}$ 。在这里， $\mathbf{x}$ 是每个大脑区域中毒性蛋白负荷的向量，而 $L$ 是图拉普拉斯算子，网络扩散的主宰者。这个模型以惊人的准确性预测了在患者身上观察到的大脑萎缩的心碎模式。描述热流的相同数学帮助我们理解当今最具挑战性的疾病之一。

让我们再进行一次令人振奋的抽象飞跃。有什么东西能穿越时间扩散吗？在系统地理学领域，答案是响亮的“是”。想象一个物种的地理位置是其在数千年间演化的一个“性状”。当一个祖先物种产生新的谱系，这些谱系沿着系统发育树的分支分化和演化时，它们的地理范围在全球范围内游荡。生物学家将这一宏伟的旅程建模为在树上发生的扩散过程。在一个连续模型中，物种的坐标（纬度和经度）被视为随时间进行布朗随机游走的连续变量。分支越长（经过的时间越多），物种可以游荡得越远。在一个离散模型中，世界被划分为一组有限的区域，物种根据马尔可夫链在它们之间“跳跃”。通过将这些模型拟合到现存物种的遗传数据，我们可以重建古代生命的迁徙，观察大陆被殖民、海洋被跨越，所有这一切都通过扩散这一强大的透镜来完成。

创造性世界：扩散作为一个生成原理

在见证了扩散作为一种普遍的传播和衰退过程之后，我们来到了其故事中最新、最令人震惊的一章。如果我们能把电影倒着放呢？如果我们不是从一个分解为混沌的结构化状态开始，而是从完全的混沌——纯粹的、无特征的噪声——开始，并学会有条不紊地逆转扩散过程呢？这就是一类革命性的生成式人工智能——恰如其分地命名为“扩散模型”——的核心思想。

当然，机器并不能真正地逆转时间。相反，我们训练一个强大的神经网络来完成一个简单的、重复的任务：取一个稍微嘈杂的图像（或蛋白质结构、或声波），并预测被添加的确切噪声。如果网络成为这场“去噪”游戏的大师，我们就可以用它来创造。我们从一片纯粹的、随机的静态噪声开始。我们要求网络预测并减去一小部分噪声。我们将稍微不那么嘈杂的结果反馈给网络，重复这个过程数百或数千次。一步一步地，网络扮演着一位大师级雕塑家的角色，从一块混沌中雕刻出一个结构化的、连贯的现实。

这种迭代精炼的过程具有惊人的力量。它可以用来解决复杂的物理方程。通过在大量物理问题及其已知解（例如，电荷分布和产生的电势场）的数据集上训练模型，模型学习了底层的映射关系。当给定一个新问题时，它可以将一个随机场“去噪”成满足泊松方程 $\nabla^2 \phi = \rho$ 的正确电势。从本质上讲，它通过实例学习了物理定律。

也许更令人兴奋的是，这种逆向扩散可以用于纯粹的创造。在合成生物学中，扩散模型现在正被用于从零开始生成全新的蛋白质结构。通过在AI的架构中融入3D空间的基本对称性——这一特性被称为 $\mathrm{SE}(3)$ 等变性——我们确保它“理解”无论你如何旋转或平移一个物体，物理定律都是相同的。然后，模型可以从一个随机的原子云开始，并一步步地将其去噪，成为一个为特定目的设计的、貌似合理、稳定且功能性的蛋白质。

从一个在钢晶格中跳跃的碳原子，到跨越亿万年的演化进程，再到计算机中新药的数字雕刻，一个随机游走的简单、无方向的洗牌过程，已被证明是所有科学中最深刻、最统一的概念之一。一个衰退和无序的过程，当其原理被真正理解时，能够成为洞察力和创造力的强大引擎，这正是自然世界之美的明证。