
从行星的轨道到细胞内蛋白质的复杂舞蹈,世界处于持续不断的变化之中。数百年来,微分方程一直是科学的语言,让我们能够以数学的精度描述这些动态。然而,这个强大的工具依赖于一个关键的前提:我们必须首先了解系统的基本规律,才能写出这些方程。当系统(例如生物学中的系统)过于复杂,无法从第一性原理进行描述时,会发生什么呢?这种知识上的差距为建模和理解带来了巨大的障碍。
本文介绍神经常微分方程(Neural Ordinary Differential Equations, Neural ODEs),这是一种将深度学习与经典动力学融合的革命性方法。神经常微分方程不是被动地接受给定的方程,而是直接从观测数据中学习这些方程。我们将通过两部分内容来理解这个强大的框架。首先,在“原理与机制”部分,我们将探索其核心理论,揭示神经常微分方程如何在连续时间内表示动态,以及使其可训练的优雅数学原理。随后,“应用与跨学科联系”部分将展示这项技术如何应用于解决现实世界中的科学问题,从发现生物学规律到构建物理知识启发的模型。让我们从探索解锁整个概念的核心思想开始。
想象一下,你正站在一座桥上,看着一片叶子顺流而下。在水面的每一点上,水流都有特定的方向和速度。叶子没有自己的意志,只是遵循这些指令。它的整个旅程由水流的模式——我们称之为向量场(vector field)——所决定。这幅简单的图景掌握着理解一切变化的关键,从行星的轨道到神经元的放电,无不如此。它正是微分方程的核心。
常微分方程(ODE)是这一思想的精确数学表述。如果我们用向量 表示叶子在任意时间 的位置,那么支配其运动的常微分方程可以写成:
这个方程表明,叶子的瞬时速度()由一个函数 决定,该函数代表了在位置 和时间 的水流。如果你知道了函数 和叶子的起点,原则上你就可以在时间上向前和向后追溯它的整个路径。
几个世纪以来,科学家们一直致力于发现宇宙的“F函数”。牛顿定律为我们提供了引力的 ;麦克斯韦方程组为我们提供了电磁学的 。在生物学中,我们可能会利用化学动力学原理来写出一个相互作用的基因网络的近似 。但是,如果系统过于复杂,以至于我们无法从第一性原理写出 呢?如果河流的水流完全是个谜呢?
这就是神经常微分方程(Neural ODE)登场的时刻。其思想既深刻又简单:如果我们不知道函数 ,那就用一个神经网络从数据中学习它。方程就变成了:
在这里, 是一个带有一组可训练参数 的深度神经网络。这个神经网络的概念性作用是充当一个通用逼近器,用于逼近支配系统瞬时变化率的未知向量场。
考虑一个具体的生物学例子,比如基因触发开关(genetic toggle switch)。这个电路由两种蛋白质 P1 和 P2 组成,它们相互抑制对方的生成,从而导致两种稳定状态(高 P1/低 P2,或低 P1/高 P2)。系统的“状态” 就是这两种蛋白质浓度的向量。神经常微分方程不需要被告知希尔系数或协同结合;它通过观察 P1 和 P2 浓度随时间如何演变,直接学习它们之间复杂的非线性“舞蹈”规则。网络 成为了一个灵活的、数据驱动的底层生物动态表示,当精确机制未知时,它是一种强大的替代方案。
神经常微分方程最美的方面之一在于它是一个连续时间模型。这使其区别于许多经典机器学习序列模型,如循环神经网络(RNN)。RNN 以离散的步骤运作,就像一台以固定速率拍摄画面的胶片相机。其基本规则的形式是 。如果你的数据像时钟一样准时到达,这种方式会工作得很好。
但大自然很少使用节拍器。病人的生命体征是在不规则的时间间隔内测量的;细胞培养物的样本是在实验条件允许时采集的。对于标准的 RNN 来说,这构成了一个问题。它期望数据是均匀间隔的,必须通过一些“技巧”来处理不规则的时间间隔。
相比之下,神经常微分方程存在于连续时间中。因为它学习的是底层的向量场 ,所以它不受任何固定的时间点集合的约束。要找到任何任意时间 的状态,你只需告诉一个数值求解器从 开始,沿着 定义的“箭头”前进,直到达到 。这使得预测未来类似于一个单一、基本的数学运算:对所学到的动力学函数进行数值积分。
这种连续的视角揭示了另一个深刻的特性。模型的复杂度——参数 的数量——是由神经网络 的架构决定的,而不是由你拥有的数据点数量决定的。如果你得到一种新仪器,可以让你以两倍的频率对你的生物系统进行采样,你不需要改变你的模型或增加更多的参数。你仍然在学习相同的底层物理定律,即那个单一的连续向量场。额外的数据只是提供了更多的证据,帮助你以更高的置信度确定该定律。
模型究竟是如何“学习”向量场的?这个过程是在寻找最佳的参数集 。我们从一个随机猜测的 开始,它定义了一个初始的、随机的向量场。然后我们使用这个场来模拟一条轨迹,从我们的第一个数据点开始。不可避免地,这条预测的轨迹会错过我们观测到的其他数据点。
为了量化这个误差,我们定义一个损失函数。这只是一个评分,用于衡量模型在每个观测时间的预测状态与实际实验测量值之间的总差异——例如,平方距离。训练的目标是调整参数 以使这个损失尽可能小。
这是通过基于梯度的优化来实现的。我们计算如果我们稍微调整 中的每个参数,损失会如何变化。这个梯度指向损失“最陡峭上升”的方向,所以我们朝着相反的方向迈出一小步,迭代地减少误差。通过这样做,我们正在慢慢地塑造向量场 ,直到它产生的轨迹能够平滑地穿过我们的数据。
但是,我们凭什么相信一个神经网络能够表示一个生物系统真实的、复杂的动态呢?答案在于一个强大的理论结果:微分方程的万能近似定理。它指出,对于任何行为 reasonable 的动力系统,都存在一个神经常微分方程,可以在有限时间内以任意期望的精度模仿其行为。这个定理并非成功的保证——训练可能很困难,而且我们需要足够的数据——但它给了我们信心,让我们相信我们的工具在原则上是足够强大的。它具备理论上的能力去捕捉真实的动态,而无需我们事先猜测方程。
从离散网络到连续网络的转变揭示了现代机器学习中一个美麗的统一性。一种名为残差网络(ResNet)的流行架构通过 形式的块来更新其内部状态 。如果我们将每一层看作一个微小的时间步长 ,这看起来就完全像最简单的数值积分方案——欧拉方法:。在无限多层和无限小步长的极限下,ResNet 就变成了常微分方程的流。一个深度神经网络可以被看作是高维空间中一条连续轨迹的离散化。在所有层之间共享函数 的参数,直接对应于模拟一个自治系统——其规律不随时间改变的系统——这反映了其连续流的半群性质。
然而,这种深层的联系带来了一个实际的挑战。为了计算训练所需的梯度,一种朴素的方法是反向传播通过数值 ODE 求解器所采取的所有微小步骤。对于一个漫长而精确的模拟,这可能涉及数百万个步骤,需要天文数字般的内存来存储整个前向传播过程。这将使得神经常微分方程在实践中无法训练。
解决方案是应用数学中的一个杰作,称为伴随灵敏度方法。该方法不是记住整个前向路径,而是通过求解第二个相关的 ODE——伴随方程——在时间上向后求解来计算梯度。这个伴随系统在任何时间 的状态都优雅地编码了最终损失对系统在时间 状态变化的敏感度。通过仅求解两个 ODE(原始 ODE 向前求解,伴随 ODE 向后求解),我们就能计算出我们需要的精确梯度。惊人的是,这个过程的内存成本是恒定的,并且与求解器采取的步数无关。这是使神经常微分方程在计算上变得可行的关键机制。
这个连续框架的力量甚至更进一步。我们不仅可以对单个轨迹建模,还可以对由概率分布描述的整个细胞群建模。向量场 现在就像流体流动一样,随时间输运这个分布。为了正确模拟概率密度如何变化,我们必须考虑流如何在局部扩张或压缩体积。这由向量场的散度(divergence) 捕捉。沿任何轨迹的对数概率的变化率恰好是这个散度的负值。包含这个源于概率守恒基本原理的项,对于正确训练能够学习和从复杂分布中采样的生成模型至关重要。这是动力学、统计学和连续变化核心原理的美妙结合。
在领略了神经常微分方程优雅的力学原理之后,我们现在来到了探索中最激动人心的部分:我们能用它们来做什么?如果说上一章是关于理解一种新型强大科学仪器的设计,那么这一章就是将该仪器指向宇宙,看看我们能发现什么。我们将看到,神经常微分方程不仅仅是深度学习中的一个 clever trick;它们代表了数据驱动建模与第一性原理科学的深刻融合,在从生物学到物理学的各个领域开辟了新的前沿。
从本质上讲,大部分科学都是一场“系统辨识”的游戏。我们观察一个系统——一颗围绕恒星运行的行星、一个在烧杯中嘶嘶作响的化学反应、一个在培养皿中生长的细胞群——然后我们试图推断出支配其行为的 underlying rules,即“运动定律”。传统上,这涉及到基于理论提出一个数学模型,然后将其参数与数据进行拟合。但如果系统过于复杂,我们甚至不知道这些规则应该采取何种数学形式呢?
这就是神经常微分方程首次展示其威力的地方。想象一下,你是一名系统生物学家,正在研究一种导致酵母细胞产生荧光蛋白的合成基因线路。你可以测量蛋白质随时间变化的浓度,但生产、降解和调控的复杂网络使得写出其变化率的精确方程 几乎是不可能的。
与其猜测 的形式,我们可以简单地告诉神经常微分方程:“帮我学会它。”我们假设动力学由 控制,然后我们训练神经网络 ,直到它产生的轨迹与我们的实验数据相匹配。训练结束后,神经网络不会直接给我们蛋白质浓度 。相反,它成为了未知生物学定律本身的一个具体、可计算的表示。训练好的网络就是我们对函数 的近似,一个学到的向量场,它告诉我们对于任何给定的蛋白质浓度,该浓度将会以怎样的瞬时速率变化。我们实际上是利用数据发现了系统基本规则手册的一部分。
传统的离散时间模型,如循环神经网络(RNN),以一系列离散的步骤思考世界:第1步、第2步、第3步。但自然界并非按部就班地运行。疾病的进展、森林的生长、河流的流动——这些都是连续的过程。神经常微分方程正是建立在同样的连续性原则之上。
这不仅仅是一个哲学观点;它具有深刻的实际优势。考虑通过跟踪患者的生物标志物来模拟慢性病的进展。医生就诊的时间间隔是不规则的——一个月,然后三个月,然后两周。离散模型会遇到困难,被迫要么丢弃数据,要么对步骤之间的时间做出尴尬的假设。然而,神经常微分方程以极其优雅的方式处理了这个问题。因为它定义了一条连续的轨迹,所以可以在任何时间点进行查询,无缝地匹配真实世界测量的任意时间戳。
这不仅使我们能够处理不规则数据,还能让我们自信地进行插值。如果我们有一个关于细菌生长的神经常微分方程模型,该模型是基于每隔几小时的测量数据训练的,那么我们可以求解学到的微分方程,从而得到对任何中间分钟或秒的人口大小的有意义的预测。该模型提供了系统演化的一个完整的、连续的故事,而不仅仅是一系列离散快照的幻灯片。
虽然从零开始学习动态令人印象深刻,但这通常是低效的。我们常常对系统某些部分的物理学有非常确切的了解。火箭的轨迹受到众所周知引力和推力定律的支配,但大气阻力可能是一个关于速度和高度的复杂、不可预测的函数。为什么强迫神经网络去重新学习引力呢?
这引出了混合模型的强大思想,即我们将已知与未知相结合。我们可以写下一个微分方程系统,其中一些项是我们教科书中熟悉的方程,而另一些则是神经网络,任务是学习那些 messy、难以建模的部分。
想象一下模拟一个用于培养微生物的生物反应器。我们确切地知道,随着我们泵入营养物质,培养基的体积如何变化;这只是简单的算术,。我们对营养物浓度如何因细胞消耗和进料补充而变化也有很好的把握。真正复杂的部分是生物生长速率 ,它非线性地依赖于可用的底物。在混合神经常微分方程中,我们可以硬编码体积和底物稀释的已知物理学,并使用神经网络仅学习生长函数 。这种方法将神经网络的学习能力精确地集中在最需要的地方,从而产生既更准确又需要更少数据的模型。
一个神经网络本身是一个通用逼近器,但它是一个极其天真的逼近器。它没有关于质量守恒或能量守恒等基本物理原理的 innate 概念。如果我们用一个“天真”的神经常微分方程来训练一个应该遵循此类 법칙的系统,我们只能希望它能从数据中学会这个约束。但有更好的方法:我们可以将物理定律直接构建到模型本身中。
主要有两种方法可以做到这一点:通过架构和通过训练。
1. 通过设计施加约束(架构): 这个领域最 beautiful 的方面之一是能够设计模型的结构,使其无法违反物理定律。
考虑一个化学物质相互转化的代谢网络。质量守恒定律规定了严格的核算:每消失一个反应物A的分子,就必须出现相应数量的产物B和C的分子。这种关系被一个化学计量矩阵 所捕捉。我们可以构建一个化学计量约束的神经常微分方程(SC-Neural ODE),其中系统的动力学被定义为 。在这里,已知的、固定的矩阵 强制执行质量守恒定律,而神经网络则用于学习反应速率 作为浓度 的函数。因此,该模型通过其自身的构造就保证了质量守恒。
这一原则也扩展到物理学的其他领域。在哈密顿力学中,保守系统由零散度的向量场描述。我们可以构建一个神经常微分方程,其雅可比矩阵在设计上就是斜对称矩阵。这类矩阵的一个基本性质是其迹为零,这意味着该模型的向量场保证是无散度的。虽然这本身不足以保证能量守恒,但这个性质是哈密顿系统的一个关键特征。基于这一原理构建的架构可以确保一个学到的类似于能量的量(哈密顿量)是完美守恒的。
2. 通过引导施加约束(损失函数): 另一种方法是让模型拥有灵活的架构,但在训练过程中每当它违反已知定律时就“惩罚”它。假设我们正在为一个酶反应建模,我们知道酶的总量(游离酶加底物结合酶)必须是恒定的。这意味着这个总量的時間導數 必须为零。我们可以在我们的损失函数中添加一个惩罚项,当这个導數偏离零时,该惩罚项会变大。在训练过程中,优化过程将被迫寻找不仅拟合数据而且遵守这一守恒定律的网络参数。
对机器学习的一个常见批评是它产生“黑箱”模型:它们可能做出很好的预测,但它们不给我们提供基本的理解。神经常微分方程对这一批评提出了强有力的反驳。因为学到的对象是一个透明的数学函数——向量场——我们可以运用动力系统理论的全部武器库来分析它。
一旦我们训练了一个神经常微分方程来描述,比如说,一个基因开关,我们就拥有了一个显式函数 ,其中 可能是一个外部诱导物分子的浓度。我们现在可以分析这个函数以找到它的稳态(其中 )并确定它们的稳定性。更令人兴奋的是,我们可以问:是否存在任何“临界点”?通过寻找不动点在何处产生或消失——一种称为分岔的现象——我们可以识别出导致基因开关行为发生戏剧性变化的关键诱导物 值。模型从一个被动的数据拟合器转变为一个主动的科学发现工具。
也许这个框架最具未来感的应用是在计算机上完全执行反事实或“what if”实验。在系统生物学中,理解基因功能的一个关键工具是基因敲除实验,即沉默一个特定的基因以观察细胞会发生什么。这些实验可能缓慢且昂贵。
有了一个训练精良的基因调控网络神经常微分方程模型,我们就可以在计算机上进行这些实验。如果我们的模型已经学会了基因之间的影响网络,我们可以通过修改模型来模拟基因敲除——例如,通过将网络中对应于被沉默基因影响的部分置零——然后计算系统的新稳态。这使得科学家能够快速测试假说,筛选出最具影响力的干预措施,并对系统的线路图获得深刻的、因果性的理解。
在这次宏大的巡礼中,我们看到了神经常微分方程的真正前景。它们是连接两个世界的桥梁:一个是 messy、高维数据的世界,另一个是优雅、有原则的数学定律的世界。它们提供了一种语言,用于构建能从观察中学习、尊重现实基本约束的模型,并最终赋予我们对周围世界提出更深刻、更有洞察力问题的能力。