首页数据驱动的模型发现

数据驱动的模型发现

玻尔百科

定义

数据驱动的模型发现是一种将机器学习的预测能力与传统假设驱动科学的解释性相结合的科学方法，旨在从数据中识别潜在的控制规律。该领域通常采用物理信息神经网络（PINNs）等混合模型，将物理定律嵌入到机器学习中，以确保结果的稳健性与物理一致性。这种方法致力于在化学、遗传学和人类健康等领域创建简洁且可解释的模型，使其能够在全新的场景中实现准确预测。

核心要点

现代科学发现将数据驱动方法的预测能力与传统假设驱动科学的解释清晰度相结合。
混合模型，如物理信息神经网络（PINNs），将物理定律嵌入机器学习中，以创建物理上合理且稳健的解。
当一个发现的模型变得简单、物理上一致，并能在全新场景下做出准确预测时，它就从预测升华为解释。
数据驱动的发现应用广泛，从揭示化学反应定律、破译遗传密码，到在人类健康领域谨慎地推断因果关系。

引言

在一个数据收集空前发达的时代，科学正处于一个转型的十字路口。几个世纪以来，科学进步一直由人类的直觉引导，假说通过有针对性的实验被艰苦地检验。如今，算法可以筛选海量数据集，以惊人的预测能力发现模式。但我们如何弥合强大预测与真正科学发现之间的鸿沟呢？本文深入探讨了数据驱动模型发现这一新兴领域，探索我们如何能教机器不仅发现相关性，而且揭示自然的潜在规律。首先，在“原理与机制”部分，我们将解析那些将经典科学推理与计算工具相结合的核心策略，并审视如何将物理学融入机器学习。然后，在“应用与跨学科联系”部分，我们将穿越物理学、生物学到人类健康等不同领域，见证这些强大的新方法如何被用于解决一些科学中最复杂和最重要的挑战。

原理与机制

那么，我们如何从一堆数据中“哄骗”出宇宙的规则手册呢？说计算机可以“发现”一条物理定律是一回事；完全理解这样的壮举如何可能又是另一回事。这个过程并非魔术，而是经典科学推理与强大的新型计算工具的美妙结合。这是一段旅程，始于理解科学探索的两大主流，终于将它们汇成一条强大河流。

通往知识的两条路径

几个世纪以来，科学一直沿着一条崇高且人迹罕至的道路前进。一位科学家，在灵光一闪的瞬间，形成一个假说——一个关于世界如何运作的具体、可检验且可证伪的想法。“也许，”她可能会说，“这颗恒星的亮度变化是因为有一颗行星从它前面经过。”然后她设计一个实验——一组有针对性的观测——来检验她的想法。整个过程都围绕着这个单一、优雅的论断展开。目标是证实或驳斥它，标准是明确的：统计显著性、置信区间以及对混杂因素的严格控制。这就是假说驱动的范式，一个逐步建立和完善我们对世界理解的强大引擎。

近年来，第二条路径被开辟出来，它纯粹是依靠我们收集数据的能力而形成的。想象一下，不是一颗恒星，而是数百万颗。想象一下，不仅仅是亮度，而是每晚测量的数十种其他属性。如此巨大的信息量使得为每一个有趣的波动和闪烁都提出具体的假说变得不可能。在这里，我们采取了不同的方法。我们求助于机器，说：“这是所有数据。给我找一个能预测这些恒星行为的模型。”目标不是检验一个单一的预设想法，而是达到最佳的预测准确性。这就是数据驱动的范式。它的工具不是经典的t检验，而是像深度学习和梯度提升这样的算法；它的证据标准不是一个 $p$ 值，而是模型在从未见过的数据上的表现如何。

在很长一段时间里，这两条路径似乎是平行的，代表着两种不同的科学“文化”。而宏大的挑战，也是现代模型发现的核心原则，就是将它们统一起来。目标是建立不仅具有强大预测能力，而且可理解、优雅，并且像物理定律一样“真实”的模型。我们想要数据驱动方法的预测能力，同时由假说驱动传统的深刻物理直觉来引导。

原始材料：关于数据的几句话

在我们构建发现引擎之前，我们必须首先考虑它的燃料：数据本身。认为只要收集“足够”的数据，真相就会奇迹般地浮现，这是一种诱人而危险的谬误。我们测量的质量和性质至关重要，如果未能深入思考这些问题，我们可能会对现实视而不见。

想象一下，你正在研究沿着一根纤维的生物过程，其中蛋白质浓度 $u(x, t)$ 随空间 $x$ 和时间 $t$ 变化。你观察到两件事正在发生：蛋白质缓慢、悠闲的扩散，以及偶尔出现的、短暂的“激活峰”，它们瞬间爆发又迅速消逝。慢过程有一个特征时间 $\tau_{\text{slow}}$ ，而快峰的时间尺度为 $\tau_{\text{fast}}$ ，且 $\tau_{\text{fast}} \ll \tau_{\text{slow}}$ 。

你决定设置一个自动相机，以固定的时间间隔 $\Delta t$ 拍摄这根纤维的快照。 $\Delta t$ 应该设为多少？一个自然的选择可能是为了解析慢过程，所以你选择 $\Delta t$ 为 $\tau_{\text{slow}}$ 的一小部分。但这样做，你就犯下了一个致命的错误。因为 $\tau_{\text{fast}}$ 小得多，你的采样间隔 $\Delta t$ 现在比激活峰的持续时间要长得多。这些峰值几乎肯定会在你的快照之间出现并完全消失。它们在你的数据集中变得不可见。你的发现算法，被喂入只显示缓慢扩散的数据，将尽职尽责地“发现”一个缓慢扩散的定律。它将完全不知道快速激活动态的存在。

这个教训是深刻的。数据驱动的发现不是一项被动的活动。它要求我们将先验知识和直觉带到桌面上，不是为了形成一个僵化的假说，而是为了设计能够“看到”我们希望理解的现象的实验。

理解的谱系：从机理到黑箱

一旦我们有了数据，我们应该构建什么样的模型？事实证明，模型存在于一个连续的谱系上，由我们从一开始就构建了多少物理知识来定义。

在谱系的一端是机理模型。这些模型是根据第一性原理构建的，反映了我们对系统深刻的、先验的理解。想象一下为一个化学反应网络建模。我们知道哪些分子与哪些分子反应，所以我们可以写下一个常微分方程（ODEs）系统，如 $d\mathbf{x}/dt = f(\mathbf{x}, \boldsymbol{\theta})$ ，其中 $\mathbf{x}$ 是浓度向量，函数 $f$ 的结构本身就代表了已知的反应网络。参数 $\boldsymbol{\theta}$ ——反应速率——可能是未知的，我们用数据来推断它们。这些模型具有很高的可解释性；每个参数都有物理意义。它们真正的力量在于外推：因为它们编码了所谓的因果机制，我们可以用它们来问“如果……会怎样”的问题，并预测系统在全新条件下的行为。当然，它们最大的弱点是，它们的好坏取决于我们对机制的初步理解。如果我们弄错了蓝图，模型就会是错误的。

在谱系的另一端是黑箱模型，以深度神经网络为代表。在这里，我们几乎没有指定任何先验的物理知识。我们只是创建一个高度灵活的、通用的函数逼近器，并训练它将输入映射到输出。对于像图像识别这样的任务，这是非常成功的。在其训练数据的领域内，其预测能力可能惊人。然而，这种能力是有代价的。网络的内部参数通常没有直接的物理意义，使得模型难以解释。更关键的是，这些模型学习的是相关性，而不一定是因果关系。它们在内插方面表现出色，但在外推方面却出了名的不可靠。让一个黑箱模型预测远超出其训练经验的东西，它可能会以奇异和不可预测的方式失败。

两个极端都不完美。科学人工智能中最激动人心的前沿是广阔而肥沃的中间地带：创建融合了物理学机理清晰度和机器灵活学习能力的混合模型。

混合引擎：编织物理与数据

我们如何构建一个既是数据驱动又具备物理意识的模型呢？有几种优雅的策略，每一种都代表了将这两种知识线索编织在一起的不同方式。

策略1：学习未知部分

也许最直观的方法是让一个基于物理的模型承担主要工作，然后让一个机器学习模型学习剩下的部分。想象一下，你试图预测一个复杂计算机芯片中的信号延迟。我们有基于物理的简单解析方程（ $R \propto L/A$ 等），它们给出了一个不错的初步近似，我们称之为 $f_{\text{physics}}(\mathbf{x})$ 。但这个简单的模型忽略了许多复杂的现实世界效应，如边缘场和工艺变化。我们不是丢弃它，而是把它作为基础。我们将混合模型定义为：

$f_{\text{hybrid}}(\mathbf{x}) = f_{\text{physics}}(\mathbf{x}) + g_{\text{ML}}(\mathbf{x})$

在这里， $g_{\text{ML}}(\mathbf{x})$ 是一个机器学习模型，比如神经网络，其任务是学习残差——真实延迟与我们物理模型预测之间的差异。这是一个绝妙的分工。物理模型提供了正确的整体尺度和行为（解的“主干”），确保模型能够合理地外推。而机器学习模型只需学习一个小的、局部的修正，因此可以比一个必须从头学习整个关系的模型简单得多，并且需要的数据也少得多。

策略2：教机器物理学

一种更深刻的方法是将物理定律直接融入学习过程本身。这就是物理信息神经网络（PINNs）背后的核心思想。

通常，神经网络通过最小化一个误差或损失函数来学习，该函数衡量其预测与训练数据的匹配程度有多差。对于PINN，我们向这个损失函数添加了第二个组成部分。这个新项衡量网络输出违反已知物理定律的程度。

例如，如果我们试图发现一个由像 $-u''(x) = g(x)$ 这样的微分方程所支配的系统的解 $u(x,t)$ ，我们可以定义一个“物理残差” $r(x) = -u''(x) - g(x)$ ，如果定律被遵守，这个残差在任何地方都应该为零。在训练期间，我们给神经网络一个包含两部分的损失函数：

$L_{\text{total}} = L_{\text{data}} + \lambda L_{\text{physics}}$

第一项 $L_{\text{data}}$ 告诉网络要匹配观测到的数据点。第二项 $L_{\text{physics}}$ 是在定义域中许多随机点上计算的物理残差的平方和 $|r(x)|^2$ 。网络现在处于一场拉锯战中。它试图拟合数据，但每当其形状违反已知的物理定律时，它也会受到惩罚。通过找到一个同时满足这两个需求的函数，网络学习到一个不仅与测量结果一致，而且在任何地方都物理上合理的解。我们不仅仅是给它看正确的答案，我们是在教它游戏规则。

策略3：施加基本真理

一些物理原理是如此基本，以至于它们是不可协商的。材料的属性不能因为你测量时是倒立着还是站着而改变（框架无关性）。一个封闭系统不能在没有能源的情况下自发升温（热力学第二定律）。这些不仅仅是有用的指导方针；它们是对现实的硬性约束。

在复杂的数据驱动发现中，我们可以将这些真理强加于我们的模型上。当从稀疏的实验数据中推断复杂的材料定律时，问题是严重欠定的——无数的数学函数都可以拟合我们拥有的少数数据点。但这些函数中的绝大多数都是非物理的。通过构建像框架无关性和热力学一致性这样的约束，我们可以剪除掉整个无效解的宇宙。例如，我们可以在损失函数中添加一个惩罚项，惩罚任何违反第二定律的行为。这极大地缩小了搜索空间，引导算法走向一个独特的、稳定的、物理上有意义的发现。

运行中的发现机器：奥卡姆剃刀与竞技场

我们现在有了构建物理感知模型的工具。但发现实际上是如何发生的呢？这个过程通常涉及一种计算上的“适者生存”，由科学中最古老的原则之一指导：奥卡姆剃刀，即最简单的解释通常是最好的。

想象一下，我们正试图发现一个支配种群 $u(t)$ 的定律。我们可以构建一个候选数学项的库：{ $u, u^2, u^3, \sin(u), \dots$ }。真正的定律可能是其中少数几项的简单组合。例如，逻辑斯蒂增长是 $\frac{du}{dt} = ru - \frac{r}{K}u^2$ 。我们的目标是让算法发现这个特定的组合。

我们可以提出几个候选模型。模型 $\mathcal{M}_0$ 是简单、正确的逻辑斯蒂方程。模型 $\mathcal{M}_1$ 是一个更复杂、不正确的模型，它包含一个额外的、不必要的项，比如 $\gamma u^3$ 。机器如何决定哪个更好呢？

两个模型可能都能很好地拟合带噪声的训练数据。事实上，更复杂的模型 $\mathcal{M}_1$ 甚至可能达到稍微更好的拟合度，因为它额外的参数 $\gamma$ 给了它摆动的灵活性，从而“拟合数据中的噪声”。这就是过拟合。

决定性的测试是交叉验证。我们将数据分成训练集和验证集。我们在训练数据上训练两个模型。然后，我们将它们用于它们从未见过的验证数据上。在这里，形势逆转了。更简单的模型 $\mathcal{M}_0$ 捕捉到了真实的潜在动态，将做出良好的预测。而过于复杂的模型 $\mathcal{M}_1$ 仅仅记住了训练集的噪声，在新数据上表现会很差。它的验证误差会更高。通过选择验证误差最低的模型，我们让数据本身实施了奥卡姆剃刀。算法自动偏爱更简单、更具泛化性的定律。

终极奖赏：从预测到解释

经过这一切，我们真的发现了一个新的自然法则吗？在测试集上实现低误差是必要的一步，但还不够。一个调优良好但纯粹经验性的模型可以是一个优秀的预测器，却不能提供任何真正的洞见。古代托勒密的天体模型，及其本轮和均轮，在当时对行星位置做出了非常准确的预测，但它不是一种解释。它只是一种拟合。

要使一个数据驱动的发现上升到科学解释的层面，它必须满足一套更严格的标准。

首先，它必须是简约的。正如我们所见，通过鼓励稀疏性和使用交叉验证，我们可以确保算法选择能够充分解释数据的最简单的模型。

其次，它必须与物理学的基石原理一致。它必须尊重我们所知支配宇宙的基本对称性和守恒定律。

但最终的、决定性的测试是可移植性。发现的模型不仅必须在更多相同类型的数据上做出准确预测，还必须在来自全新情境的数据上做出准确预测。如果我们改变初始条件、边界条件，或者以一种新的方式干预系统，它必须仍然有效。当一个在风洞流体动力学数据上训练的模型能够正确预测全尺寸飞机在飞行中的气流时，它就展示了可移植性。

当一个数据驱动的模型达到这一点时——当它简单、物理上一致，并且在新领域做出正确的预测时——它已经超越了单纯的模式匹配。它捕捉到了系统潜在生成机制的某些本质。它已经不仅仅是一个模型。它已经成为一种解释。而这，就是这整个事业的美丽的、终极的奖赏。

应用与跨学科联系

在熟悉了数据驱动发现的原理和机制之后，我们可能会觉得手上刚拿到了一种新型放大镜。这是一种特殊的镜片，它不仅能放大物体，还能帮助我们在看似纷繁复杂的现象中看到隐藏的规则和潜在的语法。现在，让我们带着这面镜子去探险。我们将从熟悉的、如钟表般精确的物理和化学世界，进入到迷宫般复杂的生物学和人类健康领域。在每一片新大陆上，我们都将看到，让数据揭示支配系统的简单法则这一统一思想，是如何提供惊人新见解的。

物理学家的游乐场：破译钟表机制

让我们从一个我们期望能找到优美方程的领域开始：物理科学。想象一下，你正在观察一种奇怪的化学混合物，一种Belousov-Zhabotinsky反应，它会自发地随着颜色的变化而脉动，像跳动的心脏一样在不同状态间振荡。它看起来混乱，有生命力。你怎么可能写下支配这场舞蹈的定律呢？在过去，这需要多年艰苦的化学实验。今天，我们可以简单地将仪器对准烧杯，记录关键化学物质浓度随时间的变化，然后将这些数据输入我们的发现引擎。奇迹般地，仅从这些时间序列轨迹中，机器就能逆向工程出支配性的微分方程。它重新发现了化学家们曾辛苦推导出的核心动力学机制——自催化循环和反馈抑制。这相当于现代版的牛顿看着苹果并洞察万有引力定律，只是现在我们的“苹果”是一个复杂的非线性动力学系统，而我们的“眼睛”是那些在数据中筛选稀疏、潜在定律特征的算法。

这种能力并不局限于一个单一的、充分混合的烧杯。考虑设计一个更好的电池的挑战。电池电极是一个多孔的迷宫，一个由固体材料和液体电解质组成的微观世界。要模拟整个电池，我们不可能对每一个离子在每一个微小孔隙中的导航进行建模——计算成本将是天文数字。但如果我们能发现支配材料在更大尺度上的有效定律呢？这是一个经典的物理学概念，称为均匀化。我们可以对一个微小的、有代表性的微观结构，一个“晶胞”，进行详细模拟，并将输出视为数据。然后，我们的发现算法可以学习到一组更简单的、平均化的方程，来描述宏观行为。这种新的、数据驱动的有效材料属性模型连接了不同尺度，将微观的复杂性与可控的宏观简单性联系起来，使我们能够设计出更好的电池，而不会迷失在细节中。

当我们从发现定律转向工程新事物时，我们必须小心。数据驱动的模型不能是天真的“黑箱”，它们可能会意外地违反自然的基本定律。想象一下，为一座桥梁或一架飞机机翼的新型先进材料构建一个数据驱动模型。我们有关于它在应力下如何变形的实验数据。但我们必须确保我们的模型尊重一个深刻的物理学原理，即材料客观性或框架无关性。这简单地意味着，材料被拉伸时的内在响应不能取决于我们观察它的方向；其物理性质必须独立于刚性旋转。值得注意的是，我们可以将这种基本的对称性直接构建到我们数据驱动模型的架构中。通过强制学习到的应力-应变关系仅依赖于在旋转下不变的量（即所谓的张量不变量），我们保证了我们的模型在物理上是现实的。它是一个“灰箱”——是灵活的、数据驱动的学习与刚性的、第一性原理物理学的混合体。

这种“灰箱”或混合建模的思想，在模拟我们地球气候的领域找到了其最宏大的舞台。气候模型建立在物理学基石之上：质量、动量和能量守恒。这些是不可协商的。然而，这些模型无法解析每一朵云、每一阵风或每一个湍流涡旋。这些“亚格子尺度”的过程太小、太复杂，无法从第一性原理进行模拟。在这里，数据驱动的发现提供了完美的解决方案。我们保留模型的物理核心来处理大尺度的、可解析的动力学，确保基本量是守恒的。然后，我们使用机器学习，通过高分辨率的局部模拟或观测数据进行训练，来学习一个“参数化方案”——一个关于所有未解析的、亚格子过程净效应的模型。这种混合方法将已知的物理定律与用于未知复杂部分的数据驱动模型相结合，创造出一个比任何单一部分都更强大、更准确的整体。

生物学家的谜题：从方程到语言

当我们离开物理世界，进入生物学领域时，我们所寻求的“定律”的性质开始改变。虽然物理原理仍然适用，但生命的逻辑常常感觉不那么像一套微分方程，而更像一种复杂的语言，充满了语法规则、依赖上下文的含义和组合逻辑。

考虑一下可变剪接的过程。我们的基因，编码在DNA中，就像长长的句子。为了产生蛋白质，细胞将基因转录成信使RNA分子，然后对其进行“编辑”。某些片段，称为内含子，被剪切掉，而剩下的片段，外显子，被拼接在一起。但细胞可以选择包含或排除某些外显子，从而从同一个基因产生不同的蛋白质。这就是可变剪接，它是生物复杂性的一个关键来源。“剪接密码”告诉细胞机器要包含哪些外显子，它以短序列模式或“基序”的形式写在RNA上。

我们如何破译这个密码？我们可以训练一个深度神经网络，向它展示成千上万的基因序列，并告诉它相应的外显子被包含或排除的频率。通过学习预测这一结果，网络隐含地学习了剪接密码。其内部的滤波器变成了调控基序的探测器。然后，我们可以对网络本身进行一种“计算神经科学”的研究，审视其学习到的滤波器，并使用归因方法来查看它“关注”哪些核苷酸。这样做，我们不仅能找回已知的调控剪接的基序，还能发现全新的基序，从而揭示生命词典中的新词汇。

生物学也以其噪声大和高维度而闻名。单个实验可以一次性测量数千个样本中两万个基因的活性。在这片嘈杂声中，我们如何找到那些共同协作以执行生物功能的基因“管弦乐队”？数据驱动的方法可以将基因聚类成共调控模块。但在这里，我们必须是极其严谨的科学家。一个主要的挑战是数据中充满了混杂因素——比如不同实验室之间的技术差异，或组织类型等强烈的生物信号——这些都可能产生虚假的相关性。一个有原则的发现流程必须首先仔细地解释并移除这些已知的变异来源。此外，它必须避免统计循环或“双重探底”的陷阱：我们不能用相同的数据来发现我们的基因模块，又用它来检验关于这些模块的假设。一个真正严谨的方法需要将数据分开，一部分用于发现，另一部分完全独立的、预留的数据用于验证。这个严谨的过程确保我们发现的模式是真正的生物学见解，而不是由统计假象产生的海市蜃楼。

人类因素：从预测到审慎

我们的旅程在最复杂、风险最高的领域达到顶峰：人类健康。在这里，数据驱动的发现拥有巨大的前景，但也要求最高水平的审查和伦理考量。关键的张力在于关联与因果之间。

一个数据驱动的临床决策支持系统（CDSS）可以从数百万份电子健康记录（EHRs）中学习。它可能会发现一个强关联：接受某种特定药物的患者往往预后更差。这是否意味着该药物有害？还是说，医生凭其智慧，倾向于只给病得最重的患者使用这种药物？一个标准的预测模型，学习的是像 $P(\text{Outcome} | \text{Features})$ 这样的关联模式，无法区分这两种情况。另一方面，一个基于知识的系统是根据专家规则和来自随机对照试验（RCTs）的证据构建的，这些试验旨在回答关于干预效果的因果问题，例如 $P(\text{Outcome} | do(\text{Action}))$ 。理解这种区别至关重要。天真地将数据驱动模型的输出解释为因果陈述，可能导致危险的错误结论。

那么，数据驱动的方法能否帮助我们从混乱的观测数据中更接近地回答因果问题？答案是肯定的，但需要使用复杂且有原则的技术。考虑从EHR数据中估计一项公共卫生项目效果的挑战。谁参与该项目并非随机决定，并且受到许多因素的混淆，如潜在的健康状况和寻求健康的行为。一种卓越的数据驱动方法，称为高维倾向评分，其作用就像一个自动化的流行病学家。它系统地搜索干预前时期的数千个变量，以找到未测量混杂因素的最佳代理变量。通过对这些算法发现的代理变量进行调整，我们可以更接近地模拟RCT的结果，从而获得对该项目真实因果效应的更可信的估计。

也许医学的最终目标是个性化治疗：哪种药物对这个特定患者最有效？这就是治疗效果异质性（HTE）的研究。我们希望发现那些从某种疗法中获益更多或更少的患者亚组。然而，这是一个充满虚假发现的雷区。如果你测试了足够多的亚组，你必然会纯粹偶然地发现一个看起来“显著”的亚组——这种现象被称为 $p$ -hacking。伦理风险很高；一个关于亚组获益的虚假声明可能会误导患者和医生。

有原则的数据驱动发现提供了一条前进的道路。我们不必事后去寻找显著性，而是可以预先指定我们的分析计划。现代方法，如贝叶斯多层模型，允许我们同时估计跨多个交叉亚组（例如，由年龄、性别和合并症定义）的效果。这些模型具有一种称为“部分汇集”的特性，它允许小亚组从大亚组那里“借用统计力量”，从而稳定其估计值。这些模型还可以应用“收缩”，这是一种智能的怀疑主义，它将虚假的、由噪声驱动的效应拉回到零，同时让有强大数据支持的效应脱颖而出。通过将这些先进的统计保障措施与对透明度和预注册的伦理承诺相结合，我们可以负责任地探索治疗异质性，朝着个性化医疗的未来迈进，而不会在此过程中自欺欺人。

从化学到宇宙学，从基因组到临床，数据驱动模型发现的工具提供了一个统一的视角。它们不能取代科学理论、实验或批判性思维。相反，它们增强了这些能力，提供了一种强大而有原则的方法，从复杂性中提炼简单性，揭示游戏的隐藏规则，并以力量和审慎的态度在科学前沿航行。