try ai
科普
编辑
分享
反馈
  • 稀疏模型发现:从复杂数据中揭示简单定律

稀疏模型发现:从复杂数据中揭示简单定律

SciencePedia玻尔百科
核心要点
  • 稀疏模型发现通过强制执行简约性原则,辨识出控制复杂系统的最简单、最可解释的数学定律。
  • 该过程涉及构建候选函数库,并使用像 SINDy 或 LASSO 这样的稀疏性促进回归技术来选择少数关键项。
  • 主要挑战包括在估计导数时处理测量噪声,以及解决库中候选函数之间的共线性问题。
  • 该方法应用广泛,从发现生物学和物理学中的微分方程到辨识神经科学中的网络结构。
  • 稀疏发现与现代机器学习相辅相成,通过 PINNs 创建混合模型,并为诸如“彩票假设”等现象提供深刻见解。

引言

在一个数据以前所未有的洪流从望远镜、显微镜和超级计算机中涌出的时代,科学家们面临着一个悖论式的挑战:信息丰富,但理解稀缺。从大脑中神经元的放电到流体的湍流漩涡,复杂系统产生了海量的数据,这些数据可能掩盖了支配其行为的简单而优雅的定律。我们如何才能 sift through 这种复杂性,找到其潜在的叙事——即基本的运动方程?这正是稀疏模型发现所要解决的核心问题。这是一个强大的范式,它将统计学习与经典的简约性科学原则(即奥卡姆剃刀)相结合。它基于这样一种信念:大多数自然现象的核心,都由少数关键相互作用所支配。

本文对这一革命性方法进行了全面探讨。我们将首先深入研究稀疏发现的​​原理与机制​​,扮演侦探的角色,理解如何从数据中构建案情,审问“可疑的”数学术语,并使用强大的统计工具得出一个简单、真实模型。然后,我们将历览其广泛的​​应用与跨学科联系​​,见证这一个想法如何在系统生物学、材料科学等不同领域被用来揭示自然的运行机制,甚至为现代人工智能的运作提供深刻的见解。准备好去发现,我们如何能教会计算机不仅预测世界,还能理解其基本规则。

原理与机制

想象你是一名侦探,抵达一个复杂的犯罪现场。你手头有堆积如山的证据——脚印、指纹、零散的纤维——但对于发生的事情没有清晰的叙述。你的目标是重建事件。你可以编造一个极其复杂的故事,涉及十几个罪犯,每个人都扮演一个微小而特定的角色,这个故事能完美解释每一条证据。或者,你可以寻求一个更简单的解释,一个只牵涉少数关键参与者和清晰事件序列的解释。后一种方法,在简约性原则的指导下,不仅更优雅,而且往往更接近真相。这正是稀疏模型发现的灵魂所在。我们是自然的侦探,在数据中筛选,以揭示支配复杂系统的简单、基本的定律。

发现的蓝图:从数据到动力学

让我们从一个简单而具体的任务开始。假设我们正在观察一个细胞内某种蛋白质浓度 xxx 随时间的变化。我们有数据,但我们不知道支配其变化 dxdt\frac{dx}{dt}dtdx​ 的“定律”。蛋白质是以恒定速率产生的吗?它是否以与其自身浓度成正比的速率衰减?还是存在更复杂的非线性自我调节机制?

我们调查的第一步是起草一份“嫌疑人”名单——一个可能构成真正控制方程的候选数学术语库。我们不需要一开始就完全正确;我们只需要全面。对于我们的蛋白质,一个简单的库可能包括一个常数项 (111)、一个线性项 (xxx) 和一个二次项 (x2x^2x2)。因此,我们假设的定律是这些候选者的线性组合:

dxdt=ξ0⋅1+ξ1⋅x+ξ2⋅x2\frac{dx}{dt} = \xi_0 \cdot 1 + \xi_1 \cdot x + \xi_2 \cdot x^2dtdx​=ξ0​⋅1+ξ1​⋅x+ξ2​⋅x2

系数 ξ0,ξ1,ξ2\xi_0, \xi_1, \xi_2ξ0​,ξ1​,ξ2​ 代表每个“嫌疑人”的“罪责”或重要性。我们的工作就是找到它们。

最直接的方法是执行最小二乘回归。这就像一次初步审讯,我们为每个嫌疑人分配一定程度的责任,以最好地拟合观察到的证据(我们的时间序列数据及其数值估计的导数)。这个初步拟合可能会产生一个系数向量,如 ΞLS=[0.019,−0.85,0.042]T\Xi_{LS} = [0.019, -0.85, 0.042]^TΞLS​=[0.019,−0.85,0.042]T。

现在,关键的洞见,即奥卡姆剃刀的应用,来了。我们查看嫌疑人名单及其分配的角色。线性项的系数 ξ1=−0.85\xi_1 = -0.85ξ1​=−0.85 很大且显著。然而,常数项 (ξ0=0.019\xi_0 = 0.019ξ0​=0.019) 和二次项 (ξ2=0.042\xi_2 = 0.042ξ2​=0.042) 的系数非常小。它们真的是基本定律的一部分,还是仅仅是噪声,是我们过度热情的初步审讯牵连进来的无足轻重的共犯?

稀疏性原则要求我们毫不留情。我们设定一个显著性阈值,比如 λ=0.1\lambda = 0.1λ=0.1。任何绝对值小于此阈值的系数都被视为“无罪”并设为零。在我们的例子中,∣ξ0∣0.1|\xi_0| 0.1∣ξ0​∣0.1 和 ∣ξ2∣0.1|\xi_2| 0.1∣ξ2​∣0.1,所以它们被剔除。只剩下 ξ1\xi_1ξ1​。我们复杂、凌乱的假设坍缩成一个优美、简单且稀疏的模型:

dxdt=−0.85x\frac{dx}{dt} = -0.85xdtdx​=−0.85x

我们发现了指数衰减定律!这个简单的三步过程——构建库、执行回归、应用促进稀疏性的阈值——是像非线性动力学的稀疏辨识(SINDy) 这样强大算法背后的基本机制。

混乱世界中的挑战

当然,现实世界很少如此干净。从原始数据到物理定律的道路上充满了危险,即使是最聪明的侦探也可能被误导。

模糊线索的问题

我们的整个方法都依赖于拥有可靠的导数值,如 dxdt\frac{dx}{dt}dtdx​。但我们不测量导数;我们测量状态,如位置或浓度,而这些测量总是被噪声污染。一种通过取两个连续噪声测量值之差再除以它们之间的小时间步长来计算导数的幼稚尝试,即​​有限差分​​法,会导致噪声的灾难性放大。估计导数的方差可能会爆炸,使我们的数据变得毫无用处。

为了前进,我们需要更复杂的工具。像​​Savitzky-Golay 滤波器​​或​​平滑样条​​这样的方法,旨在通过首先将平滑的局部曲线拟合到一小窗口的数据点,然后对该曲线进行解析微分来从噪声数据中估计导数。这引入了一个微妙的​​偏差-方差权衡​​。通过平滑,我们抑制了噪声的剧烈方差,但我们冒着模糊掉底层信号的清晰、真实特征的风险,从而引入了系统性偏差。选择正确的平滑参数是一门艺术,是决定所有后续分析质量的关键第一步。没有好的导数,我们就是在沙子上盖楼。

共谋嫌疑人的问题

第二个,更微妙的危险来自我们的嫌疑人库。如果我们的一些候选函数并非真正独立怎么办?这就是​​共线性​​问题,它有两种形式。

首先,可能存在精确的代数依赖关系。假设我们试图发现一个流体动力学方程,并且我们不明智地在库中同时包含了 uuxu u_xuux​(一个对流项)和 (u2)x(u^2)_x(u2)x​(一个平方项的导数)。根据微积分的链式法则,(u2)x(u^2)_x(u2)x​ 只是 2uux2u u_x2uux​。这两个项不是独立的;它们是完美的共犯。一个只是另一个的缩放版本。如果你把两者都交给一个回归算法,它会变得 hopelessly confused,无法为任何一个分配唯一的责任。由此产生的系数会变得不稳定且毫无意义。必须小心构建库以消除这种冗余。

其次,也是更深层次的,​​数据本身​​可以制造阴谋。想象一个研究振动弦的实验,但我们记录的唯一运动是一个简单的、纯粹的正弦波。在这种特殊情况下,二阶空间导数 uxxu_{xx}uxx​(代表曲率)将与位移 uuu 在所有时间点上完全成正比(uxx=−k2uu_{xx} = -k^2 uuxx​=−k2u)。如果我们的库同时包含一个扩散项 (νuxx\nu u_{xx}νuxx​) 和一个线性反应项 (cuc ucu),那么来自这个实验的数据将使我们回归矩阵中的两列完全共线。我们面临一个根本性的模糊性:动力学是由扩散驱动,还是由一个恰好在这种特定运动中模仿扩散的反应驱动?这是一个​​实际上的不可辨识性​​问题。来自这一个有限实验的数据无论多少都无法区分这两者。唯一的解决方案是设计一个具有“更丰富的激励”的新实验——一个能产生更复杂运动的实验,其中 uxxu_{xx}uxx​ 和 uuu 不再被锁定在简单的比例关系中。这教给我们一个至关重要的教训:数据驱动的发现不仅关乎巧妙的算法,同样关乎巧妙的实验设计。

研究者的工具箱

鉴于这些挑战,我们开始时使用的简单阈值方法常常力不从心。我们需要更稳健的工具来进行调查,尤其是在面对相关、共谋的库项时。这正是现代统计学习的力量发挥作用的地方。

我们可以使用一种更为集成的方法,称为​​正则化​​,而不是先拟合再阈值化的两步过程。在这里,我们修改我们的回归目标,以同时奖励拟合数据和惩罚模型复杂性。

​​LASSO (最小绝对收缩和选择算子)​​ 是该领域的超级明星。它使用 ℓ1\ell_1ℓ1​ 惩罚,该惩罚具有一个显著的特性,即强制不重要项的系数变为完全为零。它自动执行变量选择。然而,当面对一组高度相关的嫌疑人时,LASSO 往往会变得紧张,并任意挑选一个来承担责任,而让其他嫌疑人逍遥法外。这可能导致不稳定和有些随机的模型选择。

它的近亲,​​岭回归​​,使用更平滑的 ℓ2\ell_2ℓ2​ 惩罚。岭回归不是一种稀疏方法;它从不将任何系数设置为完全为零。相反,它将所有系数都向零收缩。它的巨大优势是“分组效应”:当面对一组相关的嫌疑人时,它会给它们分配相似的系数值,有效地承认了它们的共谋关系。

​​弹性网络​​优美地结合了这两者的优点。通过使用 ℓ1\ell_1ℓ1​ 和 ℓ2\ell_2ℓ2​ 混合的惩罚,它既能产生稀疏模型(像 LASSO),又能对相关预测变量表现出分组效应(像岭回归)。它是一个强大而稳定的工具,通常是处理真实世界发现问题的首选方法,在这些问题中,候选库庞大而混乱。

最终裁决:选择“最佳”故事

我们的高级工具,如弹性网络,通常带有一个调节旋钮——一个正则化参数 λ\lambdaλ,它控制我们对稀疏性的重视程度与拟合数据的重视程度。我们如何找到“最佳点”?我们如何选择唯一最好的模型?

模型选择的一个基本规则是:​​永远不要用训练数据来评判模型的性能​​。这就像让嫌疑人自己写不在场证明;他们总会让自己看起来很好。这会导致​​过拟合​​,即模型没有学到潜在的规律,而是记住了训练数据中的噪声。过拟合的一个典型症状是模型在训练数据上误差很小,但在新的、未见过的数据上测试时误差巨大。

公平评估模型的黄金标准是​​k 折交叉验证​​。我们将数据分区,用一部分训练模型,然后在被留出的部分上进行测试。通过对不同分区的性能进行平均,我们得到了模型泛化误差的一个诚实估计——即它预测新数据的能力。然后我们可以选择给出最低交叉验证误差的 λ\lambdaλ 值。

或者,我们可以使用信息准则,如​​赤池信息准则 (AIC)​​ 或​​贝叶斯信息准则 (BIC)​​。这些是奥卡姆剃刀的数学表述,提供了一个单一的分数,该分数平衡了模型的拟合优度(似然性)和其复杂性(非零系数的数量)。得分最高的模型代表了一个有原则的折衷。

然而,即使这些准则也有其局限性。在“大数据”的现代,我们的候选库可能大得惊人,包含成千上万甚至数百万个术语。当你在如此巨大的空间中搜索时,你必然会纯粹出于偶然找到一些能很好拟合数据的简单模型。标准的 BIC 没有考虑到这种“多重性”问题。这导致了​​扩展贝叶斯信息准则 (EBIC)​​ 的发展,它不仅对最终模型的复杂性进行惩罚,还对你为了找到它而必须搜索的空间大小进行惩罚。它是一个更明智的法官,知道在经过大规模的捞针式搜索后找到的证据应该以更多的怀疑态度对待。另一个强大的想法是​​稳定性选择​​:一个真正重要的术语应该被一致地选择,即使我们反复地将模型拟合到略有不同的数据子集上。我们只保留那些在多次试验中被证明是稳健地“有罪”的术语。

超越稀疏性:追求科学真理

我们从一个简单的想法走到一个复杂的工作流程。但我们到达目的地了吗?最好的模型仅仅是那个稀疏、准确和稳健的模型吗?对于数据科学家来说,也许是。但对于物理学家、化学家或生物学家来说,还有一个最终的、关键的标准:​​物理合理性​​。

想象一下,我们为一个生物过程发现了一个优美稀疏的模型,但它包含一个术语,意味着蛋白质的降解速率为负——这意味着它能从无到有地自发组装。这个模型可能完美地拟合数据,但它在物理上是荒谬的。它不是一个科学发现;它是一个数学上的假象。

科学中模型发现的最终目标是找到不仅具有预测性,而且可解释并与自然基本定律一致的模型。这需要平衡多个、常常相互竞争的目标:

  1. ​​预测准确性​​(在新数据上的低误差)
  2. ​​稀疏性​​(简单性和可解释性)
  3. ​​生物物理合理性​​(与已知约束的一致性)

这是一个多目标优化问题。一个强大的导航方法是可视化​​帕累托前沿​​。我们可以在这些目标的多维空间中绘制我们所有的候选模型。帕累托前沿是所有“非支配”模型的集合——即那些你无法在不恶化至少一个其他目标的情况下改善一个目标的模型。这个前沿代表了最优权衡的边界。没有单一的“最佳”模型,而是一系列最优选择。发现的最后一步是人为的:一位科学家,凭借领域知识和直觉,检查这个前沿,并从曲线的“膝部”选择一个模型——这个点代表了准确性、优雅和物理真实性的和谐平衡。

因此,我们的旅程的终点不是一个单一的算法,而是一种哲学:稀疏回归的计算能力与科学家的辨别判断力之间的伙伴关系,共同努力,从可观察世界的复杂性中提炼出隐藏的简单定律。

应用与跨学科联系

在我们之前的讨论中,我们打开了引擎盖,审视了稀疏模型发现的引擎。我们看到了如何构建庞大的候选函数库——一个充满可能性的字典——以及如何利用优雅的稀疏性原则来挑选出仅仅少数几个术语,这些术语就能重构一个系统的复杂动力学。从本质上讲,我们已经构建了一个强大的工具。接下来的,也是更令人兴奋的问题是:我们能用它做什么?

一个科学原理的真正衡量标准不是其巧妙性,而是其实用性和其覆盖范围。它是否只适用于一小类行为良好的问题,还是像物理学中伟大的守恒定律一样,会出现在意想不到的地方,统一不同的领域,并揭示事物表面之下共同的架构?在本章中,我们将进行一次巡览来找出答案。我们将看到这一个单一的想法——让数据说话,但用一种简单的语言——如何让我们能够解码自然的运行机制,发现我们周围世界中隐藏的结构,甚至与现代机器学习中最先进的思想进行深入而富有成效的对话。

揭示自然的运行机制

也许科学中最根本的追求是找到运动定律——那些告诉我们系统将如何从一个时刻演化到下一个时刻的方程。几个世纪以来,这都是理论家的领域,他们通过洞察力和直觉提出方程,然后通过实验进行检验。稀疏模型发现颠覆了这一脚本:它为我们提供了一种系统性的方法,直接从数据本身中提取这些方程。

想象你是一名系统生物学家,正在研究药物分子,即配体 (LLL),如何与细胞表面的受体 (RRR) 结合形成复合物 (CCC)。这是医学中的一个基本过程。你可以随时间测量 LLL、RRR 和 CCC 的浓度,但支配它们相互作用的定律是什么?我们可以基于简单的化学原理提出一个可能的相互作用库:这些物种可以成对相互作用(LR,LC,RCLR, LC, RCLR,LC,RC),或者它们的浓度可以自行影响速率(L,R,CL, R, CL,R,C)等等。通过将时间序列数据输入我们的稀疏发现框架,算法可能会返回一个关于复合物变化率的优美简单的模型:dCdt=konL⋅R−koffC\frac{dC}{dt} = k_{on} L \cdot R - k_{off} CdtdC​=kon​L⋅R−koff​C。我们立刻得到了一个清晰的物理解释:复合物的形成速率与配体和受体浓度的乘积成正比(一个结合反应),而它分解的速率与自身浓度成正比(一个解离反应)。算法仅从数据中就恢复了经典的质量作用定律。

这只是一个简单的开始。但对于真正复杂的系统呢?考虑著名的 Belousov-Zhabotinsky (BZ) 反应,这是一种化学混合物,当任其自然发展时,会开始振荡,产生令人惊叹的、有节奏的颜色螺旋。试图从第一性原理写出其控制方程是一项艰巨的任务,涉及几十种化学物质。然而,通过精心设计的实验和正确的分析流程,我们可以实现一些非凡的成就。通过测量少数关键中间体的浓度,我们可以应用稀疏发现来找到一个简化的、有效的动力学模型。这不是一个简单的教科书练习;真实的实验数据是有噪声的。一个稳健的方法需要仔细的数据平滑来估计导数,交叉验证来避免过拟合,以及统计检查来确保发现的项不仅仅是噪声的幻影。当操作正确时,数据揭示了它的秘密:一组稀疏的方程,其结构与著名的 "Oregonator" 模型相似,该模型捕捉了驱动振荡的基本反馈回路——即激活剂-抑制剂动力学。

这种方法的力量并不局限于在烧杯中充分混合的系统。自然界中许多最深刻的模式不仅在时间上展开,也在空间上展开。豹子是如何获得它的斑点的?一个受精卵是如何发育成一个具有头部、尾部和四肢在正确位置的复杂生物体的?答案的一个关键部分在于反应-扩散方程,其中化学“形态发生素”在组织中扩散并相互反应以形成空间模式。在这里,稀疏发现也可以成为我们的向导。通过观察形态发生素在一个一维组织切片上随时间变化的浓度,我们可以发现支配它的偏微分方程 (PDE)。我们的候选术语库现在必须包括空间导数,如支配扩散的拉普拉斯项 ∇2c\nabla^2 c∇2c,以及用于反应动力学 f(c)f(c)f(c) 的多项式项。从一系列空间快照中,算法可以同时估计扩散速率并发现反应的形式,例如,揭示形态发生素是以恒定速率产生并线性降解,或者它遵循更复杂的逻辑斯蒂增长模型。实际上,我们正在进行一种“计算胚胎学”,从可见的输出来推断发育的规律。

有时,最深刻的洞见不是找到一个单一的方程,而是认识到控制定律本身会根据系统的状态而改变。想想水:当它处于固态、液态或气态时,其行为由不同的物理学描述。在计算流体动力学中,工程师研究多相流,例如,油和水在管道中晃动。根据流速和管道角度,流体之间的界面可以形成不同的模式:平滑的分层、薄膜或大的、翻腾的段塞。事实证明,我们可以使用稀疏发现来自动分类这些流态。通过测量界面的高度 h(t)h(t)h(t),我们可以让我们的算法找到描述其运动的最简单的常微分方程 h˙=f(h)\dot{h} = f(h)h˙=f(h)。美妙的结果是,所发现方程的结构可以作为流态的指纹。一个简单的线性松弛模型可能对应于分层流态,而一个具有显著二次项 (h2h^2h2) 的模型可能预示着薄膜状流态,而三次项 (h3h^3h3) 则可能是段塞的高度非线性动力学的标志。模型发现工具已经成为一个分类引擎,将世界划分为其自然的物理类别。

超越微分方程:发现结构与规则

对简单、可解释模型的追求并不仅限于微分方程的语言。稀疏性原则可以被推广,以揭示其他基本形式的科学知识,从复杂网络的隐藏布线到装点物理教科书页面的符号公式。

考虑人脑。它是一个复杂得惊人的网络,拥有数十亿个神经元,通过数万亿个突触连接。神经科学家使用功能性磁共振成像 (fMRI) 等工具来测量血流量,作为大脑皮层不同区域神经活动的代理。这为我们提供了海量波动的时序数据,每个大脑区域一个。关键问题是:哪些区域与其他哪些区域直接通信?我们想找到大脑的功能性“接线图”。这不是一个关于 dxdt\frac{dx}{dt}dtdx​ 的问题,而是关于结构的问题。统计学中有一个深刻而优美的定理提供了关键:如果一组变量的活动可以用一个多元高斯分布来描述,那么两个变量是条件独立的——意味着在给定所有其他变量的活动的情况下,它们没有直接联系——当且仅当它们协方差矩阵的逆矩阵中对应的条目完全为零。突然间,我们的问题被转化了。找到大脑的稀疏连接网络等同于找到一个*稀疏精度矩阵* (Θ=Σ−1\Theta = \Sigma^{-1}Θ=Σ−1)。我们可以应用相同的机制:通过在拟合精度矩阵与数据时施加一个 ℓ1\ell_1ℓ1​ 惩罚,我们鼓励其大多数非对角元素变为零。存活下来的非零元素揭示了具有统计显著性的稀疏连接集,即我们估计的大脑网络。

在其他领域,圣杯不是网络图,而是符号方程。一个多世纪以来,材料科学家一直试图将元素的基本属性(如原子序数 ZZZ 或电负性 χ\chiχ)与化合物的宏观属性(如其硬度或导电性)联系起来。这通常涉及 painstaking 实验和灵感猜测的结合。像 Sure Independence Screening and Sparsifying Operator (SISSO) 这样的框架将此过程转变为一个系统的发现过程。首先,创建一个巨大的特征空间,不仅包括主要特征(Z,χ,…Z, \chi, \dotsZ,χ,…),还包括通过应用一组算子如 {+,−,×,÷,⋅,exp⁡(⋅)}\{+, -, \times, \div, \sqrt{\cdot}, \exp(\cdot)\}{+,−,×,÷,⋅​,exp(⋅)} 生成的各种非线性组合。这可以轻易地生成数百万或数十亿个候选特征。然后,算法使用快速筛选和促进稀疏性的回归相结合的方法,在这个巨大的空间中搜索一个简单的公式,即仅由少数这些生成特征组成的线性组合,该公式能准确预测目标属性。这是一种强大的“符号回归”形式,是试图自动化那种导致 Kepler 发现行星运动定律的发现过程。

稀疏发现与基础理论之间的这种联系是深远的。当我们在模拟中为分子内的力建模时,我们通常从围绕分子平衡几何结构的势能面 (VVV) 的泰勒展开开始。势能被写成键长和键角中二次、三次和更高阶项的和。一个简单的“I类”力场可能只包括对角二次项,假设拉伸一个键不影响另一个键。一个更准确的“II类”力场包括非对角的“交叉项”(例如,kstretch−bend⋅Δr⋅Δθk_{stretch-bend} \cdot \Delta r \cdot \Delta \thetakstretch−bend​⋅Δr⋅Δθ),这些项捕捉了这些耦合。我们如何决定在无数可能的项中包含哪些?我们可以对高精度的量子力学计算使用稀疏回归。通过拟合一个包含所有合理多项式项库的模型,算法本身将选择哪些系数非零。发现像 q1q2q_1 q_2q1​q2​ 这样的项的系数是显著的,这是一个数据驱动的确认,即 II 类类型的耦合对于准确描述物理至关重要。从这个意义上说,数据驱动的发现过程是物理学中微扰理论逻辑的直接实现。

与现代机器学习的对话

将稀疏模型发现视为一种与深度学习和人工智能革命相分离的“经典”技术是错误的。事实上,这两个领域正在进行一场引人入胜且日益富有成效的对话,催生了强大的混合方法和深刻的概念性见解。

稀疏发现面临的主要挑战之一是它对高质量数据的依赖,尤其是对导数的准确估计,而从有噪声和稀疏采样的测量中计算导数是出了名的困难。与此同时,深度学习社区发展了物理信息神经网络(PINNs),这种神经网络不仅被训练来拟合数据点,还被训练来满足已知(或部分已知)偏微分方程的约束。这带来了一个绝佳的协同机会。我们可以使用 PINN 作为一个复杂的预处理器。网络学习一个平滑、连续的函数,该函数拟合稀疏、有噪声的数据点。因为这个函数是解析的,我们可以使用自动微分以完美的精度计算其任意阶的导数。这为我们提供了一个干净、完整的场及其导数的数据集,然后我们可以将其输入到像 SINDy 这样的稀疏发现算法中,以辨识未知控制方程的精确项。这种混合方法将深度学习的表示能力和噪声鲁棒性与稀疏符号建模的可解释性和简约性结合在一起。

也许最深刻的联系来自深度学习中一个被称为“彩票假设”的奇特谜题。该假设指出,在一个庞大的、随机初始化的神经网络中,存在一个微小的子网络——一张“中奖彩票”——如果从一开始就单独训练,可以达到与整个庞大网络相同的性能。找到这些中奖彩票是一种网络剪枝的形式。但剪枝到底是什么?如果我们看一个网络的单个全连接层,我们可以将其视为一个回归问题:输出是前一层输入的函数,由连接权重加权。一个稀疏“中奖彩票”存在的假设等同于假设真实的权重向量是稀疏的。那么,找到这张彩票就类似于一个稀疏回归问题!确实,流行的 LASSO 回归技术成功恢复正确稀疏变量集所需的理论条件——比如限制变量相关程度的“不可表示条件”——在理解剪枝方法何时可能成功方面有直接的类似物。这表明,简约性原则不仅仅是我们强加于模型的审美偏好;它可能是学习发生方式的一个基本属性,无论是在我们的科学理论中,还是在我们最先进的人工智能的硅电路中。

我们的旅程已经完成。我们看到了同一个核心思想在众多科学学科中发挥作用——从发现振荡反应的化学定律和流体动力学的物理规则,到揭示大脑的布线、新材料的符号公式,甚至是人工神经网络的隐藏架构。一个单一的、抽象的原则能够在宇宙的如此多不同角落投下光芒,这一事实有力地证明了科学的统一性,并提醒我们,这个世界,尽管其复杂性令人眼花缭乱,但可能由惊人简单的规则所支配。