try ai
科普
编辑
分享
反馈
  • 非线性最小二乘法

非线性最小二乘法

SciencePedia玻尔百科
核心要点
  • 非线性最小二乘法通过迭代地最小化预测值与观测数据之间的残差平方和,来为模型找到最佳参数。
  • 像高斯-牛顿法和莱文伯格-马夸特算法这类复杂的算法利用曲率信息,比简单的梯度下降法更快、更可靠地收敛到解。
  • 加权最小二乘法是一个重要的扩展,它能正确处理具有非恒定误差的数据,通过给予精确测量值更大的权重来获得更准确的拟合。
  • 最优解周围误差曲面的形状为拟合参数提供了关键的置信区间,从而量化了它们的统计不确定性。
  • NLLS 是一种通用工具,应用于各种不同领域,从生物化学中的酶动力学建模、药理学中的剂量-反应关系,到化学工程中的反应器设计。

引言

在探索和理解世界的过程中,科学家和工程师构建数学模型来描述复杂的现象。虽然简单的线性关系很优美,但自然界最引人入胜的故事——从种群增长到化学反应——本质上都是非线性的。这就带来了一个根本性的挑战:我们如何为这些非线性模型找到特定的参数,使它们能最准确地与我们的实验观测结果相吻合?这正是非[线性最小二乘法](@entry_id:137100) (NLLS) 所要解决的知识空白。它是一种强大而普遍存在的、用于将模型拟合到数据的统计方法。它提供了一个严谨的框架,用于驾驭理论与现实之间的复杂关系,使我们能够从测量数据中提取有意义的、定量的见解。

本文将对 NLLS 进行全面探讨。在第一章中,我们将深入研究该方法的 ​​原理与机制​​。我们将揭示为何最小化“误差平方和”是一种统计上合理的方法,并剖析用于搜索最优解的巧妙迭代算法,如高斯-牛顿法和莱文伯格-马夸特算法。我们还将面对局部最小值和噪声数据等现实世界中的复杂问题。随后,第二章将带领读者领略 ​​应用与跨学科联系​​ 的广阔图景,展示 NLLS 如何在生物化学、医学成像、材料科学甚至网络安全等不同领域中充当基石,彰显其作为数据驱动发现的通用语言的作用。

原理与机制

想象一下,你正试图描述一种自然现象——一杯咖啡的冷却,一个放射性原子的衰变,或者一种酶处理底物的方式。你有一个理论,一个你认为抓住了过程精髓的数学模型。这个模型不仅仅是一个公式,它是一个关于世界如何运作的故事。但这个故事中有一些未知的角色,一些我们需要找出的数字。这些就是你模型的 ​​参数​​,可能是一个速率常数或一个结合亲和力。你还拥有数据,一组实验观测值。最大的挑战就是通过调整这些参数,使你的理论、你的模型,尽可能地与你的观测结果相吻合。这种对“最佳”参数的追求,就是我们所说的模型拟合的核心。当我们的模型反映了真实世界美妙的复杂性时,我们就进入了 ​​非线性最小二乘法​​ 的领域。

拟合的灵魂:将差异平方

假设我们的模型对于给定的输入 xxx 和一组参数 θ\thetaθ 预测了一个值 f(x;θ)f(x; \theta)f(x;θ)。我们的实验给出了一个测量值 yyy。在完美的世界里,yyy 会等于 f(x;θ)f(x; \theta)f(x;θ)。但真实世界是充满噪声的。测量总是不完美的。我们的模型可能只是一种简化。理论与现实之间总会存在微小的差异,一道鸿沟。我们称这道鸿沟为 ​​残差​​ (residual):

r=y−f(x;θ)r = y - f(x; \theta)r=y−f(x;θ)

对于一整套数据点 (xi,yi)(x_i, y_i)(xi​,yi​),我们会得到一串残差。我们如何找到参数 θ\thetaθ,使得所有这些残差同时“尽可能小”呢?我们或许可以直接将它们相加,但一个点的正残差可能会抵消另一个点的负残差,从而掩盖了大的误差。由 Legendre 和 Gauss 等传奇人物所倡导的优雅解决方案是,在求和之前将每个残差进行平方。这就创建了我们的目标函数,即 ​​误差平方和​​ (Sum of Squared Errors, SSE) 或残差平方和 (Sum of Squared Residuals, SSR),我们称之为 S(θ)S(\theta)S(θ):

S(θ)=∑i=1nri2=∑i=1n[yi−f(xi;θ)]2S(\theta) = \sum_{i=1}^{n} r_i^2 = \sum_{i=1}^{n} \left[ y_i - f(x_i; \theta) \right]^2S(θ)=i=1∑n​ri2​=i=1∑n​[yi​−f(xi​;θ)]2

为什么要用平方?这个选择意义深远。平方确保了所有的差异都对总误差做出正向贡献。它还对大的误差施加了比小的误差大得多的惩罚——一个偏差为 10 个单位的离群点对总和的贡献是一个偏差为 1 个单位的点的 100 倍。这迫使拟合过程去特别关注其最严重的错误。此外,如果我们假设测量噪声遵循无处不在的钟形曲线——高斯分布——那么最小化这个平方和就等同于寻找 ​​最大似然估计量​​:即让我们的观测数据出现概率最大的那组参数。“最小二乘法”不仅仅是为了方便;在常见假设下,它是在统计学上最符合原理的做法。

两种曲面:线性与非线性

如果我们的模型恰好在其参数上是 线性 的(比如拟合一条直线,f(x;m,c)=mx+cf(x; m, c) = mx + cf(x;m,c)=mx+c),那么目标函数 S(θ)S(\theta)S(θ) 会形成一个完美、光滑、多维的抛物面——一个碗状。找到这个碗的底部,即误差最小的点,是直截了当的。有一个单一的解析公式(“正规方程组”)可以直接带你找到答案。

但自然界很少以直线的方式讲述它的故事。血液中药物的浓度遵循指数衰减规律。酶促反应的速度则根据优美的 Michaelis-Menten 方程达到饱和:

v=Vmax⁡[S]KM+[S]v = \frac{V_{\max}[S]}{K_M + [S]}v=KM​+[S]Vmax​[S]​

这些模型,以及大多数能忠实描述世界的其他模型,在其参数上都是 ​​非线性​​ 的(在此例中是 Vmax⁡V_{\max}Vmax​ 和 KMK_MKM​)。当我们把一个非线性模型代入我们的平方和公式时,得到的目标函数曲面 S(θ)S(\theta)S(θ) 不再是一个简单的碗状。它可能是一个充满山丘、山谷和山脊的、崎岖起伏的地形。没有神奇的公式可以找到最低点。我们必须成为探险家。我们必须 搜索 最小值。

在崎岖的地形中导航

想象你是一名徒步者,被投放到这片参数构成的地形上,周围大雾弥漫。你的目标是找到最低点。你只能看到脚下的地面。你会怎么做?

天真的徒步者:梯度下降法

最基本的策略是检查每个方向的斜率,找到最陡的下降方向,然后迈出一小步。这就是 ​​梯度下降法 (Gradient Descent, GD)​​ 的精髓。在数学上,这个方向由我们误差函数的负梯度给出,即 −∇S(θ)-\nabla S(\theta)−∇S(θ)。虽然它保证能走向下坡(只要步长足够小),但它可能非常缓慢,在狭长的山谷中以之字形曲折前进。

精明的徒步者:高斯-牛顿法

一个更精明的徒步者会利用更多的信息。如果不仅看斜率,还能将脚下的地面近似为一个小的抛物面碗,然后直接跳到那个碗的底部呢?这就是 ​​高斯-牛顿法 (Gauss-Newton, GN)​​ 背后的绝妙思想。

它的工作原理是进行一个巧妙的近似。我们不直接处理复杂的非线性模型 f(x;θ)f(x; \theta)f(x;θ),而是在当前猜测值 θk\theta_kθk​ 的邻域内,用一个线性模型来近似它:

f(x;θk+δ)≈f(x;θk)+Jkδf(x; \theta_k + \delta) \approx f(x; \theta_k) + J_k \deltaf(x;θk​+δ)≈f(x;θk​)+Jk​δ

在这里,δ\deltaδ 是我们想要迈出的小步,而 JkJ_kJk​ 是 ​​雅可比矩阵 (Jacobian matrix)​​——一个由模型对每个参数的一阶偏导数组成的矩阵,在当前位置 θk\theta_kθk​ 处求值。雅可比矩阵告诉我们模型的输出对每个参数的微小变化的敏感程度。通过将这个线性近似代入我们的平方和目标函数,寻找最佳步长 δ\deltaδ 的问题奇迹般地变成了一个 线性 最小二乘问题,而我们知道如何精确求解它!最终的步长通过求解高斯-牛顿正规方程组得到:

(JkTJk)δ=−JkTrk(J_k^T J_k) \delta = -J_k^T r_k(JkT​Jk​)δ=−JkT​rk​

项 JkTrkJ_k^T r_kJkT​rk​ 恰好是误差曲面梯度的一半,所以我们仍在使用斜率信息。但关键的区别在于矩阵 JkTJkJ_k^T J_kJkT​Jk​。这个矩阵是曲面真实曲率(海森矩阵)的一个绝佳近似。本质上,GN 方法对梯度步长进行了“预处理”,通过拉伸和旋转使其更直接地指向最小值。它利用了关于曲面形状的二阶信息,从而能够迈出大而智能的步伐,收敛速度通常比简单的梯度下降法快得多。

驯服野兽:莱文伯格-马夸特算法

高斯-牛顿法的跳跃很大胆,但有时又 过于 大胆。如果曲面曲率很高,局部的抛物面近似可能会很差,一次大的跳跃可能会让你落到比起始点更高的山坡上。

这时,​​莱文伯格-马夸特 (Levenberg-Marquardt, LM)​​ 算法就派上用场了,它是一种巧妙的混合算法,结合了两者的优点。它通过一个“阻尼”参数 μ\muμ 来修正 GN 方程:

(JkTJk+μI)δ=−JkTrk(J_k^T J_k + \mu I) \delta = -J_k^T r_k(JkT​Jk​+μI)δ=−JkT​rk​

可以把 μ\muμ 想象成拴在我们精明徒步者身上的一根绳索。

  • 当一步成功,我们到达了更低的位置时,我们会变得更加自信。我们减小 μ\muμ,放松绳索,让下一步更像一次纯粹、大胆的高斯-牛顿跳跃。
  • 当一步失败,我们到达了更高的位置时,我们会变得更加谨慎。我们增大 μ\muμ,收紧绳索。当 μ\muμ 变得非常大时,μI\mu IμI 项在方程中占主导地位,步长会变小,并与安全、可靠的梯度下降方向对齐。

这种自适应策略可以被完美地解释为一种 ​​信赖域 (trust-region)​​ 方法。算法在当前点周围维持一个“信赖域”,并相信在此区域内其抛物面近似是有效的。它计算该区域内的最优步长。如果这一步效果好,信赖域就扩大;如果效果差,信赖域就缩小。这使得 LM 算法能够兼具速度和稳定性,在险峻的非线性曲面中穿行,成为非[线性最小二乘法](@entry_id:137100)中最成功和应用最广泛的算法之一。

现实世界中的复杂性

即使有强大的算法,非线性世界也为粗心大意者设下了陷阱。

虚假山谷的诱惑

由于误差曲面不是一个单一的碗状,它可能有多个山谷。算法可能会找到一个又小又浅的山谷底部并宣布成功,却不知道在别处还有一个更深的山谷——真正的 ​​全局最小值​​。这就是 ​​局部最小值​​ 问题。一个用少数几个点拟合圆的思维实验可以证明,即使对于看似简单的问题,这些虚假的局部最小值也可能存在,而且常常出现在物理上看起来很奇怪的参数值上(比如一个半径极大的圆)。这突显了 NLLS 的一个关键方面:初始参数猜测的选择至关重要。一个好的起始点,或许是基于物理直觉或一种更简单的近似方法得到的,对于引导算法进入正确的吸引盆通常是必不可少的。

当并非所有数据都生而平等时

我们最初的公式 ∑ri2\sum r_i^2∑ri2​ 暗中假设每个数据点都同等可信。但如果事实并非如此呢?在化学发光免疫分析中,信号是通过光子计数产生的。在极低的分析物浓度下,光信号很弱,随机的“散粒噪声”也很小。而在高浓度下,信号很强,绝对噪声也大得多。这种测量值的方差随其大小变化的现象被称为 ​​异方差性 (heteroscedasticity)​​。

将一个非常精确的低信号点和一个非常嘈杂的高信号点同等对待,在统计上是不合理的。解决方案是 ​​加权最小二乘法 (Weighted Least Squares, WLS)​​。我们修改目标函数,为每个数据点引入权重 wiw_iwi​:

Sw(θ)=∑i=1nwi[yi−f(xi;θ)]2S_w(\theta) = \sum_{i=1}^{n} w_i \left[ y_i - f(x_i; \theta) \right]^2Sw​(θ)=i=1∑n​wi​[yi​−f(xi​;θ)]2

这些权重的最佳选择是每个测量值方差的倒数,即 wi=1/σi2w_i = 1/\sigma_i^2wi​=1/σi2​。这使得精确的测量值(方差小,权重高)具有更大的影响力,而降低了嘈杂测量值(方差大,权重低)的权重。由于方差本身通常又依赖于我们试图建模的真实信号,这就变成了一个迭代过程,称为 ​​迭代重加权最小二乘法 (Iteratively Reweighted Least Squares, IRLS)​​。

这是现代 NLLS 优于传统线性化方法的一个主要原因。像用于酶动力学的 Lineweaver-Burk 图这样的技术,通过对数据取倒数,在数学上将曲线变成了直线。但这样做会严重扭曲误差结构,放大了最不确定测量值的噪声,并导致系统性的有偏结果。在原始尺度上使用适当的权重进行直接拟合,尊重了数据的完整性。

从拟合到洞见:我们数字中的置信度

找到最佳拟合参数 θ^\hat{\theta}θ^ 是一项伟大的成就,但科学的要求不止于此。我们必须问:我们对这些值的确定性有多高?误差曲面在最小值处的形状给出了答案。一个狭窄、陡峭的山谷意味着即使参数值与最优值有轻微偏离,也会导致误差大幅增加;该参数被数据严格约束。而一个宽阔、平坦的谷底则意味着该参数没有被很好地确定。

最小值处的曲率,我们用矩阵 JTJJ^T JJTJ 来近似,为我们提供了一种量化这种不确定性的方法。估计参数的 ​​协方差矩阵​​ 可以近似为:

Cov(θ^)≈s2(JTJ)−1\text{Cov}(\hat{\theta}) \approx s^2 (J^T J)^{-1}Cov(θ^)≈s2(JTJ)−1

在这里,s2s^2s2 是我们对测量方差的估计,由最小值处的残差平方和计算得出。该矩阵的对角线元素给出了每个参数的方差,其平方根即为 ​​标准误差​​。这使我们能够构建一个 ​​置信区间​​,即真实参数值可能落入的范围。为了正确地做到这一点,我们必须使用学生 t-分布而不是正态分布,因为我们必须从数据中 估计 噪声方差,这给问题增加了一点不确定性。这个 t-分布的自由度是 n−pn-pn−p,即数据点的数量减去我们估计的参数数量。这最后一步将我们的参数估计从纯粹的数字转变为真正的科学洞见,并附有对其不确定性的严谨陈述。

最后,我们必须确保我们的模型尊重物理现实。速率常数不能为负。我们可以在优化过程中强制施加这类约束。有时,巧妙的重新参数化,比如对参数的对数进行拟合,可以自然地强制其为正。这些考虑增加了最后一层复杂性,确保我们的数学之旅最终得到的解不仅在统计上是最优的,而且在物理上也是有意义的。

应用与跨学科联系

在掌握了非[线性最小二乘法](@entry_id:137100) (NLLS) 的原理之后,我们现在来到了旅程中最激动人心的部分:看它在实践中如何大显身手。如果说上一章是学习一门新语言的语法,那么这一章就是品读它的诗歌。你会发现 NLLS 不仅仅是统计学家的工具;它是一个通用翻译器,一座连接数学模型抽象世界与实验数据具体、纷繁而又美好现实的桥梁。它是贯穿生物化学、医学成像、材料科学乃至密码学等不同领域的共同主线。在每个领域,我们都看到同样的故事在上演:科学家们提出一个模型,一个关于世界某一部分如何运作的数学故事。然后,NLLS 扮演着首席侦探的角色,审查证据——即数据——并找出能使故事与现实最佳契合的精确参数。

生命的语言:生物系统建模

NLLS 的力量也许在生命科学中表现得最为淋漓尽致,因为该领域的系统以其复杂、非线性和充满变异而著称。在这里,简单的线性关系很少能满足要求,我们的模型必须拥抱生命常遵循的那些优美曲线。

一个经典的起点是生物化学领域,位于细胞机器的核心:酶动力学。想象一下,酶是装配线上的一名小工人,抓取底物分子并将其转化为产物。它的工作速度能有多快?著名的 Michaelis-Menten 模型给出了答案,它通过一条优美的饱和曲线,根据底物浓度 [S][S][S] 预测反应速率 vvv:v=Vmax⁡[S]KM+[S]v = \frac{V_{\max}[S]}{K_M + [S]}v=KM​+[S]Vmax​[S]​。几十年来,学生们被教导一个巧妙的技巧——Lineweaver-Burk 图——来将此方程线性化,并用简单的工具进行拟合。但这个技巧有一个隐藏的代价:它扭曲了实验误差,对低浓度下的测量值赋予了过度的影响。相比之下,NLLS 不需要这样的技巧。它直接面对非线性模型,在原始数据空间中最小化真实的误差平方和,从而提供对关键参数 Vmax⁡V_{\max}Vmax​(最大速率)和 KmK_mKm​(底物亲和力)更准确、更可靠的估计。这种直接方法被证明是优越的,尤其是在数据含有离群点或集中在特定区间时,而这在真实实验中很常见。

从单个酶放大到整个种群,我们看到了类似的故事。考虑在培养皿中生长的一批微生物。起初,它们的种群呈指数增长。但随着资源变得稀缺,它们的生长减慢,并最终在承载能力 KKK 处达到平稳。这种行为由逻辑斯蒂增长模型捕捉,这是一个简单而深刻的微分方程的解:dXdt=rX(1−XK)\frac{dX}{dt} = r X(1 - \frac{X}{K})dtdX​=rX(1−KX​)。给定一系列随时间变化的种群测量值,我们如何确定内在增长率 rrr 和承载能力 KKK?答案再次是 NLLS。我们将逻辑斯蒂方程的积分形式直接拟合到时程数据,从而使我们能够提取这些至关重要的生态学参数并进行预测,例如计算种群达到其最大规模一半所需的时间。

这种拟合 S 型曲线的相同原理直接延伸到药理学和医学领域。在测试新药时,科学家们测量其在不同浓度下的效果,生成一条剂量-反应曲线。这种关系通常由希尔方程描述,这是一个四参数的 S 型模型,告诉我们基线效应 (E0E_0E0​)、最大效应 (EmaxE_{max}Emax​)、效力 (EC50EC_{50}EC50​) 和结合的协同性 (nHn_HnH​)。拟合这个模型是一个典型的 NLLS 问题。此外,它常常引入一个关键的现实世界复杂性:异方差性,一个花哨的词,意思是测量误差不是恒定的。高药物效应下的测量值可能比基线处的测量值“更嘈杂”。一个朴素的 NLLS 拟合会被此误导。正如严谨的分析所示,正确的方法是 ​​加权最小二乘法​​,即每个数据点对目标函数的贡献都按其方差的倒数加权。这告诉算法要“更多地关注”更精确的测量值,从而得到更准确的结果。选择正确的工作流程——从挑选合理的初始参数猜测到使用正确的加权方案——对于得出可靠的科学结论至关重要。

建模复杂相互作用的主题在生态学中得以延续。捕食者的消耗率如何随着猎物变得更加丰富而变化?答案,即捕食者的“功能性反应”,不是一条直线。在低猎物密度下,捕食者可能难以找到它们,但随着猎物变得丰富,捕食者的消耗率会饱和,因为它受到处理每次捕获所需时间的限制。生态学家为此提出了几种模型,例如“II 型”和“III 型”功能性反应,它们具有不同的数学形式,反映了不同的潜在捕食行为。NLLS 允许我们将这两种相互竞争的模型拟合到实验数据。然后我们可以更进一步,使用像赤池信息准则 (Akaike Information Criterion, AIC) 这样的统计工具(该准则是根据 NLLS 结果计算的)来确定哪个模型能更好地解释数据,从而为我们提供对捕食者策略的洞见。

最后,我们将 NLLS 的镜头转向内部,对准人体本身。磁共振成像 (MRI) 是现代诊断学的基石。定量 MRI 技术旨在超越单纯的图像,测量组织的实际物理特性。其中一个特性是纵向弛豫时间 T1T_1T1​,它可以帮助区分健康组织和病变组织。为了测量 T1T_1T1​,使用特定的射频脉冲序列,所得信号由核磁共振的布洛赫方程建模。解是 T1T_1T1​、平衡磁化强度 M0M_0M0​ 和仪器因素的非线性函数。通过在几个不同的延迟时间测量 MRI 信号,可以生成一系列数据点。然后使用 NLLS 将源自布洛赫方程的模型拟合到这些数据,从而得到患者体内 T1T_1T1​ 值的精确、逐像素的映射图。这有力地证明了科学思想的统一性:描述酶和生态系统的相同基本拟合过程,可以用来无创地窥视人脑。

工程世界:从分子到反应器

正如在生命科学中一样,NLLS 在工程学和物理科学中也是一个不可或缺的工具,用于构建和验证我们周围世界的模型。

让我们从构成我们世界——以及我们身体——的材料开始。像肌腱或韧带这样的生物组织在负载下拉伸的方式是高度非线性的。它起初很软(“趾区”),然后变硬。这种行为可以用一个非线性应力-应变模型来描述,而该模型本身可以从一个更基本的量——应变能密度函数推导出来。对于一个给定的、带有 k1k_1k1​ 和 k2k_2k2​ 等参数的模型,我们可以进行拉伸试验,收集应力-应变数据,并使用 NLLS 找到最能描述该特定组织的参数值。这使得工程师和生物力学家能够创建生物系统的精确模拟,这对于设计医疗植入物或理解损伤至关重要。此外,NLLS 的统计框架使我们能够超越点估计,计算拟合参数的置信区间,从而衡量我们对结果的确定性。

再往小处看,NLLS 是计算材料科学领域的一项关键技术。“圣杯”是从量子力学出发,从头预测材料的性质。虽然密度泛函理论 (DFT) 可以高精度地做到这一点,但对于大型系统来说,其计算成本高得惊人。一个常见的策略是使用 DFT 生成一个“训练集”数据——例如,晶体在不同体积下的能量——然后使用 NLLS 将一个计算上更便宜的、更简单的经验模型(如莫尔斯势)拟合到这些数据上。这个拟合后的势能随后可用于大规模分子动力学模拟,以预测材料在各种条件下的行为。一个关键的挑战是确保该势能是 可移植的,意味着它不仅适用于一种特定的晶体排列,也适用于其他排列。这可以通过同时对来自多种晶体结构(例如,面心立方和体心立方)的数据进行 NLLS 拟合来实现,从而迫使模型找到一组能够为所有数据提供最佳折衷拟合的参数。

从分子尺度,我们可以跃升到化学工程的宏观世界。想象一下设计一个大型化学反应器,如活塞流反应器 (PFR),以生产一种有价值的化学品。反应器的性能关键取决于内部发生的化学反应速率。这些速率由动力学参数控制,如阿伦尼乌斯方程中的活化能和指前因子。为了确定这些未知参数,工程师进行实验,测量反应器出口处气体混合物的组成和温度。这里的正向模型特别复杂:对于给定的一组动力学参数,必须求解一个关于物质浓度和温度沿反应器长度变化的耦合常微分方程组。这整个模拟过程,即将动力学参数映射到预测的出口状态,就成了 NLLS 必须拟合的函数。在其最高级的形式中,这需要一种加权最小二乘法,该方法使用一个完整的协方差矩阵来考虑温度和组成测量值之间的相关不确定性,并使用如灵敏度分析等复杂的数值技术来高效地计算所需的雅可比矩阵。这是工业级应用中 NLLS 的精髓所在。

数字前沿:人工智能与安全

在现代,“数据”的领域已经扩展到包括数字世界本身。毫不奇怪,NLLS 在这里也找到了新颖而深刻的应用。

考虑机器学习领域。我们训练一个复杂的模型,比如神经网络,来执行一项任务,我们观察到随着我们提供更多的训练数据,其误差通常会下降。我们能对这个学习过程本身进行建模吗?是的,我们可以。学习曲线绘制了模型的误差与训练集大小 NNN 的关系,它通常遵循一个可预测的带有误差下限的反幂律衰减。这可以用一个简单的三参数模型来描述:ERMSE(N)=aN−b+cE_{\text{RMSE}}(N) = a N^{-b} + cERMSE​(N)=aN−b+c。这里,ccc 是不可约的误差下限,aaa 是一个缩放因子,而指数 bbb 代表“样本效率”——即模型从新数据中学习的速度。我们可以使用 NLLS 将此模型拟合到我们机器学习算法的观测性能上,从而提取其学习能力的定量度量。这是一个美妙的“元应用”:使用经典的建模技术来理解我们最新、最复杂的建模工具的行为。

最后,我们以一个感觉像间谍小说情节的应用来结束:破解密码学。现代密码被设计成在数学上坚不可摧。但是运行它们的计算机是物理设备。当芯片执行计算时,其功耗会以一种依赖于正在处理的数据和所使用的密钥的方式波动。这种信息泄漏被称为侧信道。在一个假设但有启发性的场景中,可以将特定时刻的功耗建模为密钥参数的非线性函数。例如,一个密钥 kkk 可能控制内部计算中的一个旋转角度。通过向设备输入许多已知的输入 (pi,qi)(p_i, q_i)(pi​,qi​) 并测量产生的功耗轨迹 yiy_iyi​,攻击者收集了一个数据集。然后可以将该数据集输入 NLLS 算法,将密钥 kkk 视为功耗模型中的未知参数。如果模型足够准确,算法将收敛到密钥的值,而所有这一切都无需破解加密算法本身。这是一个惊人的演示,表明任何可以被建模的过程,无论是物理的还是数字的,都有可能利用非[线性最小二乘法](@entry_id:137100)强大而通用的逻辑被逆向工程。

从分子的舞蹈到微处理器的秘密,NLLS 提供了一个从观察中学习的统一框架。它证明了这样一个理念:只要有一个好的模型和正确的数据,我们世界的基本参数并非遥不可及;它们只是在等待被发现。