
当我们面对一堆杂乱的数据——遥远恒星闪烁的光芒、分子间错综复杂的舞蹈,或是股票市场的锯齿状曲线——我们会构建模型来理解它们。模型是一个简化的故事,用以解释世界如何运作,但我们常常可以讲述不止一个故事。一个故事可能简单而优雅,而另一个则复杂而详尽,以极高的精度拟合每一个数据点。这给任何科学探索都提出了一个根本性问题:我们应该相信哪个故事?答案并非简单地“拟合数据最好的那个”,因为一个过于复杂的模型有“过拟合”的风险——即把随机噪声误认为是真实信号。
本文旨在解决模型比较这一关键挑战:如何正式地平衡模型的准确性与复杂性。文章引入了简约原则,即奥卡姆剃刀,作为选择模型时既要准确又要具有泛化性和预测能力的指导哲学。为了让你掌握完成这项任务的工具,“原理与机制”一节将首先探讨核心概念,深入研究如赤池信息准则(AIC)和贝叶斯信息准则(BIC)等量化方法。随后,“应用与跨学科联系”一节将开启一场跨越科学领域的旅程,揭示这些统一的原则如何帮助从神经科学到进化生物学等领域的科学家们,构建关于我们宇宙的更真实、更深刻的故事。
想象一下,你是一位物理学家,正在绘制一个抛出小球的轨迹。你有一组数据点,每个点标记了小球在特定时间的位置。你可以用一个简单、平滑的抛物线(一个二次模型)来拟合这些点。由于测量中的微小误差——一阵风,你手的轻微颤抖——这条曲线可能不会恰好穿过每一个点。或者,你可以运用一个“数学杂技演员”,一个高阶多项式,画出一条狂野、弯曲的线,忠实地穿过每一个数据点。
哪个模型更好?那条弯曲的线有着“完美”的拟合。它在你已有的数据上测得的误差为零。但你有一种直觉,感觉它是错的。你感觉到这个模型过于急于求成;它不仅捕捉了美妙的引力物理学,还一丝不苟地学习了你特定实验中的随机噪声。如果你再抛一次球,简单的抛物线对路径的预测可能会远胜于那条复杂、弯曲的曲线。
这种直觉是一种古老思想的现代形式,即奥卡姆剃刀:当面对相互竞争的解释时,我们应选择能够完成任务的最简单的那个。一个更复杂的模型——有更多的参数,更多的“旋钮可调”——拥有更大的自由度。只要有足够的自由度,一个模型可以拟合任何东西,包括数据中随机、无意义的噪声。这被称为过拟合。该模型变成了一个“事后诸葛亮”式的故事,完美地为过去量身定制,却对未来毫无预测能力。
因此,我们的挑战就是将拟合优度和复杂性之间的这种权衡形式化。我们需要一种有纪律的方法,既能奖励模型对数据的解释能力,又能惩罚其过于复杂。
为了让奥卡姆剃刀成为一个实用的工具,我们需要将直观感受转化为数字。首先,我们需要一个评分来衡量模型对数据的拟合程度。标准的统计度量是似然(likelihood)。一个模型的似然是指,在给定该模型的情况下,观测到我们实际数据的概率。似然越高,意味着拟合越好。
有了这个,我们现在可以定义科学家模型选择工具箱中两个最强大的工具:赤池信息准则 (AIC) 和 贝叶斯信息准则 (BIC)。它们可以被看作是“惩罚似然”分数。我们从对数似然 开始,然后减去一个复杂性惩罚项。根据数学惯例,我们通常将它们写成分数越低越好的形式:
让我们来分解一下这些公式。 项代表拟合的“差度”;似然 越高,这一项就越小,这很好。第二项,(对于 AIC)和 (对于 BIC),是复杂性惩罚项。这里, 是模型中自由参数的数量——我们可以调整的“旋钮”数量。对于 BIC,惩罚项还取决于数据点的数量 。
让我们看看这些准则的实际应用。设想一位神经科学家正在记录脑细胞对微小电流脉冲的电响应。电压轨迹显示出一个快速变化,随后是一个较慢的衰减。一个简单的模型可能使用一个指数衰减项来描述细胞膜的特性。一个更复杂的模型可能使用两个指数项,假设快速分量是记录电极本身造成的伪影,而慢速分量才是真实的生物信号。一个更复杂的模型甚至可能添加第三个指数项,也许是为了捕捉记录设备中的一些缓慢漂移。
具有三个指数项的模型当然会有最好的原始拟合度(最高的似然)。但这合理吗?假设我们有 个数据点。单指数模型有 个参数(振幅、时间常数、偏移量)。双指数模型有 个,三指数模型有 个。当我们计算 AIC 和 BIC 分数时,我们发现双指数模型是决定性的赢家。从一个项增加到两个项所带来的拟合度巨大提升,轻易地抵消了增加两个参数的惩罚——这告诉我们,对电极伪影进行建模至关重要。但是,从两个项增加到三个项所带来的微小拟合度提升,远不足以证明增加的复杂性是合理的。AIC 和 BIC 告诉我们,第三个指数项很可能只是在过拟合噪声。将伪影与生物学信号分开的双指数模型,是最简约且最可信的故事。
你可能已经注意到 AIC 和 BIC 有不同的惩罚项。这不是偶然的;它反映了它们目标上的深层哲学差异。
AIC 的目标是预测准确性。 源于信息论的 AIC 旨在选择在预测来自同一过程的新数据时表现最好的模型。它是一个务实的工具。它估算了当我们用模型作为现实的近似时所产生的“信息损失”(通过一种称为 Kullback-Leibler 散度的度量来衡量)。AIC 并不声称能找到“真实”模型。它寻求的是在给定集合中预测能力最好的模型。
BIC 的目标是找到真理。 源于贝叶斯框架的 BIC 试图选择最可能是真实数据生成过程的模型,前提是假设这样的模型存在于我们的候选模型之中。
这种差异产生了一个与名为选择一致性(selection consistency)的属性相关的关键后果。随着数据量()趋于无穷大,BIC 中的惩罚项 无限增长,而 AIC 的惩罚项 保持不变。这意味着对于大型数据集,BIC 对复杂性的惩罚比 AIC 严厉得多。因此,如果真实模型在我们的集合中,BIC 保证(在无限数据的极限下)会选中它。而 AIC,由于其较温和的惩罚,如果额外的复杂性能在预测准确性上提供哪怕是微小的优势,它可能永远偏爱一个稍微复杂的模型。简而言之,BIC 是一致的——它会收敛到真实模型。AIC 则不是;它收敛到预测能力最好的模型。它们之间的选择取决于你的目标:你想识别潜在的过程(BIC),还是想做出最好的预测(AIC)?
有时,我们的模型之间存在一种特殊关系:一个是另一个的更精细版本。例如,一个简单的酶动力学模型可能假设没有抑制作用,而一个更复杂的模型则增加了一个竞争性抑制剂的参数。这是一对嵌套模型。
对于嵌套模型,我们可以提出一个经典的假设检验问题:额外的复杂性是否在统计上显著?似然比检验 (LRT) 就是为此设计的。我们计算一个检验统计量,,它衡量了对数似然的改进程度。
但是 需要多大才具有说服力呢?统计学的魔力告诉我们,如果简单模型实际上是真的,那么我们从随机实验中得到的 值的分布将遵循一种众所周知的数学形式:卡方()分布。该分布的“自由度”就是复杂模型中额外参数的数量。因此,我们可以计算出仅凭偶然机会观测到像我们这样大的 值的概率(即 p 值)。如果这个概率非常小(例如,小于 0.05),我们就拒绝简单模型,并得出结论:额外的复杂性是合理的。这正是用来确定竞争性抑制剂是否真实存在 或一个基因的激活是否涉及协同结合 的逻辑。
到目前为止,我们一直专注于相对比较。AIC、BIC 和 LRT 都能帮助我们从给定的集合中挑选出“最佳”模型。但这引出了一个可怕的问题:如果我们所有的模型都是垃圾怎么办?
这就是模型选择和模型适当性之间的关键区别。一个模型可能在一堆糟糕的模型中是最好的。它可能拥有最低的 AIC 分数,但仍然是对现实可笑的拙劣描述。
为了检查适当性,我们需要进行绝对检验:我们选择的模型是否对数据提供了合理的描述?一个强大的方法是后验预测检验。其逻辑简单而优美:“如果我的模型能很好地代表现实,那么从我的模型模拟出的数据应该与我的真实数据相似。”我们可以拟合我们的模型,然后使用拟合的参数生成数百个虚假数据集。然后,我们将这些虚假数据集的属性与我们的真实数据集进行比较。如果我们的真实数据在模拟数据中看起来像一个极端异常值(例如,它的方差远高于任何模拟方差),那么我们的模型就未能捕捉到现实的一个关键特征。它可能是我们拥有的最好的模型,但它并不适当。这个至关重要的步骤让我们保持诚实,防止我们爱上一个仅仅是“烂苹果里最好的那个”的模型。
我们讨论的原则不仅适用于简单的教科书案例。它们指导着在知识最前沿工作的科学家们。
考虑一下重建生命之树的进化生物学家。这里的“模型”不仅包括 DNA 如何突变的参数,还包括进化树本身的分支结构(拓扑结构)。可能的树的数量是天文数字。然而,生物学家使用 AIC 和 BIC 来比较不同的 DNA 替换模型。例如,他们发现,假设所有 DNA 位点以相同速率进化的简单模型表现非常糟糕。而允许位点间速率变化的模型(例如,“JC69+G+I”模型)具有好得多的 AIC/BIC 分数,这揭示了关于分子进化的一个基本事实。有趣的是,当在相同的替换模型下比较两种不同的树拓扑时,参数数量是相同的。在这种特殊情况下,AIC 和 BIC 的惩罚项相互抵消,选择最终归结为哪棵树具有更高的似然。
最后,在机器学习领域,模型可能拥有数千或数百万个参数,过拟合的危险是巨大的。想象一下,试图根据 20,000 个基因的表达水平来预测癌症亚型。一个常见的程序是使用交叉验证来调整模型的“超参数”。一种天真的做法是调整模型并在相同的验证数据上报告性能。这是自欺欺人的秘诀;报告的性能会存在乐观的偏差。严谨、思想上诚实的方法是嵌套交叉验证。该方法建立了一个严格的防火墙,使用一个“内”循环的数据来调整模型,并使用一个完全独立的“外”循环的数据来进行最终的、无偏的评估。这相当于机器学习中的“考前不偷看答案”。
从物理学到神经科学,再到宏大的进化历程,同样的故事在不断上演。自然是微妙的,我们的数据是嘈杂的。模型比较的原则是我们的向导,指引我们讲述最真实、最可靠、最具预测性的故事——并且,最重要的是,指引我们建立起不在前进道路上自欺欺人的纪律。
科学是一个宏大的讲故事传统。我们观察世界,并试图讲述一个故事——一个模型——来解释我们所看到的。一个苹果落下;Newton 讲述了一个万有引力的故事。一个物种随时间变化;Darwin 讲述了一个自然选择的故事。但自然是一位微妙的作者,常常有几种不同的故事似乎都能与观察到的事实相符。我们如何选择?我们是偏爱最简单、最优雅的故事?还是那个捕捉了每一个杂乱细节的故事?
这不仅仅是品味问题。正如我们所见,这里有一个深刻而优美的原则在起作用,一种量化的奥卡姆剃刀,指导着我们的判断。这个原则让我们能够在简约的美德与复杂的力量之间进行权衡,为我们提供一个普适的、客观的工具,帮助我们判断哪个故事得到了证据的最佳支持。在本章中,我们将踏上一段跨越科学领域的旅程——从捕食者的腹中到磁铁的核心,从物种的诞生到神经元的放电——去见证这一原则的实际应用。我们将发现,这个单一的、统一的思想如何帮助在截然不同领域的科学家们,构建关于我们宇宙的日益真实的故事。
在最基本的层面上,许多科学研究都涉及为描述一种关系找到合适的数学“形状”。我们收集数据、绘制图表,并试图在数据点中画出一条直线或曲线。但哪条曲线才是正确的?一条更复杂、更弯曲的曲线可能会穿过更多的数据点,但它描述的是真实的潜在模式,还是仅仅在忠实地追踪随机噪声?这正是模型比较提供其首要且最基本服务的地方。
思考一下捕食者与其猎物之间永恒的戏剧。一位生态学家想要了解随着猎物数量的增加,捕食者的捕食率如何变化。一个简单的故事,即“II型”功能性反应,描述了一个随着猎物变得丰富而效率逐渐降低的捕食者;它的捕食率先上升然后趋于平缓。一个更复杂的故事,即“III型”反应,则认为随着猎物变得更常见,捕食者实际上更擅长捕猎(也许是通过形成“搜索图像”),之后最终达到饱和。这就产生了一条更复杂的 S 形曲线。这不仅仅是两个随意的方程;它们是关于动物行为的两个不同故事。有了投喂试验的数据,我们可以拟合这两个模型。III型模型由于具有更大的灵活性,几乎肯定会稍微更好地拟合数据点。但这种改进是真实的,还是由其额外复杂性造成的假象?通过计算像 AIC 或 BIC 这样的准则,我们可以做出有原则的决定。我们可以让数据告诉我们,它真正支持哪个故事:是那个简单、笨拙的捕食者,还是那个复杂、会学习的捕食者。
同样的逻辑适用于无数个学科。在毒理学中,我们需要了解化学物质的剂量与其有害效应之间的关系。一个简单的线性模型讲述了一个严酷的故事:两倍的剂量意味着两倍的损害。一个更复杂的、饱和的“Hill”模型则讲述了一个更微妙的故事:在低剂量时效应可能很小,然后急剧增加,最后趋于平缓。这种差异对公共卫生和制定安全标准具有深远影响。在这里,模型比较再次帮助我们选择最合理的故事。我们甚至可以更深入一层:我们数据中的随机散点也需要一个模型。它是简单的泊松噪声,还是存在“过度离散”,需要一个更复杂的负二项模型?每一个选择都是一个模型比较问题,层层叠加。
即使在物理学世界,我们的理论通常被认为是精确的,但经验模型仍然至关重要。在高分子科学中,Flory-Huggins相互作用参数 描述了两种分子“喜欢”或“不喜欢”彼此的程度,这决定了它们是否会混合。它对温度的依赖性 对于设计新材料至关重要。一个源自基本热力学论证的简单模型表明 。一个更精细的模型可能会增加一个额外项,。这个额外项是对底层物理学的有意义的发现,还是仅仅是一个不合理的修饰?通过比较这两个模型的 AIC 或 BIC,我们可以做出决定。有趣的是,在这种情况下,这两个准则可能会产生分歧。对于少量数据点,BIC 对复杂性的惩罚比 AIC 更严厉。这反映了哲学上的微妙差异:AIC 试图找到用于未来预测的最佳模型,而 BIC 更关心找到“真实”的底层模型。它们的分歧告诉我们,我们的结论可能对我们的目标和数据量很敏感。
模型比较不仅仅是把曲线拟合到可见数据上。它能帮助我们推断那些无法直接观察到的结构和过程。模型的参数可以代表真实的物理对象,通过询问这些参数是否必要,我们实际上是在问那些隐藏的对象是否真实存在。
想象一下,在窃听大脑中单个神经元的电信号。我们可以注入一个微小的电流脉冲并记录电压响应。我们知道神经元不是一个简单的球体;它有复杂的、分叉的树突结构。但我们需要在模型中包含多少这种复杂性呢?一个简单的模型将神经元视为一个单一的球形隔室——本质上是一个漏电的电容器。一个更复杂的模型可能将其视为两个相连的隔室,一个“胞体”和一个“树突”。当我们将这两个模型拟合到记录的电压轨迹时,我们可以使用 AIC 或 BIC 来决定数据是否支持两隔室模型。如果支持,这就是一个强有力的证据,表明神经元的电行为是由其物理结构塑造的。我们模型的抽象参数——电导和电容——反映了我们仅通过其电信号就能“探测”到的、一个可触摸的生物学现实。
这一原则使我们能够探索生物变异的本质。假设你是一位博物学家,正在研究一个动物种群,你注意到它们有两种不同的大小,小的和大的。这种模式的起源是什么?一个故事是存在两种离散的“类型”,也许源于一个单一基因,就像 Mendel 的高茎和短茎豌豆一样。在这个“离散类别”模型中,一个类型内的所有变异都只是测量误差。另一个故事是,这个性状是连续的,像人类身高一样,受许多基因和环境因素影响。在这个“数量性状”模型中,分布中的两个峰只是连续景观中的两个高峰。
我们如何决定?我们可以拟合一个高斯混合模型,它在每个峰上放置一个钟形曲线。关键的洞见来自于比较这些钟形曲线的方差——即宽度——与我们仪器已知的测量误差。如果离散类别故事是真的,每个拟合曲线的方差应该非常小,与测量误差相匹配。但是,如果像问题中那样,拟合曲线的方差比测量误差大一百倍,那就是一个确凿的证据。它告诉我们,每个群体内部存在着巨大的、真实的生物学变异。这个性状不是一个简单的开关;它是一个旋钮。这种双峰性是种群分布的一个特征,而不是存在根本上离散类型的标志。在这里,通过对模型参数的仔细解读,模型比较使我们能够窥探一个性状隐藏的遗传结构。
也许模型比较最令人叹为观止的应用在于其重构过去的能力。宇宙中充满了各种遗迹——基因组、化石、星图——它们是历史事件的回响。通过构建代表不同历史叙事的模型,我们可以利用模型比较来探究哪一个故事得到了我们今天发现的遗迹的最佳支持。
基因组是最终的历史文献。但要阅读它,我们必须首先理解它的语言和语法。在分子进化中,“替换模型”就是这种语法的模型;它描述了 DNA 和蛋白质序列随时间变化的规则。一些模型很简单(例如,所有突变的可能性都相等),而另一些则很复杂(例如,某些类型的突变比其他类型常见得多)。选择正确的模型是任何进化分析中至关重要的第一步。如果我们用错了语法,我们就会误读生命的故事。像 AIC 和 BIC 这样的模型选择准则是系统发育学家用来为他们的数据选择最合适语法的标准工具,从而防止他们对进化历史得出有偏见的结论。
一旦我们有了正确的语法,我们就可以开始提出深刻的问题。其中最令人兴奋的一个是寻找达尔文选择的分子指纹。我们可以构建一个“中性”故事,即一个模型,其中基因的进化纯粹是偶然的,没有正选择驱动其改变。我们也可以构建一个“选择”故事,即一个模型,它允许基因内的一类位点承受着强烈的适应压力,其进化速度远超偶然预期的速度。这是两个相互竞争的嵌套故事。通过比较它们的似然,我们可以找到正选择的统计显著证据,精确定位那些在古老进化军备竞赛前线的氨基酸。这是一项了不起的壮举:追溯到数百万年前,观察进化的实际过程。
这种逻辑延伸到最宏大的进化尺度,比如新物种的诞生。岛屿上的一个物种是如何从其大陆祖先演化而来的?是一次清晰的分裂,一个大种群被隔离并经过漫长时间漂变分化(一个“异域”模型)?还是一次戏剧性的奠基者事件,少数个体殖民了岛屿,经历了一个严峻的遗传瓶颈,然后迅速适应(一个“边域”模型)?。这是两种截然不同的历史叙事。今天,我们可以将每一种叙事转化为一个基于溯祖理论的复杂数学模型。通过将这些模型拟合到这两个物种的基因组数据,我们可以使用像 AIC 和贝叶斯因子这样的工具来确定哪个物种形成故事更合理。在一种非常真实的意义上,我们是基因组的计算考古学家。
模型比较的力量延伸至知识的最前沿,在那里它可以作为一种工具,不仅衡量一个主题的微小变体,还能权衡整个科学框架。
有时,这种比较不是一个定量的计算,而是对模型基本假设的定性检验。在磁学物理中,有不同的唯象模型来描述磁滞现象,即磁性材料的顽固记忆。经典的 Preisach 模型讲述了一个关于独立的、微观磁性开关的故事。Jiles-Atherton 模型则讲述了一个更复杂的故事,涉及相互作用的磁畴。实验者可能会观察到,次级磁滞回线的形状不是固定的,而是取决于样品的历史,这一特性被称为“非全等性”。经典的 Preisach 模型,由于其构造本身,无法产生这种现象。而 Jiles-Atherton 模型可以。在这种情况下,Jiles-Atherton 模型获胜并非因为有更好的 AIC 分数,而是因为它是两者中唯一一个在定性上能够讲述正确类型故事的模型。这是在任何统计拟合之前必须进行的关键合理性检查。
最雄心勃勃的是,我们可以使用模型选择来形式化和检验相互竞争的科学范式之间的辩论。几十年来,“现代综合论”一直是进化理论的主导框架。近年来,一些人呼吁建立一个“扩展进化综合论”(EES),认为表观遗传和生态位构建等过程发挥着比以往认为的更核心的作用。这场辩论似乎是哲学性的,但我们可以通过模型比较使其具体化。我们可以构建一个只包含现代综合论核心机制的模型。然后我们可以构建一个“扩展”模型,增加例如可遗传的表观遗传效应的参数。然后我们可以将这两个模型拟合到数据中,并提问:EES 模型的额外复杂性是否因其解释世界能力的显著提高而变得合理?
这把我们带到了最后一个关键概念:可识别性。假设我们的 EES 模型提供了更好的拟合。但如果“表观遗传”和“发育可塑性”的参数纠缠在一起,以至于数据无法将它们区分开来,那该怎么办?模型的费雪信息矩阵可能接近奇异,其参数几乎不可识别。在这种情况下,即使模型拟合得很好,它也不是一个好的科学工具。它的参数是一团毫无意义的浆糊。这个模型尚不具可检验性。这是一个深刻的教训:一个模型不仅要提供一个好故事,还必须提供一个清晰且可证伪的故事。模型比较的原则,当与对可识别性的关注相结合时,迫使我们构建不仅准确,而且有意义的模型。
我们的旅程带领我们穿越了现代科学的广阔图景,在每一个转折点,我们都发现科学家们在努力解决同一个根本问题:我们如何选择最好的故事?我们已经看到,平衡拟合优度与复杂性的原则是一个普适的指南针。它不是一个自动的、不假思索的过程;它需要科学洞察力、对基本假设的仔细思考,以及对所建模系统的深刻理解。但它提供了一种共同的语言和理性的基础,用以做出决策,裁决相互竞争的观点,并构建日益具有预测性和洞察力的世界模型。从本质上讲,这是将科学判断的艺术变得严谨。