
我们如何从简单地观察世界,走向真正地理解世界?描述性统计可以总结已经发生的事情,但无法解释原因,也无法预测未来。要实现这一飞跃,我们必须构建一个故事——一套关于生成我们所见数据的潜在过程的假说规则。这就是基于模型的推断的精髓,它是一个强大的框架,用于得出超越现有数据的结论。本文旨在弥合仅仅描述数据与对未知事物做出有原则的陈述之间的鸿沟。它为这一重要的科学工具提供了指南,阐明了我们如何构建、使用和验证这些概念性的“宇宙”来解码现实。接下来的章节将首先探讨基于模型的推断的核心原则和机制,从其哲学基础到其计算引擎。然后,我们将审视其深远影响,考察这种方法如何被应用于解决工程学、生物学、医学和神经科学等领域的关键问题。
我们如何认识世界?我们观察它,收集数据。如果你在不了解规则的情况下观看一盘国际象棋,你可以收集大量数据。你可以统计每个棋子移动的频率、移动的位置,以及哪些对局以胜利或失败告终。你可以对已发生的事情做出精美的总结——这就是描述性统计的世界。你可能会注意到象只能在一种颜色的格子上移动,或者兵大多是向前移动一格。但你真的能理解这个游戏吗?你能预测接下来会发生什么,或者形成一个制胜策略吗?
要做到这一点,你需要猜测规则。你需要对生成你所见数据的潜在过程形成一个假说。这套假说性的规则,这个关于数据如何产生的故事,就是我们所说的模型。而利用这些故事得出超越我们已有数据的结论的艺术,就是基于模型的推断的艺术。
想象一下,你是一名公共卫生官员,正在监测每日因呼吸系统疾病到急诊室就诊的人数。你有一个上下波动的时间序列计数。你可以计算一个七天移动平均值来平滑波动,从而更清晰地了解趋势。这是描述性的;这是对你所拥有数据的一个巧妙总结。但它本身无法告诉你这个趋势的不确定性有多大,也无法告诉你明天的计数是否会异常高。
要实现这一飞跃,你必须讲一个故事——你必须建立一个模型。你可以假定存在一个“真实”的潜在患病率,它随时间平滑演变,或许还带有一些周季节性。你可以进一步假设,你在任何一天看到的实际病人数 是由这个真实率支配的过程中的一个随机抽取,比如泊松分布。这套假设——观测模型( 来自泊松分布)和状态演化模型(真实率如何变化)——构成了一个推断性状态空间模型。突然之间,你有了一台用于推断的机器。你可以利用数据来估计未观测到的“真实”率,为你的估计加上误差棒,并为未来生成概率性预测。你已经从仅仅描述过去,转变为对未知事物做出有原则的陈述。这种从描述到推断的转变,完全是由你愿意做出的假设所驱动的。
现在,这种假设一个假想数据生成过程的想法对科学家来说是如此自然,以至于它似乎是唯一的思考方式。但是,存在一个引人入胜且强大的替代方案,而这两种世界观之间的张力揭示了我们在分析数据时所做的深刻哲学承诺。
第一个是基于模型的宇宙。在这里,我们想象我们的数据——这些特定病人的健康状况,这些特定医院的准确性——只是来自一个巨大的、看不见的“超总体”的一个随机实现。真正的目标是学习支配这个超总体的抽象、永恒过程的参数。我们拥有的数据只是一个样本,而随机性来自于超总体模型本身。
第二个是基于设计的宇宙。在这里,没有超总体。现实是有限而具体的。我们临床试验中的60名患者是我们分析中唯一重要的患者;他们的潜在结果是固定的、未知的常数。一个国家的500家医院有着固定的、特定的用药准确率。在这个世界里,随机性并非来自某个假想的数据生成过程,而是来自我们。它来自于我们用来选择样本或分配治疗的程序。我们对平均疫苗接种率估计的不确定性,不是因为接种率本身是“随机的”,而是因为我们随机地选择了这些诊所而不是那些诊所。
考虑一个随机对照试验(RCT)。基于模型的方法可能会使用t检验来测试治疗效果,该检验依赖于一个线性模型,假设结果是从某个分布(通常是正态分布)中抽取的。其有效性取决于该结果模型的合理性。相比之下,基于设计的方法可能会使用置换检验。它提出了一个更直接的问题:“在‘治疗对任何人都没有影响’这一尖锐的原假设下,无论谁接受了药物,我们观察到的结果都将是相同的。那么,仅仅通过随机分配,我们看到两组之间差异像我们实际看到的那么大的概率是多少?” p值直接来自已知的随机化程序,而不是来自一个假定的结果分布模型。这就是为什么这类检验即使在数据分布奇特的情况下也能做到“精确”和稳健——它们的有效性依赖于已知的设计,而不是未知的数据生成过程。
这种哲学选择会产生深远的影响。基于设计的推断是稳健的;它的主张虽然谦逊,但立足于已知的研究设计这一坚实基础之上。基于模型的推断则强大而富有雄心;它试图揭示普适的真理,但其有效性取决于其所假设模型的质量。
让我们继续留在基于模型的宇宙中,更仔细地审视引擎本身。我们能讲述什么样的故事呢?
一个关键的区别在于机械模型和统计模型。想象一下,试图理解一个由基因和蛋白质组成的复杂网络。一种源于系统生物学核心的机械方法,就像绘制一张详细的电路图。你写下一个微分方程组,,其中每个变量 是特定分子的浓度,每个参数 是一个物理常数,如反应速率。模型的结构——这张线路图——是基于数十年生物化学研究的强科学假说。你使用数据不是为了寻找结构,而是为了估计你已经相信的结构的参数。这种模型的美妙之处在于其可解释性和外推能力。你可以通过改变模型中对应于某个基因的特定部分来提出“如果……会怎样”的问题,比如“如果我敲除这个基因会发生什么?”
另一方面,统计方法可能会使用像深度神经网络这样的灵活“黑箱”。它不是从一个预设的电路图开始。相反,它接收大量数据(例如,多组学图谱),并学习一个将输入映射到输出(例如,细胞因子释放)的复杂函数。它是一个极其强大的模式发现者,在其训练数据领域内进行预测时通常表现更优。但因为它不一定编码了潜在的因果机制,其参数缺乏直接的物理意义,如果你让它外推到一个它从未见过的情境,其预测可能会变得极不可靠。
用于基于模型的推断的最优雅的引擎之一是贝叶斯框架。它是一个从经验中学习的正式秘诀。它始于一个先验分布,这是你在看到数据之前对参数信念的模型。然后,你定义一个似然,这是在给定参数下数据如何生成的模型。贝叶斯定理告诉你如何将你的先验信念与数据结合,从而得到一个后验分布——你更新后的信念。
让我们通过一个简单的临床试验来看看它的实际应用。我们想估计一种新药的毒性概率 。基于以往的研究,我们可能对 有一个先验信念,我们可以用一个由两个参数 和 描述的贝塔分布来表示。现在我们招募 名患者。对于每位患者,结果要么是“有毒性”(),要么是“无毒性”()。我们用伯努利似然来对此建模,。在观察到结果后,贝叶斯定理给出了一个漂亮的结果。 的后验分布是另一个贝塔分布,但其参数已更新:
看这多么优雅!先验的“伪计数” 和 仅仅通过我们实际观察到的毒性事件和非毒性事件的数量进行更新。 这一项,即毒性事件的总数,是充分统计量——它是我们更新模型所需的唯一数据信息。这是最纯粹形式的基于模型的学习。
物理学家 George Box 有句名言:“所有模型都是错的,但有些是有用的。” 这是每个从事基于模型的推断的实践者都必须内化的基本智慧。模型是对现实的漫画式描绘,一旦我们忘记这一点,我们就会陷入麻烦。当我们的模型设定错误时——即我们的假设与真实世界不完全匹配时——会发生什么?
有时,后果是严重的。如果你使用一个假设所有患者都独立的模型来分析多中心试验的数据,但实际上,医院内部的结果是相关的,那么你的模型就是错误的。它会低估数据的真实变异性,导致置信区间过窄,并对你的结论产生危险的过度自信。
但情况并不总是那么黯淡。统计学家以他们务实的方式,开发了一些出色的工具,即使模型在细节上是“错误的”,也能在平均意义上做到“正确”。考虑用一条直线(一个线性回归模型)去拟合一个并非完全线性的关系。结果表明,普通最小二乘(OLS)估计量 并没有就此放弃。它一致地估计了一个非常有意义的量 ,该量代表了对真实的、波动的关系的最佳可能线性近似的系数。
真正的麻烦出现在我们想要量化不确定性的时候。 的标准方差公式假设模型是完美的——即直线是正确的,并且误差表现良好(例如,具有恒定方差)。如果真实方差随 变化(一种称为异方差性的情况),那么标准公式就是错误的。这时,一个精妙的统计机器应运而生:三明治方差估计量。它也被称为稳健估计量,因为它即使在模型的方差假设错误的情况下,也能提供对 真实方差的一致估计。其著名的公式形式为 ,看起来像一块肉 被夹在两片面包 之间。这使我们能够构建对某些类型的模型设定错误具有稳健性的有效置信区间和假设检验。这是一个绝佳的例子,说明了我们如何在诚实承认其局限性的同时,使用基于模型的框架。
假设你每一步都做对了。你建立了一个丰富、复杂、分层的贝叶斯模型来描述视觉皮层中的神经元如何对刺激做出反应。你有一个先验,也有一个似然。剩下的就是计算后验分布 ,其中 是你模型中所有的潜变量。只有一个问题:你算不出来。
证据(或归一化常数) 涉及在一个可能巨大、高维的潜变量空间上的积分。对于科学中许多最有趣的模型来说, 的可能构型数量比宇宙中的原子数量还要多。精确计算这个积分是计算上棘手的。用计算复杂性理论的语言来说,这通常是一个 -hard 问题,意味着它被认为比著名的 -hard 问题还要难。
这是否意味着我们精美的模型毫无用处?完全不是。这意味着我们必须更聪明。现代基于模型的推断的前沿是开发用于近似推断的算法。如果我们无法得到精确答案,我们就设法接近它。
两种主要的方法族已经出现。第一种是马尔可夫链蒙特卡洛(MCMC)。其思想很直观:如果你无法绘制出整座山脉(后验分布),你可以派一个经过巧妙编程的徒步者在山脉中行走。徒步者的路径形成一个马尔可夫链,其设计使得在任何区域花费的时间与该区域的高度成正比。通过足够长时间地跟踪徒步者的路径,你就可以建立一个样本集合,从而近似真实的后验分布。
第二种是变分推断。这里的思想是用一个更简单的问题来取代一个困难的问题(寻找真实的、复杂的后验分布 )。我们选择一个更简单的分布族(例如,高斯分布),然后在这个族中找到与我们真实后验“最接近”的那个成员。它将一个棘手的积分问题转化为一个更易于管理的优化问题。
这最后的挑战揭示了统计学和计算机科学之间美妙的相互作用。我们能建立的模型不仅受到我们科学想象力的限制,也受到我们算法能力的限制。对知识的追求,是一场在我们想讲述的世界故事与我们实际计算其后果的能力之间持续不断的舞蹈。
在了解了基于模型的推断的原理之后,我们可能会倾向于将其视为一个简洁但抽象的数学框架。这与事实相去甚远。这种思维方式——建立一个微缩的、概念性的“宇宙”以便在真实世界中理解和行动——是现代科学和工程学中最强大、最普遍的工具之一。它是我们与未知对话的语言。现在,让我们探索这片广阔的领域,看看建立模型如何让我们能够指挥电网、解码生命奥秘、治愈病患,甚至窥探我们自己心智的运作机制。
基于模型的推断最具体的体现或许是“数字孪生”。想象一个巨大的电网,一个由发电机、变压器和输电线路组成的庞大而复杂的网络,充满了能量。它是一个物理实体,受制于不容改变的电磁学定律。现在,想象在计算机内部创建这个电网的一个完美虚拟复制品——一个虚拟模型,它了解网络的拓扑结构和源自基尔霍夫定律的潮流物理原理。
这不仅仅是一张静态的蓝图,而是一个活生生的实体。来自物理电网上传感器的持续数据流被接收、加上时间戳以保证一致性,并输入到分析引擎中。这个引擎的工作是解决一个推断问题:“给定这些传感器读数,整个电网当前真实的、隐藏的状态是什么?”为了回答这个问题,它会查询虚拟模型,用它来预测在任何给定状态下传感器应该看到什么。通过将预测与现实相匹配,它推断出电网最有可能的当前状态。
但这个循环并未就此停止。新推断出的状态被用来更新虚拟模型,使其与物理实体保持完美同步。然后,分析引擎可以使用这个最新的模型来展望未来,运行模拟,并决定最佳的控制行动——比如重新分配电力以防止过载。这些决策被传递给控制系统,后者再作用于真实电网。这个完整的循环——感知、推断、更新、决策、行动——就是数字孪生的精髓,一个壮观的、实时的基于模型的推断应用,它保证了我们的灯火通明。
如果说工程学是关于用已知规则构建系统,那么生物学就是关于发现由进化已经构建好的系统的规则。在这里,基于模型的推断是我们对生命本身进行逆向工程的主要工具。
考虑细胞内一个简单的化学反应,一个某种分子被创造和降解的“生灭”过程。我们无法观察每一个分子,但我们可以测量它们随时间变化的总量。我们如何揭示潜在的生成速率()和降解速率()?我们建立一个模型。我们可以用一个随机方程——化学朗之万方程——来近似分子抖动、随机的运动,该方程描述了种群数量应如何随时间漂移和扩散。这个模型以 和 为参数。通过找到使我们观测到的数据在模型下概率最大的 和 值,我们从宏观观测中推断出支配微观世界的隐藏动力学规则。
在现代生物学中,这种从噪声中分离信号的主题无处不在。当科学家对环境样本中微生物的基因进行测序时,原始数据充满了错误。一种旧方法是使用一个粗略的经验法则,将相似度达到(比如说)97%的序列聚类,然后就此了事。但这种粗糙的方法常常将不同的物种混为一谈,或者将一个物种分裂成多个。一个远为优雅的解决方案是为测序错误过程本身建立一个明确的统计模型。该模型学习测序仪倾向于犯的特定类型错误。然后,当它看到一个稀有序列时,它可以提出一个尖锐的、基于模型的问题:“这个序列是否足够丰富,以至于它必须是一个真实的生物实体,还是它的出现完全可以解释为来自一个更常见序列的单纯错误?” 这使我们能够以手术般的精度对数据进行“去噪”,以单核苷酸分辨率揭示真实的扩增子序列变体(ASV)——这是一个没有模型就不可能完成的壮举。
这个推断的视角可以进一步放大,以审视人类历史的宏伟画卷。我们的基因组是我们祖先的马赛克。群体遗传学中使用的基于模型的聚类方法将每个人的基因组视为来自少数潜在“祖先”群体的DNA混合物。模型假设在这些古老的、理想化的群体中,遗传变异遵循像哈迪-温伯格平衡和连锁平衡这样的简单规则。通过做出这些简化的假设,算法可以处理来自数千个体的复杂遗传数据,并同时推断两件事:假想的祖先群体的遗传构成,以及每个个体来自各个祖先群体的血统比例。这已成为理解人类迁徙和确保疾病的遗传学研究不受群体结构混淆的不可或缺的工具。
在医学领域,风险从未如此之高,因为决策可能意味着生死。在这里,基于模型的推理为清晰和严谨提供了一个强大的框架。
想象一位心脏外科医生正在决定是否进行冠状动脉旁路移植术。患者的动脉变窄了。一个关键问题是,与原生的、病变的血管相比,旁路移植物是否能提供更好的血流。人们可能认为这需要一个极其复杂的模拟。然而,一个基于哈根-泊肃叶定律的简单模型就能提供非常有用的见解,这是在入门物理学中教授的流体动力学原理。该模型将血流阻力与血管的长度,以及至关重要的半径的四次方联系起来()。通过将此模型应用于原生动脉(及其狭窄处)和拟议的移植物,外科医生可以计算出临界狭窄程度,超过该程度,移植物就成为阻力最小的路径。这是一个绝佳的例子,说明一个简单的物理模型如何让临床医生能够对无形的力量进行推理,并做出更明智、更量化的决策。
在精准医疗时代,模型的作用变得更加复杂。一名患者患有罕见病,基因测序揭示了一个以前从未与人类疾病相关的基因变异。然而,在小鼠中,一个相似的基因被敲除后,会引起与该患者症状相似的表型。临床医生应如何权衡这一证据?天真地将小鼠的发现视为人类因果关系的证明是错误的。一种谨慎的、基于模型的方法会分别处理不同的证据线索。关于该基因在人类疾病中作用的先验知识(来自像OMIM这样的数据库)是模型的一部分。小鼠数据被视为一份功能性证据,一个更新我们信念的似然项。一个正式的贝叶斯模型提供了一种有原则的方法来结合这些不同的线索——人类群体数据、模式生物实验、计算预测——同时尊重它们各自的独特性和不确定性。这是现代医学侦探的规则手册。
即使是电子健康记录中数据缺失这个平凡的问题,也可以通过基于模型的方案来解决。当患者的病历存在空白时,最糟糕的做法是假装空白不存在,或者丢弃不完整的记录。基于模型的方法,通过像多重插补这样的技术,做了一些更诚实的事情。它建立一个统计模型来理解已观测变量与缺失变量之间的关系。然后,它使用这个模型生成多个“合理”的完整数据集版本,以反映我们对缺失值的不确定性。所有后续分析都在所有这些数据集上进行,然后使用能够正确考虑插补带来的额外不确定性的规则将结果汇总。这是一个深刻的转变,从忽略不确定性到拥抱并量化不确定性。
基于模型的推断的终极应用可能在于理解执行推断本身的器官:大脑。计算神经科学中的一个前沿理论提出,我们的决策由两个系统之间的竞争所支配。一个是快速、反射性的“无模型”系统,它通过试错学习习惯性行为,像一个简单的刺激-反应机器。另一个是较慢的、深思熟虑的“基于模型”的系统,它使用一个世界的内在心智模型来模拟其行动的未来后果,并据此进行规划。
这种双系统框架提供了一个强大的视角来审视像成瘾这样的复杂行为。成瘾性药物可以劫持大脑的奖赏学习回路,使其偏向于僵化、习惯性的无模型系统。这就解释了为什么物质使用障碍的个体即使在理智上知道后果将是毁灭性的,也可能继续追求药物。他们基于模型的系统已被压制;他们对结果的“贬值”不敏感。
将这一思想推向其壮观的结论,一些理论,如主动推断(Active Inference),提出大脑从根本上说是一台推断机器。在这种观点下,我们采取的每一个行动和感知的每一个感觉,都是一个单一、统一过程的一部分:最小化我们内部模型的预测与来自世界的实际感官输入之间的误差。根据这个框架,我们行动不仅仅是为了获得奖励;我们行动是为了收集信息,以改进我们对世界的模型。一个好奇的瞥视,一次转头——这些都是减少我们不确定性的行动。这个优雅的理论表明,一个生物体的基本驱动力是最小化自身的意外(surprise),不断更新其对世界的生成模型,以便更好地预测和驾驭世界。它将感知和行动视为同一枚推断硬币的两面。
从电网的具体控制到意识心智的抽象思索,其原理始终如一。我们建立模型,将宇宙的复杂性提炼成我们能够掌握的东西。然后,我们利用这些模型来推断隐藏的信息、预测未来,并选择我们的下一步。这证明了“数学难以置信的有效性”,即这一个强大的思想能够解开如此惊人多样的秘密。