
在追求科学真理的过程中,我们得到的数据很少像教科书中所描述的那样干净或表现良好。标准的统计工具虽然精妙,但可能出人意料地脆弱,在面对异常值或有缺陷的假设时,会导致结论出现偏差。这种脆弱性带来了一个关键问题:我们如何从现实世界提供的混乱、复杂的数据中得出可信的推断?本文通过对稳健推断进行全面概述来应对这一挑战。文章首先探讨其核心原理和机制,详细说明传统方法为何会失效,以及像 M 估计和三明治估计量这样的技术如何提供一种更具韧性的替代方案。随后,本文通过综述这些方法的跨学科应用,展示了其广泛影响,并阐明了它们在产生可靠知识方面的关键作用。我们首先审视常用统计指标的根本弱点,以及为克服这些弱点而设计的稳健原则。
想象你是一位研究住院费用的医学研究者。你收集了十几位患者的数据,费用以千美元计,分别为:。你希望报告一个“典型”费用和一个变异性的度量。我们首先会想到什么工具?平均值,即均值。
如果我们计算这些数字的均值,会得到大约 18.9 千美元。这个数字感觉对吗?十二位患者中有十位的费用都集中在 7000 到 12000 美元之间。然而,我们得到的“典型”值 18900 美元却比其中十位患者的费用都高。这两次非常昂贵但或许非常真实的住院——我们可能称之为异常值——已将均值远远地拖离了数据的主体部分。如果我们计算标准差(一种常用的离散程度度量),同样会发生这种情况。计算结果是惊人的 21.7 千美元,这个数字大到似乎在描述一个完全不同的数据集。
为什么均值会这样表现?答案在于它的定义。均值是唯一一个能最小化它与每个数据点之间平方差之和的数值。如果一个点离得远,它的距离会被平方,从而在最终结果中获得不成比例的巨大话语权。一个离中心点十倍远的点,其拉力不是十倍,而是一百倍。平方是一位暴君,它给了异常值一个扩音器。这不仅仅是一个数值上的奇特现象,它具有实际后果。一个被夸大的标准差会使我们的估计精度降低,可能导致我们在临床试验中错失真正的治疗效果。我们的统计工具,在对数学优雅的值得称道的追求中,变得对那些我们希望它们能帮助我们理解的异常现象极其敏感。
那么,如果平方是问题所在,替代方案是什么?让我们考虑另一种中心度量:中位数。中位数是找出数据集的中间值。对于我们的医疗费用数据,中位数是一个合理的 9.5 千美元,正好位于主要患者群体的核心位置。中位数不关心 75000 美元的费用有多远;它只知道那是一个高值。它通过最小化绝对差异之和,而非平方差异之和,来实现这种稳健性。每个点的影响仅仅与其距离成正比,而不是其距离的平方。暴君已被废黜。
这为我们提供了一个极好的、稳健的中心度量。我们也可以对离散程度做同样的事情。我们可以使用中位数绝对偏差 (MAD),它就是样本中位数与各数据点绝对差异的中位数,来代替标准差。对于我们的数据,这提供了一个更直观的离散程度度量。
但我们是否失去了什么?当数据表现良好时(比如,符合完美的钟形曲线),均值是非常高效的。中位数通过忽略极端点的精确值,丢掉了一些信息。这引出了一个绝妙的问题:我们能否两全其美?我们能否设计一个估计量,在数据干净时表现得像均值,而在面对异常值时又优雅地过渡到像中位数一样?
答案是肯定的,它存在于M 估计(或称“最大似然型”估计)的精妙框架中。想象我们正在估计一种生物标志物的典型浓度,我们的数据大多聚集在 附近,但有一个测量值是惊人的 。我们可以发明一个新的损失函数。我们称之为 Huber 损失,,其中 是残差(数据点与我们估计值之间的差异)。这个函数对于小的残差()是二次的,而对于大的残差()是线性的。
这种聪明的混合函数对于靠近中心的点,其行为类似于均值的平方误差损失,但对于远离中心的点,则切换为中位数的绝对误差损失。调节参数 定义了我们对“遥远”的看法。当 时,该估计量变为均值。当 时,它变为中位数。
然而,真正的魔力并非通过损失函数 展现,而是通过其导数 。这个 函数通常被称为影响函数,因为它告诉我们单个数据点对最终估计有多大的影响。对于均值,,这是一条无界直线;异常值的影响可以是无限的。对于 Huber 估计,其 函数在开始时是线性的,但对于大的残差,它会变得平坦且恒定。其影响是有界的。无论一个测量值多么灾难性地错误——无论是来自电网中一个有故障的传感器 还是一个奇异的生物事件——其破坏最终估计的能力都受到了限制。这种限制影响的原则是稳健估计的核心。
到目前为止,我们一直专注于对异常数据点的稳健性。但还有另一种更微妙的稳健性:对我们自身无知的稳健性。当我们建立一个统计模型时——比如,一个关于基因表达水平如何响应药物变化的模型——我们实际上是在写下一系列关于世界的假设。例如,在建模计数数据时,一个常见的假设是负二项分布,它伴随着一个关于均值和方差的特定关系:。但如果这种关系不完全正确呢?如果我们关于数据变异性的模型设定有误呢?
这时,另一个绝妙的想法应运而生:Huber-White 三明治估计量,通常简称为三明治估计量。它提供了一种方法,即使我们模型的某些假设是错误的,也能为我们的估计获得可靠、诚实可信的标准误。
这个名字非常形象。想象一下,一个估计量方差的计算过程就像一个三明治。“面包”片是源自我们模型假设的一项——即我们的模型认为不确定性应该是怎样的。一个标准的、基于模型的方差估计就像一个只由面包制成的三明治;它在外部和内部填充物上都使用了模型的假设。它完全信任模型。
三明治估计量则更为审慎。它保留了外部基于模型的“面包”,但中间的“肉”却不使用模型假设。相反,它直接根据数据的经验残差——即我们模型预测值与实际观测值之间的差异——来计算变异性。它衡量的是数据中实际存在的混乱,而不是我们整洁的模型所规定的。
结果是显著的。只要我们关于平均趋势(均值结构)的模型是正确的,三明治估计量就能为我们提供渐近正确的标准误和置信区间,即使我们关于该趋势周围方差结构的模型是错误的。这给了我们新的一层保障。这不仅是对异常数据点的稳健性,也是对我们自身假设可能出错的稳健性。
这把我们引向了现代统计学中最强大的思想之一。假设我们正在处理一个真正困难的问题:试图从观测数据中确定一种新药的因果效应,而在这种数据中,我们无法控制谁接受治疗。主要的挑战是混杂因素:接受新药的患者可能在许多方面(年龄、病情严重程度等)与未接受新药的患者不同,我们需要将药物效应从这些其他因素中分离出来。
要做到这一点,我们通常需要建立一个模型。我们有一个选择。我们可以建立一个结果模型:一个根据患者特征预测其结果的模型。或者,我们可以建立一个倾向得分模型:一个根据患者特征预测其接受新药概率的模型。传统的分析可能依赖于这两个模型中的一个被正确设定。如果我们选择的模型是错误的,我们的因果结论可能就是垃圾。这是一个脆弱的境地。
于是双重稳健估计应运而生。这项极其聪明的技术允许我们构建一个同时使用结果模型和*倾向得分模型*的单一估计量。它具有一个惊人的性质,即它是一致的——也就是说,随着我们获得更多数据,它将收敛到正确答案——只要结果模型是正确的,或者倾向得分模型是正确的。我们不需要两者都完美!
这就像拥有两个独立的安全系统。我们有两次机会来正确捕捉我们正在研究的复杂现实的某个方面。如果我们的一个模型失败了,另一个可以挽救我们的结论。在医学因果推断等复杂、高风险的场景中,这种“两次正确的机会”的特性为防止建模错误提供了非凡的稳健性。
为什么这些卓越的估计量——三明治估计量、双重稳健估计量——能起作用?是否存在一个统一的原则?答案是肯定的,它是一个深刻而优美的数学概念,称为 Neyman 正交性。
可以这样理解。当我们估计一个我们真正关心的参数(例如,一个因果效应)时,它的估计值通常依赖于我们也必须从数据中估计的其他、不那么重要的“滋扰”函数(如倾向得分模型)。正交性是一种设计原则,用于构建我们的主要估计方程,使其在一阶上对我们在估计那些滋扰部分时犯下的小错误在数学上不敏感。这就像建造一个引擎,其中最关键部件的性能与辅助系统的振动隔离开来。
这个在 20 世纪中期首次被探索的思想,在机器学习时代找到了灿烂的新生。现代机器学习算法在发现复杂模式方面异常强大,这使它们成为估计滋扰函数的理想选择。然而,它们也可能过度拟合数据,产生可能破坏经典统计推断的偏差。
这种美妙的综合来自于三个思想的结合:一个 Neyman 正交得分、强大的机器学习估计量,以及一个简单而聪明的、称为交叉拟合的数据分割技术。在交叉拟合中,我们将数据分成几部分。我们用一部分数据来训练用于滋扰函数的机器学习模型,并用另一部分独立的数据来评估我们感兴趣的主要参数。这个简单的技巧打破了导致过拟合偏差的统计依赖性。
当这三者结合在一起时,我们便能够利用随机森林或神经网络等灵活算法的全部预测能力来处理我们问题中的复杂“滋扰”部分,而我们估计方程的正交性确保了我们对所关心的科学问题的最终答案保持可靠、稳健且在统计上有效。这是经典推断原则与计算科学前沿的深刻统一,为我们指明了从日益复杂的数据中得出可信结论的前进道路。
在探讨了稳健推断的原理和机制之后,我们可能会倾向于将它们视为一系列专业工具,是统计学家清理杂乱数据的工具箱。但这就像看着一位绘画大师的画笔,只看到木头和鬃毛。这些思想的真正美妙之处不在于工具本身,而在于它们所创造的艺术——即它们让我们能够描绘出的关于世界的可靠图景,即使我们的画布有污迹,光线也不完美。
对稳健性的追求,本质上是对科学诚实性的追求。它承认我们的数据永远不会完美,我们的模型永远不会完备,我们自己的思想也容易犯错。稳健方法是严谨科学的脚手架,让我们能够在现实这片摇晃的土地上建立起坚固的结论。现在,让我们穿行于几个科学领域,看看这个单一而强大的思想如何以不同的形式出现,从临床到宇宙,揭示科学探索的深刻统一性。
对稳健性最直观的需求或许源于“异常值”——那些似乎与模式不符的数据点。可以把它们想象成交响乐中的错误音符。一个刺耳响亮的喇叭声就能破坏和谐。在数据分析中,一个极端的测量值就能扭曲我们的整个结论。
考虑一项临床试验,测试一种用于危及生命的疾病的新生物标志物。我们可能会发现,在九十九名患者中,该生物标志物的值落在一个合理的范围内。但有一名患者的值比其他任何人都高十倍,而且恰好患有这种疾病。一个标准的统计方法,如最大似然估计,有点像一个急于讨好的人。它会竭尽全力去“解释”这一个极端点,可能将其对生物标志物效应的估计推向一个荒谬的高值。结论变成了关于一个病人的故事,而不是关于群体的故事。相比之下,一个稳健的估计方法则更为民主。它给予每个数据点发言权,但不是否决权。它会温和地降低这个极端点的影响力,认识到它可能是一个偶然事件或测量误差,并专注于大多数数据所讲述的共识。由此得出的结论更稳定、更可信,并最终更有用。
当我们聆听身体自身的电交响乐时,同样的原则也会出现。来自心电图 (ECG) 或光电容积描记图 (PPG) 的信号是我们了解心脏功能的窗口,但它们不断受到噪声的干扰 ([@problem-id:4613621])。病人移动、传感器晃动、肌肉抽搐——所有这些都会产生伪影,掩盖真实的生理信号。一些伪影就像基线的突然跳跃(“电极爆裂声”),而另一些则更像是改变信号本身形状的普遍静电(“运动伪影”)。一个天真的分析可能会被完全误导。然而,稳健信号处理采用了一整套工具。M 估计和基于中位数的滤波器可以忽略突然的加性尖峰,就像我们的耳朵可以滤掉电话线上一瞬间的噼啪声一样。更复杂的方法,如稳健趋势估计,可以从心脏的快速搏动中分离出缓慢漂移的基线。对于复杂的乘性噪声,工程师甚至可能建立一个状态空间模型,同时学习真实信号和失真过程。在所有情况下,目标都是相同的:在噪声中找到音乐。
统计学中最常见的简化假设之一是我们的观测值是相互独立的。我们想象从一个罐子里抽取带编号的球,每次抽取都是一个全新的、不相关的事件。但在现实世界中,数据点常常被隐藏的影响线索联系在一起。忽略这些联系会导致一种危险的确定性幻觉。
想象一下,逐月跟踪一家医院的绩效,看看一项新政策是否奏效。我们很自然地会预期本月的感染率与上个月有关;系统中存在一种“记忆”。这被称为自相关。如果我们将每个月都视为一个完全独立的数据点,我们实际上是在假装我们拥有的信息比实际更多。我们的标准误差条会具有欺骗性的狭窄,我们可能会将一个小的、随机的上升庆祝为一个重大的成功。在这种背景下,稳健推断意味着使用一种承认时间链的方法。著名的“三明治估计量”,如 Newey-West 估计量,正是这样做的。它通过考虑数据点在暗中相互关联这一事实,为我们的不确定性提供了一个诚实的评估。
当我们在元分析中综合证据时,也出现了同样的挑战。假设一项大型研究为我们的分析贡献了五个不同的效应量。这五个数据点并非相互独立;它们来自同一组患者、同一批研究人员、同一个实验室。它们是一个相关信息的“集群”。一个稳健的方差估计量会将整个研究视为一个单一的集群,通过尊重这些研究内部的相关性来正确计算方差。同样的逻辑也适用于跟踪单个患者随时间推移的复发事件,如反复住院。每个患者都是一个相关事件的集群。在所有这些情况下,三明治估计量都扮演着说真话的角色,防止我们因将回声误认为全新的声音而变得过度自信。
到目前为止,我们已经讨论了对混乱数据的稳健性。但如果我们对世界的模型——我们关于事物如何运作的“故事”——本身就是错的呢?这是一个更深层次的不确定性。在这里,一个美妙而强大的思想出现了:双重稳健估计。它相当于统计学中的备用计划。
在因果推断中,我们常常想从患者未被随机分配的观测数据中了解一种治疗(如新药)的效果。为此,我们必须考虑混杂变量。我们可以尝试用两种方式来做到这一点:(1)我们可以为某些患者接受治疗的原因建模(这被称为倾向得分模型),或者(2)我们可以为结果如何依赖于治疗和协变量建模(结果模型)。一个双重稳健估计量,如增广逆概率加权 (AIPW) 估计量,巧妙地结合了这两种模型。其魔力在于:如果*倾向得分模型或结果模型*中有一个被正确设定,最终的估计就会是正确的。我们不需要两者都完美。这给了我们两次获得正确答案的机会,当我们使用灵活但易错的机器学习算法来构建这些模型时,这是一个至关重要的保障。
同样的概念现在对于评估医学中人工智能政策的安全性和有效性至关重要。假设我们想要评估一个建议脓毒症治疗方案的新人工智能。我们不能简单地部署它然后看会发生什么。我们必须首先使用在人类医生决策下收集的历史数据对其进行“离策略”评估。我们再次面临两个建模任务:我们可以为原始医生的行为建模(倾向得分模型),或者我们可以为患者结果如何响应不同行动建模(价值函数模型)。同样,只要我们的两个模型中有一个是正确的,双重稳健估计量就能让我们对人工智能的性能得到可靠的估计。它提供了一种有原则的方法,从过去中学习,为未来做出更好的决策。
稳健性原则甚至超越了统计噪声和模型误差。它触及我们数据的基本结构,甚至我们自己的推理方法。
数据的几何学: 在基因组学中,我们经常处理肠道中不同微生物的相对丰度。这些数据是成分性的——它们的组成部分是必须总和为 100% 的百分比。你不能在不减少另一种微生物的情况下增加一种微生物的丰度。假设变量可以自由移动的标准统计方法对这种几何约束是盲目的,可能会产生虚假的关联。在这里,稳健的分析意味着首先应用一种转换(如中心对数比),将数据从单纯形的约束空间移动到我们工具可以正常工作的无约束欧几里得空间。这里的稳健性在于尊重数据的原生几何结构。
证据的统一: 在基础物理学中,我们试图约束宇宙的深层参数,如核对称能,它支配着中子星和原子核的行为。我们的证据来自不同来源:铅原子中子皮的厚度、中子星在黑洞潮汐力下的可变形性。每个测量都有噪声,只提供了部分视图。贝叶斯推断为这项任务提供了一个天然稳健的框架。它综合所有可用证据,自动降低噪声较大的测量的权重,并在不同实验结果一致的地方增强我们的信念。这里的稳健性是我们最终结论——后验分布——在我们编织多条不完美的证据线索时的稳定性。
思想的几何学: 最后,稳健性的理想塑造了我们作为科学家的思维方式。在对一个新的多倍体生物进行分类时,是通过其当前的减数分裂行为(一种模式)来定义其起源,还是通过其基因组中印刻的深层进化历史(一种机制)更为稳健?基因组证据是更稳健的历史指南,因为现今的模式可能会演变并误导我们。我们又如何能让像精神分析这样一个因其灵活性而历来受到批评的学科,在科学上变得更加稳健?答案是引入强推断的架构:预注册相互竞争的假设,做出有风险的预测,对观察者进行盲法处理,并使用贝叶斯因子等形式化方法来权衡证据。这建立了一个程序,它不是对数据错误稳健,而是对所有错误中最有害的来源——我们自身的认知偏见——稳健。
从一个单一的错误数据点到宇宙学证据的宏大综合,稳健性原则是一条金线。它是承认我们所不知的纪律,是建立稳固知识的承诺,也是所有严谨探究背后那美丽、统一逻辑的证明。