try ai
科普
编辑
分享
反馈
  • 不确定性的度量

不确定性的度量

SciencePedia玻尔百科
核心要点
  • VVUQ(验证、确认、不确定性量化)框架是确保计算科学严谨性和可信度的标准。
  • 不确定性可以通过不同的方法进行量化,包括分析方法(delta 方法)、计算重采样(自举法)和概率信念更新(贝叶斯推断)。
  • 忽视不确定性会导致严重错误,例如从低功效研究中误读安全性,或在数据限制之外进行危险的外推。
  • 量化不确定性不仅是为了报告误差,它更是一种战略工具,通过主动学习等方法指导高效的实验并驱动科学发现。

引言

在追求知识的过程中,科学常常展现出一种确定性的光环,提供精确的数字和明确的定律。然而,在这表面之下,隐藏着一个根本而关键的真相:每一次测量、每一个模型和每一个结论都受到不确定性的影响。这并非科学过程的弱点,而是其核心特征。理解和量化这种不确定性是科学诚信的标志,它将严谨的论断与误导性的虚构区分开来。本文要解决的核心挑战是人们倾向于忽视或不当处理不确定性,这可能导致错误的解释、失败的重复实验和危险的现实决策。

本文为不确定性的度量提供了一份全面的指南,揭示了它并非一个需要被最小化的麻烦,而是一个推动发现的强大引擎。在接下来的章节中,我们将首先深入探讨其核心原理和机制,探索验证、确认和不确定性量化(VVUQ)的基本框架以及用于驯服未知的统计工具箱。随后,我们将遍览其多样化的应用,展示一种严谨对待不确定性的方法如何成为不可或缺的指南针,引领从生物化学、材料科学到计算建模和“大数据”基因组学等领域的进步。

原理与机制

要在科学的海洋中航行,我们需要一张地图。我们的理论和模型就是这些地图,是我们为探索广阔复杂的现实领域而绘制的精密图表。但地图本身并非疆域,它是一种表征、一种近似、一个我们讲述的关于世界的故事。因此,我们科学诚信的度量,就在于我们对地图局限性的理解程度。不确定性量化是我们为描述知识的模糊边界而发展出的语言,用以区分已明确描绘的海岸线和标有“此处有恶龙”的区域。这是一门“知所不知”的艺术。

“正确地解方程” vs. “解正确的方程”

在我们谈论不确定性之前,必须明确我们不确定的是什么。建立和信任一个科学模型的过程可以分解为几个基本问题。想象一个工程师团队正在使用超级计算机模拟新型飞机机翼上的湍流空气。他们的程序求解著名的流体动力学 Navier-Stokes 方程。他们的首要任务是​​验证(Verification)​​。这是一个关于数学和计算完整性的问题:“我们是否在正确地解方程?”。代码是否真的实现了它声称的功能?计算机的算术是否正确?当我们使模拟网格越来越精细时,离散化的近似解是否收敛于真实的连续解?这就像检查我们故事的语法和拼写。它并不意味着故事是真的,只说明它被正确地书写了。

接下来是更为深刻的一步:​​确认(Validation)​​:“我们是否在解正确的方程?”。Navier-Stokes 方程是一个宏伟的模型,但它终究是一个模型。在选定的参数下,它能否准确地代表真实空气流过风洞中真实机翼的行为?为了确认模型,工程师必须将他们模拟的预测——升力、阻力、压力——与实际的实验测量值进行比较。这是将地图覆盖在疆域上,看它吻合得如何。一个模型可以被完美地验证,但如果其核心假设在现实世界中不成立,它就可能完全无效。一个文笔优美的故事,仍然可能是一部虚构作品。

同样的过程无处不在,从空气的流动到活细胞中信息的流动。一个合成生物学家正在构建细菌中基因“拨动开关”的模型,他必须首先验证他的代码能正确求解基因表达的微分方程。然后,他必须通过将其模型的预测与实验室中经过基因工程改造的大肠杆菌(E. coli)的荧光测量值进行比较来确认该模型。

最后,我们来到了​​不确定性量化(UQ)​​。这是一个评估最终预测总置信度的 overarching 过程,它考虑了所有已知的疑虑来源。UQ 承认我们的输入永远不会完美(也许流体的粘度并非精确已知),我们的模型永远不会完美(它们可能忽略了某些物理效应),我们的测量也存在噪声。UQ 这门学科,就是让所有这些微小的“可能”在整个计算过程中泛起涟漪,看看它们在最终答案中会产生多大的“可能”。这是将一个单一、具有误导性精确度的数字,转变为一个诚实的可能性范围的关键步骤。

这个由验证、确认和不确定性量化(VVUQ)构成的框架是现代计算科学的基石。它确保我们的科学故事不仅被讲述得很好(​​验证​​),根植于现实(​​确认​​),而且还伴随着对其潜在不准确性的坦诚承认(​​不确定性量化​​)。这种严谨性使得科学主张可以被再现(reproducible),让另一个实验室可以重新运行分析;并最终可以被复制(replicable),让另一个实验可以证实该发现,而这正是科学真理的黄金标准。

驯服未知的工具箱

那么,我们究竟如何捕捉这个难以捉摸的不确定性概念呢?我们有一个历经数百年发展的非凡工具箱,使我们能够以严谨的方式与未知搏斗。这些方法从优雅的数学到巧妙的计算蛮力,不一而足。

分析师之路:传播不确定性

假设我们对一项基本测量中的不确定性有了很好的把握。这种不确定性如何传播到我们由它计算出的更复杂的量中呢?考虑一位人口学家研究一个动物群体以确定其预期寿命。在每个年龄 xxx,他们计算存活的动物数量 nxn_xnx​ 和死亡的数量 dxd_xdx​。死亡概率 qx=dx/nxq_x = d_x / n_xqx​=dx​/nx​ 并非一个固定数值,它具有不确定性。因为 nxn_xnx​ 个动物中的每一个都有独立的死亡几率,所以死亡数量 dxd_xdx​ 可以用​​二项分布​​来建模,该分布自带一个现成的方差公式:Var(q^x)=qx(1−qx)nx\text{Var}(\hat{q}_x) = \frac{q_x(1-q_x)}{n_x}Var(q^​x​)=nx​qx​(1−qx​)​。

但我们关心的不仅仅是 qxq_xqx​。我们想知道出生时的预期寿命 e0e_0e0​,它是整个死亡率序列的一个复杂函数。每个 qxq_xqx​ 中的“摆动”如何对 e0e_0e0​ 的总“摆动”产生影响?在这里,微积分为我们提供了一个称为 ​​delta 方法​​ 的强大近似。它利用导数来找出输出对每个输入微小变化的敏感度。本质上,它提供了一个“不确定性的链式法则”,使我们能够从数学上将方差从输入通过函数传播到最终结果。

计算机的蛮力:自举法

如果函数过于复杂,或者我们没有像二项分布这样简单的统计模型,该怎么办?计算机提供了一种非常民主和直观的替代方案:​​自举法 (bootstrap)​​。其核心思想是:你的数据集是你对世界样貌的最佳猜测。那么,让我们将该数据集视为一个“迷你宇宙”,并从中抽样,看看如果数据收集的随机性给了我们一个略有不同的样本,我们的结论会发生多大变化。

过程很简单:你有一个包含(比如说)NNN 个个体的原始数据集。你通过从原始数据集中有放回地随机抽取 NNN 个个体来创建一个新的“自举”数据集。一些个体会被抽中多次,另一些则一次也不会。然后,你在这个新数据集上运行你的整个分析——例如,计算预期寿命。你重复这个过程一千次,创造出一千个平行的统计宇宙。这一千个预期寿命结果的集合给了你一个分布,你可以直接从中度量不确定性(例如,通过计算标准差或找到 95% 的范围)。

这种方法非常强大,但它有一个关键规则:你必须对数据的正确、独立的“单位”进行重采样。在生命表的例子中,单个个体在不同年龄的命运是相互关联的。为了保留这种真实世界的相关性,你必须对携带其完整生命史的整个个体进行重采样。如果你错误地从每个年龄组中重采样孤立的死亡计数,你就会破坏这些相关性,得到一个完全错误的的不确定性估计。

贝叶斯之道:改变思想的数学

还有另一种在哲学上截然不同的思考不确定性的方式。​​贝叶斯 (Bayesian)​​ 方法不把我们试图用误差棒精确定位的参数(如反应速率 kkk)看作一个单一的真值,而是讨论我们的知识状态。在实验之前,我们对参数有一些​​先验 (prior)​​ 信念,我们可以将其表示为一个概率分布。实验并不会揭示“真实”值;它只是提供了证据,让我们能够更新我们的信念。利用​​贝叶斯定理​​这个引擎,我们将先验分布与观测到数据的可能性结合起来,结果是一个新的、更新后的​​后验 (posterior)​​ 信念分布。

最终的答案不是一个数字,而是整个后验分布本身。这个分布是我们不确定性的完整画面。例如,在确定形如 Nu=C⋅RanNu = C \cdot Ra^nNu=C⋅Ran 的传热定律时,贝叶斯分析不仅给你 CCC 和 nnn 的最佳拟合值,它还给你一个联合后验分布,一团合理的 (C,n)(C, n)(C,n) 对的云图,不仅显示了每个参数的不确定性有多大,还显示了它们之间可能如何相关。这是一个比简单的误差棒更丰富、更完整的知识陈述。这种哲学上的差异在比较构建进化树的方法时尤为明显:像最大似然法这样的频率派方法使用自举法给出分支的“支持度”值,而贝叶斯 MCMC 分析则直接得出分支正确的“后验概率”——一个更直接的信念陈述。

当确定性是一种幻觉:风险与悖论

对不确定性的正确把握不仅是一项学术操练,它还能保护我们免于得出危险的错误结论。科学界充满了警示故事,在这些故事中,对我们所知缺乏谦逊导致了麻烦。

安全的幻觉与低功效的风险

考虑一位生态毒理学家研究一种新农药对水生生物的影响。一种传统但有缺陷的方法是寻找“未观察到有害效应的水平”(NOAEL)——即未检测到统计上显著损害的最高剂量。现在,假设一个实验设计不佳,动物数量太少或测量噪声太大。这样的实验​​统计功效​​很低,意味着即使存在真实效应,它也不太可能检测到。这种低功效的研究可能会产生一个高 NOAEL,从而得出结论:该农药在高浓度下是安全的。但这个结论是一种幻觉。高 NOAEL 并不意味着该物质安全,它可能只是意味着实验做得不好。结果的不确定性与实验的质量混为一谈。一种现代的、基于模型的方法,如基准剂量 (BMD) 法,则使用所有数据来拟合剂量-反应曲线,从而为一个“安全”剂量提供更诚实的估计以及恰当的置信区间。这是一个强有力的教训:有时,表面上更高的确定性是更差方法的标志,而不是更安全的世界。

不可知的参数

有时,无论数据多么完美,再多的数据也无法让你确定一个特定的参数。这就是​​结构不可辨识性​​这个微妙的问题。想象一下,对一个简单的可逆结合反应进行建模,其中过程的速度取决于速率常数 konk_{on}kon​ 和配体浓度 L0L_0L0​。当你分析方程时,你可能会发现你所能观察到的数据永远只取决于这两个参数的乘积,c=konL0c = k_{on} L_0c=kon​L0​。你的实验可能会以极高的精度告诉你 c=10c=10c=10。但它从根本上无法告诉你究竟是 kon=10k_{on}=10kon​=10 且 L0=1L_0=1L0​=1,还是 kon=5k_{on}=5kon​=5 且 L0=2L_0=2L0​=2,或是任何相乘等于 10 的无限多对组合。似然函数在参数空间中是一个平底峡谷。在这种情况下,对不确定性的诚实陈述不是 konk_{on}kon​ 的一个误差棒,而是描述整条无法区分的解曲线的方程。不确定性具有一种结构。

“此处有恶龙”:外推的风险

也许最常见也最危险的陷阱是​​外推 (extrapolation)​​。我们所有的模型都是在有限条件范围的数据上进行验证的。当我们试图在远超出该范围的条件下进行预测时,会发生什么?想象一下,你使用在 10∘C10^{\circ}\text{C}10∘C 到 20∘C20^{\circ}\text{C}20∘C 之间收集的数据,来模拟植物生长量 (YYY) 对温度 (EEE) 的响应。你可能会发现一条拟合数据很好的漂亮直线。但你对 40∘C40^{\circ}\text{C}40∘C 时的生长量预测是什么?你的线性模型可能会预测巨大的生长。但生物学的现实告诉我们,在 40∘C40^{\circ}\text{C}40∘C 时,植物很可能会枯萎死亡。线性关系完全失效。

当我们进行外推时,我们的预测不确定性不仅会变大,其性质也会改变。在我们的数据范围内,我们的不确定性由噪声和数据点的数量控制。在范围之外,我们的不确定性则由一个无法检验的假设主导,即我们选择的模型(线性、二次或其他)仍然正确。预测区间可能会变得非常宽,但如果模型的形式是错误的,即使是这种宽度也是一个谎言。这里就是我们地图的边缘。一种有原则的方法会承认这一点,明确指出预测是基于一个关于世界行为的强有力的、未经证实的假设,或者通过考虑一整套可能的模型来捕捉这种更深层次的“模型不确定性”。

从不确定性到行动:发现的引擎

人们很容易将不确定性视为一种麻烦,是我们知识中的一个缺陷,我们必须为此道歉。但这完全没有抓住要点。不确定性不是科学过程的终点,而是驱动它的引擎。对我们所不知之事的精确量化,是决定下一步该做什么的最有价值的指南。

想象一下,你正在使用隐马尔可夫模型追踪一个隐藏的过程,比如解码秘密信息或跟踪一艘潜艇。在分析了迄今为止收到的信号后,你得到了一个关于潜艇可能采取的所有隐藏路径的后验概率分布。有些路径可能性大,有些则较小。这个分布的​​熵​​是一个单一的数字,它量化了你的总不确定性。低熵意味着你非常确定潜艇在哪里;高熵意味着它几乎可能在任何地方。

现在,如果你有机会再进行一次测量——也许是派一架飞机去一个特定的位置——你应该把它派到哪里去?你可以用你的模型来问,对于每一个可能的位置,“如果我在这里进行一次测量,我的不确定性(我的熵)预期会减少多少?”这就是​​主动学习 (active learning)​​ 的核心。你选择那个被预测为信息量最大的行动,那个承诺能最大程度减少你不确定性的行动。

从这个角度看,不确定性被转化了。它不再是对无知的被动承认,而是一种主动的、战略性的资源。它为我们指明了最有价值的问题和最高效的实验,在我们把巨大、模糊的未知转变为已知的旅程中引导着我们。它现在是,并且永远将是,下一次发现的开端。

应用与跨学科联系

在我们走过不确定性的基本原理和机制之后,你可能会倾向于认为它是一个相当抽象、数学化的概念。或许有点麻烦——是在计算结束时必须报告的模糊度度量。但事实远非如此!在科学探究和工程奇迹的真实世界里,不确定性的度量不是后记,而是主角。它是指导我们实验的罗盘,是我们构建模型的透镜,也是驱动发现本身的引擎。

现在让我们来探索这个广阔而激动人心的领域。我们将看到,对不确定性的严谨理解如何成为跨学科进步的基石,从试管中分子的微妙舞蹈到模拟气候的宏大挑战。

观察者的诚实:量化实验室中的误差

想象你是一位生物化学家,正在观察一场化学反应的展开。你正在测量溶液颜色的变化,以确定一种酶的工作速度。你的仪器极其灵敏,但并非完美无瑕。电子设备可能会有轻微、稳定的漂移,读数中也总会有一些随机、不可避免的噪声,就像收音机里的静电。如果你只是凭感觉在数据点之间画一条线,你如何能确定斜率呢?这个斜率中有多少是真实的反应,又有多少仅仅是仪器漂移?你对最终数字的置信度是多少?

这不是一个假设性的难题,而是成千上万个实验室的日常现实。一种天真的方法可能是只挑选一段看起来“足够线性”的数据并拟合一条直线,但这在科学上是不能令人满意的。这种选择是武断的,另一位科学家可能会选择不同的窗口并得到不同的答案。正是在这里,一种有原则的不确定性度量成为了科学诚信不可或缺的工具。

正如在高级实验分析中所探讨的,一种严谨的方法 涉及与数据进行更复杂的对话。首先,我们必须明确地建模并减去仪器漂移,这可以通过在没有酶的情况下进行对照实验来测量。然后,我们不应武断地挑选一个“线性”区域,而是可以使用统计检验来找到从反应最开始算起、数据真正符合直线的尽可能长的窗口。当我们确定斜率——我们的初始速率——时,统计机制也会给出它的“标准误差”。这个数字就是我们不确定性的度量。它是一个简洁而有力的声明,告诉全世界:“这是我们对速率的最佳估计,这是我们确信真实速率所在的范围。”

现代方法甚至更为优雅。它们可以在一个单一的统计模型中同时分析来自反应和对照实验的数据。这种方法,一种协方差分析的形式,利用其所能获得的所有信息,干净地将酶的活性与仪器漂移分离开来,在一个统一的步骤中提供酶促速率及其不确定性的估计。这就是不确定性在其最基本角色中的体现:让我们能够诚实地报告我们所观察到的,并以定量的严谨性将信号与噪声区分开来。

理论家的指南:建立与检验模型

现在,让我们从观察单一现象转向构建普适定律。一位材料科学家可能正在研究一种金属合金的蠕变——在高温应力下发生的缓慢变形,这是喷气发动机和发电厂设计中的一个关键因素。数十年的研究给了我们一个物理模型,一个将蠕变速率与应力(σ\sigmaσ)和温度(TTT)联系起来的数学方程。这个方程有几个参数——像应力指数 nnn 和激活能 QQQ 这样的数字——它们是特定于该材料的。任务就是从实验数据中确定这些参数的值。

我们收集的每一个数据点——在给定应力和温度下测得的蠕变速率——都有一些测量不确定性。一个简单的方法是忽略这一点,找到使曲线平均“最接近”所有点的参数。但如果某些测量比其他测量精确得多呢?一个非常嘈杂的数据点在确定我们的物理定律时,是否应该与一个高度精确的数据点具有相同的影响力,即相同的“投票权”?

当然不应该。植根于最大似然理论的一种有原则的方法告诉我们,每个数据点对拟合的贡献应该由其方差的倒数来加权——也就是说,由我们对它的确定性来加权。这是加权最小二乘法的核心。我们对一个测量越确定,它对最终曲线的“拉力”就越大。不确定性不再是结果的一个被动特征,而是模型拟合过程本身的一个主动成分。

此外,这个过程不仅仅给出 nnn 和 QQQ 的最佳拟合值。它还给出了这些参数中的不确定性。不仅如此——它还给出了它们之间的协方差,这告诉我们我们对 nnn 的估计误差是否可能与对 QQQ 的误差相关联。这一点至关重要。例如,它可能会告诉我们,我们无法从当前数据中独立确定这两个参数,这提示我们需要进行一组新的实验来打破这种僵局。

同样的原则无处不在。在控制工程中,当从嘈杂的频率测量中分析系统的稳定性时,我们不能简单地取嘈杂数字的比率。一个稳健的方法必须考虑到不确定性从原始测量到最终派生量的传播,比如在 Nichols 图上的斜率。要做到这一点,需要深刻理解从测量到分析的非线性变换如何影响误差棒。

模拟者的罗盘:在数字世界中导航

在我们这个时代,许多实验不是在玻璃器皿中进行,而是在计算机内部完成。利用计算流体动力学(CFD),工程师可以模拟空气流过机翼或核反应堆堆芯的冷却。这些模拟求解基本的物理方程,但它们并不完美。它们在一个有限的点网格上表示一个连续的世界。这引入了“离散化误差”。此外,模拟的输入参数——如流体的粘度或热导率——本身也只在一定的不确定性范围内已知。

那么,我们如何能相信一个模拟的预测呢?答案在于一个全面的不确定性量化(UQ)框架。这是一个致力于理解和测量计算模型中不确定性的领域。

考虑一个用于管道内传热的 CFD 模型的验证。我们想将模拟预测的努塞尔数 Nu‾\overline{Nu}Nu(一个传热的度量)与一个公认的实验关联式进行比较。简单地比较这两个数字是毫无意义的。我们必须进行更复杂的核算。

首先,我们必须量化模拟自身的不确定性。这是一个分为两部分的过程。我们通过在一系列逐渐加密的网格上运行模拟,并使用一种称为 Richardson 外推法的技术来估计在无限精细网格上的答案,从而处理离散化误差。这个“连续”值与我们有限网格结果之间的差异,为我们提供了数值不确定性的度量,通常打包成一个网格收敛指数(GCI)。接下来,我们处理参数不确定性。我们使用蒙特卡洛抽样等方法,运行模拟数百或数千次,每次都使用略有不同但物理上合理的流体属性值。由此产生的 Nu‾\overline{Nu}Nu 值的分布告诉我们源于我们对输入知识不完善的不确定性。

只有当我们结合了这些不确定性,为模拟形成一个最终的预测区间后,我们才能与同样有其报告不确定性的实验关联式进行有意义的比较。验证被宣告成功,不是因为数字完全匹配,而是因为它们的不确定性区间可信地重叠。正是这个严谨的过程,让我们对复杂模拟的预测能力产生信心,从飘动旗帜的流固耦合 到下一代飞机的设计。

数据科学家的显微镜:看透“大数据”中的噪声

在“大数据”时代,不确定性的挑战呈现出新的维度,尤其是在基因组学和系统生物学等领域。想象一种像空间转录组学这样的技术,它可以测量组织切片内不同位置数千个基因的表达。然而,每个测量点并非单个细胞,而是不同细胞类型的混合体。一项关键任务是“解卷积”:弄清楚每个点中每种细胞类型的比例。

这是一个规模巨大的统计估计问题。我们有一个参考图谱,告诉我们每种纯细胞类型(比如神经元、星形胶质细胞、小胶质细胞)的典型基因表达特征。一个点上观察到的表达被建模为这些特征的加权平均,其中权重是我们想要找到的未知比例。然后,我们可以建立一个约束优化问题来找到最能解释观测数据的比例。解决方案为我们提供了一幅美丽的组织细胞结构图。

但是我们对这张图的确定性有多大呢?一种有原则的统计方法,基于我们在材料科学例子中看到的相同的最大似然思想,不仅给出比例的最佳估计,还提供了该估计的不确定性。这对于下游分析至关重要。如果一个点被估计为 50% 的神经元和 50% 的星形胶质细胞,但其不确定性非常大,我们应对由此得出的任何生物学结论持谨慎态度。

更进一步,考虑逆向工程调控细胞行为的因果网络的宏大挑战。在系统免疫学中,我们可能会测量数百万个单个 T 细胞中的几十种蛋白质,一些在正常条件下,一些在我们使用 CRISPR 扰动特定基因后。目标是拼凑出连接图:是蛋白质 A 激活蛋白质 B,还是 B 抑制 A?

贝叶斯网络为此提供了一个强大的框架。而贝叶斯方法的美妙之处在于,不确定性是它的母语。它不是产生一个单一、确定的网络图,而是为每个可能的连接边产生一个*后验概率*。它可能会告诉我们,A 激活 B 的概率是 98%,但 C 影响 D 的概率只有 15%。这是一种深刻的不确定性量化形式——不仅仅是数值上的不确定性,而是因果模型结构本身的不确定性。

发现的引擎:作为驱动力的不确定性

我们已经看到不确定性是诚实报告、模型构建和计算验证的工具。但它最强大的角色是作为发现的积极引擎。

想象一下开发一个机器学习模型来预测分子系统的势能,这可以替代极其昂贵的量子力学计算。要训练这样一个模型,我们需要数据——分子构象及其真实能量的例子。但获取这些训练数据是瓶颈所在。我们应该在哪里进行下一次昂贵的量子计算,以获得最大的“性价比”?

答案是:我们应该问模型它最不确定的地方在哪里。一种称为高斯过程回归的技术正是这样做的。它不仅对新构象的能量做出预测,而且还计算其自身的预测方差——这是对其不确定性的直接度量。在一个“主动学习”循环中,我们使用机器学习模型运行一个短时间的分子动力学模拟。我们不断监测模型的不确定性。一旦模拟进入模型不确定性飙升的构象空间区域——即模型实质上在说“我不知道这里发生了什么!”——我们就停下来。我们在那个确切的点上进行一次高保真的量子计算,将这个新的、信息量极大的数据点添加到我们的训练集中,重新训练模型,然后继续模拟。模型现在在那个区域更加确定了。通过迭代地寻找并消除自身的不确定性,模型以最有效的方式自我构建。

这种对不确定性的重新定位——从一个需要管理的问题转变为一种可以利用的资源——是一场范式转变。它是现代实验设计、自适应模拟乃至科学知识综合的核心。当系统学家试图决定两种生物谱系是代表一个物种还是两个物种时,他们面临着来自遗传学、形态学和生态学的证据。每一条证据都有其自身的强度和不确定性。一个严谨的元分析框架允许科学家结合这些异构的结果,明确地对研究内部和研究之间的不确定性进行建模,从而得出“分裂”假说的最终后验概率。这是应用于科学共识构建的不确定性量化。

从实验室工作台到超级计算机,从我们细胞中的 DNA 到天空中的星辰,故事都是一样的。对某事物的真实度量不是一个单一的数字,而是一对数字:估计值及其不确定性。抛弃后者就是抛弃一个更深层次的真理。因为在科学中,承认我们所不知道的,与陈述我们所知道的同样重要。正是这种严谨的、定量的谦逊,照亮了前进的道路。