
在追求知识的过程中,每一次测量和预测都伴随着不确定度。不确定度远非一种缺陷,而是科学方法的核心特征,它如实地说明了我们已知和未知的范畴。然而,许多实践者仅仅满足于一个简单的误差棒,却忽略了其背后蕴含着深刻战略力量的更深层分类。未能理解不确定度的不同来源,可能导致研究效率低下、设计存在缺陷以及决策失误。本文旨在通过提供一个清晰的框架来思考和管理不确定度,以弥补这一不足。
本文的探索将分为两部分。首先,“原理与机制”一章将解构不确定度的概念,介绍认知(基于知识的)不确定度与偶然(随机的)不确定度之间的关键区别。该章将探讨用于识别、量化和组合这些不同来源的正式工具,从因果图到构建完整的不确定度预算。然后,“应用与跨学科联系”一章将展示这些原理在现实世界中的应用。我们将穿梭于化学实验室,探索大脑的随机本性,并审视气候建模的挑战,以见证对不确定度的深入理解如何成为发现的引擎和稳健决策的基石。通过理解其真实本性,我们可以将不确定度从一个恼人的麻烦转变为我们最强大的向导。
我们测量的每一个数字,我们陈述的关于物理世界的每一个事实,都伴随着一个无形的同伴:不确定度。这不是我们科学的缺陷,而是其诚实性的核心所在。说一座山高8848米是不完整的,而说它高米则讲述了一个丰富的故事——一个关于仪器、方法以及我们知识局限的故事。理解这个同伴,了解它的名称和习性,是从简单收集数据迈向真正理解世界的关键。
在我们能驾驭不确定度之前,我们必须首先找到它。这有点像当一名侦探。当一个实验得出结果时,我们必须问:什么可能影响了这个数字?潜在的误差来源在哪里?进行这项调查的一个非常系统化的方法是绘制因果图,有时也称为 Ishikawa 图或鱼骨图。我们可以想象鱼的主骨代表了潜在误差的几大类别。
例如,在化学实验室中,我们可能会将思路分为人员(分析员的技能)、设备(仪器)、材料(化学品)和方法本身等类别。想象一个经典的实验:通过将废水中的硫酸盐沉淀为固态硫酸钡并称重来确定其含量。一个无法保持恒定温度的故障烘箱将是一个‘设备’问题。使用会留下少许灰分的滤纸将是一个‘材料’问题。但是,废水中其他离子(如铁离子)在硫酸钡晶体形成时会被困在其中,这个现象又该如何归类呢?这种称为共沉淀的现象,既不是分析员的失误,也不是设备的故障,而是分析方法本身固有的化学行为。通过系统地列出所有这些潜在来源,我们将一种模糊的怀疑感转化为一个有待调查的具体因素列表。
一旦我们有了嫌疑清单,一个更深层、更强大的分类便浮现出来。所有的不确定度都归属于两个大家族之一,这一区别或许是整个测量研究中最深刻的。这不仅仅是分类问题,它决定了我们应对未知事物的全部策略。
第一个家族是认知不确定度,它源于无知。这是我们不知道,但原则上可以发现的东西。想一想玻璃移液管的制造商证书,上面写着其体积为 mL。我们不知道确切的体积,但原则上,我们可以通过一系列艰苦的实验来以更高的精度测量它。在复杂的环境建模世界中,一个国家生态足迹账户中进口数据的系统性低报属于认知不确定度;通过更好的审计,这种偏差可以被发现和纠正。科学模型参数的不确定度,甚至哪个模型结构是正确的,都属于认知不确定度。通过足够多的针对性实验,我们可以减少这种知识的缺乏。认知不确定度的核心是可减少的。
第二个家族是偶然不确定度,它源于偶然性。这是世界固有的、不可减少的随机性——就像掷骰子一样。当我们进行五次滴定并每次得到略有不同的结果时,这种随机变化就是偶然不确定度。它是由大量我们无法消除的、微小且不受控制的波动引起的。在生物学中,一个基因在一小时内产生的蛋白质分子数量会剧烈波动,这个过程称为转录爆发。这种即使在相同环境下遗传上完全相同的细胞之间存在的细胞间变异,是纯粹的偶然不确定度。由于天气的混沌性质,农作物产量年复一年的变化是另一个完美的例子。无论我们对系统的控制参数了解得多好,任何单一事件的结果仍然是不可预测的。偶然不确定度的核心是不可减少的。
我们为何要如此强调这一区别?因为它告诉我们下一步该做什么。它是指导整个科学和工程过程的指南针。
想象一下,你是一位合成生物学家,正在设计一个基因回路,而你对其输出的测量结果显示出很大的变异。关键问题是:这种变异来自哪里?它是由认知不确定度(例如,你对模型中一个关键参数的估计很差)主导,还是由偶然不确定度(例如,该回路的输出本身就具有噪声)主导?
答案决定了你的下一步行动。如果你的问题是认知不确定度,策略很明确:进行更多实验以减少你的无知。你需要进行有针对性的校准,以确定那个不确定的参数。在减少这种“知识鸿沟”之前花费时间重新设计回路是低效的。
但如果你的问题是偶然不确定度,再多的进一步校准也无法平息系统固有的噪声。策略必须改变:重新设计系统以使其对这种固有的变异性更具稳健性。在生物学中,这通常意味着设计一个负反馈回路,这是自然界普遍用来创建稳定、稳健系统的设计模式。在材料科学中,这可能意味着选择一种在广泛操作条件下都能持续表现良好的不同材料,即使其在某个特定条件下的峰值性能并非绝对最佳。
这个优美的思想被全方差定律正式地捕捉到。如果 是我们感兴趣的输出(比如报告基因的荧光),而 代表我们不确定的模型参数,那么输出的总方差可以分为两部分:
第一项 是平均偶然方差——即使我们完美地知道参数,仍然存在的噪声。第二项 是由我们对参数 的认知不确定度引起的方差。通过判断这两项中哪一项更大,我们就知道是应该“学习更多”还是“重新设计”。
有了这种深刻的理解,我们就可以转向将我们的疑虑量化的实际任务。这个过程被称为创建不确定度预算。我们评估每个不确定度来源的大小,然后将它们组合起来,以得出我们最终结果的总不确定度。
评估这些量值的方法与我们的两个不确定度家族相对应。A类评定是统计性的:你进行重复测量并计算标准差。这是量化读数中随机离散(我们的偶然分量)的自然方式。B类评定则使用任何其他可用信息:制造商的规格、手册中的数据或物理原理。这通常用于认知分量,我们根据给定的容差限值为其分配一个概率分布(比如矩形或三角形分布)。
一旦我们为每个输入量 得到了一个标准不确定度 ,我们如何组合它们?如果这些来源不相关,我们使用一种对任何学过几何学的人都应该感到熟悉的方法:平方和根。合成标准不确定度 由下式给出:
这正是多维空间中的勾股定理!每个不确定度来源都是一个正交向量,而总不确定度就是合成斜边的长度。例如,在制备有证标准物质(CRM)时,计量学家将来自物质表征()、其潜在的均匀性不足()以及其长期稳定性()的不确定度,正是使用这个公式来计算证书上的合成不确定度。
最后,为了使这个数字在决策中有用,我们通常通过将合成不确定度乘以一个包含因子 (通常 )来计算扩展不确定度 。
这给了我们一个区间(被测量 ),我们有理由相信(对于 通常是约95%的置信度)真值位于这个区间内。这个数字赋予了一次测量其真实的现实世界意义。
这些原则在司空见惯的校准曲线使用中得到了最完美的体现。假设我们正在使用分光光度计测量一种化学物质的浓度。我们制备几种已知浓度的标准溶液,测量它们的吸光度,并绘制吸光度对浓度的图,得到一条直线。然后我们测量未知样品的吸光度,并使用这条直线来确定其浓度。这听起来很简单,但不确定度预算却是一个由相互作用部分组成的杰作。
首先,我们必须承认我们的校准线并非一条无限细的完美直线。它更像一个模糊的带,其“厚度”由我们标准点的离散程度决定。我们从中确定的任何浓度都将继承这种模糊性。不确定度的主要来源是:
从校准曲线推导出的未知浓度置信区间的公式本身就是一个故事:
让我们看看平方根内部。 项来自于对我们的未知样品进行 次重复测量。 项来自于使用有限数量 的标准品来构建曲线。但第三项是最精妙的:。分子 告诉我们,未知样品的信号 离我们标准品的平均信号 越远,我们的不确定度就越大。回归线在其中心最确定,而在两端则变得“更摇摆”,就像一个绕着支点转动的跷跷板。分母 是标准品浓度围绕其均值的平方和;一个更大的 意味着我们使用了更宽范围的标准品,这会更牢固地“钉住”直线的斜率并减少摇摆。
一个完整的不确定度预算,如在一个详细的分光光度法测定中所展示的,结合了所有这些效应。它还必须考虑到估计的斜率 和截距 并非独立的;它们通常是强相关的。忽略这种协方差会导致对总不确定度的不正确估计。同时,一位细心的分析师会认识到,某些潜在的误差,如仪器波长设置的轻微不准确,是共模误差。因为它们以相同的方式影响标准品和未知样品,其影响在很大程度上被抵消了,因此不需要加入预算中,从而避免了重复计算 [@problem_-id:2952384]。
这些识别、分类和组合不确定度的原则不仅仅是实验室的刻板规则。它们是一种描述任何系统(无论是生命的还是工程的)如何应对多变世界的通用语言。一个系统在面对扰动时维持其功能的能力被称为稳健性。
以发育中的果蝇胚胎为例。在其两极,一个信号通路必须被激活到精确的水平,以正确地构建头部和尾部结构。胚胎面临着巨大的变异性:母体沉积的蛋白质数量可能会变化,信号传导的化学反应本身也具有噪声。它是如何成功的呢?它使用了我们讨论过的完全相同的策略。系统采用了饱和机制;如果下游组分饱和,输出就对上游信号的确切数量变得不敏感。它使用负反馈回路,通路输出激活一个抑制剂,自动抑制任何过度的信号传导。它还使用平均化;触发通路的配体在胚胎周围的空间中扩散,从而平滑其产生过程中的噪声波动。
自然界经过数十亿年的进化,已成为稳健设计的终极大师。它用以从充满噪声的部件构建可靠有机体的逻辑,与我们用以从不完美的仪器获得可靠测量的逻辑是相同的。理解不确定度,就是看到这个深刻、统一的原则在各处发挥作用,从一份标准物质的证书到构建一个生命体的分子精妙之舞。它将我们对误差的看法从一个需要避免的麻烦,转变为理解事物本质的深刻向导。
现在,您可能会认为,在我们讨论了所有原理和机制之后,不确定度的故事是一个相当正式,甚至可能有些枯燥的事情——一套用于计算误差棒的规则。但事实远非如此!真正的冒险始于我们将这些想法带入现实世界。您将看到,与不确定度搏斗并非科学软弱的标志,而恰恰是其力量、诚实和进步的源泉。它是科学用以谈论其所知、所不知以及如何进一步探索的语言。让我们踏上一段穿越不同领域的旅程,看看这个优美而统一的概念是如何活跃起来的。
每一项科学探究,都以这样或那样的方式,始于一次测量。而没有一次测量是完美的。诚实的科学家必须成为一名不确定度侦探,追查每一种可能的误差来源。
想象一位化学家在实验室里,小心翼翼地进行滴定以确定一种酸的浓度。结果取决于从滴定管中加入的滴定剂体积。不确定度从何而来?首先,滴定管本身,尽管是高精度仪器,但有制造商的容差——即其声称输送的体积存在微小的系统不确定度。其次,是读取体积的行为。人眼并非完美,试图在玻璃上两条微小的刻度线之间精确定位弯月面底部,会引入一个微小的、随机的读数不确定度。第三,用于指示终点的化学指示剂并非瞬间变色;其颜色变化是一个化学过程,有其自身的内在变异性。
一位计量学家,即测量科学家,不会就此束手无策。他们会对每一种不确定度来源进行表征。他们可能会将制造商的容差建模为均匀(矩形)概率分布,将读数误差建模为三角形分布,并将终点变异性根据先前的实验建模为高斯分布。通过组合这些独立来源的方差,他们构建了一个“不确定度预算”,使他们能够将最终浓度表述为一个带有指定置信水平的范围,而不是一个单一的、具有误导性的精确数字。这就是计量学的核心:对我们能从仪器中知道什么和不能知道什么的严谨、诚实的说明。
这种侦探工作可以扩展到更复杂的工程问题。考虑工程师通过扭转一根金属杆直到其变形来测试一种新合金的强度。为了计算材料的剪切模量,他们需要测量杆的半径、长度、施加的扭矩和扭转角。每一次测量都有其自身的“小鬼”。用于测量半径的千分尺有其自身的校准不确定度。扭矩传感器有电子噪声。但最细微的不确定度来源可能是实验装置本身。试样是否完全对齐?机器本身的结构在负载下是否会发生微小弯曲?这种“加载系统柔度”就像一个与试样串联的弱弹簧,系统性地改变了测得的扭转角。仔细的分析会揭示这些来源中哪一个占主导地位。剪切模量的最终不确定度对来自半径测量的项更敏感,还是对来自机器柔度的系统偏差更敏感?通过回答这个问题,工程师们就能知道应该在哪里集中精力——也许是改进半径的计量方法,或者是制造一台更刚性的测试机。
到目前为止,我们讨论的是我们测量世界时的不确定度。但如果世界本身就具有内在的不确定性呢?如果自然的核心,就是在掷骰子呢?我们在自己大脑的运作中可以清楚地看到这一点。
神经元之间的通讯发生在称为突触的连接处。当一个电信号——动作电位——到达突触前末梢时,它会引起称为神经递质的化学信使的释放,这些信使被包装在称为囊泡的微小气泡中。然后,这些神经递质穿过间隙,并在突触后神经元中产生一个微小的电反应。人们可能想象这个过程像电灯开关一样可靠。但事实并非如此。实验表明,即使突触前神经元受到一连串相同的动作电位刺激,突触后神经元的反应在一次次试验之间也会剧烈变化。
神经递质释放的量子假说解释了其中的原因。这种变异性主要来自两个纯粹的偶然性来源。首先,囊泡的释放是概率性的。一个动作电位并不能保证固定数量的囊泡被释放;它只为多个释放位点中的每一个赋予了一定的概率来释放其囊泡。有时释放一个囊泡,有时两个,有时一个也没有。这是一场微观的机遇游戏。其次,对单个囊泡(一个“量子”的释放)的反应本身是可变的。每个囊泡中的神经递质数量并非完全相同,扩散和受体结合过程也有其自身的随机波动。总的突触后电位是这两层随机性的总和。这种固有的随机性并非系统的缺陷;它是大脑工作方式的一个基本特征,对神经编码、学习和计算具有深远的影响。
科学最宏大的抱负之一是预测未来。但随着系统变得越来越复杂——从生态系统到全球气候——我们的模型必须面对一个由不确定度构成的巨大层级结构。
让我们从一个基础性挑战开始。一位生态学家建立了一个模型,根据一种稀有高山植物目前的栖息地,将其存在与温度和土壤湿度等环境因素联系起来,以预测其栖息地。预测该植物可能生活在附近一个气候相似但未调查过的山谷中,这是一种插值行为。模型在其训练数据的范围内运行。但预测该植物在50年后气候变化下的生活地点,则是一种外推行为。模型被要求在一个它从未见过的、具有新温度的新环境中表现。
这在根本上更具不确定性。模型学到的统计关系是基于植物的实现生态位——即它当前生存的条件,这既受其生理极限的影响,也受与其他物种竞争的影响。当我们外推到一个全新的未来时,我们无法保证这种关系仍然成立。植物真正的生理极限——它的基础生态位——可能会被超越,或者一个新的限制因素可能会出现。这种深层的结构不确定度是预测气候变化生物影响的核心挑战。
在此基础上,模型本身也是不确定度的主要来源。想象一下试图通过观察树木年轮来重建过去的气候。一位古气候学家建立了一个统计模型,将树木年轮的宽度(代用指标)与历史温度记录联系起来。他们重建结果的不确定度是一个多层蛋糕。首先是树轮宽度本身的测量不确定度。其次是将年轮与正确日历年对齐的定年不确定度。然后是来自统计模型的校准不确定度,它包括两部分:估计的回归系数的不确定度和残差,后者是模型根本无法解释的气候变异性。最后,也是最微妙的,是结构不确定度——他们选择的线性模型可能只是树木生长与气候之间真实复杂关系的过度简化。
这种结构不确定度在进行大规模预测时成为一个主导特征。当气候科学家试图预测未来时,他们使用称为大气环流模型(GCMs)的大型计算机程序。但世界各地的不同研究小组开发了不同的GCMs。这些模型都基于相同的物理定律,但它们在如何表示那些太小或太复杂而无法直接模拟的过程(如云的形成)上做出了不同的选择。当使用完全相同的未来温室气体排放假设运行时,这些不同的模型会产生一系列对未来温度和降雨量的不同预测。模型间的这种差异并非失败;它是我们对气候系统结构不确定性的一个关键度量。
那么科学家们如何管理这个模型动物园呢?他们使用集成预报技术。单模型集成考虑了一个模型内部的不确定性(如参数不确定性)。多模型集成则更进一步,它结合了许多不同模型的预测,用它们之间的差异来表示结构不确定度。最复杂的方法是贝叶斯模型平均(BMA),它创建一个加权平均预测,其中赋予每个模型的权重是其后验概率——一个衡量其过去解释观测数据表现的指标。这提供了一个单一、连贯的预测分布,正式地整合了来自多个来源的不确定度。
理解不确定度不仅仅是一项学术活动;它是做出明智决策和指导科学过程本身的重要工具。
考虑一下保护公众健康免受环境中潜在有害化学物质(如农药)危害的关键任务。监管机构需要为人类设定一个安全的暴露水平,称为参考剂量(RfD)。但人类数据很少可用。起点通常是对动物(如大鼠)进行的毒理学研究,该研究确定了未观察到有害作用的最高剂量水平(NOAEL)。我们如何从大鼠的NOAEL推导出对多样化人群的安全剂量呢?我们通过明确承认我们的不确定性来应用预防原则。RfD是通过将NOAEL除以一系列不确定度因子(UFs)来计算的:
有一个因子(通常为10)用于解释从动物外推到人类的不确定性。另一个因子10用于解释人类群体内部的变异性(有些人比其他人更敏感)。如果毒理学数据库不完整,可能还会增加另一个因子。这些因子并非随意的;它们是政策驱动的、对科学不确定性的量化表达,旨在建立一个安全边际以保护公众健康。
这种对不确定度的仔细划分对于在复杂的环境系统中为政策提供信息也至关重要。想象一下试图评估沿海湿地的防洪服务价值。最终答案取决于输入(如湿地面积)、参数(如水力粗糙度)、模型的选择(结构不确定度)以及所考虑的未来情景(例如,“中度”或“严重”风暴未来)。一个负责任的分析不会将所有这些混为一谈。它会传播概率性不确定度(输入、参数),以模型和情景选择为条件。然后结果被透明地传达:“在严重风暴情景下,使用模型A,我们预测避免的损失将为X,95%可信区间为[Y, Z]。”这使得决策者能够看到所有可能性,并理解不确定性的哪一部分是概率性的,哪一部分是由于对未来的选择造成的。人们不会去平均“中度”和“严重”未来的结果;而是为两者都做计划。
最后,不确定度的故事回到了原点,引领我们回到发现过程本身。在工程学中,预测一个部件的疲劳寿命至关重要。寿命取决于一个物理定律中的几个参数,比如裂纹扩展的 Paris 定律。灵敏度分析可以告诉我们哪个参数对我们寿命预测的不确定度贡献最大。是初始裂纹尺寸吗?还是材料的生长速率指数 ?通过识别不确定度的主要来源,我们了解到我们最需要学习什么。这一知识随后指导新实验的设计。为了最好地确定生长定律 中的参数 和 ,必须设计实验,在应力强度因子 的尽可能宽的范围内测量生长速率。这确保了在对数-对数图上的斜率 和截距 被很好地分离开来并被精确估计。理解我们的不确定度告诉我们如何设计实验以最有效地减少它。
从化学家的滴定管到神经元的放电,从高山植物的命运到我们环境的安全,不确定度的概念是一条金线。它是科学谦逊的实践,是预测能力的发动引擎,是指引我们寻求知识的罗盘。拥抱不确定度,就是拥抱科学的本质。