
不确定性是科学与工程中一个无法逃避且根本性的方面。它并非一个需要被消除的缺陷,而是我们理解的前沿。然而,为了取得有意义的进展、建立可靠的模型并做出合理的决策,我们必须认识到并非所有的不确定性都是相同的。一个关键的知识鸿沟常常在于未能区分可减少的无知和系统固有的随机性。本文将直面这一挑战。首先,文章将深入探讨“原理与机制”,定义并对比认知不确定性(我们知识的缺乏)和偶然不确定性(世界内在的变异性)。随后,“应用与跨学科联系”部分将展示这一关键区别如何成为一个强大的工具,用于构建更安全的系统、进行更精锐的科学研究,以及做出更符合伦理的选择。我们首先从探索这两种无知的面貌之间的根本区别开始。
在我们理解世界的探索中,我们不断面临不确定性。这是科学的一个基本组成部分,不是一个令人尴尬的缺陷,而是一个有待探索的前沿。然而,并非所有的不确定性都是一样的。为了取得进展、建立可靠的模型并做出合理的决策,我们必须首先学会区分我们的不确定性。我们能做的最深刻的区分,是在两种基本类型的无知之间:一种是宇宙固有的特性,另一种是我们自身有限心智的特性。
想象一下,你被要求预测一次硬币抛掷的结果。你知道这枚硬币是完全公平的。结果是正面还是反面,是不确定的。但这种不确定性是由于事件本身的内在随机性。即使拥有完美的物理学知识,硬币的初始条件也如此敏感,以至于从所有实际角度来看,其结果是不可预测的。这就是偶然不确定性(aleatoric uncertainty),源自拉丁语 alea,意为“骰子”。它是一个系统不可减少的、内在的变异性——一种基本的随机性嗡鸣,我们可以用概率来描述它,但对于单个事件,我们永远无法使其静音。
现在,想象一个不同的游戏。有人递给你一枚奇怪的、不平衡的硬币,再次要求你预测抛掷结果。这里的不确定性感觉不同。它不仅仅关乎抛掷的随机性,还关乎你对这枚硬币本身的深切无知。它有偏向吗?偏向多少?这就是认知不确定性(epistemic uncertainty),源自希腊语 episteme,意为“知识”。这是由于知识缺乏而产生的不确定性。这是一片我们希望能够驱散的无知之雾。原则上,我们可以通过收集更多信息来减少这种不确定性——抛掷硬币数百次来估计其偏向,或者对其质心进行精确的物理测量。
这一区别是解开整个不确定性量化领域的钥匙。偶然不确定性是我们观察的系统的属性;认知不确定性是我们关于该系统知识的属性。
在任何现实世界的科学模型中,这两种形式的不确定性都源于多种来源。学会识别它们是任何科学家或工程师的一项关键技能。
偶然性来源:世界固有的随机性
这些是变异性的来源,即使我们的模型和知识是完美的,它们也依然会存在。
过程噪声:许多物理系统本质上是随机的。湍流阵风在桥梁上产生的力的逐次变化是偶然不确定性的一个典型例子。在多孔材料中,由于热扰动,分子的随机碰撞为化学物质的输运贡献了“过程噪声”。在气候科学中,这表现为大气的“内部变率”——独立于我们的气候模型而存在的混乱、不可预测的天气模式。
测量噪声:我们进行的每一次测量都是不完美的。我们的仪器精度有限,并会受到随机波动的影响。传感器读数从来都不是纯粹的真相,而是真相加上一点随机噪声 。这种噪声通常被建模为从像高斯分布这样的分布中随机抽取,它是一种模糊我们对现实看法的偶然不确定性。
内在模糊性:有时,我们试图测量的事物本身就是模糊的。当放射科医生在医学图像中分割肿瘤时,由于组织对比度重叠或图像分辨率有限,边界可能是内在模糊的。即使是不同的人类专家也可能在略有不同的地方画线。这种标注者之间的分歧是“基准真相”本身的一种偶然变异性。
认知性来源:我们知识的局限
这些是不确定性的来源,原则上,我们可以通过收集更多数据、改进我们的模型或完善我们的理论来减少它们。
参数不确定性:我们的模型充满了参数——诸如弹簧的刚度 、材料的扩散系数 或生物反应速率 等常数。我们通常不知道它们的精确值。我们可能会使用手册中的值作为弹簧刚度,但那是一个平均值;它可能不是我们特定弹簧的精确值。当我们为一个单一、固定的样本建立模型时,我们对其固定但未知参数的不确定性是认知性的。我们可以通过对该样本进行更多校准实验来减少它。这引出了一个极其微妙的观点:如果你正在研究一个样本群体,那么参数在该群体中的自然变异是偶然性的。但如果你正在研究一个特定的样本,你对其独特、固定参数值的不确定性是认知性的。
结构不确定性:这也许是认知不确定性最深刻的来源。它是一种谦卑的承认:“所有模型都是错的,但有些是有用的。”我们的方程总是现实的简化。我们可能对一个根本上非线性的过程使用线性模型,或者我们粗粒度的模型可能忽略了在更小尺度上发生的复杂效应。我们模型的形式与现实的真实形式之间的这种内在不匹配被称为结构不确定性或模型差异。这是我们知识结构本身的错误,它纯粹是认知性的。我们只能通过发明更好的理论或更全面的模型来减少它。
数值不确定性:当我们让计算机求解我们模型的方程时,我们引入了另一层近似。我们用有限的点网格来表示一个连续的对象,或者用离散的时间步长来表示一个连续的过程。计算机的答案与我们模型的真实数学解之间的差异是数值不确定性。这是对我们(已经近似的)方程的精确解缺乏了解。这是一种认知不确定性,可以通过使用更多的计算能力——更精细的网格和更小的时间步长——来系统地减少。
为了严谨地处理这些不确定性,我们转向概率论的语言。然而,我们使用这种语言的方式,对于这两种不确定性类型是根本不同的。
我们通过在我们的世界模型中直接构建一个概率分布来表示偶然不确定性。对于一个确定性ODE模型 ,其状态是通过带噪声的测量得到的,ODE本身是确定性的。随机性来自测量过程,。偶然不确定性完全由噪声项 的概率分布来捕捉。这个分布定义了似然函数 ,它告诉我们,在给定模型的特定版本下,我们观测到的数据有多大概率出现。
另一方面,我们通过对模型中我们不知道的部分放置概率分布来表示认知不确定性。如果我们对参数 不确定,我们不把它当作一个单一的数字,而是当作一个随机变量。我们在看到任何数据之前分配给它的分布称为先验分布 。它代表了我们最初的信念或无知状态。在我们收集数据后,我们使用贝叶斯法则的魔力来更新我们的信念。先验与似然相结合,产生后验分布 。这个后验分布代表了我们新的、更精确的知识状态,并且通常比先验更“尖锐”,反映了我们认知不确定性的减少。
这个框架最终形成了一幅美丽而强大的图景,用于进行预测。为了预测一个新的结果,我们必须对所有不确定性的来源进行平均。这是通过全概率定律完成的,其形式为一个嵌套积分。例如,在一个预测罕见事件的数字孪生中,总的失效率是通过首先对固定模型参数 的偶然噪声进行平均,然后将结果在所有可能的 值上进行平均,并用我们对它们的后验信念加权得到的:
这个优雅的公式展示了无知的两副面孔如何统一起来,产生一个单一、诚实的预测,该预测考虑了我们所不知道的一切。更高级的模型甚至可以在积分内部包含一个结构不确定性项 ,对我们模型形式本身的不确定性进行平均。
认知不确定性在我们的工作中实际上是如何体现的?它留下了独特的印记,如果正确解读,可以指导我们的科学探究。
最引人注目的例子之一来自现代机器学习。一个像高斯过程这样的高级模型,在数据上训练后,不仅可以提供预测,还可以提供其自身置信度的度量。在输入空间中它见过大量数据的区域,其预测不确定性会很低。但如果你要求它在远离任何训练数据的区域进行预测,它会有效地告诉你:“我不知道”,并且其预测方差会膨胀。这种巨大的方差是认知不确定性的直接可视化,是模型本身插上的一面警示旗,表明知识的缺乏。
一个更深刻的印记出现在贝叶斯模型选择中。想象你有两个相互竞争的科学理论,模型1和模型2,用来解释一个数据集。在进行贝叶斯分析后,你发现后验概率在它们之间平分——两个模型看起来几乎同样可信。后验分布是双峰的,每个模型都有一个峰值。这并不意味着宇宙在两种物理定律之间随机切换!这是一个深刻的认知模糊性的印记:你当前的数据不足以区分这两种相互竞争的理论。这不是失败;这是一个发现。这种不确定性的结构为下一步该做什么提供了路线图。减少这种认知不确定性的最有效方法是设计一个新的实验,在这个实验中,两个模型做出截然不同的预测。在该区域的观察很可能会消除其中一个后验峰值,解决我们的模糊性,并推动科学进步。
这直接与统计学中熟悉的泛化和偏差-方差权衡概念相联系。预测模型的总误差可以被分解。我们无论拥有多少数据都无法摆脱的部分是偶然不确定性()。其余的误差是认知性的。它包括模型的“方差”(如果用不同的随机数据子集训练,模型的预测会改变多少,这是由于数据有限造成的)和它的“偏差”(由于模型对于现实世界的复杂性来说过于简单而导致的系统性误差,这是模型结构不确定性)。增加数据量或改进模型类别可以减少这些认知误差分量,但偶然噪声的基底仍然存在。
区分偶然不确定性和认知不确定性不仅仅是一个学术练习。它是科学家或工程师可以做的最实际、哲学上最重要的事情之一。它告诉我们应该把精力集中在哪里。
如果我们的预测主要由认知不确定性主导,我们知道我们可以做得更好。我们可以收集更多数据来确定我们的参数。我们可以设计更巧妙的实验来区分相互竞争的模型。我们可以回到绘图板,发展一个更复杂的理论来减少结构误差。
但如果我们的预测主要由偶然不确定性主导,我们学到的东西同样重要:我们已经达到了一个基本的极限。再多关于一枚公平硬币参数的数据,也不会改善我们对下一次单次抛掷的预测。在这一点上,任务从减少不确定性转变为管理它——构建在面对不可减少的随机性时具有鲁棒性和弹性的系统。
通过学会区分世界中的随机性与我们头脑中的缺失,我们不仅了解了我们知识的局限,也找到了扩展知识的最清晰的路径。
在与不确定性的原理进行了一番搏斗之后,我们可能会感觉自己像是在与哲学的幽灵摔跤。什么是知识?什么是偶然?但这种认知不确定性与偶然不确定性之间的区别不仅仅是一个抽象的练习。它是我们在一个复杂世界中航行的最实用、最强大的工具之一。一旦我们学会问:“这种不确定性是来自世界固有的随机性,还是来自我自己的无知?”我们就会发现,我们可以建造更好的机器,做更精锐的科学研究,甚至做出更明智、更符合伦理的决策。让我们游历一些领域,看看这个原则在实践中的应用。
想象你是一名工程师。你的工作是建造能够在一个绝非可预测的世界里可靠、安全地工作的设备。在这里,区分你所不知道的和你只是随机的东西是至关重要的。
考虑设计一架商用喷气式客机的机翼的任务。这架飞机将在其生命周期中飞越湍流空气,面临不可预测的阵风和风向变化。这正是偶然不确定性的定义——一种环境固有的、不可减少的随机性。我们可以用统计学来描述它,了解阵风可能的强度和频率,但我们永远无法预测下周二飞越堪萨斯州时,击中机翼的确切那一阵风。我们的设计必须足够坚固,以承受这整个随机性的交响乐。
但还有另一种更个人化的不确定性在起作用。我们模拟机翼上气流的计算机模型——计算流体力学的奇迹——本身就是现实的不完美近似。它们依赖于参数和方程,这是我们捕捉湍流物理学的最佳尝试,但我们知道它们是不完整的。我们对我们湍流模型中系数的真实值,或者机翼上平滑的层流破裂成湍流的精确位置缺乏了解,这是认知不确定性的一个来源。这是我们的无知,与天气不同,它是我们可以减少的。我们可以进行更多的风洞实验,收集更多的飞行数据,并完善我们的理论,从而缩小我们无知的边界,使我们的模型更忠实于现实世界。因此,工程师的任务是双重的:建造一个足够坚固的机翼来应对自然的随机性(偶然性),同时不断努力减少用于设计它的模型中的无知(认知性)。同样的挑战也出现在设计化学反应器时,其中分子固有的随机舞蹈是偶然性的基础,而我们对反应速率和催化剂性质的不完全知识是我们努力提升的认知天花板。
在现代信息物理系统中,这种舞蹈变得更加动态。想象一下汽车中的自动制动系统,它由一个“数字孪生”——一个与真实汽车并行运行的高保真模拟——来控制。该系统必须在路况不断变化的道路上运行:一场突如其来的阵雨、一块碎石地、一段磨损的沥青路面。这种轮胎与路面摩擦力的变化是偶然不确定性的一个来源。但数字孪生也对其自己汽车的特定属性不确定:刹车片是全新的还是磨损的?轮胎充气是否适当?这是关于系统参数的认知不确定性。
这就是这种区别的美妙之处:数字孪生可以实时减少其认知不确定性。通过将其预测与汽车的实际传感器读数进行比较,它可以不断更新和完善其对刹车片磨损和其他参数的估计。它在学习,并且在学习的过程中,它减少了自己的无知。这使它能够在面对道路不可减少的偶然不确定性时做出更安全的决策。它无法控制雨水,但它可以了解自己的刹车将如何对雨水做出反应,这是通过区分可知与仅可描述来管理不确定性的一个完美例证。
对于科学家来说,目标不是制造产品,而是理解世界。在这里,不确定性之间的区别指导着发现的过程本身。它告诉我们该问什么问题,该做什么实验。
让我们去一个生态系统,也许是一个湖泊,我们正试图模拟食物网中汞的积累。我们的模型必须应对由天气驱动的水温每小时的波动,或者个别鱼类每日的饮食选择。这是固有的、不可预测的变异性——偶然不确定性。我们无法减少它,但我们必须考虑到它。然而,我们的模型也包含生物地球化学常数或关于主要生物过程的假设。我们可能只有来自这个特定湖泊的少量测量数据,所以我们对这些关键参数的知识是不牢固的。或者,也许科学家们对某个生物过程(如生长稀释)是否对该物种有意义存在分歧。这是认知不确定性——我们知识上的一个缺口。
这种区别告诉我们应该将科学仪器指向何方。试图消除鱼类行为的变异性是徒劳的,但设计实验来测量那些约束不佳的化学常数,或收集解决模型结构争议所需的数据,则具有巨大的价值。这一思想在环境科学中通过预防原则得以形式化。当我们的认知不确定性很高时——当我们对一个关键参数(如被捕捞鱼群的增长率)非常无知时——预防性方法是采取保守行动。我们可能会减少捕捞配额,不仅因为随机的环境波动(偶然性),还因为我们对自己无知的深度保持谦卑(认知性)。这种区别告诉我们什么时候应该因为自然不可预测而谨慎,什么时候应该因为我们信息不足而谨慎。
在科学的前沿,这一挑战被放大了,在那里我们的模型不是经过时间考验的方程,而是像神经网络这样复杂、需要大量数据的算法。想象一下,试图用物理信息神经网络(PINN)来模拟聚变反应堆中的湍流热输运,或者用图神经网络(GNN)来解读fMRI扫描中的大脑连接性。网络本身,拥有数百万个参数,是认知不确定性的一个巨大来源。我们是否用足够的数据训练了它?不同的网络架构会更好吗?
为了处理这个问题,科学家们使用了巧妙的技术,比如训练一个不同神经网络的“集成”模型。在集成成员的预测一致的地方,我们的认知不确定性低——我们的模型很自信。在它们不一致的地方,我们的认知不确定性高,这表明模型正在如履薄冰,很可能是因为它在该区域没有看到足够的数据。集成模型预测的这种离散度是我们模型无知的直接度量。与此同时,模型也可以被训练来预测数据中固有的、不可减少的噪声——偶然不确定性。这种分离允许使用GNN的科学家说:“我对这位患者临床评分的预测是不确定的。而且我可以告诉你,部分不确定性是因为这位患者的大脑活动确实是嘈杂的,另一部分是因为我的模型以前从未见过像这样的连接组。”
也许这种区别最深刻的应用在于科学与伦理相遇之处,当我们的模型结果影响到人类福祉时。
考虑一个临床决策支持系统——一个AI模型,它告诉医生患者患有需要立即干预的危及生命的疾病的概率。这个模型,作为一个模型,是不确定的。它提供一个概率,但它也提供其自身认知不确定性的度量,也许是该概率周围的一个可信区间。现在,医生必须做出决定。干预的选择带有伤害健康患者的风险(假阳性),而等待的选择则带有未能治疗患病患者的风险(假阴性)。
决策理论告诉我们,基于这两种错误的相对危害,有一个概率阈值应该指导决策。但如果模型的认知不确定性如此之大,以至于其概率的可信区间跨越了这个阈值呢?这意味着,在模型自身承认的无知范围内,患者可能需要也可能不需要干预。在这种模棱两可的情况下,伦理原则必须成为我们的指南。“首先,不伤害”这一不伤害原则建议采取一种保守的方法。一个符合伦理的规则是,只有当你在一个合理的、最坏的情况下也确信这是正确的选择时,才进行干预。这意味着你只有在模型的认知不确定性区间的下限仍然高于决策阈值时才应采取行动。如果不是,正确的行动不是盲目地遵循点估计值,而是承认高的认知不确定性并采取行动来减少它——例如,通过安排另一项检查。在这里,区分不确定性的能力成为伦理推理的直接工具。
这种沟通不确定性的责任延伸到了医患关系的基石:知情同意。想象一种新的医疗设备。感染风险可能被估计为某个百分比。这个数字部分代表了偶然不确定性——即使在完美的操作下,也可能发生感染的固有机会。但如果这个百分比来自一项没有长期随访的小型研究,那么也存在巨大的认知不确定性。我们对真正的长期风险是无知的。
尊重个人原则这一伦理原则要求患者被告知这两种情况。仅仅说明风险百分比是不够的。临床医生还必须解释这个数字的来源。我们谈论的是像掷骰子一样被充分理解的赔率,还是基于有限证据的粗略猜测?一个理性的人会发现这种区别对他们的决定至关重要。披露我们的无知(认知性)与描述世界的随机性(偶然性)同样重要。这是建立在信任和对我们知识局限的共同理解基础上的伙伴关系的基石。
从飞机的机翼到大脑的功能,从生态系统的命运到重症监护室的决策,区分偶然与无知这一简单的行为,证明是一个具有深刻统一力量的原则。它是一种建造的工具,一种观察的透镜,以及一种衡量我们最艰难选择的天平。它本质上是一种结构化的谦卑,而这可能是所有科学仪器中最有价值的一种。