
在一个充满复杂性和内在随机性的世界里,单一、确定的预测往往弊大于利。无论是预报明天的天气、飓风的路径,还是股票市场的未来,依赖一个答案会忽略真正定义未来的巨大可能性云。这种方法在根本不存在确定性的地方制造了一种确定性的幻觉,掩盖了不确定性本身所包含的关键信息。我们理解上的根本差距不仅在于做出正确的预测,更在于如实地传达我们知识的局限性。
本文介绍集成生成(ensemble generation),这是一种强大的范式转变,它用一系列可能的替代方案取代了单一的预报。通过创建和分析一组可能的情景,我们可以拥抱不确定性,量化它,并将其转化为更深层次洞察力的来源。首先,在“原理与机制”一章中,我们将深入探讨构建集成的机制。您将学习区分不同类型的不确定性,理解用于创建符合物理现实的扰动的统计技术,并探索有效捕捉最关键“假设”情景的先进策略。随后,“应用与跨学科联系”一章将展示这些方法如何在各个领域掀起革命,从将极端天气事件归因于气候变化,到发现新药,再到评估金融系统的风险。
如果有人问你明天的温度,你可能会说“大约25摄氏度”。但你内心深处知道,这个单一的数字是一个善意的谎言,一个方便的虚构。事实更为复杂;它是一片可能性的云。温度很可能在25度左右,但也可能轻易地是22度或28度。如果那个低压系统移动得比预期快,甚至可能达到30度。单一、确定的预测是傲慢的,因为它忽略了世界的基本不确定性。一个更诚实、最终也更有用的答案会是一系列可能性——一个预报集成。
这就是集成生成的核心思想:用一系列合理的替代方案取代单一、看似精确的答案。这种“群体智慧”不仅适用于天气预报;它对于预测飓风路径、滑坡的流动范围、股票市场的波动,甚至对于理解我们科学测量本身的不确定性都至关重要。集成成员的离散程度向我们讲述了一个关于我们知识局限的深刻故事。要构建这个集成,我们必须首先成为自身无知的鉴赏家,学会区分其不同的类型。
我们对世界的不确定性有两种基本类型,要构建一个好的集成,我们必须同时尊重这两种类型。
首先是偶然不确定性(aleatory uncertainty)。这是宇宙固有的、不可简化的随机性。想象一下风中树叶的杂乱飘动,或者掷骰子的确切结果。即使我们拥有完美的物理模型,我们也永远无法确定地预测这些事件。这是宇宙在掷骰子。在一个灾难性滑坡的模型中,这个偶然部分是滑坡发生瞬间每一粒沙子和卵石的具体、不可知的排列方式。我们可以用统计方法来描述它,但无法消除它。
其次是认知不确定性(epistemic uncertainty)。这是我们对世界知识的缺乏。它是我们理论和模型中的不确定性。也许骰子被动了手脚,而我们不知道。也许我们计算空气阻力的公式略有偏差。这种类型的不确定性原则上是可以减少的。通过更多的数据、更好的实验和更精炼的理论,我们可以缩小我们的认知不确定性。在我们的滑坡模型中,这是我们对底部摩擦参数正确值的怀疑,甚至是我们对所使用的数学方程是否是物理现象最佳表达的不确定性。
一个强大的集成必须同时体现这两者。集成的每个成员都是一个略有不同、但同样合理的现实版本,一个独特的故事。有些故事因骰子的随机投掷(偶然性)而不同,而另一些故事则因为讲故事的人(我们的模型和参数)对世界如何运作有不同的信念(认知性)而不同。
奇妙的是,概率定律为我们提供了一种解开这两种贡献的方法。全方差定律(law of total variance)表明,我们预测中的总不确定性可以分解为两部分:所有模型中内在随机性的平均值,加上由模型平均预测之间的不一致所引起的方差。
一个能捕捉到这两种来源的集成,为我们提供了一幅关于我们真正知道什么——以及我们不知道什么的完整而诚实的图景。
我们究竟如何创造这些合理的世界呢?我们从我们最好的单一猜测开始,然后对其进行“扰动”,在许多不同方向上轻推它,以创造我们的可能性云。但这种轻推必须有目的、有智慧地进行。
目标是创建一个集成,其成员作为一个整体,具有正确的统计“纹理”。这种纹理由一个称为背景误差协方差矩阵(background error covariance matrix)的数学对象正式描述,我们称之为。这个矩阵是我们关于不确定性的宏伟配方。它的对角线元素告诉我们每个独立变量的方差——温度的不确定性有多大?风速的不确定性有多大?但它真正的力量在于非对角线元素,它们描述了相关性。它们回答了这样的问题:“如果温度比我们预期的要高,压力可能更高还是更低?”这些关系使我们的模型在物理上更真实;它们是我们模拟世界的结缔组织。
为了生成一个遵循这个配方的集成,我们可以使用一种优雅的数学技巧。我们从一堆简单的、独立的随机数开始,比如从标准钟形曲线中抽取——这是我们原始的、无结构的噪声。然后,我们对这个噪声应用一个线性变换,一个特殊的矩阵。这个矩阵就像一个“混合器”,将平淡的、独立的噪声转化为一组丰富的、相关的扰动。关键在于必须是我们配方矩阵的“矩阵平方根”,即。这个过程给了我们一个初始状态的集成,它们不仅是随机的,而且是以正确的方式随机的,内置了所有具有物理意义的相关性。
当然,这里有一个问题。在完美的世界里,我们的集成将有无限多的成员。实际上,我们的计算预算限制了我们只能进行有限次数的运行,比如次。对于任何有限的,我们生成的集成的样本协方差,我们称之为,将只是我们真实配方的一个含噪声的近似。这种差异称为抽样误差(sampling error),它通常随着集成规模的增大而减小,误差的缩放规律为。运行一个数值实验直接证实了这一点:当你将集成规模从区区2或3个成员增加到20个或更多时,集成的统计数据与真实统计数据之间的误差会急剧下降。这种抽样误差不仅仅是一个数学注脚;在一个小集成中,这些随机的、“虚假的”相关性可能会给模拟引入不符合物理规律的噪声,例如,在一个海洋模型中激发不切实际的重力波。
仅仅生成遵循我们统计配方的随机扰动就足够了吗?答案往往是否定的。自然界充满了不稳定性。想象一下试图将一支长铅笔立在笔尖上。向侧面的小幅推动作用甚微。但在铅笔已经开始倾斜的精确方向上施加一个微小的推动,将导致它立即倒下。系统对特定方向的扰动极其敏感。
天气和气候系统也是如此。对于任何给定的 大气状态,我们初始分析中的一些小误差会在接下来的几天内爆炸性增长,而大多数其他误差则会简单地消失。一个通过抽取随机扰动创建的“暴力”集成,可能会浪费其大部分成员来探索那些无关紧要的不确定性。
一种更复杂的方法是找到这些增长最快的方向,并将我们的集成集中在那里。这就是诸如奇异向量(Singular Vectors)和增长模向量(Bred Vectors)等方法背后的思想。这些是聪明的算法,它们利用模型自身的运动方程来“嗅探”出当前大气状态下最具动态不稳定性的方向。由这些特殊的、依赖于流场的(flow-dependent)扰动构建的集成效率要高得多。它讲述了一个更具相关性的故事,将集成的力量集中在探索最有可能塑造未来的不确定性上,确保我们有“专家”在关注预报中最关键的方面[@problem-id:4037527]。
在任何真正复杂的现实世界问题中,不确定性并不仅限于单一来源。它是一场由许多相互作用部分组成的交响乐。
一种简单的方法是每次只测试一种不确定性。但这无法捕捉到这些不确定性相互作用的关键事实。一个特定的参数值可能只在特定的模型结构和特定的降雨情景下才变得重要。为了捕捉总不确定性的完整、丰富的纹理,我们必须在集成的每一个成员中同时从所有来源进行抽样。
一种实现这一目标的先进策略是层次化抽样(hierarchical sampling)。想象一下,我们有120次模型运行的预算。首先,我们利用先验知识将运行分配给不同的模型结构,这个过程称为分层(stratification)。如果我们认为模型A正确的可能性是模型B的两倍,我们就给它两倍的运行次数。然后,对于每一次单独的运行,我们创建一个完整、自洽的故事:我们选择一个模型结构,我们从该模型的概率分布中抽取一组参数,并且我们抽取一个合理的强迫情景。结果是一个单一的集成,其中每个成员都代表一个整体的“假设”情景,考虑了整个不确定性的交响乐。这个大集成的简单均值和方差为我们提供了对未来的最佳估计以及我们对其的信心。
即使我们尽了最大努力,集成也只是一个近似。它是由一个不完美的模型生成的,并且包含有限数量的成员。这意味着我们必须以一种健康的科学怀疑态度来对待其输出,并应用一些最后的润色。
一方面,原始集成通常是有偏差的(例如,系统性地预测温度过低)和离散度不足的(集成的离散范围太窄,使其过于自信)。我们可以使用统计后处理技术,如模型输出统计(Model Output Statistics, MOS),来纠正这一点。MOS就像一个最后的校准步骤。通过将大量历史集成预报与实际观测结果进行比较,我们可以了解模型的系统性误差。然后,我们可以建立一个统计校正模型,调整今天集成的原始输出,以产生一个更可靠、更诚实的概率预报[@problem-id:4065261]。
我们还必须警惕统计谬误。一个特别阴险的谬误是重复计算(double-counting)信息。在一个复杂的同化系统中,我们可能想从多个部分构建一个先验不确定性模型——一个来自集成,一个来自静态气候学,以及一个针对特定参数的独立模型。如果所有这些部分的信息都来自同一来源(例如,同一组模型运行),我们实际上是在向我们的系统重复同样的事情三次。就像一个陪审员反复听到同样不可靠的证词后开始完全相信它一样,我们的系统会变得过于自信且在统计上不一致。一个稳健的方案必须包括保障措施,例如,通过确保我们不确定性模型的不同组成部分是由独立的信息源构建的,或者在数学上被投影为正交的,来防止这种错误[@problem-id:3795166]。
最后,整个事业必须是可复现的。在大型并行计算机上生成随机性是一项巨大的挑战。我们需要“可复现的随机性”,即用于计算任何部分的随机数仅取决于其唯一的索引(和运行标识符),而不取决于它在哪台计算机上运行或何时运行的变数。这是通过复杂的基于计数器的随机数生成器和密码学哈希方案实现的,确保我们的科学结果是可验证的,而不是机器的偶然产物。
归根结底,集成不仅仅是一个技术工具。它是科学谦逊的一种体现。它坦率地承认我们的知识是不完整的,我们的模型是不完美的。通过拥抱这种不确定性并赋予它一个声音——或者说,一个声音的合唱——我们超越了单一、确定的未来的幻象,达到了对我们世界更丰富、更可靠、最终也更真实的理解。
现在我们已经掌握了集成生成的原理——即创造众多平行世界以描绘不确定性景观的艺术——我们可以开始一段旅程,去看看这些思想在实践中的应用。理解一个工具的机制是一回事;亲眼目睹它建造城市、解开生命之谜、规划未来则是另一回事。我们会发现,集成的概念并非一个狭隘的统计技巧,而是一个深刻而统一的视角,贯穿整个科学事业,从行星气候的宏大尺度到单个分子的精妙舞蹈。
也许集成最直观的应用在于预报领域,在这个领域里,我们不断地为大自然的复杂性而感到谦卑。想象一下预测飓风路径和强度的任务。一个单一的、确定性的预报可能会在地图上给我们一条细线,一个看似精确的预测,却隐藏了一个充满不确定性的世界。相比之下,集成方法描绘了一幅更丰富、更诚实的图景。
为了构建一个风暴的预报集成,我们不只运行一个模型,而是运行数百个。每次运行都始于一个略有不同的“摇摆”。我们可能会扰动初始的风暴位置和强度,以反映来自卫星和浮标的不完美测量。我们可能会调整模型物理参数,比如控制风如何搅动海面的拖曳系数,承认我们的物理公式是近似的。我们甚至可以在边界条件中引入不确定性,例如水下地形或测深数据,这在飓风登陆时会极大地改变由此产生的风暴潮。结果不是一条单一的线,而是一张可能路径的“意大利面条图”和潜在强度的分布。这个不确定性锥区不是失败的标志;它是我们能做出的最真实的陈述,是对我们所知和所不知的直接量化。
但集成不仅能被动地报告不确定性,它们还能通过智能地融合新数据来主动改进预测。这就是数据同化(data assimilation)的魔力,它是现代地球科学核心的一项技术。思考一下绘制一个大陆的土壤湿度或一个海洋的海平面的挑战。我们有一个预报模型,即我们的“理论”,我们还有来自卫星的稀疏观测,即我们的“事实”。我们如何将它们融合在一起?
一个集成卡尔曼滤波(Ensemble Kalman Filter, EnKF)或一个混合集成-变分(Hybrid Ensemble-Variational, EnVar)系统以一种极其巧妙的方式使用集成。集成成员在其均值周围的离散程度和结构代表了预报的不确定性。当一个新的卫星观测到来时,同化算法会查看集成并提问:“根据我的模型物理,如果这里的海面高度稍高一些,还应该有什么其他变化?”集成提供了答案。它可能显示,一个区域风应力的扰动会在数百公里之外的海平面上产生一个物理上相关的变化。这个直接从模型自身动力学(由集成表达)中导出的相关性矩阵,告诉系统如何以物理上一致的方式,将来自单个观测点的信息传播到整个地图上。集成为如何学习提供了蓝图。
集成科学的雄心在极端事件归因(extreme event attribution)领域达到了顶峰。问题不再仅仅是“将会发生什么?”,而是“为什么会发生?”以及“我们在其中扮演了什么角色?”为了解决这个问题,科学家们创造了两个完整的集成宇宙。第一个是“事实”世界,一个模拟我们现有气候的模拟,包括人类引起的温室气体排放。第二个是“反事实”世界,一个模拟没有工业革命本应存在的气候。
通过为这两个世界运行大规模的集成,我们可以估计在每个世界中发生特定极端事件的概率——比如说,一次毁灭性的热浪或一天灾难性的火险天气。我们将这些概率称为(事实)和(反事实)。可归因风险分数(Fraction of Attributable Risk, FAR),简单定义为,告诉我们该事件的风险中有多少比例是由于人为气候变化造成的。一个模型集成使我们能够进行终极的对照实验,一个在现实中不可能的实验,并扮演侦探的角色,为人类对天气本身的影响留下指纹。
当我们把目光从地球转向生命机器时,集成视角同样强大。在分子尺度上,蛋白质并非我们在教科书中看到的静态、刚性结构。它们是动态的实体,在统计力学支配的舞蹈中不断晃动和呼吸。一个单一的高分辨率晶体结构仅仅是一部长电影中的一帧。
这种动态性是功能的关键,并且常常与疾病有关。一个药物的关键结合位点可能只在短暂的瞬间存在,处于一种能量上不太有利但仍然可及的“隐蔽”构象中。单一结构分析会完全错过它。通过使用分子动力学(Molecular Dynamics, MD)模拟,我们可以生成一个蛋白质构象的热力学集成,这是一组根据其玻尔兹曼概率适当加权的快照集合。通过分析这整个集成,我们可以识别出这些瞬态的口袋,从而揭示出以前隐藏在视线之外的新药物发现靶点。
尺度再往上,考虑一下理解一个生物体新陈代谢的挑战。我们可以绘制出一个庞大的生化反应网络,但我们的知识往往是不完整的。我们可能有来自基因组学的强有力证据表明某个酶(以及因此的反应)存在,但对另一个酶的证据却很弱或相互矛盾。这种关于网络本身的结构不确定性(structural uncertainty)如何影响我们对,比如说,一个生物体能以多快速度生长的预测?
在这里,集成再次提供了答案。我们不是构建一个“最佳猜测”模型,而是可以生成一个包含数千个合理模型的集成。在集成的每个成员中,我们根据其证据得分,就一个不确定的反应是否被包括在内做出概率性选择。通过在集成中的每个模型上运行模拟(如通量平衡分析,Flux Balance Analysis),我们得到的不是一个关于生物体生长率的单一预测,而是一个预测的分布。这个分布真实地反映了我们对细胞“零件清单”的不确定性如何转化为对其整体行为的不确定性。
集成平均的力量也是一些最成功的机器学习方法背后的引擎,这些方法现在正在彻底改变生物统计学。例如,随机生存森林(Random Survival Forest)是一种用于从临床数据预测患者预后的强大工具。“森林”是许多单个“决策树”的集成。每棵树都是一个相对较弱的预测器,因为它只看到了数据的随机子集和预测特征的随机子集。但是通过平均数百个这些简单、多样化的树的预测,整个集成变成了一个极其稳健和准确的预测器。这是“群体智慧”的缩影,一个统计学原理,表明一个由简单智能体组成的集体可以胜过一个单一、复杂的专家。
集成的概念是如此普适,以至于它可以反过来用于评估我们自己科学模型的可靠性。在任何复杂的领域,从金融到气候科学,我们通常都有几种不同类型的模型可供使用,每种模型都有其自身的假设。哪一个是正确的?这就是模型风险(model risk)的问题。
在金融领域,人们可能想要计算风险价值(Value at Risk, VaR),这是一个衡量潜在财务损失的指标。人们可以使用基于历史数据的简单模型,或者假设回报呈正态分布的参数模型,或者一个更复杂的、假设回报呈“肥尾”学生t分布(Student- distribution)的模型,或者一个跟踪波动率随时间变化的模型。每种模型都会给出一个不同的数字。我们不是选择一个并希望它是正确的,而是可以将这组模型视为一个集成。共识预测(比如,VaR的中位数)给了我们一个稳健的估计,而预测的离散程度则直接衡量了模型风险——这种不确定性仅仅源于我们不知道哪种对世界的数学描述是最好的。
这种使用集成作为比较基准的想法在网络科学中也是基础性的。假设我们观察到在一个社交网络中,最受欢迎的个体(“富人俱乐部”)彼此之间高度互联。这是一种有意义的社会现象,还是仅仅是在任何具有相似受欢迎程度分布的网络中你都会预料到的统计侥幸?
为了找出答案,我们不能只看我们观察到的这一个网络。我们需要一个对照组。我们生成一个零集成(null ensemble)——一个庞大的随机网络集合,它们与我们的真实网络共享相同的基本结构属性(比如每个个体都有完全相同的连接数),但在其他方面是完全随机的。这个集成定义了具有这种结构的网络“随机”是什么样子。然后我们测量我们真实网络中的富人俱乐部系数,并将其与来自零集成的系数分布进行比较。如果我们观察到的值是一个显著的异常值,我们就可以自信地宣称富人俱乐部现象是我们系统的一个真实的、非随机的特征。集成为发现提供了必要的背景。
同样的逻辑也适用于我们有一个“机会集成”(ensemble of opportunity)的情况,比如政府间气候变化专门委员会(Intergovernmental Panel on Climate Change, IPCC)使用的国际气候模型集合。每个模型都由不同的机构开发,具有不同的假设和结构。一个层次贝叶斯框架(hierarchical Bayesian framework)可以将这个集合视为一个集成,学习每个模型相对于观测数据的个体偏差和技巧,并将它们合成为一个单一的、经过校准的概率预报,这个预报比任何单一模型本身都更可靠。
从天气预报到药物设计,从金融风险到互联网的结构,教训都是一样的。一个单一的数字、一条单一的路径、一个单一的结构是一个谎言——或者至少,不是全部真相。世界充满了不确定性,源于不完美的测量、不完整的知识以及复杂系统不可简化的混沌。集成方法为我们提供了一种通用语言,来拥抱这种不确定性,量化它,通过我们的模型传播它,并最终将其从混乱的源头转变为更深层次洞察力的源泉。