
我们如何才能为一个复杂系统(例如地球气候或飓风路径)创建尽可能精确的历史记录?虽然我们不断地收集观测数据,但这些数据往往稀疏且不完美,而我们的预测模型也绝非完美无瑕。数据同化领域提供了将这两种不完整信息源融合起来的数学框架,从而对系统状态形成单一、连贯的理解。然而,我们寻求这种理解的时间点存在一个关键区别。
大多数情况下,我们关心的是当前——使用截至目前的所有数据来估计当前状态,这个过程称为滤波。但如果我们的目标不仅仅是实时的快照,而是尽可能精确的历史记录呢?这就需要一种更强大的方法,即平滑。平滑利用了一个关键的洞见:未来蕴含着关于过去的信息。本文将深入探讨集合平滑,这是一系列为进行这种追溯性分析而设计的强大方法。
我们将首先探讨让模型模拟集合能够“回溯时间”的基本原理和机制,以及如何克服重大的计算和统计挑战。随后,我们将遍览这项技术的各种应用,从构建详细的气候历史、改进天气预报,到揭示物理模型的隐藏参数,甚至分析人工智能的训练过程。这段旅程始于理解审视当下与审视整个故事之间的本质区别。
想象一下,你是一名侦探,正在拼凑一系列复杂的事件。随着线索一条条地出现,你不断更新你对事件经过的推论。这种实时的、不断演进的理解就是我们所说的滤波(filtering)。在任何时刻,你的推论都是基于你截至该时间点所掌握的所有证据得出的最佳解释。在数据同化领域,滤波指的是利用从过去到现在的所有可用观测来估计系统(比如大气)在当前时刻的状态。这是业务化天气预报的核心任务,因为及时性是预报的关键。
但是,当案件结束后,你收集了整个时间线上的所有证据,又会发生什么呢?现在,你可以回头重新审视你对事件早期阶段的初步推论。在最后一天发现的线索,可能会彻底改变你对第一天发生的事情的解读。这种利用一个固定时期内的全部观测来优化该时期内任何时间点状态估计的追溯性分析,就称为平滑(smoothing)。
平滑为我们提供了一幅更准确、更一致的过去图景,因为它利用了一个简单而深刻的真理:在一个由物理定律支配的系统中,未来包含了关于过去的信息。如果你下午出门看到地上有水坑,这个“未来”的观测为你提供了早晨是否下过雨的信息。用概率的语言来说,滤波寻求的是分布 ——即给定截至时间 的观测 ,在时间 的状态 。而平滑寻求的是 ——即给定从时间 到 整个区间内的所有观测,在时间 的状态。因为平滑使用了更多的信息,所以平滑估计几乎总是比滤波估计更确定(即方差更小)。这使得平滑成为气候再分析等科学应用中不可或缺的工具,这些应用的目标是利用数十年的观测数据构建尽可能精确的地球气候历史。
如果来自未来的信息能够为过去提供线索,那么信息是如何传递的呢?系统的动力学,即支配其演化的规则,创造了一条连接不同时间点状态的因果链。中午12点的状态取决于上午9点的状态,而上午9点的状态又会影响下午3点的状态。这就是马尔可夫性质(Markov property):当前状态将过去与未来隔离开来。来自未来观测的信息并非神奇地跳跃回过去,而是通过这些因果联系回流。
因此,要进行平滑,我们必须以某种方式利用这些联系。一个天真的想法可能是让我们的物理模型在时间上向后运行。对于一些简单的系统,这确实可行。但对于像海洋或大气这样复杂、混沌的系统,这会造成灾难性的失败。向后运行这些模型是一个指数级不稳定的过程;微小的误差会急剧放大,最终得到毫无意义的噪声。
这正是集合方法的巧妙之处。我们不试图逆转系统的动力学,而是采用一种既优雅又强大的统计“暴力”方法。我们生成一个集合(ensemble):即让系统在时间上向前运行的大量(例如80个)模拟的集合。每个模拟,或称为集合成员(ensemble member),都从略有不同的初始条件开始,代表我们对世界真实状态的不确定性。每个成员都讲述了一个不同但看似合理的系统演化“故事”。
当我们观察这些“故事”之间的统计数据时,奇迹就发生了。假设我们对周一某地点的次表层海温与周三另一地点的海平面高度之间的关系感兴趣。通过运行我们的80个海洋模型集合模拟,从周一到周三,我们可以简单地观察结果。如果在我们的集合中发现,周一较高的次表层温度总是导致周三较高的海平面,我们就发现了一种统计相关性。这种源于模型物理过程的相关性被称为跨时协方差(cross-time covariance)。它是衡量一个时间点的状态如何影响另一个时间点状态的数值度量。
这种由集合估计的协方差是信息回流的秘密通道,是集合的记忆。当我们周三收到一个比我们集合预测值更高的海平面高度卫星观测时,我们现在可以利用这种已发现的相关性,追溯到周一并调高我们对次表层温度的估计,尽管我们从未直接观测到它。对过去状态的更新在概念上是一个简单的回归:
“增益”(Gain)直接由集合的跨时协方差构建。它精确地告诉我们,未来每出现一个单位的失配,我们应该对过去的状态进行多大程度的调整。这就是集合卡尔曼平滑器(Ensemble Kalman Smoother, EnKS)的核心机制。
将这个优美的想法应用于一个完整的地球系统模型是一项巨大的工程挑战,而克服这些障碍催生了一系列巧妙的技术。
一个现代气候模型的状态维度 可达数亿。让我们想象一个典型场景:一个包含 个成员的集合,一个长度为 个时间步的平滑窗口,每个数字都以8字节浮点数存储。仅仅为了这个短窗口存储整个集合轨迹就需要:
即使在拥有高端并行文件系统的超级计算机上,将如此大量的数据写入磁盘也可能需要几分钟——这在业务化流程中是无法接受的漫长时间。这种“暴力”的“固定区间”平滑虽然理论上最优,但在实践中往往不可行。
最常见的解决方案是一种务实的折中:固定滞后平滑器(fixed-lag smoother)。它不使用所有未来的观测,而只使用未来一个有限长度 (其中 是“滞后”)窗口内的观测。在任何时刻,算法只需要在内存中保留集合最近 个时间步的状态,从而将存储需求从 急剧减少到 。这是以最优性换取可行性。这种做法的赌注是,当前状态与遥远未来的观测之间的相关性无论如何都可以忽略不计,因此我们不会损失太多有用的信息。
我们估计协方差的能力取决于集合大小。仅用80个成员,我们试图理解一个拥有3亿个变量的系统的统计结构,这就像试图通过采访80个人来理解整个美国经济。我们必然会发现伪相关(spurious correlations)。集合可能纯粹出于偶然,暗示堪萨斯州的风速与北极的海冰浓度相关。基于这种虚假的相关性采取行动会降低分析的质量。
解决方案是协方差局地化(covariance localization)。这是一种在数学上很复杂的“技巧”,我们告诉算法忽略物理上相距遥远的变量之间的任何相关性。我们应用一个锥化函数,该函数会平滑地将超出某个用户定义距离的协方差强制归零。这需要精心的数学构造,以确保得到的局地化协方差矩阵仍然是一个有效的半正定矩阵,这一性质通过使用所谓的正定函数(positive definite functions)得到保证。这个思想可以从空间扩展到时间,随着时间滞后的增长而削弱相关性。
标准的 EnKS 更新是线性的,它实质上假设模型输出的变化与初始状态的变化成正比。然而,真实世界是深度非线性的。基于线性假设进行一次性的大调整可能会非常不准确——就像试图根据一个粗略的初始角度猜测,用一发强力炮弹击中远方的目标。
一个更好的策略是更加谨慎。这就是迭代集合平滑器(iterative ensemble smoothers)背后的思想。这些方法不是一次性同化所有观测,而是在多个步骤中逐渐引入信息。一种强大的技术是多重数据同化集合平滑器(Ensemble Smoother with Multiple Data Assimilation, ES-MDA)。在这种方法中,我们执行多次平滑更新,但每次更新时,我们都假装观测的不确定性比实际要大得多(通过在数学上膨胀其误差协方差 )。这“缓和”了似然函数的影响,迫使算法采取更小、更谨慎的步骤。在每个小步骤之后,我们可以让集合重新通过完整的非线性模型运行,以便在采取下一步之前更好地了解系统的局部行为。这一系列小而谨慎的调整使得平滑器能够更忠实地遵循非线性问题的轮廓,收敛到一个更准确的估计值。
这种识别实际局限性并发明优雅的数学和算法解决方案的持续循环,是数据同化领域的生命力所在。这些平滑技术,不仅能解释模型本身的不完美性,还能用于调整模型的基本参数,代表了一项深刻的智力成就。它们使我们能够将不完美的模型与稀疏的观测相融合,从而为极其复杂的系统创造出一幅完整而一致的图景,这是一段对理解和预测我们的世界至关重要的发现之旅。
现在我们已经掌握了集合平滑的机制,感觉可能有点像一个刚刚学会一种新型引擎工作原理的机械师。我们看到了齿轮、活塞以及零件的巧妙布局。但真正的乐趣在于将引擎装入汽车,看看它能带我们去向何方。这种“回顾”过去以更好地看清现在的强大思想究竟能引向何处?事实证明,其目的地如科学本身一样广阔而多样。核心思想很简单:如果你想理解一个故事,你不会只看最后一帧;你会看完整部电影。滤波器只看到最后一帧,而平滑器则看到了整部电影。
集合平滑最引人注目且风险最高的应用可能是在地球科学领域。我们生活在一个永不停歇的星球上,一个由流体——空气和水——相互作用组成的复杂交响乐,我们迫切地想知道它接下来会做什么。
想象一下气象学家的任务。几十年来,目标一直是获得当下大气的最佳“快照”,以启动最佳的预报。但如果今天的天气是数天来一个微妙过程演变的结果呢?考虑一个天气锋面。它的结构、锐度以及引发恶劣天气的潜力,不仅仅是当下的属性,它们是当天天气流的特征,是一段写在风中的历史。一个简单的滤波器,在每个时刻更新其估计,可能难以捕捉这种演变的结构。然而,一个集合平滑器会审视整个窗口——比如12或24小时——内的所有观测,并提问:“与所有这些测量结果相符的、物理上最一致、动力学上最合理的的大气历史是什么?”通过这样做,它可以构建一幅远为连贯和准确的演变中的天气模式图景。平滑器的“流依赖”误差统计自然地理解误差可能会沿着锋面伸展,而不仅仅是一个均匀的团块,这是老方法难以做到的。
现在,让我们更深入地探讨海洋与大气的缓慢而宏大的舞蹈。大气轻快而迅速;海洋则稳重而有长久的记忆。我们有卫星不断测量大气风场和温度,但观测深海却极其困难。那么,我们如何知道深海在做什么?在这里,平滑展现了一项看似神奇的本领。今天的一次大气观测——比如北大西洋上持续的风场模式——对海洋产生的影响可能需要数周或数月才能完全显现。一个只看今天数据的滤波器几乎看不到什么联系。但一个具有长久记忆的平滑器可以把这些点连接起来。它知道大气观测暗示了未来海洋状态的某些信息。通过审视完整的历史和未来,它能利用丰富的大气数据来约束广阔、未被观测的海洋状态,推断出对大气强迫的延迟响应。这就像一位历史学家,通过阅读国王的信件,就能推断出一个遥远、不与外界沟通的省份未来的走向。
这种跨时间连接因果关系的能力在水文学中也至关重要。假设一个雨量计报告了过去24小时的总降雨量。这一个数字是一整天故事的总结。一个简单的滤波器在一天结束时收到这个数字,并不知道雨何时落下。是持续的细雨还是一场短暂的强暴雨?而平滑器则可以审视大气模型在那24小时窗口内的整个轨迹,并找到最可能发生的事件序列——即与观测总量相符的最合理的降雨历史。同样,下游测量站的河流流量是无数上游水源汇集的结果,每个水源都有其自身的延迟。平滑是解决这个问题的天然工具,因为它可以从测量站的观测“回溯”,并重建导致该结果的整个河网中最可能的流量历史。
到目前为止,我们讨论的都是寻找系统的状态。但如果我们不完全了解支配系统的规则——即物理定律——该怎么办?如果我们的世界模型有错误,或者包含了我们不确定的参数呢?通过一个天才般的构想,集合框架允许我们说:“让我们把未知参数当作状态的另一部分,并一并求解它!” 这被称为状态增广(state augmentation)。
假设我们的河流流量模型有一个我们不得不猜测的摩擦参数。我们可以创建一个集合,其中每个成员的摩擦参数值都略有不同。当我们同化观测时,我们不仅在更新对水位的估计,同时也在更新我们对摩擦参数的信念。那些参数值能带来更好预测的集合成员将被赋予更高的权重,整个集合将收敛到一个更好的参数估计值。迭代平滑器对于这种侦探工作特别强大,因为它们可以多次重访整个数据集,在每一轮中都改进参数估计。
真实世界甚至更为复杂。如果我们模型的参数甚至不是恒定的呢?如果辐射与云的相互作用方式取决于温度,而这个参数本身随时间演变呢?这种“扰动物理”(perturbed physics)方法处于天气和气候建模的前沿。我们可以写下一个简单的模型来描述我们认为参数可能如何随时间变化——例如,它会缓慢漂移——然后使用集合平滑器在每一刻估计其值,与大气状态本身一起估计。
这种不可思议的力量也带来了其自身的智力挑战。当你在一个业务化的循环系统(如气象预报中心每六小时运行一次)中运行平滑器时,你必须非常小心。你在一个周期结束时得到的平滑估计已经包含了来自未来观测的信息。如果你天真地将其用作下一个周期的起点,并重新同化那些相同的观测,你就在“重复计算”数据,这可能使你的系统病态地过分自信和不稳定。这是一个微妙但深刻的贝叶斯一致性问题,解决它需要巧妙的策略,比如设计不重叠的周期或明确跟踪哪些观测影响了哪些估计。这提醒我们,即使在数据同化中,也没有免费的午餐。
正当我们认为已经掌握了这个思想的精髓时,它却出现在一个完全意想不到的领域:机器学习。思考一下训练一个神经网络的过程。我们有一个权重向量,可以称之为“状态”。在训练过程的每一步,我们使用像随机梯度下降(stochastic gradient descent, SGD)这样的算法,根据一小批数据来更新这些权重。这个更新规则,,看起来与我们一直在讨论的动力学模型惊人地相似。
从这个角度看,整个训练过程就是一条穿越高维权重空间的轨迹。一次标准的训练运行只给了我们这样一条轨迹,它终结于一组最终的权重。但我们能做得更好吗?如果我们从数据同化的视角来看待这个过程呢?我们可以将SGD更新视为我们的“模型”,并在此过程中偶尔“观测”权重(或模型的某些属性)。
然后,一个集合平滑器可以处理这整条带噪声的轨迹,并生成训练路径的一个平滑估计。我们得到的不仅仅是最终的权重向量,而是关于整个权重序列的后验分布。这不一定会改变训练的终点,因为平滑器和滤波器在最终时刻的看法是一致的。然而,它为优化过程本身提供了一幅更丰富的图景。它可以揭示损失景观的几何形状,显示训练的哪些部分最不确定,并可能为我们提供一个更稳健的“真实”最优路径的估计。这是一个绝佳的例子,说明一个诞生于追踪卫星和天气锋面的概念,如何能被重新利用来阐明人工智能的抽象过程。
从海洋中旋转的洋流到机器学习中无形的路径,集合平滑证明了一条统一的原理。它是从零散的事实集合中编织出一个完整连贯故事的艺术。它提醒我们,要真正理解我们身在何处,回顾并理解我们是如何来到这里的,往往至关重要。