环境预测：从理论到应用

玻尔百科

核心要点

现代环境预测已采纳概率方法，从单点预测转向能够量化不确定性和风险的预测分布。
状态空间模型通过将系统未被观测的真实状态（过程模型）与不完美的测量（观测模型）分离，提供了一个强大的框架。
有效的预测需要理解和管理不同类型的不确定性——偶然不确定性（内在随机性）、认知不确定性（知识的缺乏）和结构不确定性（模型错误）。
预测的原理远不止应用于生态学，它通过“健康与疾病的发育起源”（DOHaD）范式，为遗传学、演化生物学乃至人类健康提供了重要的见解。

引言

预见我们环境的未来是我们这个时代最关键的挑战之一，但这门科学与凝视水晶球的简单行为相去甚远。真正的环境预测是一门复杂的学科，它驾驭着既定法则、可测量数据和基本不确定性之间的复杂相互作用。它解决了人们渴望获得单一、确切答案与需要一幅现实的可能结果图之间的知识鸿沟。本文将揭开这门复杂科学的神秘面纱。

首先，我们将探讨现代预测的核心“原理与机制”。您将了解到该领域如何从追求确定性转向拥抱概率，为什么状态空间模型是这种方法的基石，以及如何剖析每个预测中所包含的不同“类型”的不确定性。在此之后，“应用与跨学科联系”一章将揭示这些思想的深远影响。我们将看到，用于绘制物种栖息地的相同预测逻辑，同样适用于理解新性状的演化、我们自身基因构成的复杂性，甚至是在我们出生前就塑造我们健康的生长发育过程。

原理与机制

洞察我们环境的未来是科学最宏大、最紧迫的挑战之一。但这是如何做到的呢？这完全不同于凝视水晶球，看到一个单一、明确的未来景象。相反，现代环境预测是一门精妙而优美的艺术，是我们在已知、可测与根本未知之间的一场舞蹈。这是一门绘制可能性地图、勾勒不确定性轮廓的科学。在本章中，我们将揭开帷幕，探讨实现这一切的核心原理和精妙机制。

新的预言：从确定性到概率性

几个世纪以来，科学的梦想是确定性的。找到规律，测量初始条件，未来就会像钟表一样精确展开。想想经典的捕食者-被食者模型，如著名的 Lotka-Volterra 方程，它可能会预测一个雀鸟种群将达到一个精确的最低数量，比如 $225$ 只。这是一种确定性的预言。

但大自然并非时钟。它充满噪音、复杂且出人意料。一次突然的寒流可能会减少雀鸟的食物供应；一个随机突变可能会使疾病更具毒性。因此，现代预测方法经历了一场革命。它放弃了对单一数字的追求，转而使用概率的语言。现代模型不再预测确切的 $225$ 只鸟，而是生成一个预测分布——一条可能性的曲线。它可能会说，最可能的结果确实是 $225$ 只鸟，但同时也有 $10\%$ 的可能性种群数量会骤降至 $175$ 个体的临界阈值以下，从而触发保护警报。这种从单一数字到可能性范围的转变并非承认失败，而是更深层次理解的体现。它使我们能够量化风险，不仅基于最可能发生的情况做出决策，也基于那些危险的可能性。

水晶球的剖析：状态空间模型

那么，我们如何构建一台能生成这些概率性未来的机器呢？生态预测中许多最强大的工具都建立在一个被称为状态空间模型的精妙框架之上。

想象一下，你是一名侦探，正试图追踪一个嫌疑人在城市中的行踪。你从未直接看到嫌疑人——他们真实、每时每刻的路径对你来说是隐藏的。这就是潜在状态，即我们关心的未被观测到的现实（例如，湖中鱼的实际数量）。你没有直接的观测，而是得到一些线索：这里有一张信用卡收据，那里有一张模糊的监控摄像头图像。这些是你的带噪观测——对真相的不完美一瞥（例如，渔网中捕获的鱼的数量）。

状态空间模型正是对这种侦探工作的数学形式化。它包含两个基本部分：

过程模型：这部分描述了系统自身变化的规则。它讲述了潜在状态的故事。例如，它可能会说，明年的鱼群数量（ $x_{t+1}$ ）是今年鱼群数量（ $x_t$ ）的函数，外加一些随机的人口统计波动（一些鱼出生，一些鱼死亡）。这通常被假设为一个马尔可夫过程，意味着未来状态仅取决于当前状态，而非其之前的整个历史。这是一个简化但强大的假设，即“现在包含了知晓未来所需的所有信息”。
观测模型：这部分描述了隐藏的现实与你的数据之间的联系。它指出，你在网中计数的鱼的数量（ $y_t$ ）是湖中真实鱼数（ $x_t$ ）的函数，外加一些测量误差（也许你的网有破洞，或者你只在湖的一部分进行了采样）。

一个非线性状态空间模型的完整规范可以被非常优雅地写出来。潜在状态 $x_t$ 根据过程模型 $p(x_t | x_{t-1}, \theta)$ 演化，而观测值 $y_t$ 则根据观测模型 $p(y_t | x_t, \theta)$ 从该状态生成，其中 $\theta$ 代表模型的参数。将“真实”的过程变异性与观测误差分开，是一个深刻的概念飞跃。它使我们能够区分生态系统中真正发生的事情和我们测量方式中的不完美之处。

为了让我们的模型运行，我们需要描述驱动过程的力量。这引出了系统内部逻辑和外部压力之间的一个关键区别。我们分别称之为内生动态和外生驱动。内生动态是内部反馈循环，例如鱼群数量对其自身密度的依赖。外生驱动是影响系统但不受系统影响的外部驱动因素，如水温或捕捞压力。一个完整的模型必须同时考虑这两者。

不确定性分类法

我们的状态空间模型提供了一个框架，但其预测仍然是模糊的。这种“模糊性”，即不确定性，并非一团混沌。要成为一名优秀的科学家——以及一个明智的预测使用者——我们必须学会剖析它。不确定性有三种基本的“类型”，这是一套名副其实的无知分类法。

偶然不确定性：这是世界固有的、不可简化的随机性。就像掷骰子一样。在我们的模型中，它由过程噪音（例如，某条鱼是否能熬过冬天）和观测误差（例如，传感器读数的随机波动）来表示。这种不确定性无法通过收集更多关于过去的数据来减少。它是系统本身的一个基本特征。
认知不确定性：这源于我们知识的缺乏。就像不知道骰子是否被动过手脚。它包括关于我们模型参数（ $\theta$ ）正确值的不确定性。例如，我们可能不知道一个种群增长的确切速率。这类不确定性可以通过收集更多数据来减少。然而，有时我们的数据无法区分那些能产生几乎相同结果的不同参数组合——这是一种令人沮丧但常见的情况，称为殊途同归。例如，一个稳定的种群可能是低出生率和低死亡率的结果，也可能是高出生率和高死亡率的结果。没有更具体的数据，这两种情况从外部看可能完全相同。
结构不确定性：这是最深层、最危险的不确定性。它意味着我们可能完全玩错了游戏——我们带着棋盘来参加一场扑克牌局。结构不确定性意味着我们模型的方程，即关于系统如何运作的基本假设，是错误的。也许我们在关系是非线性时假设了线性关系，或者我们遗漏了一个关键的捕食者，或者我们为误差选择了错误的统计分布。

贝叶斯分析提供了一种优美的方式来组织这些不确定性。它通过将认知不确定性（例如，参数 $\theta$ 的不确定性）表示为概率分布来处理它。为了得到最终预测，我们将所有可能的参数值的结果进行平均。这个过程被称为边缘化，是现代统计学的基石。一个预测中的总预测不确定性自然地分为两部分：来自内在随机性（偶然不确定性）的部分和来自我们对模型参数和结构知识缺乏（认知不确定性）的部分。

与恶魔的决斗：相关性、因果关系与变化的世界

结构不确定性是最大的恶魔，因为世界并非静止不变。一个今天有效的模型明天可能就会失效，尤其是当它建立在相关性而非因果关系的基础上时。这就把我们带到了建模之路的一个关键岔路口：在相关性模型和机理模型之间做出选择。

一个相关性模型是模式发现者。例如，它可能会注意到，某个鸟类物种总是出现在温度介于 $15^\circ \mathrm{C}$ 和 $25^\circ \mathrm{C}$ 之间且雨量充沛的地方。它学习到一个存在（ $y=1$ ）与环境协变量（ $x$ ）之间的统计关系， $p(y=1 | x)$ 。这些模型可以非常强大，但它们有一个致命弱点：它们只有在世界的模式保持不变时才可靠。

另一方面，一个机理模型试图从第一性原理出发构建系统。它不仅仅是记录鸟类生活在哪里，而是会模拟鸟类的生理学：它的新陈代谢率、对水的需求，以及其致死温度极限（ $CT_{max}$ ）。它试图定义种群增长率 $r(x)$ 为正的条件。

现在，想象一个由气候变化塑造的未来。在过去，高温可能总是与高降雨量相关。相关性模型可能只学到鸟“喜欢高降雨量”，而不理解温度的限制。如果未来出现炎热且干燥的新型气候，相关性模型可能会错误地预测鸟类可以在那里生存。然而，机理模型知道鸟类在温度超过其 $CT_{max}$ 时会因热应激而死亡，因此会正确地预测其不会出现。

相关性模型的这种脆弱性源于世界是非平稳的。环境的统计特性会发生变化。统计学家为这些变化起了名字：

协变量漂移：环境的分布发生变化（ $p(\mathbf{x})$ 漂移），但物种的偏好保持不变（ $p(y | \mathbf{x})$ 稳定）。例如：一场持久的干旱使地貌变得更焦黄、更炎热，但物种仍然偏好少数剩下的绿色、凉爽的地点。
概念漂移：物种的偏好本身发生了变化（ $p(y | \mathbf{x})$ 漂移）。例如：由于季节时间的变化，一种鸟类开始选择与过去不同的植被类型，即使在相同的气候条件下也是如此。

将相关性误认为因果关系的危险，使得外推——在历史经验范围之外进行预测——成为科学家所能做的最冒险的事情之一。机理模型根植于我们认为是恒定不变的物理和生物学定律，为在快速变化的世界中做出稳健的预测提供了最大的希望。

不可逾越的界限：当可预测性终结时

然而，即使拥有完美的机理模型，我们的预见能力也是有限的。许多自然系统，从天气到种群，都是混沌的。它们表现出对初始条件的敏感依赖性，即众所周知的“蝴蝶效应”。我们对当前状态测量的微小误差会呈指数级增长，最终完全淹没我们的预测。

这种误差增长的速率由一个称为李雅普诺夫指数的数字捕捉，记为 $\lambda$ 。一个正的 $\lambda$ 是混沌的标志。对于一个简单的混沌系统，我们可以推导出一个极富洞察力的公式，来说明我们的预测在多长时间内保持有效。预测时限 $T_\epsilon$ ，即初始小误差 $\sigma_0$ 增长到不可接受水平 $\epsilon$ 所需的时间，由以下公式给出：

T_\epsilon = \frac{1}{\lambda} \ln\left(\frac{\epsilon}{\sigma_0}\right)

这个小小的方程是用数学写就的诗篇。它告诉我们一些深刻而令人谦卑的道理。注意对数函数 $\ln$ 。这个函数增长得非常非常慢。这意味着，要想让我们的预测时限实现适度的线性增长，我们需要在初始测量的精度上实现赫拉克勒斯般的指数级提升。而真正的暴君是分母中的 $\lambda$ 。它越大——系统越混沌——我们的预测时限就缩短得越快，无论我们的数据有多好。对于某些系统，有效预测的时限可能只有几天或几周，这是一堵任何技术都无法突破的坚固壁垒。

预言实用指南：预报、推算与情景

面对如此复杂和不确定的前景，科学家们该如何传达他们的发现？我们必须精确使用语言。并非所有的预测都是生而平等的。根据它们如何处理未来外部驱动因素（如气候变化或政策决策）的巨大不确定性，我们可以将其分为三类：

预报（Forecast）：预报试图做出最完整、最无条件的概率性预测。它涉及整合所有主要的不确定性来源，包括未来外生驱动因素本身的不确定性（例如，使用概率性天气预报作为输入）。由于量化驱动因素的不确定性只在短期内可行，真正的预报通常仅限于较短的时间范围（例如，下周的藻华）。
推算（Projection）：推算是一种有条件的、“如果……会怎样”的陈述。它预测在给定一个特定的、假设的外部驱动因素路径下生态系统的未来。例如，“如果全球平均海洋温度上升 $2^\circ \mathrm{C}$ ，2050 年的全球鱼类储量会是多少？”我们不会为那 $2^\circ \mathrm{C}$ 的上升分配概率；我们只是探讨其后果。对于无法预报驱动因素的长期规划而言，推算是必不可少的。
情景（Scenario）：情景是一种特殊的推算，其中假设的驱动因素路径是一个更宏大、内部一致的未来叙事的一部分。例如，政府间气候变化专门委员会（IPCC）制定了共享社会经济路径（SSPs），这些路径是关于全球社会、人口和技术可能如何演变的详细故事。生态学家随后可能会基于这些命名情景之一进行推算，例如“在 SSP5-8.5 情景下预测 2100 年亚马逊雨林的范围”。情景本身不被赋予概率；它们作为一组貌似可行、可供选择的未来，用以辅助政策制定。

理解这些区别是负责任地解读关于我们环境的预测的最后一把钥匙。它们不是刻在石头上的预言，而是精心构建的可能性地图，源于对自然机制的深刻理解和对我们自身无知的深切尊重。

应用与跨学科联系

我们花了一些时间探索环境预测的原理和机制，审视了模型的内部构造和不确定性的本质。现在，让我们退后一步，欣赏这幅全景。这门科学将我们带向何方？它打开了哪些大门？你会发现，预测的概念不仅是生态学家或气候科学家的工具，它是一条金线，贯穿于整个生物学的织锦，照亮了从全球湍流的宏大尺度到单个细胞精细运作的各种现象。

这段旅程始于流体动力学领域一个优美的类比。长期以来，努力理解湍流——空气或水的混沌、涡旋运动——的物理学家们已经认识到一个根本性的选择。你想预测流动的“天气”还是“气候”？预测天气，就是计算每一时刻每一阵风和每一个涡流的确切位置，这是一项被称为直接数值模拟（DNS）的艰巨任务。预测气候，则是对所有那些混沌细节进行平均，求解流动稳定、长期的统计特性，这是一种更易处理的方法，称为雷诺平均纳维-斯托克斯（RANS）方程。前者寻求具体状态；后者寻求平均行为。这种在解析瞬时状态和为统计特性求平均值之间的深刻区别，不仅仅是工程师的技巧；它是一把钥匙，解锁了生命科学领域的诸多应用。

预测生命分布：生态制图学艺术

想象你是一位生态学家，任务是绘制一幅地图，不是关于国家或道路，而是关于一个物种的潜在家园。这就是物种分布模型（SDM）的艺术，它是环境预测的基石。要做到这一点，你必须像那个生物一样思考。它需要什么才能生存？如果你要绘制像原绿球藻（Prochlorococcus）这样的海洋光合微生物的栖息地，你会关注在阳光普照的海洋中生存的基本要素：海面温度、光合作用所需的光照，以及硝酸盐等关键营养物质的浓度。但如果你的研究对象是一棵巨大的saguaro（巨人柱）仙人掌，那么关注点就完全不同了。它害怕霜冻，所以冬季的最低温度至关重要。它是一种沙漠植物，因此年降雨量很重要。作为一种肉质植物，它讨厌“湿脚”，这使得排水良好的土壤成为必需品。通过将一个生物体的基本生理学转化为一组环境变量，计算机可以扫描整个地球的地图，并标出该物种可能生活的区域。

然而，这些地图并不是静止的。我们的星球正在变暖，这些预测的“家园”正在移动。现代生态学中的一个关键概念是“气候速率”——你需要以多快的速度穿越地表才能保持在一个恒温区内。一个物种要想生存，它自身的迁移速率必须跟上这个速度。如果跟不上，它就面临“迁移赤字”和被其赖以生存的气候抛在后面的风险。思考一下风媒传播的一年生植物和生长缓慢的橡树之间的鲜明对比：前者可能每年都能繁殖一代，并将种子散播到数公里之外；而后者需要几十年才能成熟，其沉重的橡子落在母树附近。一个简单的计算揭示了危险：橡树的潜在迁移速率可能比它所依赖的气候速率慢几个数量级，这使它在快速变化的世界中处于严重危险之中 [@problem-id:1758592]。

这种预测的力量不仅是未来的水晶球，它也可以是通往过去的时间机器。通过将过去时代的气候数据——从冰芯和沉积层中重建——输入物种分布模型，我们可以回溯预测一个物种在几千年前可能生活的地方。这彻底改变了谱系地理学领域，该领域旨在理解塑造当今生命分布的历史过程。例如，在末次冰盛期，欧洲物种是被限制在西班牙和意大利等南部半岛，还是在“隐秘的”北方避难所中持续存在？通过将生态位模型投射回冰河时代，并将其预测与化石花粉记录进行核对，科学家可以检验这些相互竞争的假说，将预测作为历史发现的工具。

构建预测引擎：从物理到预报

我们如何建造这些水晶球？有时，我们可以像钟表匠组装精密调校的机器一样，从第一性原理构建它们。在海洋中，驱动整个海洋食物网的营养物质浓度受制于一种微妙的平衡。一方面，湍流混合和扩散等物理过程将营养物质从深海带到上层。另一方面，阳光充足的表层水域中的生物活动消耗了它们。通过写下一个代表这种平衡的数学方程——一个表示向上扩散的项与一个表示生物消耗的项——我们可以推导出一个预测任何深度营养物质浓度的公式。这不仅仅是统计相关性；它是一个机理模型，植根于流体物理学和生物学法则，并构成了预测海洋在吸收大气二氧化碳中作用的全球气候模型的关键组成部分。

然而，更多时候，大自然过于复杂，无法用完美的钟表式模型来描述。我们必须求助于数据和统计学，但这里，微妙的陷阱等待着我们。当我们从过去学习来预测未来时，我们必须尊重时间之箭。生态数据，如温度或动物种群的记录，通常是自相关的：今天的状态高度依赖于昨天。如果我们天真地打乱这些数据来训练和测试模型，我们就是在作弊；我们让模型窥探到了来自不久未来的信息。严谨的预报需要专门的验证技术，如分块交叉验证或滚动原点评估，这些技术总是用过去的数据来预测未来，从而诚实地模拟预报在现实世界中的表现 [@problem-id:2482822]。

尤其当我们预测的不是一个数字，而是一个事件的概率时，什么才是一个好的预报？思考一个对溪流中两栖动物每日是否出现的预报。一个好的概率性预报有两个优点：可靠性和分辨力。可靠性，或称校准，是衡量诚实度的标准：当模型预测有30%的出现概率时，从长远来看，这种两栖动物是否真的在30%的情况下出现？分辨力是衡量锐度的标准：模型是否有能力自信地区分低概率和高概率的情况？一个总是预测长期平均值（“气候学平均率”）的预报可能很可靠，但其分辨力为零，因此毫无用处。通过使用像布莱尔分数（Brier score）这样的工具，科学家们可以将其预报误差分解为这些组成部分，从而使我们能够深入了解其优缺点 [@problem-id:2482839]。

前沿预测：基因、发育与演化

预测之舞不仅发生在生物体与其世界之间，也发生在其自身生物学的深处，连接着遗传学、医学和演化理论的前沿。

我们常常认为基因是简单的蓝图，但现实要微妙得多。一个基因的效应——其对身高或疾病风险等表型的贡献——通常不是固定的，而是深刻地依赖于环境。这就是基因-环境（ $G \times E$ ）交互作用的领域。一个为预测作物产量而开发的多基因评分，在水分充足的田地里（它最初在那里被训练）可能表现出色，但当应用于易旱地区时，其预测能力可能会完全崩溃。为什么？因为在一种环境中赋予优势的基因，在另一种环境中可能是中性的，甚至是-有害的。在第一种环境中训练的模型学到的“规则”只在局部有效。理解和建模这些交互作用是现代遗传学最大的挑战之一，对于从培育有适应力的作物到实现个性化医疗的承诺都至关重要。

环境预测的范围甚至延伸到预测演化本身。物种并非在真空中演化；它们被锁定在一个与伙伴、竞争者、捕食者和猎物相互作用的“地理镶嵌”中。在某些地方，捕食者和猎物可能处于紧张的协同演化军备竞赛中——一个“热点”——而在其他地方，选择压力很弱或不存在——一个“冷点”。我们现在可以期望建立模型来预测这些热点的地图将如何随着气候变化而移动。这样的模型将环境推算与相互作用个体的适应度联系起来，运用数量遗传学的原理来预测它们的性状将如何演化，并将未来的热点定义为相互选择压力保持强大的地方。这代表了气候科学、生态学和演化生物学的大胆综合。

也许最惊人的预测，是你自己在出生前就已经参与其中的一个。健康与疾病的发育起源（DOHaD）范式建立在一个惊人的观点之上：发育中的胎儿扮演着预测引擎的角色。它利用来自母体环境的线索——例如关于营养物质可获得性的线索——来“预测”它将要出生的世界是什么样子。然后，它通过表观遗传学的方式，为那个被预测的世界校准其新陈代谢和生理机能。这是一种“预测性适应反应”。一个感知到营养贫乏环境的胎儿可能会发展出一种“节俭表型”，专门为高效储存能量而优化。几千年来，这是一种绝佳的生存策略。但如今，如果一个胎儿做出了一个严酷世界的“预测”，却出生在一个营养丰富的世界，一场悲剧性的“错配”就发生了。这种节俭的生理机能，现在被大量卡路里轰炸，变成了一种负担，使个体易患上肥胖和2型糖尿病等成年期心血管代谢疾病。这个框架将慢性病重新定义为并非简单的机能衰竭，而是在我们现代世界中，一个被证明是错误的预测所带来的后果。

预测是生命的标志吗？

我们已经在栖息地测绘、海洋力学、遥远的过去、演化的未来以及我们自身的发育中看到了预测。这把我们引向一个最终的、深刻的问题。这种预测性计算能力是生命本身的基本特征吗？

思考一下稳态这一简单任务——在波动的世界中维持稳定的内部状态。一个简单的化学缓冲液以反应的方式做到这一点。它被动地抵抗变化，就像弹簧在被压缩时反弹一样。它完全活在当下。现在，考虑一个生命有机体。它可以构建一个内部的环境模型。它预测着昼夜、夏冬的规律性循环。它产生的纠正行为不是对当下的反应，而是对未来的预期。这个预测系统并非完美；生物过程有延迟，所以它的反应总是比理想状态滞后一点。然而，一项定量分析揭示了一些非凡之处。即使有这个缺陷，一个对未来做出预测的系统，相比一个纯粹反应性的系统，能维持更稳定的内部状态——即与其最佳状态的均方误差更低。

这或许是生命的一个决定性特征。生命系统与无生命的物质不同，似乎被赋予了为世界建模、区分信号与噪声、并根据对未来的预期采取行动的能力。从沿着化学梯度定位的细菌，到思索自身未来的人类大脑，生命似乎就是一台预测引擎，不断努力地在无情的时间洪流中领先一步。