LULCC 建模导论：模拟我们不断变化的地球

玻尔百科

核心要点

LULCC 模型通过基于适宜性驱动因素和总体需求，确定土地状态变化的概率，从而模拟景观演变。
预测模型（预测变化可能发生的位置）与因果模型（评估干预措施的影响）之间存在关键区别。
模型可以是“自上而下”的，通过优化来分配变化；也可以是“自下而上”的，其中模式在元胞自动机或基于主体的模型中从局部互动中涌现。
应用包括创建未来情景、进行虚拟政策实验，以及量化对碳循环和生态系统服务的影响。
构建可信的模型需要解决空间统计挑战（MAUP、空间自相关）、防止过拟合，并负责任地沟通不确定性。

引言

地球表面是一幅由森林、城市和农田构成的动态镶嵌画，在人类活动和自然力量的压力下不断演变。这一过程被称为土地利用和土地覆被变化 (LULCC)，对气候、生物多样性和人类福祉具有深远影响。为了理解和驾驭这个复杂的未来，科学家们开发了 LULCC 模型——这种计算工具能模拟景观如何以及为何演变。这些模型旨在破译这种转变背后的规则，将看似混乱的过程转变为一个可以被分析和探索的系统。

本文深入探讨 LULCC 建模，将理论与实际应用联系起来。它解决了以数学方式表示景观变化的核心挑战，以及仅仅观察变化与真正理解其驱动因素之间的知识鸿沟。通过本指南，您将对这一关键领域获得全面的理解。

首先，在“原理与机制”部分，我们将解构 LULCC 模型的核心组成部分。我们将探讨景观如何被简化为网格，如何使用逻辑回归等统计方法来绘制变化的“适宜性”，以及驱动模拟的不同计算引擎——从自上而下的优化器到自下而上的涌现系统。我们还将面对关键的方法论挑战，包括预测与因果关系之间的关键差异。

接下来，“应用与跨学科联系”部分将展示这些模型如何被用作虚拟实验室。我们将看到叙事如何被转化为量化情景，模型如何用于测试政策干预并评估其因果影响，以及土地变化如何与碳排放和生态系统服务丧失等全球性后果联系起来。本节强调了建模者验证其工作并合乎道德地沟通其不确定性的责任，将这些工具定位为更明智决策的工具，而非水晶球。

原理与机制

想象一下从高空俯瞰广袤的景观。你看到的是一幅由森林、农田、城市和河流组成的镶嵌画。这不是一幅静态的画作，而是一个动态的舞台，一场安静而持续的戏剧在这里上演。一片森林让位于一块新的庄稼地。一个郊区蔓延到曾经是草原的地方。这就是土地利用和土地覆被变化（LULCC）的戏剧。作为科学家，我们的目标不仅仅是观看这场戏剧，还要理解它的剧本——建立能够捕捉景观如何以及为何转变的逻辑的模型。但是，如何为一个如此复杂的游戏编写规则呢？

景观作为宏大舞台

首先，我们必须简化。让我们把景观想象成一个巨大的棋盘，一个由单个单元格或像素组成的网格。在任何给定的时间点 $t$ ，每个单元格都有其特定的特征——它处于某种特定的状态，如“森林”、“城市”或“农业”。LULCC 的整个故事便可以描述为这些单元格随时间改变其状态的故事。一个在时间 $t$ 是“森林”的单元格，在时间 $t+1$ 可能会变成“农业”。

这不仅仅是一个方便的图景；它是一个强大建模范式的核心。通过将景观视为网格上一组离散的单元格，我们可以开始使用数学和计算的工具来描述变化的规则。那么，核心挑战就变成了计算一个单元格从一种状态转变为另一种状态的概率。是什么让一个单元格的变化时机成熟？又是什么决定了它将变成什么？

变化的两大问题：为何在此，以及变化多少？

当我们试图模拟一个景观的演变时，我们从根本上是在 grappling with 两个不同但相互关联的问题：

适宜性问题： 为什么 某块土地比另一块更有可能发生变化？是什么让一片森林成为新农场的首选，而另一片却保持原样？这是一个关于局部条件，关于对新土地利用的内在有利性的问题。
需求问题： 整个区域总共将发生多少变化？需要多少公顷的新城市用地来容纳不断增长的人口？这是一个关于大规模、通常是经济压力的问题，它决定了变化的总量。

一些模型更侧重于一个问题而非另一个，但最复杂的框架认识到两者都是必不可少的。对新农田的总体需求设定了配额，而局部适宜性则决定了新农田最有可能出现在哪里。

揭示适宜性：预测的艺术

让我们首先解决“为何在此？”的问题。直觉上，我们知道并非所有土地都是平等的。一个想种庄稼的农民会偏爱土壤好、靠近道路且离城市不太远的平地。一个规划新郊区的开发商会寻找不太陡峭且靠近现有基础设施的土地。我们称这些影响因素为变化的驱动因素。

建模者的工作是扮演侦探，利用遥感卫星和地理信息系统（GIS）的数据来创建一张适宜性地图。这张地图显示的不是土地现在是什么，而是它有潜力成为什么。但是，我们如何将所有这些不同的驱动因素——坡度、海拔、土壤类型、到道路的距离——组合成一个单一、连贯的适宜性得分呢？

这就是统计学习派上用场的地方。完成这项工作的最优雅的工具之一是逻辑回归。想象一下，我们有一份历史记录，记录了过去森林变成农田的地方。对于每个位置，我们都有结果（它是否发生了转变，是或否？）和一系列驱动因素。逻辑回归就像一台我们向其输入这些数据的机器。它会细致地分析证据，并为每个驱动因素学习一组权重 $\boldsymbol{\beta}$ 。最终的模型大致如下：

$\ln\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots$

这个方程看起来令人生畏，但它的含义很优美。左侧的 $\ln(p/(1-p))$ 是转变的对数几率——一种可能性的度量。右侧是驱动因素值 ( $x_1, x_2, \dots$ ) 的简单加权和。模型告诉我们，变化的对数可能性是证据的线性组合。一个正权重 $\beta_k$ 意味着驱动因素 $x_k$ 的增加会增加转变的几率；例如，“到道路的距离”的系数可能是负的，因为更近（距离更小）会增加开发的几率。几率本身是乘性变化的； $x_k$ 每增加一个单位，转变的几率就会乘以一个因子 $\exp(\beta_k)$ 。通过将这个学习到的公式应用于我们景观中的每一个单元格，我们可以生成一个关于转变概率 $p$ 的地图——我们梦寐以求的适宜性地图。

一个至关重要的旁白：预测与因果的区别

在这里，我们必须停下来，做一个在所有科学领域中都最深刻的区别之一。我们的适宜性模型是一个预测模型。它旨在根据历史数据中的相关性，对变化可能发生在哪里做出最佳猜测。它对于预报非常有用。然而，它本身并不是一个因果模型。

区别是什么？预测回答的是：“如果一个地点靠近道路，它被开发的可能性有多大？”因果关系回答一个截然不同的问题：“如果我们在这里建一条新路，那会如何改变它被开发的可能性？”为了回答因果问题，我们必须估计所谓的潜在结果——即一块土地在有和没有新路的情况下会发生什么。因果效应是这两个潜在未来之间的差异，通常概括为平均处理效应，或 $E[Y(1) - Y(0)]$ 。

一个预测模型可能会显示道路与开发之间有很强的关系，仅仅因为道路在历史上就建在那些已经非常适合开发的地方（例如，平坦、稳定的土地）。模型捕捉到的是这个混淆因素。它并没有告诉我们道路本身导致开发的真正力量。区分这两个目标——预测和因果推断——对于使用 LULCC 模型为政策提供信息至关重要。适宜性地图可以指导分区规划，但需要一个因果模型来准确评估拟议基础设施项目的影响。

变化的引擎：从蓝图到涌现

有了适宜性地图，我们现在可以转向推动模拟前进的引擎。广义上讲，这些引擎分为两个哲学阵营：“自上而下”的指挥者和“自下而上”的行动者。

自上而下的指挥者：分配模型

想象你是一位区域规划师，任务是分配一定数量的新城市用地，这个需求量 $D_k$ 由经济预测决定。你的目标是将这些新开发项目放在最适宜的位置。这是一个经典的约束优化问题。你希望最大化已分配单元格的总适宜性，同时受限于必须精确满足需求配额的约束。

在数学上，我们试图最大化一个像 $\sum s_{i,k} z_{i,k}$ 这样的目标函数，其中 $s_{i,k}$ 是单元格 $i$ 对类别 $k$ 的适宜性， $z_{i,k}$ 是一个决策变量，如果我们分配该单元格，则为 $1$ ，否则为 $0$ 。这个问题可以用一个源于经济学的优美直观思想来解决：拉格朗日乘子，或 $\lambda_k$ 。你可以将每个 $\lambda_k$ 看作是土地利用类别 $k$ 的“价格”或补贴。算法会迭代地调整这些价格。如果分配了太多的城市用地，那么“价格” $\lambda_{\text{urban}}$ 就会下降，使其吸引力降低。如果不够，它的价格就会上升。迭代持续进行，直到找到一个平衡点，此时每个单元格都被分配给为它提供最佳“交易”（适宜性加价格调整）的类别，并且所有区域需求都得到完美满足。

这个优雅的框架可以扩展以包含更多现实世界的复杂细节。例如，我们可以添加关于转换阻力的规则，使得转换原始森林比转换灌木丛的“成本”更高。我们还可以强制要求新开发项目在空间上是连贯的，通过添加一个奖励单元格拥有同类型邻居的项来 discouraging 微小、孤立的斑块。这有助于满足所谓的最小制图单元 (MMU)，确保最终的模式看起来真实[@problemid:3824211]。

自下而上的行动者：元胞与基于主体的模型

另一种方法是让模式从局部互动中涌现，而不是由中央指挥者分配。在这种世界观中，没有总体规划，只有一套每个单元格或“主体”都遵循的简单局部规则。

元胞自动机 (CA) 是这类模型中最典型的。想象一下，我们景观网格上的每个单元格都是一个小型自动机。在每个时间步，它会查看自身的状态、它对其他状态的适宜性，以及至关重要的，它的邻居的状态（例如，其直接摩尔邻域中的8个单元格）。然后，单元格根据一个概率规则决定是否改变其状态。这个规则通常是两种力量的结合：

自身利益： 单元格对新用途的内在适宜性，源自坡度、土壤等驱动因素。
同伴压力： 其邻居的影响。一个被农田包围的森林单元格比一个深藏在广袤原始森林中的单元格更有可能变成农田。

一种常见的方式是使用多项 logit (或 softmax) 函数来结合这些力量，该函数接受每个潜在新状态的“效用”得分并将其转换为概率。一个单元格变为（比如说）“农业”的效用将是其农业适宜性与其邻居中已经是“農業”的比例的加权和。其结果是一个动态的、自组织的系统，其中像城市蔓延或森林破碎化这样的复杂、大規模模式可以从简单、重复的局部互动中涌现出来。基于主体的模型 (ABM) 是这一思想的复杂延伸，其中决策者不是静态的单元格，而是可移动的“主体”（如农民或家庭），他们的决策反过来又改变了单元格的状态。

机器中的幽灵： grappling with 空间、尺度和不确定性

构建这些模型是一段充滿微妙陷阱和深刻问题的旅程。一个值得信赖的模型不仅是能够被构建出来的模型，更是对其局限性有充分理解的模型。

“位置、位置、位置”的问题

标准的统计方法通常假设数据点是独立的。但在景观中，这很少成立。一个单元格的属性通常与其邻居相似——这种现象称为空间自相关。忽略这一点可能导致有缺陷的统计模型和过于自信的结论。例如，一个简单的回归模型可能会将这种空间的“粘性”误解为某个驱动因素的强烈效应，而实际上它只是捕捉到了地理上的聚集现象。空间计量经济学模型，如空间误差模型 (SEM) 和空间滞后模型 (SAR)，专门设计用于解释这些空间依赖性，无论是作为误差中的干扰因素，还是作为过程本身的实质性部分。诊断这个问题，通常使用像莫兰指数 (Moran's I) 这样的工具，是建立可靠模型的关键一步。

变形的地图：MAUP

也许空间分析中最令人吃惊的陷阱是可变分区单元问题 (MAUP)。该原则指出，你的结果可能会发生变化，有时是戏剧性的变化，仅仅因为改变了你空间单元的大小（尺度）或边界（分区）。例如，想象一个 $4 \times 4$ 的网格，其中16个单元格中有3个被砍伐。森林砍伐率为 $\frac{3}{16} \approx 0.19$ 。现在，让我们将其聚合到一个更粗糙的 $2 \times 2$ 网格，使用的规则是，如果一个粗糙单元格包含任何被砍伐的精细单元格，则该粗糙单元格被视为“被砍伐”。如果这三个被砍伐的单元格落入三个不同的粗糙区块中，我们的新森林砍伐率突然变成了 $\frac{3}{4} = 0.75$ ！相同的基础现实给出了两个截然不同的答案。这种效应还可以改变，甚至逆转像莫兰指数这样的空间格局度量。MAUP 并不意味着空间分析是无望的；它意味着我们必须敏锐地意识到我们选择的尺度如何影响我们对现实的感知。

打造一个值得信赖的水晶球

最后，我们如何建立对模型预测的信心？有两个概念至关重要。

首先是过拟合的危险。一个过于复杂（参数太多）的模型可能会变得像一个为考试死记硬背的学生。他们可能完美地记住了训练数据，取得了近乎满分的成绩，但在面对新的、未见过的问题时却一败涂地。这通过模型在训练数据和验证数据上的表现差距来揭示。对于一个 LULCC 模型来说，这意味着它已经如此好地学习了 2000-2010 年期间的特定噪声，以至于无法推广到 2010-2020 年期间。解决方法包括简化模型或应用正则化——一种惩罚过度复杂性的技术，迫使模型找到更平滑、更具泛化能力的解。

其次是敏感性分析，这是一种“压力测试”我们模型的方法，以查看其哪些输入参数最具影响力。局部敏感性分析就像在其校准设置下轻轻地戳一下模型，看它对微小变化的反应。全局敏感性分析更像是猛烈地摇晃整个模型，在其全部不确定性范围内变动所有参数。这种全局方法至关重要，因为它不仅揭示了哪些参数本身很重要，还揭示了它们如何相互作用。一个参数在单独变化时可能看起来不重要，但当另一个参数也发生变化时，它可能会产生巨大的影响。对于像景观这样复杂的非线性系统，理解这些相互作用是了解真正不确定性所在的关键。

通过理解这些原则——从简单的状态网格到优化、涌现和不确定性的复杂舞蹈——我们可以开始构建不仅是优雅的数学结构，而且是稳健和值得信赖的工具，以驾驭我们星球变化的景观的未来。

应用与跨学科联系

那么，我们已经花时间拆解了土地利用和土地覆被变化 (LULCC) 模型的精细钟表装置。我们已经看到了转变规则的齿轮、适宜性地图的弹簧以及需求分配的摆轮。但钟表被制造出来并不仅仅是为了欣赏其机械结构；它是为了报时。同样地，这些模型也不仅仅是优雅的计算玩具。它们是我们用来提出关于我们与地球关系的一些最深刻和最实际问题的工具。它们是我们探索我们选择的后果的虚拟实验室，是一种窥探未来迷霧的方式，不是作为先知，而是作为探险家。

塑造可能的世界：情景的艺术

我们必须做的第一件事是学会给我们的模型講一个故事。一个模型，在其原始形式下，只是一套等待提示的规则。我们，作为科学家和公民，以情景的形式提供这个提示。情景是关于未来的一个貌似合理的故事。它可能是一个“一切照旧”的故事，一个经济快速增长的故事，或者一个社会致力于可持续发展的故事。

但是，你如何向一个只懂数字的机器讲述一个故事呢？这是一种美妙的翻译行为。例如，一个关于人口增长的叙述，被转化为对新城市用地的特定需求。一个关于全球饮食变化和商品价格上涨的故事，被转换为需要多少新耕地的目标。政府建造新高速公路网络的计划不仅仅是地图上的一条线；对于模型来说，这是可达性景观的根本性转变，改变了该区域每一个像素的 distance to road 的值。通过精心制作这些量化输入，我们将一个定性的故事情节转化为一个完整的、内部一致的虚拟世界，准备好让我们的模型进行模拟。

数字实验室：探索因果关系

一旦我们有了一个虚拟世界，我们就可以做一些真正神奇的事情：我们可以进行在现实中不可能、不道德或需要数十年才能观察到的实验。

想象一下，我们看到一条新路正在建设，几年后，它周围的森林消失了。这条路是罪魁祸首吗？还是那个地区本来就注定要被清理，而路只是随之而来？在现实世界中，解开这张因果之网是极其困难的。但在我们的虚拟实验室里，我们可以系统地进行。我们可以按照计划，运行一次带有道路扩张的模型——这是我们的“基线”。然后，我们可以再运行一次，但这次，我们发布一个简单的命令：停止所有道路建设。这第二次运行是我们的反事实世界，一个本可能存在的世界。通过比较基线世界和反事实世界中的森林砍伐情况，我们可以分离并量化仅由道路本身造成的影响。

我们可以将这种实验逻辑更进一步。假设我们想测试一项新的保护政策，比如付钱给土地所有者以保护森林。我们不能只是到处应用它然后希望得到最好的结果。相反，我们可以在我们的模型内部设计一个适当的科学试验，就像一种新药的临床试验一样。我们可以将我们的景观划分为虚拟的“集群”（也许按流域划分），并随机分配一些集群接受该政策（处理组），而另一些则不接受（控制组）。通过用不同的随机种子多次运行模拟，我们可以获得该政策平均处理效应 (ATE) 的统计上稳健的估计，同时控制区域之间预先存在的差异。

然而，有时即使在模型中，我们也没有随机实验的奢侈。我们必须理解那些人类选择已经混淆了局面的历史数据。例如，道路不是随机建造的；它们建在人们想去的地方，通常是那些适合经济发展的地方。这就是经典的*内生性问题。为了得到真正的因果效应，我们需要一个更聪明的方法。在这里，LULCC 建模与复杂的计量经济学领域相连。我们可能会寻找一个工具变量*——某样东西影响了道路的布局，但没有因其他原因直接影响森林砍伐。一个精彩的真实世界的例子是一个历史战略计划，也许是一张几十年前为国家安全而非农业潜力而设计的拟议军事或国防走廊地图。这个旧计划可以作为一个“自然实验”，让我们能够分离出与当地经济压力无关的那部分道路建设，从而推断出道路对景观的真正因果影响。

从土地变化到全球后果

一个单一的土地利用决策的涟漪会传播得很远很广。一个农民清理一块土地是一个局部行为，但数百万这样的行为的总和具有全球性的后果。LULCC 模型是我们追踪这些联系的主要工具。

最直接和最紧迫的联系是与碳循环和气候变化。当森林被砍伐时，储存在其树木和土壤中的碳被释放到大气中。我们的模型可以在行星尺度上进行细致的簿记。通过将土地覆被图与生物量密度图（通常由 LiDAR 等先进遥感技术得出）相结合，我们可以计算每一次转变产生的排放量。我们知道，将一片茂密的原始森林转变为农田所释放的碳量与转换一片稀疏的林地不同。通过将这些加总起来，我们可以将区域土地利用政策与一个国家的国家碳排放及其在国际气候协议下的承诺直接联系起来。

但碳并不是唯一重要的东西。生态系统提供了许多服务，这些服务往往直到消失才被注意到——清洁的水、作物的授粉、洪水控制。在这里，建模通过与经济学和社会科学的联系，揭示了关于人类社会的深刻真理。想象一个土地所有者正在决定是否将其林地转换为农业用地。他们权衡私人利益——作物的利润——与他们的私人成本。但是他们强加给别人的成本呢？这是经典的“外部性”。他们转换的土地可能会增加径流和土壤侵蚀，降低下游村庄的水质。它可能会移除传粉媒介的栖息地，减少邻居的作物产量。

一个基于主体的模型 (ABM) 让我们能够明确地探索这种张力。我们可以计算主体的边际私人收益，这仅仅是他们预期的利润减去他们个人重视的任何生态系统服务。但我们也可以计算边际社会收益，这包括那片森林对景观中其他所有人的价值。几乎总是，转换的私人收益高于社会收益。模型让我们能够量化这个差距——个体理性与集体福祉之间的差距。这就是公地悲剧，用像素和主体的语言写成。

对信任的追求：验证与创新

有如此重要的工作要做，我们的模型最好是优秀的。但我们怎么知道呢？我们必须不断地用现实来检验它们。其中最简单、最强大的工具之一是*混淆矩阵*。我们拿出模型的最终土地覆被图，并将其与从高分辨率卫星图像或实地调查中得出的参考图进行逐像素比较。混淆矩阵是一个简单的表格，它不仅告诉我们模型总体上正确了多少像素，还告诉我们其错误的性质。它回答了两个不同的问题：

从地图使用者的角度：如果我选择一个地图上标明为“森林”的像素，它在地面上实际上是森林的概率是多少？这是*用户精度*。
从地图生产者的角度：地面上所有真正的“森林”中，我的地图正确识别了多少百分比？这是*生产者精度*。

通过观察模型在哪里会混淆（例如，总是将湿草地误认为农业用地），我们可以了解其弱点并努力改进。

而改进是一个持续的追求。LULCC 建模领域是创新的交汇点，借鉴并整合了计算机科学和机器学习的思想。我们不再局限于单一类型的模型。我们可以建立一个模型的集成，一个专家团队。我们可能会结合一个擅长捕捉线性趋势的传统统计模型，一个擅长发现变量之间复杂、非线性交互作用的随机森林模型，以及一个理解空间邻域效应的元胞自动机。使用一种称为*堆叠法*的技术，我们可以在顶部添加一个“元学习器”——可以看作是一个管理者——它学习如何最好地权衡每个基础模型的“意见”，以产生比任何单一模型本身都更准确、更稳健的最终预测。

建模者的负担：谦逊与责任

我们已经看到，这些模型远不止是计算器。它们是观察可能未来的望远镜，是测试政策的实验室，是人类社会语言与自然世界语言之间的翻译器。这赋予了建模者深远的责任。最大的危险不是模型的预测会出错，而是它会被误解，或者以一种虚假的确定性感呈现出来。

这把我们带到了沟通的伦理问题。当我们呈现一个例如 18% 森林丧失的情景时，我们有道德义务同时也传达围绕这个数字的不确定性。而且不仅仅是一个不确定性的数字，而是它的不同类型。有*偶然不确定性，即世界固有的、我们永远无法消除的随机性，就像掷骰子一样。还有认知不确定性*，这来自我们自己的无知——我们模型参数或其结构本身的不确定性。区分它们告诉我们我们的研究工作应该走向何方：如果不确定性主要是认知的，我们可以通过更多的数据和更好的模型来减少它。

我们有责任清晰、反复地声明，情景不是预测。它们是“如果……会怎样”的探索。给一个情景赋予概率——比如说“一切照旧”情景有 70% 的可能性——是犯了建模的一个基本罪过，因为它从根本上歪曲了这项工作的性质。最负责任的做法是彻底的透明：发布代码、数据和假设。像记录模型的优点一样清晰地记录其局限性。欢迎审查。与那些生活和景观可能受到这些模型所 informing 的决策影响的人们进行交流。

归根结底，LULCC 建模的目的不是为未来提供明确的答案。它的目的是丰富我们的思维， sharpening our questions, 并闡明我们今天面临的选择的后果。它不是一个用于预测的工具，而是一个用于智慧的工具。