仅有分布数据

玻尔百科

核心要点

仅有分布数据的主要挑战是采样偏差，即观测到的地点反映的是人类活动，而非物种真实的环境偏好。
诸如使用目标类群背景或建模观测者努力度之类的统计技术可以修正采样偏差，从而分离出真实的生态信号。
仅有分布数据只能确定栖息地使用的相对概率，而不能确定物种出现的绝对概率。
当与气候模型结合时，仅有分布数据使科学家能够重建过去的分布、预测未来的区系范围变化并研究演化过程。

引言

在生态学中，了解一个物种生活在哪里是一个基本目标。通常，我们的主要信息来源是仅有分布数据——这是一个庞大且不断增长的集合，来自博物馆记录、博物学家的日志以及现代公民科学应用程序。每一个点都证实了某个物种曾在何处被发现。最大的挑战在于将这些点连接起来，以了解一个物种可能生活的所有地方。然而，这些数据并非生物学的纯粹反映；它内在地因人们碰巧在哪里观察而产生偏斜，这个问题被称为采样偏差。这个模型中的幽灵可能导致模型绘制出观测者的行为图而非物种的栖息地，从而造成一个关键的知识鸿沟。

本文探讨了使用仅有分布数据所面临的挑战与取得的成功。在第一章“原理与机制”中，我们将剖析采样偏差问题，并探索为解释这一问题而发展的精妙统计策略，阐明这类数据能告诉我们什么，又不能告诉我们什么。随后，在“应用与跨学科联系”中，我们将见证这些修正后的模型如何被应用于绘制生物多样性地图、重建遥远的过去，以及预测地球变化中生命的未来。我们首先从审视这类数据的核心机制及其偏差的欺骗性力量开始。

原理与机制

想象一下，你是一名侦探，试图绘制出一个神秘莫测人物的秘密藏身之处。你没有他们位置的完整列表，而是拥有一系列零散的线索：一张从巴黎寄出的明信片、一张开罗咖啡馆的收据、一张东京剧院的票根。每条线索都是一个单一、已确认的存在点。这就是仅有分布数据的本质：地图上的一系列标记点，代表某个物种曾被观察到的地方。这类数据非常丰富，源自数百年的博物馆收藏、博物学家的日志，以及如今数百万公民科学家的智能手机应用。生态学家的宏伟目标是连接这些点，审视每个地点的环境——气候、植被、土壤——并推导出一个通用规则，一个“栖息地剖面”，用以描述该物种在世界上可能生活的所有地方。这就是物种分布模型（SDMs）的工作。

但我们立刻就遇到了一个障碍。这张线索地图并非该人物偏好的真实地图，而是他们去过并且留下了线索并被发现的地方的地图。我们收集的目击记录是两个不同过程的产物：物种生活在某处的生物学过程，以及人类在那里进行记录的观测过程。观测到的模式是物种真实分布和我们采样努力度的共同函数。这个简单的事实是使用仅有分布数据的核心挑战，是模型中可能导致我们误入歧途的幽灵。

采样偏差的欺骗性力量

如果我们忽略观测过程，我们的模型可能会错得离谱。想象一下为一种稀有的幽灵兰绘制记录图。如果我们的大多数观测来自一个研究充分的国家公园，我们的模型可能会得出结论，认为这种兰花的理想栖息地是由该公园精确的环境条件所定义的。它学到的不是兰花的生态位，而是生态学家喜欢去哪里远足。这就是采样偏差：数据的非随机收集。模型变成了观测者行为的地图，而不是物种生物学的地图。

这种偏差可能更加微妙和隐蔽。考虑一种原产于澳大利亚温和气候的观赏植物，如今在全球各地的花园中种植。园丁们提供的存在记录可能会显示该植物在美国干旱的西南部和寒冷的东北部“存活”。一个天真的模型会将其解释为该植物具有极宽气候耐受性的证据，暗示它可能成为一种广泛传播的入侵物种。但这个结论是有缺陷的。这种植物并非在沙漠中存活，而是在一个经过灌溉和照料的花园中存活。它并非在严冬中存活，而是在靠近温暖房屋的避风处存活。

这揭示了生态学中的一个关键区别：基础生态位与现实生态位之间的差异 [@problem-id:2788892]。

基础生态位是物种基于其内在增长率 $r$ 在生理上能够存活和繁殖的全部非生物条件（如温度和湿度）范围。可以将其视为在没有天敌和竞争者的实验室条件下定义的物种潜力。
现实生态位是物种实际被发现的那些条件中一个更小的子集，受到竞争者的排挤、捕食者的捕食以及山脉或海洋等无法逾越的扩散障碍的限制。

花园植物的例子展示了更具欺骗性的情况。数据点既不代表基础生态位，也不代表现实生态位；它们代表的是一个人类补贴的生态位。模型将人类干预误认为是自然恢复力，导致对物种真实能力的危险高估。

亡羊补牢：修正策略

作为侦探，我们如何修正线索存在偏差这一事实？我们无法回到过去以不同的方式收集它们，但我们可以在分析它们时变得更聪明。核心思想不是消除偏差，而是将其考虑在内。

以偏制偏

其中一个最巧妙的解决方案是使用目标类群背景。假设我们正在为一种引起血吸虫病的淡水螺绘制地图，而我们的存在记录都集中在道路附近。我们不是将这些螺类所在位置的环境与整个景观的环境进行比较，而是将其与所有其他淡水物种的位置进行比较，这些物种是由相同的项目收集的。这个有偏差的背景样本充当了观测过程的对照。其逻辑是强大的：“鉴于我们已经在一个靠近道路且采样密集的区域，这个特定的地点有什么特别之处，能让我们的目标螺类喜欢这里？”通过使用与我们的存在数据具有相同采样偏差的背景，偏差倾向于相互抵消，从而使真实的生态信号得以凸显。

为观测者建模

另一种方法是明确地为观测者的行为建模。我们无法知道每一位博物学家的确切路径，但我们可以使用努力度代理变量——那些可能与人们观察地点相关的可测量变量。诸如“到最近道路的距离”或“人口密度”等协变量通常是采样努力度的有力预测因子。通过在我们的模型中包含这些可及性变量，我们可以指导模型在统计上区分采样便利性的影响和真实环境适宜性的影响。模型学会回答这样一个问题：“在考虑到高海拔地区难以到达且很少被采样后，这个物种到底有多喜欢高海拔地区？”

一种简单粗暴的修复方法

一个更简单、更直接的方法是空间稀疏化。在我们过度采样的国家公园里，我们可能有数百个兰花记录聚集在一起。这些点并非独立的；它们一遍又一遍地告诉我们同样的事情：“兰花喜欢这里。”稀疏化通过强制点与点之间保持最小距离来减少这种伪重复，例如，通过在每平方公里的网格单元中只保留一个记录。这并不能解决未采样区域的问题，并且它涉及到丢弃有效数据，但它能防止模型的算法被重度采样区域的高密度点所压倒。这是一种务实的方式，可以使来自物种分布范围各处的数据获得更平等的发言权。

知识的层次：我们究竟能知道什么？

我们所拥有的数据类型从根本上决定了我们能够达到的知识深度。仅有分布数据，尽管数量庞大，但在确定性层次中处于底层。

第一层：仅有分布数据 有了仅有分布数据，即使在应用了我们巧妙的修正之后，我们也只能估计一个资源选择函数（RSF）。这个函数告诉我们使用的相对概率。我们可以得出结论，一个物种选择栖息地A的可能性是选择栖息地B的两倍。然而，我们无法确定出现的绝对概率。我们不能说：“这个物种出现在这个位置的概率是 $70\%$ 。”这个绝对尺度对我们来说是隐藏的，与整个景观中未知的总采样努力度无可救药地混淆在一起。

第二层：存在-缺失数据 更进一步的是拥有存在-缺失数据，调查员不仅记录了他们在哪里发现了物种，还记录了他们在哪里寻找了但没有发现。这似乎应该能解决所有问题。但一个新问题出现了：“缺失”是真正的缺失，还是调查员只是未能探测到在场的物种？观测到的结果是一个乘积：探测到物种的概率， $P(\text{detection})$ ，是它实际在那里的概率 $\psi$ 乘以如果它在那里你发现它的概率 $p$ 。数据只给了我们这个乘积， $P(\text{detection}) = \psi \cdot p$ 。我们仍然无法将生物学现实（ $\psi$ ）与观测过程（ $p$ ）分离开来。

第三层：重复访问的存在-缺失数据 黄金标准是来自重复访问的探测/未探测数据。在这里，调查员多次访问同一个地点。这是解开这个谜题的关键。如果你访问一个地点三次，得到像 $(1, 0, 1)$ 这样的探测历史，你可以确定两件事。首先，该物种曾出现在那个地点（ $Z_i=1$ ）。其次，你的探测概率 $p$ 并不完美，因为你在第二次访问时错过了它。从至少有一次探测的地点获得的信息，可以让你为 $p$ 建立一个模型。一旦你掌握了自己的易错性，你就可以审视一个探测历史为 $(0, 0, 0)$ 的地点，并做出更有根据的判断。你现在可以恰当地将未探测事件划分为“真实缺失”和“错过的存在”。这最终使得估计 $\psi$ （即占有概率的绝对值）成为可能，而这正是许多生态和保护问题的最终目标。

从地图上的一个简单点到一张校准过的概率图的旅程，本身就是科学过程的美妙例证。它揭示了与我们数据中固有的局限性和偏差作斗争，如何迫使我们更深入地思考，设计出更巧妙的方法，并最终不仅理解我们正在观察的世界，也理解观察本身的本质。

应用与跨学科联系

在上一章中，我们揭示了处理仅有分布数据的机制。我们看到，一个简单的点集合——一份生物曾被观察到的地点清单——充满了偏差，但也孕育着可能性。现在，我们踏上一段旅程，去看看这些点能讲述什么样的故事。这段旅程将带领我们从绘制当代世界的地图到重建遥远的过去，从预测物种的未来到揭示演化的过程本身。我们将看到，处理这些卑微数据点的原则不仅仅是一系列统计技巧的集合；它们是一种统一的思维方式，能够解锁整个生命科学领域中深刻的见解。

绘制生命边界

仅有分布数据最直接、也许最直观的应用是创建一张地图。不仅仅是一张物种曾被发现之处的地图，而是一张它可能生活之处的地图。想象一下，你是一位植物学家，刚在几个分散的高海拔地点发现了一种新的、稀有的兰花。你的第一个问题是：“我们还应该去哪里寻找？”这是物种分布建模的基本问题。

最初的方法非常简单。我们取兰花的位置，然后问：“这些地方有什么共同点？”我们可能会发现它们都共享相似的年均温度、降雨量和海拔范围。通过绘制一张世界上所有共享这种“气候特征”的地方的地图，我们就创建了该物种潜在分布的第一个初步假设。我们利用零散的存在点，勾勒出了物种气候生态位的无形边界——即它原则上可以生存的一系列环境条件。

但这张初步的草图通常很粗糙，并且可能具有误导性。我们知道，自然界要微妙得多。而我们收集的数据很少能完美反映它。这就把我们带到了完善我们图景的艺术与科学。

修正我们的视野：从偏差到生物学现实

我们的物种出现地图几乎总是有偏差的。我们在容易到达的地方——靠近道路、城镇和大学——有更多的记录，而在偏远的荒野中记录则较少。这是经典的“路灯效应”：一个醉汉在漆黑的公园里丢了钥匙，却在唯一一盏路灯下寻找，不是因为他在那里丢的，而是因为那里有光。同样，我们可能错误地得出结论，认为一种携带疾病的昆虫更喜欢生活在诊所附近，仅仅因为病例是在那里报告和记录的。

我们如何才能将物种真实的环境偏好从我们自身数据收集的偏差中解脱出来？解决方案非常巧妙。我们不是将存在位置的环境与整个研究区域的环境进行比较，而是将其与“目标类群”的环境进行比较。例如，为了模拟某种特定的锥蝽，我们可能会使用博物馆收藏中所有锥蝽的位置作为我们的背景。其逻辑是，所有这些昆虫很可能是在相似的努力度和偏差下收集的。通过将我们的焦点物种与这个有偏差的背景进行对比，共同的采样偏差倾向于相互抵消，从而留下更清晰的物种独特环境需求的信号。这个巧妙的技巧是现代仅有分布建模的基石，在我们这个“公民科学”时代尤其重要，因为像 iNaturalist 或 eBird 这样的平台提供了数以百万计的偶然记录，这些记录提供了巨大的力量，但同时也带来了巨大的、空间结构化的偏差。

除了修正偏差，我们还可以使我们的模型在生物学上更智能。我们不只是使用年平均温度，而是可以探究什么才是真正限制一个生物体的因素。对于昆虫来说，度过干旱季节至关重要。因此，像“最干旱季度的降水量”这样的变量不仅仅是另一个预测因子；它是对脱水风险的直接度量，是昆虫生命的关键机制性约束。这种从纯粹的相关性变量向机制性变量的转变，是迈向理解物种分布背后原因的一大步。

当然，随着预测变量数量的增加和统计工具日益复杂——从广义线性模型（GLMs）到诸如提升回归树和随机森林等机器学习巨头——我们面临着一系列新的挑战，比如处理预测变量之间的相关性和避免过拟合。没有单一的“最佳”算法；有一个丰富的工具箱，工具的选择取决于我们的目标是纯粹的预测还是深入的、可解释的理解。

利用仅有分布数据进行时间旅行

一旦我们有了一个可靠的模型，将物种的存在与环境联系起来，我们就解锁了一种真正壮观的能力：一种形式的时间旅行。环境不是静止的。气候变化，大陆漂移，海平面升降。通过将我们的模型投射到过去或未来的环境地图上，我们可以观察物种的潜在分布在地址时间内收缩、扩张和移动。

重建遥远的过去

让我们回到五亿多年前的寒武纪。那时的生命多样性是怎样的？化石记录是我们唯一的向导，它也是最终的仅有分布数据集。一块化石是存在的明确证据，但它的缺失几乎不能告诉我们任何事情。记录极其稀疏且有偏差，其间点缀着被称为Lagerstätten的罕见特异保存窗口。那么，我们如何才能获得更真实的古代生物多样性图景呢？

我们用于现代数据的逻辑同样适用于此。我们可以将发现化石的概率看作是真实古代分布和高度可变的“采样努力度”——即保存机会——的函数。在一个低采样区间，即使物种存在，探测到它的概率也可能低于10%。这意味着在一个时间段内发现的化石原始计数将严重低估真实的多样性。古生物学家已经发展出像“穿程（range-through）”这样的方法，该方法假设一个物种在其首次和最后一次已知化石之间所有的时间间隔内都存在。但是这种方法，虽然修正了未探测问题，却有其自身深远的影响。通过填补空白，它可能人为地压低了估计的演化速率——物种形成和灭绝——使生命历史看起来比实际情况更加庄重和缺乏动态。因此，理解仅有分布数据的统计学不仅是一种生态学工具；它也是解读地球生命史的一面透镜。

揭示物种形成的故事

我们不需要回到五亿年前就能看到这种方法的力量。考虑一个在大陆和附近岛屿上发现的物种。岛屿种群是在少数勇敢的个体从大陆殖民而来时形成的（边缘域或奠基者事件）？还是曾经有一个单一、连续的种群，在海平面上升形成岛屿时被一分为二（替代事件）？

在这里，我们可以进行生态学和基因组学这两个领域的惊人综合。首先，我们根据现今的出现记录建立一个分布模型，并将其投射到末次冰期气候图上，当时的海平面较低。这张古地图可能会揭示，一座陆桥或一条适宜的栖息地走廊曾经连接着岛屿和大陆。这是我们的“舞台”。接下来，我们观察生物体的DNA，这是演化剧本的“脚本”。如果是一个奠基者事件，岛屿种群的DNA应该显示出典型的瓶颈效应特征：遗传多样性（ $\pi$ ）急剧下降和稀有突变的过量。如果是一个替代分裂，两个种群应该具有大致相当的遗传多样性。通过将生态“舞台”提供的信息拟合到遗传“脚本”的人口统计模型中，我们可以正式检验哪种说法更能得到数据的支持。这个卑微的仅有分布点，当与气候模型和基因组结合时，就成为重建生物多样性起源的关键证据。

预测未来

如果我们可以将模型投射到过去，我们也可以将它们投射到未来。这是我们当前全球变化时代最重要的应用之一。通过向我们的模型输入2070年的气候情景，我们可以预测物种的区系范围可能会如何变化。我们可以为保护确定未来的避难所，或者对于入侵物种，确定未来的风险热点。我们甚至可以近乎实时地追踪这些变化。通过分别使用历史（例如，1960-1990）和当代（1991-2020）的存在记录建立模型，我们可以量化一个物种的气候生态位可能已经如何变化，例如可能通过向更凉爽的海拔或纬度移动来追踪气候变化。

然而，这种预测能力带有一个重要的警告。这些模型大多是相关性的。它们基于统计关联，并含蓄地假设今天限制一个物种的因素在未来新颖的气候中仍将是限制因素。这种“生态位保守性”的假设可能不总是成立。

科学的前沿是建立机制模型。机制模型不是将存在与年平均温度相关联，而是试图模拟生物体实际的生理机能。想象一下构建一个“虚拟昆虫”。我们将模拟其从卵到成虫的生命周期，具体说明其发育速率、存活率和繁殖力如何随温度和资源可用性逐日变化。然后我们可以利用每日天气数据，在世界任何地方“运行”这个虚拟昆虫。如果模型显示该昆虫能够成功完成其生命周期并产生过剩的后代（ $R_0 > 1$ ），我们预测该种群可以在那里持续存在。这种基于过程的方法明确模拟了物候学和生命阶段特定的需求，因此更有可能在新的条件下做出可靠的预测，因为它基于生物学第一原理，而不仅仅是统计模式。

数据的交响乐

我们的故事始于零散的、偶然的仅有分布点，这些数据常被贬为“脏数据”。我们已经看到，通过巧妙的分析，它们可以绘制出生命世界的地图，重建深远的历史，并预测未来。但它们最终，也许是最大的力量，在于它们能够与其他数据流融合。

今天的生态学家可能拥有一批丰富但空间上有偏差的公民科学存在记录，同时还有一套来自结构化监测项目的小规模、严谨但空间有限的数据集。在过去，人们必须选择使用哪一种。今天，我们可以两者兼得。利用像状态空间模型这样复杂的统计框架，我们可以正式整合这些不同类型的数据。这样的模型可以利用结构化调查数据来了解当一个物种存在时探测到它的概率，然后利用这些知识来正确解释公民科学数据中数以千计的存在和未探测事件。其结果是对物种的种群动态进行单一、统一的估计，这种估计比任何单一数据集所能提供的都更加稳健且覆盖范围更广。

从地图上的一个点到一个行星变化统一模型中的一个参数。这就是仅有分布数据的知识弧线。它证明了科学从最简单的观察中提取广博理解的力量，将一声存在的低语转变为一曲生态学和演化论的交响乐。