距离抽样

玻尔百科

核心要点

距离抽样通过对探测到目标的概率随其与调查样线距离增加而降低的模式进行建模，来估算种群密度。
该方法的准确性取决于一个关键假设：在调查样线上能完美地探测到目标（ $g(0)=1$ ），而观测者失误或动物回避等因素可能违反此假设。
标志重捕距离抽样（MRDS）等先进技术可以凭经验估算样线上的探测概率，即使在目标难以发现的情况下也能提供无偏估计。
模型可以纳入协变量，如植被或生境类型，以解释整个研究区域内探测概率的变异性。
校正观测偏差的核心概念是一项强大的原则，适用于许多领域，包括数据融合以及解释来自GPS项圈和无人机等技术的数据。

引言

估算野生动物种群的大小是生态学和保护生物学中的一个根本性挑战。无论是在海洋中数鲸鱼，还是在森林里数稀有花卉，我们都不可能看到每一个个体。这引出了一个关键问题：我们如何从仅仅知道一个物种存在，进展到可靠地估算那里有多少个体？要回答这个问题，需要一种能够系统地解释我们不可避免会错过的个体的稳健方法。距离抽样提供了一个强大的统计框架来解决这个问题。

本文全面概述了距离抽样这一现代种群评估的基石方法。文章首先解释了其核心统计逻辑，即如何基于所见个体的模式来推算未见个体的数量。然后，文章探索了如何将这种思维方式应用于解决复杂的生态学问题。首先，在“原理与机制”部分，我们将解构该方法，探讨探测函数、有效带半宽等概念，以及确保估算可靠性的关键假设。我们还将研究如何应对常见的挑战，例如即使在近距离也难以探测到动物的情况。之后，在“应用与跨学科联系”部分，我们将看到校正观测偏差的原则如何远远超越简单的计数，它能实现公平的生境比较，融合专业人员与公民科学的数据，甚至解释来自先进追踪技术的数据。

原理与机制

假设你是一位自然保护主义者，面临一个看似简单的问题：广袤的南大洋中有多少蓝鲸？或者，偏远山林中还剩下多少某种稀有的兰花？这是一个至关重要的问题，但你不可能把每一个都数过来。你无法排干海水，也无法一寸寸地爬遍整个森林。那么，你该怎么做呢？你需要抽样。但如何从一个小样本得到对整个种群的可信估计？这正是距离抽样精妙逻辑的用武之地。

从“它们在不在？”到“有多少？”

首先，让我们明确我们要问的是什么问题。要发现一个物种是否在某个区域存在是相对容易的。想象一个公民科学项目，志愿者们在各个池塘聆听蛙鸣。经过多次探访，他们可以相当自信地告诉你哪些池塘有青蛙栖息，哪些没有。这为你提供了一张物种分布图——这本身就很有价值。但这并不能告诉你一个“有蛙”的池塘里住着两只青蛙还是两百只。数据是二元的：存在（至少一只）或不存在（零）。为了做出保护决策——了解一个种群是稳定、增长还是在衰退——我们必须超越“它们在不在？”这个问题，去回答那个更难的问题：“那里有多少？”这需要一种能够解释我们没看到的个体的方法。

观察的艺术：林中漫步

让我们暂时放下鲸鱼和青蛙，想象一个更简单的情景。你正沿着一条笔直的小径——一条样线——穿过一片森林。你的目标是数一种亮黄色的花。一个近乎简单到可笑的想法在你脑海中形成：你发现生长在小径上的花的可能性，远大于发现50米外被灌木半遮半掩的花。

这个直觉正是距离抽样的绝对基石。该方法通过将这个简单的观察形式化来运作。作为观测者，你沿着一组总长度为 $L$ 的样线行走。每当你发现一朵花时，你不仅是打个勾；你还要测量从你的样线到那朵花的垂直距离，我们称之为 $y$ 。你记录下一系列距离： $y_1, y_2, y_3, \dots, y_n$ 。就这样。这就是你的原始数据，一个简单的距离列表。其深刻的洞见在于，这些距离的统计模式中，隐藏着估算你没看到的那些花数量的秘密。

未见之物的秘密：探测函数与有效带

一个距离列表如何能告诉我们缺失了什么？其奥秘在于一个名为探测函数的概念，记为 $g(y)$ 。这个函数代表了在距离样线垂直距离为 $y$ 的地方，你探测到一个目标的概率。根据我们的直觉，这个函数在 $y=0$ 处最高，并随着距离 $y$ 的增加而减小。

首先，我们做一个关键假设：如果一朵花正好在样线上（距离 $y=0$ ），你肯定会探测到它。用数学术语来说，我们陈述为 $g(0) = 1$ 。这是我们的锚点，是整个估算所依赖的基石。它意味着：“我确信我没有错过任何就在我脚下的东西。”（我们稍后会挑战这个假设，因为大自然总爱挑战假设！）

所以，我们有了一个函数 $g(y)$ ，它从1开始，随距离递减。现在是最巧妙的部分。你调查了一片条状区域。也许你决定在样线两侧超过某个距离（比如 $w=50$ 米）后就不再观察了。你扫描的总物理面积是 $2 \times L \times w$ 。但你并没有探测到该区域内的所有物体。你的“探测努力”是有遗漏的。

让我们想象一个等效的、理想的调查。想象一个更窄的、假想的条带，在这个条带里你的探测是完美的——这个条带窄到你可以看到里面的每一朵花。这个假想条带的宽度就是我们所说的有效带半宽。对于样线两侧的调查，其总宽度是 $2\mu$ 。你实际看到的 $n$ 朵花，就等于这个更小的、被完美调查的条带内的花朵数量。

有效带半宽 $\mu$ 就是探测函数曲线下从 $0$ 到 $w$ 的面积： $\mu = \int_0^w g(y) \, dy$ 想一想这意味着什么。如果你的探测在一直到 $w$ 的距离内都是完美的（一种不太可能的情景！），那么对于所有 $y$ ， $g(y)=1$ ，积分结果就是 $\mu = w$ 。你的有效带就是你的实际调查带。但实际上， $g(y)$ 会下降，所以 $\mu$ 总是小于 $w$ 。你的探测概率下降得越快，你的有效带半宽 $\mu$ 就越窄。

现在，最后一步简单得惊人。如果花的密度是 $D$ （单位面积的数量），那么在你有效调查区域（ $2L\mu$ ）内期望找到的数量就是 $D \times 2L\mu$ 。但我们知道你找到的数量是 $n$ 。所以我们可以让它们相等并重新整理： $\hat{D} = \frac{n}{2L\hat{\mu}}$ 在这里， $\hat{D}$ 和 $\hat{\mu}$ 是我们从数据中得到的估计值。我们使用测得的距离列表来拟合一条曲线——我们对探测函数 $\hat{g}(y)$ 的估计——并由此计算出我们对有效带半宽 $\hat{\mu}$ 的估计。注意这个优美的反比关系：对于相同的探测数量（ $n$ ）和努力（ $L$ ），一个更小的有效带半宽 $\hat{\mu}$ （意味着你错过了很多花）必然意味着真实密度 $\hat{D}$ 更高。该方法自动校正了你错过的花，而这一切都基于你看到的花的距离模式。

游戏规则：诚实的路径与易受惊的动物

这套优雅的数学机制运作良好，但前提是我们必须遵守两个基本规则。违反它们不仅会引入小错误，还可能使我们的结果完全没有意义。

首先，样线必须是研究区域的代表性样本。这意味着样线的布设应是随机或系统性的，而不应考虑你认为动植物可能在哪里。想象一位生态学家想要估算整个森林中一种喜光地衣的密度，而这片森林大部分是阴暗的。如果为了方便，他们只沿着碰巧经过阳光充足、开阔山脊的现有远足小径行走，他们会发现到处都是地衣！他们的计数 $n$ 将会非常高。但由于他们的样线只抽样了阳光充足的地方，他们对整个森林平均密度的估计将被极大地夸大。数学无法修复有偏的抽样。良好的设计至关重要。

其次，我们必须诚实地对待我们的关键假设：样线上的探测是完美的，即 $g(0)=1$ 。如果不是呢？如果你在茂密的丛林中调查一种伪装巧妙的哺乳动物呢？即使动物就在样线上，也完全有可能错过它——这种现象称为感知偏差。或者，如果动物不是静止的呢？一只鹿可能听到你走近，在你看到它之前就悄悄地从你的路径上移开。这叫响应性移动。这两种情况都会导致同样的问题：你在样线上的探测概率实际上小于1，即 $g(0) \lt 1$ 。

这对简单模型来说是灾难性的失败。正如我们所见，整个计算都锚定在 $g(0)=1$ 这个假设上。如果这个锚被切断，整个估计就会产生偏差。对于单个观测者的数据，存在一个根本的可识别性问题。你的距离数据形态既可以解释为一个低密度但易于观察的种群，也可以解释为一个高密度但难以观察的种群。数据本身无法告诉你身处哪个世界。你对密度的估计与 $g(0)$ 的未知值无可救药地混淆在一起。

那么，我们被打败了吗？完全没有。生态学家设计了一个绝妙的解决方案：标志重捕距离抽样（MRDS）。你不再派一个观测者，而是派两个，同时在同一条样线上行走。我们称他们为观测者1和观测者2。他们独立工作，各自记录自己看到的动物。对于任何一只动物，现在有四种可能性：

观测者1看到它，观测者2没有。
观测者2看到它，观测者1没有。
两人都看到了（一次“重捕”）。
两人都没看到。

通过分析前三类情况（即至少被一人看到的动物的探测历史），我们可以估算出每个观测者探测到一只动物的概率。由此，我们可以估算出属于第四类情况的动物数量：那些两个观测者都错过的动物。这项强大的技术使我们能够估算出真实的探测概率——包括在样线上的概率。它为我们提供了 $g(0)$ 的经验估计值，重新锚定了我们的模型，并使我们即使在动物难以发现的情况下也能获得无偏的密度估计。

拥抱复杂性：一个充满差异的世界

真实世界很少是均一的。探测不仅是距离的函数，它还可能受到无数其他因素的影响。在茂密的热带雨林中，你观察一个伪装巧妙的哺乳动物的能力会因浓密的植被而受到严重阻碍。而在开阔的空地上，你可能看得远得多。这会破坏模型吗？不会——它让模型变得更加强大。

我们可以通过使用协变量将这种异质性直接纳入探测函数中。我们不再是为一个单一的探测函数 $g(y)$ 建模，而是可以将其建模为距离 $y$ 和（比如说）当地植被密度 $v$ 的函数。我们可能会指定探测函数的“宽度”（一个参数 $\sigma$ ）随植被变化而变化。 $g(y | v) = \exp\left(-\frac{y^2}{2\sigma(v)^2}\right)$ 当我们在野外时，对于我们探测到的每一只动物，我们不仅测量它的距离 $y$ ，还测量那个地点的植被密度 $v$ 。然后我们可以拟合一个模型，学习可探测性是如何在整个景观中变化的。结果是一个更加细致和准确的密度估计，它承认并适应了真实世界的复杂性。

这正是距离抽样的真正美妙之处。它始于一种近乎童真的直觉——“越近的东西越容易看到”——并在此之上建立了一个严谨而灵活的统计框架。它使我们能够计数未见之物，校正我们自身不完美的感官，并将一个简单的距离列表变成一扇窥探生命丰度的窗口。

应用与跨学科联系

掌握了距离抽样的原理后，你可能会倾向于认为它只是一个利基工具，一个用于计算动物数量的巧妙秘方。但这就像看着象棋的规则，只看到一个移动木制棋子的游戏，却错过了其中无限的策略和美学世界。用“探测概率”的思维方式思考的真正力量不在于具体的公式，而在于它所要求的根本性视角转变。这是一种看待世界的方式，一种认识到我们的视野总是不完整的，而最深刻的发现往往在于理解我们自身盲目的本质。

让我们回到过去，回到生态学家还没有这个工具的时代。想象一下，在20世纪50年代，你是一名野生动物生物学家，任务是研究一种害羞的夜行哺乳动物。你的方法是设陷阱和寻找足迹。你知道这种动物在那里，但它去哪儿了？它如何生活？动物的世界是一个巨大、黑暗的房间，而你探索它的方式只是偶尔发现一件家具。然后，在20世纪60年代，一场革命发生了：无线电遥测技术。通过给动物装上一个微小的发射器，你突然可以追踪它在黑暗中的路径。一些曾经纯属猜测的问题——比如一个个体如何在密林和开阔林地之间分配时间——首次变得可以系统地回答。这是一个巨大的飞跃，但它也照亮了下一个巨大的挑战。遥测技术让我们能跟踪舞台上的几个演员，但整个剧组呢？那些我们无法捕捉和佩戴项圈的绝大多数种群呢？当我们确切地知道它们中的大多数都隐藏在视线之外时，我们如何能数清它们？

这就把我们带到了问题的核心，生态学家在此成为了一名侦探。任何侦探工作的关键部分都是区分真实的线索和误导性的假象。思考一个由公民科学家提出的现代谜题：一种稀有的花似乎几乎只沿着远足小径生长。这是一个深刻的生态学发现——一种进化到喜爱小径边缘独特环境的植物吗？还是某种更简单、也更常见的情况：这种植物在小径附近被发现，是因为观测者在小径上？这就是“观测者偏差假说”与“生态位假说”的对决。你如何解决它？你不能只是派更多的人到树林里去，指望最好的结果。你要像一个抽样者那样思考。你设计一项研究，系统地打破你观察的地点与植物可能生长的地点之间的联系。你设置笔直的调查线，即样线，从那条小径开始，垂直地深入森林，沿途一丝不苟地记录你的搜寻努力和发现。这使你能够衡量你找到这种植物的能力，是如何随着你离开小径的便利环境而变化的。只有到那时，你才能将植物的模式与寻找它的人的模式分离开来。这就是距离抽样的灵魂，它不仅应用于计数，还应用于检验关于事物为何存在于特定位置的基本假说。

这种“校正有偏视角”的原则，在我们想要进行公平比较时是绝对必要的。想象一下，比较开阔草原和茂密森林中鸟类的密度。你在两种生境中都走了样线，在草原上数到了更多的鸟。一个天真的结论是，鸟类更喜欢开阔地带。但你的直觉告诉你有些不对劲。你当然在开阔地看到更多鸟；你可以看到一百米远！在森林里，十米外的一只鸟可能完全被树叶遮挡。你测量的不是鸟类密度；你测量的是鸟类密度和你自己无法穿透树木观察的能力的混合体。距离抽样提供了解决这个问题的思维工具。通过记录你在每种生境中确实看到的鸟的距离，你可以分别估算出你调查的“有效面积”。你可能会发现，你有效地调查了宽阔的草地带，但只调查了非常狭窄的森林带。通过用这些不同的有效面积来校正你的原始计数——这个过程在现代统计学中使用带有称为“偏移项”的特殊项的广义线性模型（GLM）可以优雅地处理——你就可以得出每种生境中真实、无偏的密度估计。通常情况下，你会发现森林里同样挤满了鸟；它们只是更善于隐藏而已。你校正了自己作为观测者的局限性，从而揭示了潜在的生态学真相。

一旦你掌握了这种思维方式，你就会开始在各处看到它的影子，并且可以从曾经看似杂乱无章的数据噪音中，谱写出一曲理解的交响乐。在我们这个大数据时代，生态学家被来自无数来源的信息所淹没。专业人员进行严谨、结构化的样线调查。与此同时，成千上万热情的公民科学家从他们的后院和假期中提交机会性的目击记录。这两种数据流可以合并吗？这就像试图将一个小型、精确的管弦乐队的录音与一个庞大、热情但偶尔跑调的业余合唱团的录音合并起来。一种天真的方法是简单地将它们平均，但这将是一场灾难。关键是建立一个统一的统计模型——一个分层模型——来充当指挥。这个模型对底层的“音乐”——即物种在整个景观中的真实、潜在的丰度——有共同的理解。但它同时有两只不同的“耳朵”：一个观测模型，理解专业样线的精确几何形状和探测过程；另一个则理解公民科学家的混乱、依赖于努力的探测过程。通过对两种观测过程进行明确建模，指挥可以专业地融合这两种来源，利用业余合唱团填补广阔的空间空白，并利用专业管弦乐队提供一个严谨、校准过的锚点。这是数据融合的前沿，使我们能够构建比以往任何时候都更丰富、更详细的生物多样性地图。

这种强大的方法使我们能够解决生态学中一些最大的问题。我们不仅仅想计算单一物种；我们想理解生物多样性本身的宏大模式。其中两个最基本的模式是物种-面积关系（SAR），它探究当你抽样更大面积时物种数量如何增加；以及物种丰度分布（SAD），它描述了稀有物种与常见物种的数量对比。这些是景观的生态学指纹。但在这里，我们的视野再次被偏见所影响。稀有物种，顾名思义，很难找到。任何原始调查都会系统地低估它们，从而模糊了指纹。为了得到清晰的印记，我们需要一个既能在空间上具有代表性（例如，跨生境分层）又能考虑探测概率的抽样设计。通过对调查样地进行重复访问，我们可以拟合模型来估算每个物种的探测概率，并利用这些信息来估算真实的占据和丰度模式。这使我们能够“擦亮”数据，揭示真实的SAR和SAD，校正了某些物种就是比其他物种更难被发现这一事实。

最终，这段旅程将我们引向一个超越生态学的普适性观察原则。其核心思想——将混杂的测量现实与我们希望了解的纯粹状态现实分离开来——是现代科学的支柱之一。思考我们用来监测野生动物的技术。狼身上的GPS项圈并没有给我们它的真实位置；它给我们的是一个有一定误差的定位点，是围绕真实点的一个模糊的概率云。要了解动物的精细尺度移动，我们不能忽略这种模糊性；我们必须明确地对其建模，通常使用所谓的“状态空间模型”，将真实的、潜在的路径与充满噪音的观测分离开来。此外，这些项圈有时会完全无法定位，尤其是在茂密的森林冠层下。这不是随机的；这是一种有偏的“未探测”形式，如果被忽略，会让我们误以为狼避开了森林，而实际上森林可能是它的首选生境。当我们用无人机上的热成像相机从空中计数这些动物时，我们面临着与地面上的博物学家完全相同的问题：树冠成了障碍。探测到温暖身体的概率小于1，并且它随生境、天气和高度而变化。简单的计数是有偏的；我们必须对探测概率进行建模，才能得到真实的丰度估计。

无论我们是在寻找小径旁的一朵花、树林里的一只鸟，还是从太空中寻找一匹狼，问题都是一样的。我们的仪器不完美，我们的感官有限，我们的视角有偏。距离抽样中所蕴含的思想，其真正的美和力量在于，它们为我们提供了一种严谨、诚实且极具洞察力的方式来解释我们自身的不完美。它不仅仅是一个计数的工具，更是一种批判性思维的工具，一堂关于科学谦逊的深刻课程。它教导我们，要清晰地看世界，我们必须首先理解我们自己视野中的缺陷。