标志重捕法

玻尔百科

定义

标志重捕法是一种在野生动物保护和免疫学等领域广泛使用的统计方法，通过分析后续样本中已标记个体的比例来估算总体种群数量。该技术基于种群封闭和个体捕获概率均等等核心假设，利用样本比例推断种群总数。标志重捕法包含多种模型，其中封闭种群模型用于估算特定时点丰度，而开放种群模型则用于追踪存活率和衡量自然选择。

核心要点

标志重捕法通过新样本中标记个体的比例来推断其在整个种群中的比例，从而估算总种群数量。
这些方法的准确性取决于关键假设，例如种群封闭以及所有个体被捕捉的概率均等。
不同的模型服务于不同的目的：封闭种群模型估算特定时间点的丰度，而开放种群模型则追踪存活率和探测率随时间的变化。
“标记与重捕”的逻辑是一种用途广泛的科学工具，其应用范围从野生动物保护延伸到测量自然选择和量化免疫学中的分子。

引言

我们如何才能为一个由难以捉摸、不断移动且无法一次性全部观察到的生物组成的种群计数呢？这个生态学中的基本问题构成了巨大的挑战，似乎近乎不可能完成。仅仅计算我们看到的个体是不足够的，因为这没有考虑到我们错过的个体以及可能重复计算的个体。解决方案是一种被称为标志重捕法的强大统计技术，该方法将一个小的、可管理的样本转变为观察整个种群的窗口。本文将探讨这一不可或缺的科学工具其精妙的逻辑和广泛的用途。

本文的结构旨在引导您从基础概念走向高级应用。首先，在“原理与机制”一节中，我们将从简单的 Lincoln-Petersen 估算量入手，剖析其核心数学逻辑。我们将探讨支撑这些模型的关键假设、违背这些假设的后果，以及更复杂方法（如 Cormack-Jolly-Seber 模型和 Pollock 的稳健设计）的演变，这些方法不仅能估算种群数量，还能估算存活率和补充量。随后，“应用与跨学科联系”一节将揭示该技术的惊人广度，展示其作为保护领域的核心工具、观察演化动态的透镜，以及可应用于遗传学和免疫学等不同领域的通用逻辑。

原理与机制

你如何计算天上的星星？海里的鱼？或草地上飞舞的蝴蝶？对于那些能一览无余的事物，我们只需数数即可。但对于一个由难以捉摸、不断移动的生物组成的种群，这项任务似乎不可能完成。你无法将它们全部圈起来。如果你数了今天看到的，又怎么知道没有重复计算昨天看到的那些？而那些你从未见过的又该怎么办？

这不仅是一个孩子的谜语，也是生态学中最基本的问题之一。解决方案源于巧妙的野外工作与优美的数学的结合，是一种被称为标志重捕法的技术。这是一种通过抽样可见个体来计数未见个体的方法，如同一种统计魔术，将少量数据转变为观察整个种群的窗口。

巧妙的比例游戏

让我们从最简单的情况开始。假设你想知道某片草地里有多少只蝴蝶。在一个阳光明媚的下午，你用网轻轻一扫，捕捉了120只蝴蝶。你在每只蝴蝶的翅膀上点上一个微小无害的颜料点——这就是“标记”——然后将它们全部放飞。这第一批被标记的个体我们称之为 $M$ 。因此， $M = 120$ 。

你等待一两天，让标记过的蝴蝶有足够的时间四处飞舞，与它们未被标记的同伴充分混合。然后，你回到草地进行第二轮捕捉。这一次，你捕捉了75只蝴蝶。我们称第二次的样本量为 $C$ 。当你仔细检查捕获物时，你发现其中15只带有你的颜料点。这是“重捕”到的个体数量，我们称之为 $R$ 。因此， $R = 15$ 。

现在到了那个美妙的顿悟时刻。如果你标记的蝴蝶已经真正在整个种群中随机混合，那么你第二次样本中标记蝴蝶的比例，应该约等于整个草地中标记蝴蝶的比例。

我们把它写下来。你第二次样本中的比例是 $\frac{R}{C}$ 。整个草地中的比例是 $\frac{M}{N}$ ，其中 $N$ 是总种群数量——也就是我们想求的那个数！

$\frac{R}{C} \approx \frac{M}{N}$

通过一点代数变换，我们就可以解出那个神秘的数字 $N$ ：

$N \approx \frac{M C}{R}$

这个绝妙、简单且直观的公式就是 Lincoln-Petersen 估算量的核心。让我们代入我们的蝴蝶数据：

$N \approx \frac{120 \times 75}{15} = \frac{9000}{15} = 600$

就这样，我们得到了一个估算值：草地里大约有600只蝴蝶。我们从未见过全部600只，但通过这个比例游戏，我们推断出了它们的存在。这不仅仅是一个不错的猜测；它是一个经过严格推导的最大似然估计，意味着在给定我们的数据的情况下，600这个种群数量使得我们观测到的结果最有可能发生。

游戏规则：理想世界与被围栏圈住的青蛙

这种优雅的方法很强大，但像任何工具一样，它在遵循某些规则时效果最好。其威力依赖于一系列关键假设。其中最重要的是，在我们的研究期间，我们处理的是一个封闭种群。“封闭”意味着两件事：

种群动态封闭：在我们的第一次和第二次抽样之间，没有出生也没有死亡。种群数量没有因为新生命的到来或逝去而改变。
地理封闭：没有迁入也没有迁出。没有新的个体进入我们的研究区域，我们研究区域内的居民也没有迁出。

想象一个保护团队正在一个50平方公里的保护区内研究两栖动物。为了估算种群数量，他们计划连续四个晚上捕捉并标记青蛙。他们知道，在繁殖季节早期的这个短暂窗口内，不会有新的蛙卵孵化（出生可忽略不计），且存活率非常高（死亡可忽略不计）。因此，他们有充分的理由假设种群动态是封闭的。

但地理封闭呢？这些青蛙一晚上可以移动几公里。为了帮助强制实现这一假设，团队沿着保护区的边界设置了密集的围栏。他们试图在现实中创造一个“封闭系统”，以匹配他们数学模型中的“封闭系统”。

这就引出了一个关键点：我们估算的种群数量 $N$ 是根据我们的假设所定义的那个种群的大小。这个团队并非在估算全世界或甚至该地区青蛙的总数。他们具体估算的是在整个四晚研究期间，实际停留在保护区内的青蛙数量。在第二天晚上进入、第三天晚上离开的个体不属于这个定义的种群。理解你实际在计算什么，是做好科学研究的第一步。

当现实不尽如人意：发现偏差的艺术

当然，现实世界是复杂的，很少符合我们完美的假设。科学家的真正艺术不仅在于使用公式，还在于理解当假设被违背时会发生什么。

让我们回到我们的鱼塘。一位生态学家用鲜艳的标签标记了150条孔雀鱼，以便于观察。一周后，他们捕获了200条鱼，发现其中10条带有标记。公式给出的估算值为： $\hat{N} = \frac{150 \times 200}{10} = 3000$ 条孔雀鱼。

但一位同事指出了一个问题：“那些鲜艳的标签不仅让你容易看到它们，也让翠鸟容易看到它们！”如果被标记的鱼比未被标记的鱼更容易被捕食者吃掉，那么我们关于标记不影响存活率的假设就被违背了。

这对我们的估算有什么影响呢？在第一次和第二次抽样之间，我们不成比例地失去了更多的标记鱼。当我们进行第二次抽样时，池塘中标记鱼的比例实际上低于应有的水平。这意味着我们的重捕数 $R$ 可能会比它本应有的数值小。看看公式： $\hat{N} = \frac{M \times C}{R}$ 。当分母中的数字（ $R$ ）被人为地变小时，最终对 $N$ 的估算值就会被人为地变大。我们的生态学家将高估真实的种群数量。

这里有另一个更微妙的陷阱。想象一下，研究一种严格夜行性的沙漠老鼠，但由于一个滑稽的错误，研究团队只在炎热明亮的白天设置陷阱。在第一次捕捉中，他们设法捉到几只老鼠——也许是生病的、绝望的，或者就是那些不寻常的白天活动的老鼠。他们标记并释放了它们。当他们回来进行第二次捕捉时，同样是在白天，他们最有可能捕捉到谁？正是那一小撮在白天活动的同一批老鼠！

结果是，第二次样本中重捕动物的比例 $\frac{R}{C}$ 将会非常高。这并不是因为标记动物占了整个种群的很大一部分，而是因为样本是从一个微小的、不具代表性的种群片段中抽取的。当 $R$ 人为地偏高时，我们的估算值 $\hat{N} = \frac{M \times C}{R}$ 将会人为地偏低。该团队会得出结论，认为沙漠中老鼠很少，而实际上绝大多数老鼠只是在它们的洞穴里打盹，完全不可能被捕捉到。这凸显了另一个关键假设的违背：等概率可捕性。种群中的每个个体在任何一次抽样中都必须有相同的被捕捉机会。

磨砺我们的工具：从简单比例到更智能的估算

那么，科学家该怎么办呢？我们生活在一个充满饥饿的鸟和困倦的老鼠的复杂世界里。我们无法达到完美的假设，但我们可以改进我们的方法，使其更具稳健性。

改进估算的一种方法就是收集更多的数据。与其只有一次捕捉和一次重捕，为什么不多进行几次呢？这就是 Schnabel 方法背后的思想。我们可能会连续四天对一个甲虫种群进行抽样。每天，我们都计数重捕到的个体，标记任何新的甲虫，然后将它们全部释放。通过汇总所有四天的数据，我们平均掉了一些可能影响单次重捕的随机“运气”。这通常会得出一个更精确的估算值和更小的置信区间——我们对结果的确定性更高了。

另一个改进是改进估算量本身。事实证明，简单的 Lincoln-Petersen 公式存在轻微的统计偏差，尤其是在样本量较小的情况下。统计学家们开发了改进版本，如 Chapman 估算量，它对公式进行了微调以校正这种偏差：

$\hat{N}_C = \frac{(M+1)(C+1)}{R+1} - 1$

这可能看起来不那么直观，但在数学上更健全，并且在现实世界中表现更好。此外，这些更高级的公式还附带了另一个强大的工具：一种计算方差的方法，并由此计算出置信区间。估算出有263只哺乳动物是一回事，但“我们有95%的信心认为真实种群数量在203到323之间”这样的陈述要诚实得多，也更具科学实用性。这是对任何抽样过程中固有的不确定性的一种内在承认。

敞开大门：生、死与远方

到目前为止，我们一直生活在封闭种群的人为静态世界中。但真实的种群是动态的。在一年中，动物会出生、死亡、迁入和迁出。我们如何研究这些重要的生命率？为此，我们需要开放种群模型。

现在的目标从估算某个时间点的“有多少？”转变为估算变化率。其中最著名的是 Cormack-Jolly-Seber (CJS) 模型。一项CJS研究涉及在较长时期内的多次捕捉。该模型甚至不尝试估算总种群数量 $N$ 。相反，它只关注被标记个体的命运，以估算两个关键参数：

表观存活率 ( $\phi$ )：这是指在时间 $t$ 存活的个体，在时间 $t+1$ 仍然存活且仍在研究区域内的概率。它被称为“表观”，因为模型无法区分死亡的动物和永久迁出的动物。对于实地生态学家来说，两者都只是消失了。因此， $\phi$ 是真实存活率和地点忠诚度的综合度量。
探测概率 ( $p$ )：这是指一个在时间 $t$ 存活且在研究区域内的个体，被实际捕捉到的概率。

为了解开这两个概率，你至少需要三次抽样。为什么？想象一下，你在第1次捕捉中捕获了一只蜥蜴，在第2次没有看到它，但它在第3次又出现了。这种“101”捕捉历史信息量极大。这只蜥蜴必定在第1次和第2次之间存活了下来（尽管你没看到它），并且它也必定在第2次和第3次之间存活了下来。你在第2次错过了它，这个事实告诉了你一些关于探测概率 $p$ 的信息。通过比较拥有像“111”与“101”这样历史的动物数量，模型可以在数学上将存活概率与被看到概率分离开来。

宏大综合：“稳健”的现实观

这两种方法——用于丰度的封闭模型和用于存活率的开放模型——似乎是截然不同的。但如果你可以兼得呢？如果你既能估算丰度又能估算存活率，甚至还能估算新个体的补充量呢？

这就是 Pollock 的稳健设计的精妙之处。它将两种方法结合成一个强大的框架。研究设计包含几个主要期（例如，连续五年每年一次）。这些时期相隔很远，期间假定种群是开放的。但在每个主要期内部，研究人员会进行几次间隔很近的次要期（例如，连续三晚的诱捕）。在这段短暂的密集活动期间，假定种群是封闭的。

这让我们能够做到：

利用每年内部次要期的数据，我们可以使用封闭模型得到当年种群数量的“快照”式估算值，即 $\hat{N}_1, \hat{N}_2$ 等。
利用跨年份（主要期）的捕捉数据，我们可以使用开放模型（如CJS）来估算年间的表观存活率 ( $\phi$ )。
通过结合这些信息，我们可以解出谜题的最后一块：补充量！如果我们知道第1年的种群数量 ( $\hat{N}_1$ )、第2年的数量 ( $\hat{N}_2$ )，以及它们之间的存活率 ( $\hat{\phi}$ )，我们就可以计算出为解释这种变化而必须加入种群的新动物数量。

这种混合设计是“稳健的”，因为它允许我们检查我们的假设，并获得关于种群动态的更丰富的图像。它也迫使我们非常清楚地定义我们的问题。如果我们对海鸟进行了长达10个繁殖季节的研究，并将所有数据汇总在一起，我们计算的是什么？不是任何单一年份的种群，而是超种群——在整个十年期间，曾使用过该繁殖地的所有独立个体鸟类的总数。

从一个简单的蝴蝶比例游戏，我们走到了一个复杂的框架，它让我们能够观察种群的呼吸——看它增长和萎缩，量化它的持续性和更替。这是人类智慧力量的证明，展示了一个简单的标记和一点数学如何能照亮我们周围隐藏的生命。

应用与跨学科联系

在经历了标志重捕法的原理与机制之旅后，人们可能会留下这样的印象：这是一个巧妙但狭隘的工具，是野生动物生物学家使用的一种小众统计方法。事实远非如此。其核心思想——通过抽样的部分及其重叠来了解整体——是定量科学中最具通用性和最强大的概念之一。它的应用远不止于简单地计算动物数量，而是触及了演化、遗传学甚至生命分子机制等最深层的问题。这是一个美丽的例子，说明一个单一、优雅的逻辑如何成为解开截然不同领域秘密的钥匙。

让我们从它起源的地方开始我们的旅程：广阔的户外。

现代生态学的核心工具箱

想象一下，你接到一项看似不可能的任务：计算一片广袤茂密的丛林中有多少只老虎。你不可能找到所有老虎。你该怎么办？经典的标志重捕法提供了答案。在现代形式中，我们甚至不需要亲手接触动物。一个由自动相机组成的网络可以拍照，而先进的软件可以通过老虎独特的条纹图案——一种天然“标记”——来识别个体。通过比较第一个时期看到的“标记”老虎与第二个时期看到的老虎，并注意其重叠部分，我们可以得出一个对总种群数量惊人稳健的估算。这个简单的想法构成了现代保护生物学的基石，使我们能够监测从亚洲的老虎到海洋中的鲸鱼等难以捉摸的濒危种群的健康状况。

但保护不仅仅关乎数量，它还关乎空间、移动以及栖息地之间的联系。两片森林是否被动物实际使用的廊道连接？一个海洋保护区（MPA）是否足够大以保护其中的鱼类？在这里，我们方法的“重捕”部分再次提供了深刻的见解。通过不仅追踪动物是否被重捕，还追踪在何处被重捕，我们可以绘制出扩散的模式。

有趣的是，这些科学数据可以与其他形式的知识进行比较和丰富。例如，经验丰富的渔民的传统生态知识（TEK）基于几代人的观察，可以提供其自身的鱼类活动模型。通过将源自渔民知识的扩散模型与源自标志重捕数据的模型进行比较，科学家可以对海洋保护区的最佳大小和位置做出更明智的决策。这种方法突显了定量生态学与社会科学之间一个迷人的跨学科桥梁，展示了不同的认知方式如何为共同的目标协同工作。

此外，标志重捕法并非孤立存在。它通常是用于回答一个问题的多种工具之一。例如，为了评估种群连通性，科学家可能会将标志重捕研究的结果与遗传分配分析的结果进行比较，后者利用个体的DNA来推断其来源种群。这两种方法依赖于完全不同的假设——标志重捕模型明确处理未见到动物的概率，而遗传模型则依赖于哈迪-温伯格平衡等原理——它们的结合使用为了解种群在景观中如何连接提供了更为稳健的理解。

这种综合方法的顶峰体現在所谓的整合种群模型（IPM）中。IPM是一个强大的统计框架，它将多个数据流——例如原始普查计数、巢穴监测得出的繁殖输出，以及至关重要的、来自标志重捕研究的存活率估算——整合到单一、连贯的分析中。通过一个共享的底层种群动态模型将这些不同类型的数据联系起来，科学家可以以更高的精度估算种群的生命率。这使他们能够解决复杂的问题，例如识别哪些栖息地是“源种群”（出生超过死亡）和哪些是“汇种群”（死亡超过出生），这是优先安排保护工作的关键信息。在这种背景下，标志重捕法不仅仅是一种独立的技术；它是现代种群生态学宏大机器中一个不可或缺的模块。

观察演化动态的透镜

现在，让我们转换一下视角。如果我告诉你，这个用于计算种群数量的相同工具可以用来观察演化的发生，就在我们眼前，你会怎么想？其思想是将我们的焦点从整个种群转移到其中的不同类型的个体。

思考一下生物学的一大谜团：衰老。为什么生物体在达到成熟后，其生理功能会下降，死亡风险会增加？这是磨损的必然结果，还是生物体生活史策略中一个程序化的部分？我们可以使用标志重捕法在野外检验这些演化假说。通过标记大量已知年龄的个体（例如，作为雏鸟被环志的海鸟），并年复一年地追踪它们的后续存活情况，我们可以拟合模型，其中存活概率 $\phi$ 被允许依赖于年龄。如果我们发现，即使在考虑了可能影响探测的年际环境变化之后， $\phi$ 在年长年龄组中仍然系统性地下降，我们就找到了自然种群中精算衰老的直接证据。存活率与探测率的优雅统计分离使我们能够在这喧嚣的现实世界中观察到这一基本的演化过程。

这引导我们到该方法最美丽、最强大的应用之一：测量自然选择。假设你想检验种群中体型较大的个体是否有更高的存活率。显而易见的方法是测量一群动物，等待一段时间，然后看看哪些还活着。但如果体型较大的动物也更谨慎、更难被重捕呢？一个简单的分析将会被无可救药地混淆：你可能会错误地得出结论，认为体型大对存活不利，仅仅因为体型大的幸存者更难找到。

标志重捕模型以惊人的优雅解决了这个问题。通过允许存活概率 ( $\phi$ ) 和探测概率 ( $p$ ) 都是性状（例如，体型）的函数，统计模型可以解开这两种效应。它可以正确地将个体“消失”的一部分归因于其难以被发现，而将剩余部分归因于实际死亡。这使得我们能够无偏地估计性状与存活之间的真实关系——这正是自然选择的定义。

我们可以将这种逻辑从可见性状一直推到基因层面。想象一种害虫对某种杀虫剂产生了抗性。当杀虫剂存在时，抗性等位基因是有益的，但当杀虫剂不存在时，它是否会带来代价？为了找出答案，我们可以将不同已知基因型（ $RR$ , $RS$ , 和 $SS$ ）的昆虫释放到一个无杀虫剂的环境中。通过使用标志重捕设计，并用一个存活率取决于基因型的模型来分析数据，我们可以直接估算特定基因型的存活概率。这使我们能够量化针对抗性等位基因的选择系数，从而在基因水平上直接测量演化权衡。这些估算出的生命率——不同表型或基因型的存活、生长和繁殖——是构建复杂模型（如我们之前看到的IPM）的原始材料，这些模型可以预测种群生活史的演化轨迹。

“标记与重捕”的通用逻辑

到目前为止，我们的旅程已经从计算种群数量发展到观察它们的演化。但是，当我们意识到“标记”、“重捕”和“种群”可以是些我们从未想象过的事物时，标志重捕思想的真正力量才得以显现。其逻辑是通用的。

再考虑一下计算一个巨大、高度流动的种群数量的问题，比如太平洋中的金枪鱼种群。物理上标记和重捕足够多的鱼几乎是不可能的。但如果“标记”是遗传的呢？这就是近亲标志重捕法（CKMR）的革命性思想。科学家从成年鱼和幼鱼中收集遗传样本。每当他们在遗传数据库中找到一对亲子对（POP）时，就发生了一次“重捕”事件。其逻辑是经典模型的一个美妙反转：整个成年鱼样本作为“被标记”的种群。幼鱼样本是“重捕”期。在成年鱼样本中找到其亲本的幼鱼比例，告诉了我们我们采样到了总成年种群的多大一部分。由此，我们可以估算出成年鱼的总数——一个可能高达数百万的数量——而无需在任何一条鱼身上打上物理标签。

我们旅程的最后一站或许是最令人惊讶的。我们将离开动物和海洋的世界，进入分子生物学的微观宇宙。一位免疫学家想知道细胞表面MHC蛋白呈现的独特肽分子的总数——即细胞的“免疫肽组”。他们可以使用质谱仪分离并鉴定这些肽，但仪器并不完美；它不会检测到存在的每一种肽。他们如何估算他们错过的肽的数量？

你可能已经猜到答案了。他们将样本通过质谱仪运行不止一次，而是两次。第一次运行鉴定出一组肽——这是“被标记”的种群。第二次运行是“重捕”样本。两次运行中都发现的肽的数量就是重叠部分 $R$ 。利用我们可能用于老虎或鱼的完全相同的 Lincoln-Petersen 公式，他们可以估算出肽库的总大小，包括那些在两次运行中都未被检测到的肽。

从印度的丛林到人体细胞的内部运作，逻辑始终如一。这段旅程揭示了科学推理的深刻统一性。通过部分重叠来估算整体的简单、直观行为，提供了一种可供生态学家、演化论者、遗传学家和免疫学家共同使用的语言。它证明了自然界中最复杂的系统，往往会向最优雅和最基本的思想揭示它们的秘密。