
森林里有多少只鸟,或者海里有多少条鱼?在野外清点整个种群通常是一项不可能完成的任务。生物学和生态学中的这一根本挑战,并非通过计算每一个体来解决,而是通过一种被称为“标志重捕法”的强大统计技术来攻克。本文旨在探索该方法背后精妙的逻辑,它使科学家能够估计不可见的事物并理解生命的动态。本文旨在填补知识鸿沟,不仅让读者知晓此方法的存在,更能理解其真实工作原理及其所能揭示的奥秘。
我们的探索始于“原理与机制”一章,其中我们将解构林肯-彼得森估计量的简单比例推理,以及其对“封闭”种群的关键假设。然后,我们将进阶到更复杂的“开放”种群模型,如Cormack-Jolly-Seber框架,揭示统计学家如何巧妙地将动物的真实存活与其被探测到的偶然概率分离开来。在此之后,“应用与跨学科联系”一章将展示该方法的真正威力。我们将看到它如何成为人口统计学家研究衰老和繁殖的工具箱,成为地理学家绘制动物迁徙和生境质量的透镜,甚至成为进化生物学家见证自然选择过程的显微镜,并揭示其在免疫学等遥远领域的惊人关联。
这个湖里有多少鱼?丛林中有多少只老虎?你体内有多少T细胞在抵抗感染?乍一看,这些问题似乎无法回答。你不能简单地把湖水抽干,或者把每只老虎都圈起来。世界不是动物园,栖息其中的生物很少会排队让你清点。然而,生态学家和生物学家却能给出惊人精确的答案。他们的秘诀不在于某种神奇的计数设备,而在于一种看似简单却极其强大的统计推理:标志重捕法。这是一个关于比例、概率以及将不可见之物可视化的科学艺术的故事。
假设我们想计算一个与外界隔绝的池塘里有多少鱼。其核心思想非常直观。首先,我们去捕捞一定数量的鱼,比如说 条。我们给每条鱼做一个小而无害的标记,然后将它们放回池塘。在给予它们足够的时间与种群中其他成员充分混合后——就像我们搅拌一锅大汤一样——我们返回进行第二次捕捞。这一次,我们捕获了一个包含 条鱼的样本。我们仔细检查这次的渔获,发现其中有 条带有我们的标记。
现在是逻辑飞跃的时刻。我们可以假设,我们第二次捕获的样本中带标记鱼的比例,应约等于整个池塘中带标记鱼的比例。换句话说:
代入我们的数据,就得到:
在这里, 是我们所追求的未知种群总数。通过这个简单的方程,我们可以重新整理它来得到 的一个估计值:
就这样,我们得到了一个估计值:池塘里大约有600条鱼。这个基本公式被称为林肯-彼得森估计量。它是标志重捕法最简单的形式,实际上也是最大似然估计(MLE)——即能使我们观测到的结果成为最可能发生的那个 值。这感觉几乎像个魔术,仅凭两个小样本就变出了整个种群的数量。
当然,这个“魔术”只有在遵循特定规则时才有效。为了使我们简单的比例关系成立,我们必须对池塘及其中的鱼做出几个关键假设。这些假设定义了我们所说的封闭种群模型,即在我们的实验期间,世界被保持在一个完美、不变的状态中。
种群是封闭的: 这是最重要的规则。“封闭”有两层含义。首先是种群动态封闭:在我们的第一次标记和第二次重捕之间,没有鱼出生,也没有鱼死亡。其次是地理封闭:没有鱼能游入池塘(迁入),也没有鱼能离开池塘(迁出)。种群数量 必须保持恒定。如果有新的、未标记的鱼游进来,它们会稀释标记个体的比例,我们对 的估计值就会过高。如果标记的鱼死亡或离开,我们的估计值也会出现偏差。这意味着我们必须仔细定义目标种群在空间和时间上的边界,确保我们的抽样设计与此定义相匹配。
所有标记都是永久性的且能被识别: 我们给鱼做的标记不能脱落。如果标记脱落,那些鱼就会再次变为未标记的个体,我们将低估标记个体的真实比例,导致对 的高估。此外,我们必须能够识别出重捕鱼身上的每一个标记;不允许有任何误认。
标记不影响鱼: 标记不能使鱼更容易死亡或改变其行为。一个沉重笨拙的标记可能会使鱼成为捕食者的轻松目标。或者,被捕获的经历可能使鱼变得“陷阱回避”(将来会避开我们的网)或“陷阱偏好”(学会了我们的陷阱里有诱饵)。任何这些效应都会违反我们的下一个关键假设。
每条鱼被捕获的几率均等: 在我们的第二次取样中,池塘里的每一个体——无论是标记的还是未标记的——都必须有相同的被捕获概率。这确保了我们的第二次捕获是整个池塘的一个真正随机且具代表性的样本。如果标记的鱼“陷阱回避”,我们捕获到的数量就会少于应有的数量,我们对 的估计值就会被人为地抬高。
当这些理想化条件成立时,我们发现的重捕数量 遵循一种特定的概率法则,即超几何分布。这与从一个瓮中不放回地抽取彩球的概率法则相同。然而,现实世界的数据很少能完美地符合这个理想模型。例如,简单的林肯-彼得森估计量可能存在偏差,尤其是在样本量较小的情况下。统计学家意识到这一点,并发展出了一些巧妙的改进方法,如Chapman估计量,它对公式稍作调整,以提供一个更准确、几乎无偏的估计。他们甚至可以计算一个置信区间,这为我们提供了一个 的合理值范围,诚实地承认了抽样固有的不确定性。
但是,如果我们的种群不是封闭的呢?如果我们研究的是一个鸟类种群多年来的变化,个体在不断地出生、死亡,并飞入飞出我们的研究区域,那该怎么办?封闭种群模型将完全不适用。为此,我们需要开放种群模型。
这些模型代表了一次重大的概念转变。它们不再是估计一个单一、固定的种群数量 ,而是旨在估计变化率:存活率和补充率。其中最著名的是Cormack-Jolly-Seber (CJS) 模型。CJS模型仅关注已标记个体的命运,以估计每个时间间隔(例如,从一年到下一年)的两个关键参数:
表观存活率(): 指在时间 存活且位于研究区域内的动物,到时间 仍然存活且位于研究区域内的概率。之所以称之为“表观”存活率,是因为该模型无法区分死亡的动物和永久迁出的动物。从模型的角度来看,两者都只是永远消失了。这是统计学坦诚的一个绝佳例子——模型只声称能估计它能从数据中实际区分出的东西。
探测概率(): 指在时间 ,一个动物被捕获并记录的概率,前提是它存活且存在于研究区域内。
请注意,CJS模型在其基本形式下,并不估计种群数量。它估计的是主导种群动态的生命参数。
一个敏锐的读者现在可能会问:“如果一个动物再也没被看到,你怎么可能判断它是死了(存活率 的失败)还是仅仅被错过了(探测率 的失败)?”这是CJS模型的核心精妙之处,它至少需要三次取样才能奏效。
想象一下,我们在第1年标记了一只鸟。我们在第2年没有看到它,但在第3年又看到了它。这个单一的“1-0-1”捕获历史信息量极大。它明确地告诉我们,这只鸟在第1年和第2年之间存活了下来(否则它不可能在第3年被看到),但我们在第2年未能探测到它。通过比较拥有“1-1-...”这样历史的动物数量与拥有“1-0-1...”历史的动物数量,模型可以将存活的概率与被探测到的概率区分开来。如果只有两次取样,这是不可能的;再次看到一只鸟的概率只是一个整体:存活并被探测到的概率()。有了三次或更多的取样,这个难题就可以被解开,这两个参数就变得可单独识别了。
该框架的真正力量在于其灵活性。科学家们可以在基本的CJS模型基础上进行扩展,以回答关于现实世界中极其细微和复杂的问题。
在动物研究中,一个常见的问题是暂时逗留现象。一些新标记的个体可能只是路过研究区域的“游客”,无意停留。这些暂时逗留者会立即离开,再也不会被看到。一个假设所有动物都是“居民”的简单模型会错误地将这种立即消失解释为死亡,从而导致存活率被严重低估。一个巧妙的解决方案是使用一个考虑“标记后时间”效应的模型。该模型估计两种不同的存活率:一个是标记后第一个时间间隔的较低表观存活率(这包括了居民和离开的暂时逗留者的混合体),另一个是所有后续时间间隔的较高存活率(这只包括留下的真正居民)。第二个参数为我们提供了居民存活率的无偏估计。
一种名为Pollock稳健设计的巧妙实验设置结合了封闭模型和开放模型的优点。它包括在短时间内进行密集的抽样(次级取样期),在此期间可以假定种群是封闭的,从而可以估计丰度 。这些密集抽样期(初级取样期)由较长的时间间隔分隔开,在这些间隔期内,可以使用开放的CJS类型模型来估计存活率和补充率。
也许最令人惊叹的应用是在研究进化过程。想象一位科学家想知道,较大的体型是否有助于小型哺乳动物在严酷的冬季中存活。这是一个关于自然选择的问题。挑战在于,较大的体型不仅可能影响存活,还可能使动物更难被捕捉(也许它更谨慎)。如果我们只看哪些动物再次被看到,我们就会陷入困境。我们无法判断体型较小的动物消失是因为它们死了,还是因为它们更容易被重捕。
解决方案是统计建模的杰作。我们建立一个CJS模型,其中存活概率()和探测概率()都允许是性状——体型()——的函数。然后,模型同时估计体型对存活的影响(真实的选择作用)和体型对探测的影响(测量偏差)。通过明确地对观察过程进行建模,模型可以在统计上减去探测偏差,从而为我们留下一个干净、无偏的选择梯度估计值。
从池塘中的一个简单比例,到估计野外进化之力,标志重捕法揭示了生命隐藏的机制。它证明了人类智慧的力量——一种思维方式,让我们能够计算不可计数之物,追踪不可追踪之物,并看清支配自然世界的无形规则。
掌握了标志与重捕的原理后,你可能会认为这只是一个用来计算难以计数事物的巧妙技巧——这样想只对了一部分。如果止步于此,就如同学会了国际象棋的规则,却从未欣赏过大师对弈的精妙之美。标志重捕法的真正力量不在于计数,而在于这种“计数”让我们能够看到什么。它是一面透镜,通过它我们可以观察生命戏剧的展开——为生存而斗争,为繁殖而权衡,跨越地景的扩散,以及无情的进化过程本身。观察今天谁在这里,明天谁又回来,这个简单的行为,当与一点巧思相结合时,就成为理解自然世界的深刻工具。
让我们踏上一段旅程,看看这个简单的想法能带我们走多远。我们会发现,它不仅仅是生态学家的工具,更是一种推断的基本原则,在最意想不到的科学角落里回响。
超越估计种群数量的第一个、最自然的步骤是提出一个更个人化的问题:一个个体被标记后,能够存活到再次被看到的概率是多少?这个问题立即分为两部分:动物必须首先在时间间隔内存活下来,其次,它必须被我们探测到。死去的动物无法被重捕,但活着的动物可能只是被错过了。现代标志重捕分析的精妙之处,特别是通过Cormack-Jolly-Seber (CJS)框架,在于其统计能力能够解开这两个概率:存活()这一真实的生物学过程,与探测()这一观察过程。
一旦我们能够估计存活率,一个全新的生物学探究世界便豁然开朗。例如,进化生物学中的一个核心问题是衰老。存活的几率是否会随着动物年龄的增长而下降?通过标记已知年龄的动物(如巢中的海鸟雏鸟)并追踪它们多年的遭遇史,我们可以拟合生存概率不为常数,而是年龄的函数的模型。通过比较存活率依赖于年龄的模型与不依赖年龄的模型,我们可以在统计上检测到野外衰老的迹象,并估计生命力衰减的速率。
但生命不仅仅是生存,还关乎繁殖。自然界中一个基本的权衡是“繁殖的代价”——即投入能量生产后代可能会降低自身未来生存的机会。我们如何能在野生种群中测量这种微妙的权衡呢?在这里,标志重捕法演变成一种更复杂的形式:多状态模型。我们可以不仅根据个体身份,还根据其状态来对每个捕获的个体进行分类:例如,在某一年份中是“繁殖者”还是“非繁殖者”。通过追踪个体在这些状态之间的转换,我们可以估计依赖于状态的生存概率。我们可以直接提问:今年繁殖的动物的生存概率是否低于未繁殖的动物的生存概率?如果是,那么差值就为我们提供了繁殖代价的直接、定量的度量,这是生活史理论的基石。
通过将这些部分组合起来,我们可以拼凑出一个完整的生命故事。从标志重捕数据中,我们获得特定年龄的存活率()。从独立的野外观察中,我们可以测量特定年龄的繁殖力()。这些共同构成了一张生命表,这是一个物种人口统计策略的基本总结。我们可以看到生物体在哪个年龄段繁殖,以及其存活前景如何随其一生而变化。这使我们能够对其整个生活史策略进行分类——例如,区分像太平洋鲑鱼这样的单次繁殖物种(在一次大规模的终极事件中繁殖),和像麻雀这样的多次繁殖物种(多次繁殖)。这些生命表不仅是描述性的;它们构成了像Leslie矩阵这样的预测性种群模型的核心,使我们能够预测种群增长并评估其生存能力。
个体并非在真空中生活;它们在广阔的景观中移动。它们从出生地扩散,寻找新的领地,并连接不同的种群。标志重捕法是观察这些空间过程最直接的方法之一。在一个斑块中标记动物,在另一个斑块中重捕它,这是迁徙的明确证据。
这些对移动的观察是推动我们理解空间生态学的原始数据。生态学家可以将扩散建模为一个“核”,这是一个描述个体从其原点移动一定距离的概率的数学函数。扩散是随距离迅速衰减(指数核)还是更集中于一个平均距离附近(高斯核)?通过在一个中心点标记大量个体并记录它们被重捕的位置,我们可以拟合这些模型并估计关键参数,例如一个物种的平均扩散距离。这些知识对于预测物种如何传播、殖民新栖息地或响应气候变化而改变其分布范围至关重要。使用标志重捕法研究移动提供了一个强大的、基于个体的视角,补充了其他方法,如遗传分配测试,后者从基因流模式中推断连通性。
掌握了生存和移动的知识后,我们可以开始评估不同栖息地的质量。一些斑块可能植被茂盛、生产力高,使种群能够繁荣并产生多余的迁出者。这些是“源”生境。其他斑块可能看起来适宜,但死亡率高或繁殖率低,以至于当地种群只能依靠来自别处的个体不断涌入来维持。这些是“汇”生境。区分源和汇是保护生物学中最重要的任务之一。
现代生态学使用强大的整合种群模型(IPMs)来应对这一挑战。这些分层模型是一个宏大的综合体,将多个数据流——种群数量、繁殖成功率调查,以及至关重要的、关于生存和移动的标志重捕数据——结合到一个单一、连贯的统计框架中。标志重捕部分提供了计算斑块内在增长率所必需的稳健、无偏的生存估计。通过将所有部分整合在一起,IPM可以确定一个斑块的“种群收支”是盈余(,源)还是赤字(,汇),为保护行动提供了极其详细和可靠的指南。
也许标志重捕法最深远的应用是将其用作直接测量自然选择的工具。自然选择的进化理论基于一个简单的前提:拥有能增强其生存或繁殖能力的性状的个体,倾向于留下更多的后代,导致这些性状的频率随时间增加。标志重捕法让我们能够亲眼见证这一过程。
如果我们不仅标记个体,还测量它们的一些性状——喙的大小、体重、颜色——我们就可以探究该性状是否能预测其存活概率。通过将存活概率建模为个体性状值的函数,我们可以估计定向选择梯度,这是量化遗传学中的一个正式度量,它量化了选择推动种群平均性状值向某个方向变化的强度。
其应用不胜枚举。在一个研究贝氏拟态的经典实验设计中,研究人员创造了不同类型的人工“猎物”(例如,面团做的毛毛虫):一种是显眼且不可口的“模型”,一种是显眼但可口的“模拟物”,以及一种是暗淡、可口的“对照组”。这些物品被“标记”并放置在野外。一天后,它们被“重捕”并记录被捕食者攻击的情况。这些物品的差异化“存活率”为拟态提供的保护提供了直接、定量的度量——即看起来危险所带来的生存优势。
这种方法可以与现代遗传学相结合,以回答更具体的进化问题。考虑一种带有抗杀虫剂等位基因的害虫。在喷洒过农药的田地里,这个等位基因显然是有利的。但在无杀虫剂的环境中,它是否会带来代价?为了找出答案,我们可以将被标记为已知基因型(, , 和 )的个体释放到受控的、无杀虫剂的围栏中。使用稳健的标志重捕设计,我们可以估计特定基因型的存活概率(, , )。这些存活率之间的差异为我们提供了在没有杀虫剂的情况下,与抗性等位基因相关的适合度代价的直接估计,这是管理抗性进化的关键参数。
尽管标志重捕法在生态学和进化论中威力巨大,你可能会认为它的故事就到此为止了。但其逻辑是如此基础,以至于它出现在一个完全不同的科学领域:免疫学和蛋白质组学世界。
当免疫学家想要研究个体细胞表面呈现的肽——即“免疫肽组”时,他们面临一个熟悉的问题。他们可以分离这些肽并使用质谱法进行鉴定,但他们知道自己的仪器并非完美。没有一次运行能够检测到所有存在的肽。他们如何估计肽的总多样性,包括那些他们错过的?
他们用捕获-重捕获法解决了这个问题。想象一下对同一样本进行两次独立的质谱分析。第一次运行鉴定出一组个肽——这是“标记”的群体。第二次运行鉴定出个肽。其中,发现有个肽也存在于第一组中——这些是“重捕获”的。就像生态学家使用林肯-彼得森估计量一样,免疫学家可以使用、和来估计原始样本中肽种类的总数。两次重复实验变成了两次捕获事件。逻辑是完全相同的。
这是科学统一性的一个美丽例证。那个帮助我们估计湖中鱼类数量的简单想法,同样也帮助我们估计支配我们免疫反应的分子信号的复杂性。这表明,标志重捕法不仅仅是生态学家的技术;它是一种基本的估计原则,适用于任何我们只能观察到整体一部分的系统。从动物迁徙的宏大尺度到细胞蛋白质的微观世界,标志与重捕的逻辑为照亮不可见之物提供了一种强有力的方式。