出生-死亡-抽样模型

玻尔百科

核心要点

出生-死亡-抽样 (BDS) 模型在传统的出生率 (λ) 和死亡率 (μ) 基础上增加了一个抽样率 (ψ)，以正式地解释观察过程。
在流行病学中，该模型揭示了抽样（例如，检测和隔离）如何直接降低有效再生数 ( $R_e$ )，从而量化了监测措施的影响。
在古生物学中，相关的化石化出生-死亡 (FBD) 过程利用化石发现作为样本，从不完整的化石记录中估算真实的物种形成率和灭绝率。
该模型的一个核心教训是，忽略抽样过程可能导致严重偏倚的结论，例如低估病原体的真实传染性。

引言

在科学中，我们对世界的看法几乎总是不完整的。无论是追踪病毒爆发，还是拼凑生命历史，我们都只能看到全局的一小部分。现实与我们所拥有的样本之间的这种差距构成了一个根本性的挑战：我们如何能从有偏见和不完整的数据中得出准确的结论？出生-死亡-抽样 (BDS) 模型提供了一个强大而优雅的解决方案。它提供了一个数学框架，不仅描述了一个动态过程，还明确地将观察行为本身纳入其中，从而将我们不完整的视角从一个问题转变为信息的来源。

本文探讨了出生-死亡-抽样模型的理论与实践。在第一章“原理与机制”中，我们将剖析模型的核心组成部分——出生率、死亡率和抽样率，并理解它们的相互作用如何使我们能够解读系统发育树和化石记录中的数据。随后的“应用与跨学科联系”一章将展示该模型的实际应用，彰显其在流行病学和古生物学等领域的卓越通用性。在流行病学中，它帮助量化公共卫生干预措施的有效性；在古生物学中，它则重构了数百万年来物种形成与灭绝的宏伟史诗。

原理与机制

问题的核心：一个关于出生和死亡的故事

科学的核心进展，往往在于用几个简单而有力的规则来描述一个令人困惑的复杂现实。想象一下观察一片森林的生长、一个谣言的传播，或一种疾病席卷一座城市。从远处看，这似乎一片混乱。但如果我们能追踪单个个体——一棵树、一个人、一个单一的感染谱系——它的命运可以归结为几种可能性。它可能会产生后代。或者它可能不复存在。这就是出生与死亡。

这就是我们故事的美妙而简单的起点。我们可以将一个种群的命运建模为一个出生-死亡过程。让我们把每个谱系想象成一支闪烁的蜡烛。在任何时刻，一支蜡烛都有一定的几率在旁边点燃一支新蜡烛。这是一个出生事件，我们可以用一个参数，即出生率来描述其可能性，我们称之为 $\lambda$ (lambda)。这不是每天固定数量的出生；它是每个个体的速率。如果你有十支蜡烛，产生新火花的速率就是只有一支蜡烛时的十倍。

当然，蜡烛不会永远燃烧。我们的蜡烛可能会熄灭。这是一个死亡事件，我们将用一个死亡率 $\mu$ (mu) 来描述其可能性。与出生率一样，这也是一个每个个体的速率。点燃的蜡烛越多，你在任何一分钟内期望看到的熄灭的蜡烛就越多。

仅凭这两个数字， $\lambda$ 和 $\mu$ ，我们就可以描述种群的整体增长或衰退。如果出生快于死亡 ( $\lambda > \mu$ )，蜡烛的集合就会增长，照亮整个房间。如果死亡超过出生 ( $\lambda \mu$ )，光亮就会逐渐消退。这个简单的模型是我们理解力的引擎，但它缺少一个关键组成部分：我们自己。

观察者效应：为什么抽样会改变一切

我们很少（如果曾经有过的话）是自然界的全知观察者。我们看不到流行病中的每一次感染，也看不到一个物种整个历史中的每一只动物。我们只看到我们能捕捉、测量或找到的东西。我们看到的是一个样本。观察行为，即收集样本的行为，并非一个被动事件；它本身就是过程的一部分。正是这一关键洞见，将一个简单的出生-死亡模型提升为了一个出生-死亡-抽样 (BDS) 模型。我们必须添加第三个参数：抽样率 $\psi$ (psi)。

在这里，事情变得异常微妙，因为“抽样”的含义取决于你正在做什么。让我们考虑两种情景。

首先，想象你是一位流行病学家，正在一家医院里追踪一种危险病毒。你的“出生”是新的传播事件 ( $\lambda$ )，你的“死亡”是病人自行康复 ( $\mu$ )。当你对一名患者进行检测并对其病毒基因组进行测序时，你就“抽样”了那个谱系。但你不仅仅是做个记录然后走开；你会隔离该患者以阻止其感染他人。在这种情况下，抽样是一种移除形式。观察行为直接终止了该谱系传播的能力。一个感染者被从传染池中移除的总速率是自然康复的速率加上被抽样和隔离的速率： $\mu + \psi$ 。

现在，想象你是一位研究化石记录的演化生物学家。你的“出生”是物种形成事件 ( $\lambda$ )，你的“死亡”是灭绝事件 ( $\mu$ )。一块化石是来自过去的“样本”。但是，当一个生物死亡并其骨骼被化石化时（一个速率为 $\psi$ 的事件），这种“抽样”行为并不会改变其物种其余部分的命运。该物种继续存在， blissfully unaware that one of its own has been immortalized in stone. 在这种情况下，抽样是纯粹观察性的。它不计入谱系的“死亡”率。总灭绝率就只是 $\mu$ 。

这种区别是该模型威力的关键。它迫使我们仔细思考我们的观察过程如何与我们正在研究的系统相互作用。我们仅仅是在观看，还是通过参与其中而改变了游戏规则？

解读基因与化石中记载的故事

那么，我们有了这个优雅的模型。我们能用它做什么呢？我们可以用它从我们拥有的不完整数据中解读一个过程的故事——这些数据通常是系统发育树，即根据病原体毒株或物种的基因序列重建的“家谱”。

让我们回到医院爆发的情景，其中抽样意味着移除。公共卫生官员想知道的一个关键数字是有效再生数 $R_e$ 。这是一个病人平均感染的人数。它就是传播率 ( $\lambda$ ) 乘以平均传染期时长。在我们的模型中，一个人停止具有传染性，要么是因为他们康复了（速率为 $\mu$ ），要么是因为他们被抽样并隔离了（速率为 $\psi$ ）。总的移除速率是 $\mu + \psi$ 。他们保持传染性的平均时间是这个总速率的倒数，即 $1 / (\mu + \psi)$ 。因此，我们得到：

$R_e = \lambda \times \frac{1}{\mu + \psi} = \frac{\lambda}{\mu + \psi}$

这不仅仅是一个枯燥的公式；它是一个深刻的洞见。它告诉我们，积极的检测和接触者追踪，这会增加抽样率 $\psi$ ，会直接降低有效再生数。该模型从数学上证实了发现并隔离病例是控制流行病的有力工具，而不仅仅是用于计数。

但是，如果我们很天真会发生什么？如果我们分析我们的基因数据，但使用一个忽略了抽样过程的简单的出生-死亡模型会怎样？我们的朴素模型看到谱系终止，但不知道原因。它将自然康复 ( $\mu$ ) 和抽样-隔离 ( $\psi$ ) 都归入一个单一、虚高的“死亡”率中。它会认为传染期比实际更短，从而导致它系统性地低估真实的再生数。这是一个至关重要的教训：如果你的模型没有考虑到你观察世界的方式，它可能会给出危险的误导性答案。观察行为本身必须成为故事的一部分。

从流行病到万古千秋：化石化出生-死亡过程

一个基本思想的美妙之处在于其普适性。我们应用于为期一周的疫情爆发的相同逻辑，可以扩展到涵盖地球上数百万年的生命。这就是化石化出生-死亡 (FBD) 过程的领域。只是术语发生了变化：

出生 ( $\lambda$ ) 变为物种形成，即一个物种分裂成两个。
死亡 ( $\mu$ ) 变为灭绝。
抽样 ( $\psi$ ) 变为化石化，即生物体在地质记录中被保存下来的罕见事件。

古生物学家长期以来一直面临着一个巨大的挑战：幸存者偏差。化石记录和我们今天看到的生命多样性主要由演化的“胜利者”主导。那些物种形成率高但灭绝率也很高的支系可能已经完全消失，几乎没有留下任何痕迹。如果我们只分析幸存者，我们可能会得到一个扭曲的观点，或许会得出灭绝率一直很低的结论。FBD模型是完美的解药。通过明确地对灭绝和（通常很低的）化石化概率进行建模，它使我们能够从我们实际拥有的有偏见的记录中推断出真实的、潜在的物种形成率和灭绝率。

此外，FBD模型有助于解决演化生物学中最棘手的问题之一：解开演化速率与时间的纠缠。两个物种之间的遗传差异大致是它们的演化速率（其DNA突变的速度）和它们分化以来时间的乘积。一个大的遗传距离可能意味着一个非常古老的分化，也可能是两个快速演化物种之间的近期分裂。我们如何区分这两种情况？化石是我们的计时员。它们的年龄，通过它们所在岩层的测定，提供了关于某些谱系何时存在的独立信息来源。FBD模型提供了一个优美的、统一的框架来整合这些化石数据。生命之树上一个发现了许多化石的分支很可能代表了一个持续了很长时间的谱系，这使其有更多机会被化石化过程“抽样”。这使得模型能够将整个系统发育树锚定在绝对时间上，有助于解开速率和时间的混淆效应。

一点警示：知识的局限

尽管出生-死亡-抽样框架功能强大，但它也教给了我们一堂关于谦逊的课。它不仅揭示了我们能知道什么，也揭示了可能对我们隐藏的东西。在某些情况下，不同的参数组合可能会产生难以甚至不可能区分的模式。这就是参数可识别性问题。

例如，在一个简单的观察模型中，种群的总体增长仅取决于出生率和死亡率之间的差值， $r = \lambda - \mu$ 。一个具有高传播率和高康复率的流行病，可能与一个具有中等传播率和低康复率的流行病以相同的速度增长。仅通过观察病例数量的上升，我们无法区分这两个世界。为了解开 $\lambda$ 和 $\mu$ ，我们需要更多信息——那种编码在完整系统发育树的分支和终止模式中的信息，而BDS模型正是为此设计的。即便如此，一些模糊性可能仍然存在。

这不是模型的失败。相反，这是它最大的优点之一。一个真正好的科学模型不仅仅给我们答案。它给我们一张关于我们自身知识的地图，向我们展示坚实结论的可靠大陆、不确定性的浑浊水域，以及根本上不可知事物的遥远彼岸。它不仅告诉我们该寻找什么，还告诉我们如何寻找，以及如何理解我们自身视野的局限。

应用与跨学科联系

在了解了出生-死亡-抽样模型的原理之后，我们现在来到了探索中最激动人心的部分：看这个优美的数学机器如何实际运作。欣赏一个理论优雅的齿轮和杠杆是一回事，而观看它应对真实世界中混乱而迷人的复杂性则是另一回事。你可能会惊讶地发现，完全相同的一套思想既可以用来追踪医院病房中病毒的闪电般传播，也可以用来重构化石记录中数百万年来生命与死亡的缓慢而宏大的戏剧。这是一个真正基本科学概念的标志——它有能力在表面上看起来截然不同的现象中揭示出隐藏的统一性。在本章中，我们将见证出生-死亡-抽样模型化身为侦探、历史学家和哲学家，在流行病学、古生物学和演化生物学等多个领域解开秘密。

无形之敌：解读一次爆发的“传记”

想象一下，一种新病毒开始传播。公共卫生官员正在与时间赛跑。他们需要知道：疫情是在增长还是在萎缩？它传播的速度有多快？我们的控制措施是否有效？在过去，回答这些问题依赖于计算病例数，这是一个缓慢且常常不准确的过程。今天，我们有了一个强大的新盟友：病毒自身的遗传密码。当病毒在人与人之间传播时，它会累积微小的、随机的突变。这些突变就像一条面包屑踪迹，让我们能够将传播链重构为一棵系统发育树——即病毒本身的家谱。

这就是出生-死亡-抽样模型大显身手的地方。在这种背景下，“出生”是一个传播事件：一个感染者导致一个新的感染。“死亡”是一个感染者不再具有传染性，无论是通过康复还是不幸地死亡。而“抽样”则是科学家对患者病毒进行基因测序的关键行为。系统发育树的分支模式告诉我们出生率 $\lambda$ 。那些未被抽样就从树上消失的谱系告诉我们“死亡”率 $\mu$ （在某些文献中也用 $\delta$ 表示）。而树的末端，每一个都对应一个收集到的基因序列，告诉我们抽样率 $\psi$ 。

通过将连续抽样的出生-死亡 (BDSS) 模型拟合到这些数据，我们可以估算这些速率随时间的变化。从那里，计算流行病学家最渴望的指标——有效再生数 $R_e(t)$ ，只是微小但关键的一步。这个数字告诉我们，平均而言，一个感染者会感染多少新的人。它是衡量疫情势头的直接指标。但模型能够漂亮地处理一个微妙之处：当我们对患者进行抽样时，我们通常会隔离他们，从而有效地将他们从传播链中移除。因此，一个感染者被“移除”的总速率是自然康复/死亡率与抽样率之和。有效再生数因此是传播率除以这个总移除率： $R_e(t) = \frac{\lambda(t)}{\mu(t) + \psi(t)}$ 。通过解开这些速率，我们几乎可以实时地观察到公共卫生干预措施（如封锁或疫苗接种运动）如何成功地将 $R_e(t)$ 推低到1这个关键阈值以下，这标志着疫情终于在消退。

这个框架还为公共卫生领域的另一个重要问题提供了精确、定量的答案：我们实际检测和测序的感染病例占总数的多少？用我们模型的语言来说，这只是一个谱系在自然“死亡”之前被“抽样”的概率。对于恒定的速率，这个比例可以优雅地表示为 $\frac{\psi}{\mu+\psi}$ 。通过估算这些参数，我们可以评估我们监测系统的有效性，这是理解疫情真实规模的关键信息。选择出生-死亡模型并非仅仅出于方便。在监测强度大的情况下，比如很大比例的病例都被测序（例如， $p \approx 0.9$ ），BDS框架从根本上比旧方法（如溯祖理论）更合适，后者通常假设抽样是一个罕见事件，不会显著改变潜在的动态过程。BDS模型将抽样视为过程中不可或缺的一部分，从而提供了更真实、偏差更小的现实图景。

这种方法的力量超越了简单的监测。它可以用来揭示疫情的隐藏特征。考虑一种人畜共患病毒，它偶尔会从动物宿主库跳跃到人类种群中，引起周期性的爆发。即使我们从未对动物宿主的病毒进行过一次测序，人类感染的模式也包含了线索。每一次从动物“幽灵”种群的跳跃都会引发一个新的聚集性人类病例，在全球系统发育树上表现为一个根深的独特分支。通过将出生-死亡模型扩展到包含多个相互作用的种群（一个“多类型”模型），我们可以正式检验存在隐藏宿主库的假设。我们可以对人类种群（其中发生抽样）和未被观察到的宿主库种群（其抽样率固定为零）进行建模，并估算它们之间的迁移率。如果一个包含这个隐藏宿主库和周期性迁移的模型比一个简单的单一种群模型能更好地拟合数据，我们就为机器中的幽灵找到了强有力的证据——并确定了一个关键的公共卫生干预目标。

也许最引人注目的是，我们可以将模型直接与病原体性状的演化联系起来。想象一下，种群中的一些病毒具有帮助它们逃避人类免疫系统的突变。这种“免疫逃逸”性状是否真的能帮助病毒存活更久、传播更有效？我们可以通过使“死亡”率 $\mu$ 依赖于该性状来回答这个问题。我们在系统发育树上重建逃逸性状的演化历史，然后问模型：具有逃逸性状的谱系的死亡率 $\mu_1$ 是否显著低于没有该性状的谱系的死亡率 $\mu_0$ ？如果数据显示 $\mu_1 \lt \mu_0$ ，我们就直接见证了自然选择正在发生作用，量化了由特定分子变化赋予的生存优势。

岩石中的回响：重建生命之树

现在，让我们将目光从病毒的微观时间尺度转向宏观演化的深邃地质时间尺度。我们面对的不再是感染个体，而是物种。传播变成了物种形成（起源）。康复变成了灭绝。基因组测序变成了化石的发现。数学框架保持不变。

一位古生物学家挖掘化石时，面对的是一份极不完整的记录。出生-死亡-抽样模型提供了一种有原则的方法来穿透这层不完美的帷幕。通过分析观察到的物种地层范围（从它们在化石记录中首次出现到最后一次出现的时间）以及为每个物种找到的化石标本数量，我们可以估算宏观演化的三个基本速率：每个谱系的物种形成率 $\lambda$ 、灭绝率 $\mu$ 和化石化与发现（抽样）率 $\psi$ 。

就像在流行病中一样，该模型揭示了美妙的逻辑依赖关系。例如，要估算抽样率 $\psi$ ，你需要的不仅仅是一个物种存在的开始和结束日期；你需要知道在该期间内找到了多少化石。如果没有化石发现的计数，你仍然可以从物种的出现和消失中估算物种形成和灭绝，但岩石保存其秘密的速率仍然是不可知的。模型精确地告诉我们需要什么信息来回答哪个问题。

当然，生命的历史并非一个持续、稳定变化的故事。它被戏剧性的事件所打断，最著名的是大规模灭绝。简单的BDS模型可以扩展成一个强大的贝叶斯框架来探索这些事件。我们可以将地质时间划分为多个区间，并允许速率（ $\lambda, \mu, \psi$ ）在不同区间之间变化。通过使用复杂的统计工具，如“尖峰-厚板”先验，我们可以让数据告诉我们演化节奏的突变发生在哪里。这使我们能够让数据发声：它可以指出在白垩纪末期界线处灭绝率 $\mu$ 的突然飙升，为那场注定恐龙灭亡的小行星撞击提供了定量的特征，同时也显示了在其他时期更为渐进的背景变化。

这就引出了古生物学中最深刻的问题之一，在这个问题上，出生-死亡-抽样模型充当了哲学探究的工具。化石记录似乎显示了一场“寒武纪大爆发”——大约在5.4亿年前，多样性和形态学创新突然、戏剧性地迸发。但这究竟是一场真正的生物学大爆发，还是一场“抽样大爆发”？也许是化石化的条件突然大幅改善，或者那个时期更多含化石的岩石今天更容易被我们接触到。我们如何能区分演化速率的真实变化和记录质量的变化？

BDS模型提供了一条绝佳的前进道路。我们可以构建一个零假设：如果在这个时期，真实的生物学速率——物种形成率 ( $\lambda$ ) 和灭绝率 ( $\mu$ )——实际上是恒定的呢？然后我们可以模拟这个假设的世界，但——这是关键——我们给它施加一个现实的、随时间变化的抽样率 $\psi(t)$ ，这个抽样率由独立的地质数据（如每个时间段可用的沉积岩数量）提供信息。然后，我们可以在这个“平淡生物学，有趣地质学”的假设下生成数千个模拟的化石记录。如果模拟记录始终无法重现我们在真实数据中看到的爆发模式，我们就可以自信地拒绝零假设，并断定寒武纪大爆发确实是一个真实而非凡的生物学事件。然而，如果模拟显示，仅仅化石保存率的增加就可能造成演化爆发的假象，那就迫使我们更加谨慎。从这个意义上说，该模型变成了一种认识论引擎，帮助我们辨别真实发生的事件与我们仅仅感知到的事件。

一点谦卑之言：关于模型构建的艺术

出生-死亡-抽样模型的威力是巨大的，但像任何工具一样，必须以智慧和对其假设的认知来使用它。我们关于疫情增长或一个支系多样化进程的推断，取决于我们为分子钟速率、替换模型的具体细节以及我们认为正在抽样的种群比例所假设的值。

一个好的科学家从不完全确定。这种形式化框架的美妙之处在于它允许我们量化我们的不确定性。我们可以进行敏感性分析来提问：“如果真实的分子钟速率比我想象的快10%，我对 $R_e(t)$ 的估计会改变多少？”通过系统地改变这些核心假设并观察其对我们结论的影响，我们可以建立一个稳健的理解，明确我们确信的知识，以及那些对我们作为建模者所做选择仍然敏感的部分。这种自我诘问的过程是科学探索的核心，它将一个简单的模型转变为一个成熟的发现工具。

从病毒短暂的生命，到物种亿万年的漫长旅程，出生-死亡-抽样模型提供了一种共通的语言。它证明了简洁、优美的数学思想所拥有的力量，即在生命世界美丽而令人困惑的复杂性中寻找秩序与意义。