隔离-迁徙模型（IM模型）：从DNA中读取演化历史

玻尔百科

定义

隔离-迁徙模型（IM模型）：从DNA中读取演化历史是一种进化生物学中的基因组分析框架，用于模拟群体在最初分裂后仍存在基因流的演化过程。该模型通过分析DNA数据中相对分化与绝对差异之间的相关性，帮助研究者区分原始分歧与次级接触等不同的演化历史。它将基因组学与生态学联系起来，通过量化迁移率来揭示配偶选择和杂交后代适应度等现实生物屏障对物种演化的影响。

核心要点

隔离-迁徙（IM）模型允许在初始群体分裂后发生基因流，使得共享祖先可以比分裂时间更晚近。
基因组数据通过一个关键特征揭示了伴随基因流的物种形成：相对分化度（ $F_{ST}$ ）与绝对分化度（ $d_{XY}$ ）之间存在正相关关系。
IM模型提供了一个框架来检验相互竞争的演化历史，例如量化尼安德特人基因流入现代人类的程度，或区分初级分化与次级接触。
该模型通过展示抽象的迁徙率（ $m$ ）是如何由现实世界中的生物障碍（如择偶偏好和杂交后代适应度）共同产生的，从而将基因组学与生态学联系起来。

引言

新物种是如何产生的？这个生物学中的基本问题常常让人联想到群体分裂并孤立演化的情景。然而，这种“严格隔离”的情景只是复杂演化剧本中的一种可能性。如果正在分化的群体继续交换基因——一个称为基因流的过程——会怎样呢？这种挥之不去的联系可以显著改变演化的路径，但利用遗传数据将其与完全分离区分开来，对科学家来说是一个重大挑战。本文介绍隔离-迁徙（IM）模型，一个为解决此问题而设计的优美数学框架。通过解读写在DNA中的故事，IM模型使我们能够创造一幅更细致、更定量的过去图景。首先，我们将在“原理与机制”一章中探索该模型的理论核心，理解它如何检测基因流的信号。随后，“应用与跨学科联系”一章将展示这个强大的工具如何被用来解开关于我们自身起源的秘密，重建生命史，甚至完善我们对物种的定义。

原理与机制

想象一下某个古老物种的两个群体——比方说，蜥蜴。很久以前，它们是一个快乐的、相互交融的群体，生活在一片广阔的大陆上。然后，一次地质事件将它们的家园一分为二，也许是海平面上升使一个半岛变成了岛屿，从而产生了一个“大陆”群体和一个“岛屿”群体。它们现在被分开了。数百万年后，作为演化生物学家的我们带着DNA测序仪来到现场，想要拼凑出它们的历史。我们的核心问题是：在那次灾难性的分裂之后，它们的分离是绝对的，还是有一些爱冒险的蜥蜴成功地来回游泳，使两个群体保持着联系？

这不仅仅是一个关于蜥蜴的故事，它也是一个关于新物种如何产生的基本问题。我们讲述的关于它们历史的故事被封装在一个数学框架中，其中最强大、最精妙的之一就是隔离-迁徙（IM）模型。要理解它的精妙之处，我们首先需要理解它所对比的更简单的故事。

双岛记：严格隔离与持续联系

我们能讲述的最简单的故事是严格隔离。在过去的一个特定时刻，我们称之为时间 $T$ ，祖先群体一分为二，从那时起，没有一个个体曾穿越过屏障。它们在完全的孤立中演化。这是一个清晰、简单的模型。它预示着什么？

要回答这个问题，我们必须学会像群体遗传学家一样思考：回溯时间。当我们观察两只蜥蜴的DNA时，一只来自大陆，一只来自岛屿，我们看到的是一段共享祖先的历史。我们可以一代一代地追溯它们的基因拷贝，直到它们在某个共同祖先处相遇。这个相遇点被称为溯祖事件，它发生的时间是最近共同祖先时间（TMRCA）。

在严格隔离下，有一条铁律：来自不同群体的两个基因谱系不能在比分裂时间 $T$ 更近的时刻发生溯祖。为什么？因为要发生溯祖，它们必须在同一个地方（同一个基因库中）。由于分裂后没有迁徙，它们能处于同一位置的唯一方式是，我们将它们的祖先一直追溯到时间 $T$ 之前存在的共同祖先群体。因此，对于任何跨越两个群体采样的基因对来说，它们的 $T_{MRCA}$ 大于或等于 $T$ 是绝对肯定的。它们所有的共享遗传历史都是古老的。

但如果世界更混乱呢？如果在分裂之后，一直存在着涓涓细流般的基因流呢？这就是隔离-迁徙（IM）模型所描述的世界。这个模型不仅有分裂时间（ $T$ ）和群体大小（后代群体的有效大小 $N_1$ 、 $N_2$ 和祖先群体的 $N_A$ ）；它还增加了一组新的关键参数：迁徙率。我们用 $m_{12}$ 表示每一代岛屿群体（ $P_2$ ）中来自大陆（ $P_1$ ）的新迁入者所占的比例，用 $m_{21}$ 表示相反方向的比例。

突然间，我们回溯时间的故事发生了戏剧性的变化。当我们追溯一个来自岛屿群体的基因谱系到过去时，现在每一代都有一定的概率（等于顺时迁徙率）使其祖先“迁徙”并进入大陆基因库。这开启了一个革命性的可能性：来自岛屿蜥蜴的基因和来自大陆蜥蜴的基因现在可以在我们到达古老的分裂时间 $T$ 之前就发现它们自己处在同一个群体中。它们可以近期溯祖。 $T_{MRCA} \lt T$ 第一次成为可能。这单一的区别——溯祖时间的分布是严格受限于分裂时间，还是不受其限制——是IM模型的概念核心，也是揭开物种形成秘密的关键。

从DNA中读取故事：基因流的信号

这个理论上的差异很美妙，但我们如何在A、C、G、T组成的嘈杂现实中看到它呢？如果基因流使群体变得更相似，一个简单的方法可能是测量它们之间的平均遗传差异，我们称之为绝对分化度（ $d_{XY}$ ），并使用“分子钟”将其转换为分裂时间。然而，这样做充满风险。由迁徙引起的持续混合降低了 $d_{XY}$ ，使群体看起来比在严格隔离下更相似。如果我们应用一个没有考虑这一点的简单分子钟，我们会系统性地低估真实的分裂时间，可能得出分裂发生在一万年前的结论，而实际上是两万年前。为了得到正确的答案，我们必须更聪明一些。

真正的突破来自于我们不再只看平均情况，而是将整个基因组视为一个广阔、多样的景观。这就是“分化的基因组图景”。想象一下，成为两个不同物种的过程涉及到发展出遗传上的繁殖“屏障”。也许大陆蜥蜴演化出一种不同的求偶舞，岛屿蜥蜴不再能识别。控制这一性状的基因将受到强大的选择压力，以阻止在群体间移动。任何携带“错误”版本求偶舞基因的迁入者都将无法繁殖，因此其基因被清除。

这些屏障基因，以及与它们连锁的染色体区域，实际上成为了抵御基因流的堡垒。在基因组中这些“物种形成岛”里，情况就是严格隔离。这里的基因谱系只能在遥远的祖先过去发生溯祖。因此，这些区域将显示出高的遗传分化度（用一种称为 $F_{ST}$ 的统计量衡量）和高的绝对分化度（ $d_{XY}$ ）。

相比之下，基因组的其他部分可能是“可渗透的平原”，包含与繁殖无关的基因。携带这些区域中性变异的迁入者可以很好地移入并繁殖。在这些区域，基因流持续存在，不断混合基因库，导致非常近期的溯祖事件。在这里， $F_{ST}$ 和 $d_{XY}$ 都会很低。

这就为伴随基因流的物种形成提供了确凿的证据：在整个基因组中，相对分化度（ $F_{ST}$ ）和绝对分化度（ $d_{XY}$ ）之间存在显著的正相关关系。分化最严重的区域也是分化最古老的区域，而分化最少的区域则是联系最晚近的区域。这种异质模式是选择、连锁和迁徙相互作用的直接结果，在数据中看到它，是对IM模型优于严格隔离模型的有力证实。其他更详细的统计数据可以证实这个故事。例如，联合等位基因频率谱（jSFS）将显示在一个群体中稀有的共享突变过多——这是一个近期迁入的等位基因刚开始在新群体中传播的明显足迹。

机制中的幽灵：排除混淆因素

然而，一个好的科学家是持怀疑态度的。会不会有其他过程产生这些模式？这才是真正侦探工作的开始。

一个主要的嫌疑是祖先群体本身。如果最初的、分裂前的群体非常庞大，并拥有大量的遗传变异会怎样？当分裂发生时，两个后代群体都会继承这些变异的随机样本。偶然情况下，一些祖先变异会在两个群体中都存活数百万年——这种现象被称为不完全谱系分选（ILS）。这段深厚的共享历史可能使群体看起来相似，从而模仿了基因流。我们能把这个“远古祖先的幽灵”与持续迁徙的信号区分开来吗？

是的，我们可以。虽然一个大的祖先群体大小（ $N_A$ ）可以拉长溯祖时间的分布，使一些TMRCA变得非常非常古老，但它仍然必须遵守严格隔离的基本规则：它永远不能产生比分裂时间 $T$ 更近的溯祖事件。观察到基因组中哪怕只有少数区域具有明确的近期共享祖先（ $T_{MRCA} \lt T$ ），就是对“庞大祖先”假说作为完整解释的致命一击。此外，像帕特森D统计量（或ABBA-BABA检验）这样的巧妙统计检验，其设计初衷就是为了在对基因流敏感的同时，不受ILS效应的影响，从而提供了另一个工具来解开这些效应。

另一个混淆因素是连锁选择。即使在严格隔离下，基因组景观也不是均匀的。基因组的某些区域受到强烈的纯化选择，这不仅在目标基因处“清除”变异，也在连锁的中性位点上清除变异。这降低了局部的有效群体大小（ $N_e$ ）。 $N_e$ 较低的区域将显示出较低的群体内多样性（ $\pi$ ），因此相对分化度（ $F_{ST}$ ）会更高。这可以创造一个看起来像伴随基因流的物种形成的异质 $F_{ST}$ 景观。区分它们的关键是再次观察绝对分化度 $d_{XY}$ 。仅在连锁选择作用下， $N_e$ 较低的区域通常也具有较低的祖先多样性，这通常导致较低而非较高的 $d_{XY}$ 。抵制基因流的屏障基因位点的信号—— $F_{ST}$ 和 $d_{XY}$ 同时升高——仍然是一个独特而有力的证据。

我们能知道和不能知道的：关于谦逊的一课

隔离-迁徙模型为我们提供了一个非常强大的镜头来阅读演化历史。它使我们能够超越简单的二元选择（有基因流或无基因流），开始描绘一幅细致、定量的过去图景。通过将此模型拟合到基因组数据，我们不仅可以估计群体何时分裂，还可以估计它们自那时以来交换基因的速率。

然而，模型的数学原理中还嵌入了最后一个关于谦逊的微妙教训。当我们分析基因组数据时，我们实际上无法独立地估计原始的生物学参数（ $N_1, N_2, N_A, m, T, \mu$ ）。我们估计的是复合的、标度化的参数：由突变率标度的群体大小（例如 $\theta = 4N\mu$ ）、由群体大小标度的迁徙率（ $M = 2Nm$ ）以及由群体大小标度的分化时间（ $\tau = T/(2N)$ ）。

可以这样想：观察DNA就像看一张赛车比赛的照片。从赛车照片的模糊程度，你或许能推算出它们相对于相机快门速度的速度，但你无法判断这究竟是一辆非常快的赛车配上一个高速快门，还是一辆慢速赛车配上一个慢速快门。许多原始参数的组合会产生完全相同的遗传模式。要解开它们——为我们的估计加上年、个体等绝对单位——我们必须引入外部信息，比如用化石来校准突变率 $\mu$ ，或者一个独立的世代时间估计。

这不是模型的失败；这是对科学推断本质的深刻洞见。IM模型提供了精妙、统一的数学语言来描述分化的故事。它揭示了群体大小、时间和迁徙之间的深层联系，并向我们展示了它们在DNA书写的生命之书上留下的优雅足迹。但它也提醒我们，我们的知识总是被我们观察世界的视角和工具所框定。

应用与跨学科联系

既然我们已经熟悉了隔离-迁徙（IM）模型的运作机制，我们可以提出科学中最激动人心的问题：“那又怎样？” 这个理论装置有什么用？绝妙的答案是，这个单一、精妙的理念就像一把万能钥匙，为我们解锁关于生命世界最深刻问题的洞见，从我们自身的起源到我们称之为“物种”的本质。它不仅是演化遗传学家的工具，也是生态学家、生物地理学家和古生物学家的工具。让我们来游览一番这个模型能带我们去到的非凡之地。

揭示我们自己的故事

也许IM模型最激动人心的应用在于解读我们自己的故事。几十年来，化石记录暗示了智人（Homo sapiens）有一段复杂的历史，其他古人类群体如尼安德特人曾与我们的祖先并存。但他们是相互分离、永不相遇吗？还是他们的道路曾有交集？当IM模型应用于现代人类和从古尼安德特人骨骼中测序的高质量DNA的基因组时，它给出了一个惊人而明确的答案：他们的道路不仅相交，而且交织在一起。

通过将来自不同大陆的现代人DNA与尼安德特人基因组进行比较，科学家们发现了一个明显的信号。祖先生活在非洲以外的人们与尼安德特人共享的DNA，比起祖先留在非洲的人们，有少量但显著的超额。IM模型完美地解释了这种模式。它假设我们的祖先离开非洲后，遇到了尼安德特人群体并与之杂交。这种基因流，这种古老的迁徙，在模型中被一个非零的迁徙率 $m$ 参数化。该模型使我们能够将这一信号与另一种可能性区分开来——即我们仅仅因为与尼安德特人拥有共同的更古老祖先群体而共享古老的DNA。IM模型表明，观察到的模式无法用严格隔离的情景很好地解释。

更重要的是，该模型为这段历史提供了一个更深刻、近乎电影般的视角。当基因流以“脉冲”形式发生时，如同人类与尼安德特人之间可能发生的那样，渗入的DNA以长的、连续的“区块”形式进入。随着每一代的流逝，无情的重组过程不断洗牌，将这些区块打碎成越来越小的片段。今天在我们基因组中发现的尼安德特人DNA片段的长度分布，就像一种分子钟。通过测量这些长度，我们可以利用IM框架的原理来估计这次杂交发生的时间，将其定位于数万年之前。同样的建模原理也被用于更精细的尺度，以揭示全球范围内更近期的、错综复杂的人类迁徙和分化历史，例如，通过根据非洲狩猎采集者和农耕者群体遗传多样性的细微差异，来厘清他们的历史。IM模型，在本质上，将我们自己的DNA变成了一份活的历史文献。

博物学家的工具箱：重建生命史

超越我们自己的家谱，IM模型成为演化侦探的通用工具。想象你是一位博物学家，正在研究生活在两个独立山脉中的两种相关的鼠兔（pika），它们是小型山地哺乳动物。它们是如何到达那里的？是一个大的群体在山脉间形成山谷时被一分为二（“地理隔离事件”）？还是一个群体是由另一山脉的几位勇敢探险者建立的（“近期扩张”）？又或是它们很久以前就分裂了，但一直通过险恶的低地维持着涓涓细流般的基因流（“隔离-迁徙”）？

这是三个不同的故事，三个相互竞争的假说。我们如何选择？我们可以询问鼠兔的基因组。对于每个故事，我们都可以建立一个数学模型来预测预期的遗传模式。地理隔离模型是一个严格隔离模型（ $m=0$ ）。近期扩张模型有其独特的参数。而IM模型我们已经很熟悉了。利用强大的统计方法，我们可以比较每个模型对我们从鼠兔身上收集到的实际遗传数据的解释程度。例如，我们可能会发现，数据在地理隔离模型下的可能性比在IM模型下高出数百倍。这种模型比较的过程是现代科学的基石。它使我们能够超越简单地描述模式，开始严格地检验创造这些模式的历史过程。这种方法将遗传学与地质学和生物地理学直接联系起来，帮助我们理解地球的历史是如何塑造生命历史的。

放大镜下的物种形成过程

当我们聚焦于演化中最基本的过程之一：新物种的形成，或称物种形成时，IM模型真正大放异彩。一个核心问题是，新物种是否必须在完全的地理隔离（异域）中形成，还是即使在基因流积极试图使它们同质化的情况下也能分化。

这对我们的框架来说是一个完美的问题。我们可以设置一个严格隔离（SI）模型（其中 $m=0$ ）与一个隔离-迁徙（IM）模型（其中 $m>0$ ）之间的直接竞争。通过将这两个模型拟合到两个正在分化的群体的基因组数据，我们可以问一个简单的问题：在模型中加入迁徙是否能显著更好地解释我们的数据？我们可以使用正式的统计检验，如似然比检验，来判断基因流的证据是否足够强大到可以采信，还是一个更简单的严格隔离故事就足够了。这使我们能够找到“伴随基因流的物种形成”的证据，这一过程曾被认为很罕见，但现在已知是普遍存在的。

但我们可以做得更细致。“伴随基因流的物种形成”这个术语可以描述两种截然不同的情景。这些群体是在接触并一直交换基因的情况下开始分化的吗？这个过程称为初级分化。还是它们在完全隔离中分化了很长一段时间，后来才重新接触并开始杂交？这个过程称为次级接触。

你可能会认为这两种历史不可能区分开来，但它们在基因组中留下了截然不同的足迹。想象一下基因流就像混合颜料。在次级接触中，你拥有两桶不同颜色的颜料（长时间的隔离产生了许多固定的遗传差异），然后突然将一桶颜料倒入另一桶中。这会产生大而连续的新颜色条纹（长的渗入DNA片段），并且所得混合物中色素的频率反映了桶的大小（以中等频率共享的等位基因对应于混合比例）。

在初级分化中，你拥有两桶颜料，它们通过一根微小且持续滴漏的管道连接了很长时间。重组有足够的时间来搅拌颜料，所以你不会看到长条纹。相反，你看到的是一种更弥散的混合，大部分“新”颜色以非常小的液滴形式出现（共享的等位基因通常是稀有的，且不会形成长的连锁不平衡区块）。通过检查基因组中共享DNA片段的长度、等位基因频率的分布，甚至等位基因频率在地理景观中的变化方式等特征，我们可以区分这两种深刻的情景，并描绘出一幅关于新物种如何形成的更丰富的图景。

从基因组到生态系统：生物学的统一性

到目前为止，我们一直将迁徙率 $m$ 视为一个相当抽象的参数。但这个数字从何而来？IM模型的一个美妙之处在于，它在基因组学世界和生态学及动物行为的现实世界之间架起了一座桥梁。

想象我们正在研究森林中比邻而居的两种昆虫。我们对它们基因组的IM模型分析告诉我们，存在一个微小但持续的有效迁徙率，比如说 $m_e = 0.01$ 。这意味着在每一代中，一个物种基因库中大约有1%的基因来自另一个物种。你可能认为这意味着这两个物种几乎互不理睬。

但接着，我们走进森林去观察它们。我们发现它们有非常强烈的与自己同类交配的偏好；一个强大的交配前屏障阻止了95%的潜在跨物种交配。在少数发生的交配中，我们发现由于精子和卵子之间的不相容性（一种交配后-合子前屏障），另有20%的交配未能产生合子。而在产生的杂交后代中，我们在实验室中发现，它们的总体适应度——生存和繁殖的能力——只有纯种后代的一半（一种合子后屏障）。

这些都是巨大的屏障！它们如何能导致0.01的迁徙率？其中的奥秘在于将这些屏障看作一系列过滤器。如果这两个物种相遇的概率是50%，但其中95%的相遇不会导致交配，我们就只剩下 $0.5 \times (1 - 0.95) = 0.025$ 的机会。如果这些交配中又有20%失败，我们就降至 $0.025 \times (1-0.20) = 0.02$ 。如果产生的后代适应度只有一半，我们就得到 $0.02 \times 0.50 = 0.01$ 。数字完美匹配！

这是一个真正深刻的洞见。我们基因组模型中的抽象数字 $m_e$ 实际上是一系列真实世界生物学相互作用的涌现产物：择偶偏好、生理学和生态学。它展示了生物学的美妙统一性，将不可见的DNA序列世界与生态系统中可观察到的生命戏剧联系起来。

那么，什么是物种？

最后，隔离-迁徙模型迫使我们去努力解决生物学中最古老、最困难的问题之一：什么是物种？一个经典的定义，即生物学物种概念，指出物种是彼此生殖隔离的种群群体。这暗示了一个非黑即白的世界：要么你们能杂交，要么不能。有基因流，或没有基因流。

IM模型为我们提供了一个强大的、定量的框架来检验这一点。我们可以检验迁徙率 $m$ 等于零的假设。但在这里，我们必须像科学家一样非常谨慎。如果我们的统计检验告诉我们 $m$ 显著大于零，这表明这两个谱系实际上并非完全生殖隔离。但这并不自动意味着它们不是“好的物种”。正如我们所见，实质性的生殖屏障仍然可以存在。物种形成通常是一个漫长而拖沓的过程，许多截然不同的物种在其生殖盔甲上仍有漏洞。

更微妙的是，如果我们的检验未能发现基因流的证据呢？这是否意味着这些物种是完美隔离的？不一定。这可能仅仅意味着我们的实验（我们的数据集）缺乏统计功效来检测极其微弱的迁徙。或者这可能意味着这些物种只是异域的——生活在不同的地方——没有机会杂交，这并不能告诉我们如果它们被放在一起是否能够杂交。

通过迫使我们从数量、概率和统计置信度的角度思考，IM模型使我们摆脱了僵化的分类，走向一种更现实、更动态的对生物多样性的理解。它揭示了物种边界并非坚实的墙壁，而是复杂、半渗透性的膜。它向我们展示，物种形成不是一个单一事件，而是一个过程，一个混乱而美丽的、分化与联系的连续体，它创造了我们周围看到的无穷无尽的生命形式。