首页溯祖模型

溯祖模型

玻尔百科

定义

溯祖模型是群体遗传学中的一种数学框架，用于描述基因谱系如何在随机遗传漂变的影响下向过去追溯并合并至共同祖先。该模型的合并速率与有效群体大小成反比，使研究人员能够从遗传数据中推断历史群体规模和人口动态。溯祖模型被广泛应用于解释不完全谱系分选、追踪病毒流行趋势以及重建包括杂交在内的复杂物种演化关系。

核心要点

溯祖理论模拟了基因谱系如何在种群中，在随机遗传漂变的支配下，向后追溯时间直至一个共同祖先的合并过程。
溯祖速率与有效种群大小 ( $N_e$ ) 成反比，这使得我们能够从遗传数据中推断历史种群大小。
不完全谱系分选（ILS）解释了为何基因树会与物种树冲突，多物种溯祖模型正是利用这一现象来重建演化历史。
这一框架被应用于多个学科，用以追踪病毒流行病、区分种群动态历史与自然选择，以及推断涉及杂交的复杂物种关系。

引言

每个生物体内的DNA都是一份历史文献，一部追溯至远古的祖先纪事。但我们如何阅读这部复杂的文本，以重建演化、迁徙和适应的故事呢？虽然我们可以想象世系从亲代到子代，沿着时间向前演进，形成一棵不断扩张的树，但一个更为强大的视角来自回溯过往。这就是溯祖理论的世界，一个种群遗传学中的革命性框架。它将基因谱系视为可以向过去追溯的线索，直到它们合并（或称“溯祖”）于一个共同祖先。这种方法提供了一个优雅的数学引擎，能将当下的遗传变异模式转化为对过去的丰富叙述。本文将揭示这种“回溯时间”思维的力量，并探讨一个根本性挑战：如何解读不同演化过程——如种群增长、物种分化和自然选择——在基因组上留下的重叠印记。

首先，在原理与机制一章中，我们将回溯时光，理解溯祖的基本规则。我们将探讨随机遗传漂变如何驱使谱系汇合，种群大小如何设定这一过程的时钟速率，以及重组和物种形成等生物学现实如何塑造这些祖先树的形态。接着，在应用与跨学科联系一章中，我们将看到这一理论的实际应用。我们将化身为遗传侦探，利用溯祖理论追踪病毒流行病，厘清生命之树的纷乱枝丫，并精准定位自然选择的印记，从而展示一个统一的原理如何阐明极其广泛的生物学现象。

原理与机制

想象你是一位历史侦探。但你的证据并非写在褪色的手稿或尘封的文物上，而是用DNA语言写成的。你的目标是重建家谱——不是个体的家谱，而是基因的家谱，其历史可追溯至成千上万代甚至数百万代之前。思考世系的传统方式是向前看，从亲代到子代，形成一棵不断分枝的后代之树。而溯祖的视角则邀请我们踏上一段不同寻常且更为强大的旅程：我们从现在开始，向过去追溯。

一部写在基因里的侦探故事

让我们从今天的某个种群中抽取一些基因拷贝。当我们回溯一代时，我们手中的每个基因拷贝都必然来自一个亲代基因拷贝。在一个大种群中，它们很可能都来自不同的亲代。但如果我们不断回溯，一代又一代，最终不可避免地，我们追踪的两个谱系会追溯到同一个亲代基因拷贝。当这种情况发生时，这两个谱系就合并或溯祖（coalesce）了。这个事件是我们基因侦探故事中的基本情节转折点。我们继续向后追溯，观察成对的谱系不断合并，直到只剩下一个谱系。这个最后的祖先就是我们最初样本全体的最近共同祖先（MRCA）。这些溯祖事件的完整历史构成了一份系谱，一棵描绘了我们起始基因共享祖先的树。

是什么驱动了这个过程？其引擎是随机遗传漂变。在任何非无限大的种群中，并非每个个体的基因都能传递给下一代。这仿佛一场宇宙级的抽奖。一些个体幸运地拥有许多后代；另一些则只有很少或没有后代。当我们回溯过去时，这种随机抽样意味着我们追踪的谱系被汇集到越来越小的祖先池中，迫使它们最终发生溯祖。

祖先相遇的规则

这不仅仅是一个模糊的故事，它遵循着优美、简洁而优雅的数学规则。让我们考虑一个二倍体生物（如人类）的种群，其有效种群大小为 $N_e$ ，且保持稳定。术语“有效”是遗传学家用来解释现实世界复杂性的方式；你可以把它想象成一个理想化种群的大小，该种群经历的遗传漂变量与实际种群相同。在这个种群中，我们研究的基因座在任何一代都有 $2N_e$ 个基因拷贝。

现在，让我们从现在任意挑选两个基因谱系，并回溯一代。第一个谱系的亲本是那 $2N_e$ 个拷贝中的一个。第二个谱系的亲本是完全相同的那个拷贝的概率是多少？答案很简单，就是 $\frac{1}{2N_e}$ 。就是这样！这个微小的概率是溯祖过程的基本心跳。它为我们穿越过去之旅设定了时钟速率。

如果我们从 $k$ 个谱系而不是两个开始呢？任何一对谱系之间都可能发生溯祖。 $k$ 个谱系中不同谱系对的数量由二项式系数 $\binom{k}{2} = \frac{k(k-1)}{2}$ 给出。由于每一对在任何一代发生溯祖的概率都是 $\frac{1}{2N_e}$ ，那么任何溯祖事件发生的总概率是 $\frac{\binom{k}{2}}{2N_e}$ 。

想象一个有 $k$ 个舞者的舞厅。舞者越多，可能组成的舞伴对就越多，也就越有可能迅速配对成功。基因谱系也是如此：你拥有的谱系越多，溯祖速率就越高。

溯祖的节奏：快速合并与漫长等待

这条简单的规则——溯祖速率取决于谱系对的数量——对基因系谱的形态有着深远而优美的启示。当我们从大量的谱系（即 $k$ 很大）开始时，谱系对的数量 $\binom{k}{2}$ 非常大，使得溯祖速率很高。这意味着到下一次溯祖事件的等待时间非常短。随着谱系合并， $k$ 变小， $\binom{k}{2}$ 也随之减小，到下一次溯祖事件的等待时间会逐渐变长。

这个过程有一个独特的节奏：在开始阶段（近期）有一阵快速的合并，随后是漫长而缓慢的等待，直到最后几个谱系找到它们的共同祖先。

让我们来看一个包含三个谱系的样本。前两个谱系合并，使谱系数量从三减少到二所需的时间是 $T_3$ 。之后最后两个谱系合并所需的时间是 $T_2$ 。理论预测，这最后一次等待的期望时长是第一次等待的三倍： $\frac{E[T_2]}{E[T_3]} = 3$ 。无论种群大小如何，这个优雅的3比1比例都成立！

对于更大的样本，这种效应变得更加显著。比较一个50个谱系样本中第一次溯祖的期望等待时间（ $T_{50}$ ）和仅有4个谱系样本中的期望等待时间（ $T_4$ ）。这个比率不是一半或四分之一，而是一个极小的数值 $\frac{\binom{4}{2}}{\binom{50}{2}} = \frac{6}{1225}$ 。对于大样本，溯祖事件绝大多数集中在最近的过去。这在最终形成的树的结构上留下了印记：一种星状爆发模式，即靠近末梢有许多短枝，而连接到久远过去和MRCA的内部枝则非常长。

当规则发生变化：重组与繁殖命运

像任何好的物理模型一样，基本的溯祖模型建立在一些简化的假设之上。当那个简单而优美的世界与生物学的全部复杂性相遇时，真正的魔力，也是真正的乐趣，才开始显现。

一个核心假设是，我们追踪的基因作为一个单一、不可分割的单元被继承。但重组呢？在精子和卵子形成过程中，染色体可以交换片段。如果这发生在基因内部，就称为基因内重组。基因的开头可能遗传自一位祖父母，而结尾则来自另一位。这打破了一个单一祖先树的简单图景。基因左侧的历史现在与右侧的历史不同。我们单一、清晰的系谱溶解成一个被称为祖先重组图的复杂历史网络。

另一个假设是，繁殖是一个相对“公平”的游戏，正如理想化的Wright-Fisher模型所模拟的那样。但大自然往往是一个充满史诗般胜利和毁灭性失败的世界。考虑像牡蛎或鳕鱼这样的海洋生物，它们向水中释放数十亿的配子。绝大多数会死亡，而只有极小一部分幸运儿能存活下来，建立下一代。这种“彩票式”模式造成了繁殖成功率的极高方差。这对系谱的影响是深远的。这种高方差极大地降低了有效种群大小 $N_e$ ，使其远小于个体普查数量。在这样的种群中，谱系以惊人的速度溯祖。有时，如此多的谱系追溯到一个幸运的亲本，以至于多个溯祖事件可能同时发生。由此产生的树不像一棵逐渐分枝的橡树，而更像一个星爆，许多谱系从最近过去的一个点辐射出来。繁殖的生物学特性被直接雕刻进基因树的几何形状中。

系谱森林：不完全谱系分选

现在我们可以运用我们的工具，并将其应用于最宏大的舞台：生命之树。当我们从三个不同的物种——比如A、B和C——中取样一个基因并追溯其祖先时，会发生什么？我们从化石或解剖学上知道，物种树是((A, B), C)，也就是说，A和B是彼此最亲近的亲属。

首先，让我们记住一个关键的对称性。如果我们从一个种群中挑选三个谱系，它们可能形成三种不同的有根家谱。因为任何一对谱系首先发生溯祖的可能性都相等，所以这三种树拓扑结构都是等概率的。每种的概率都是 $\frac{1}{3}$ 。这个完美的1/3-1/3-1/3的比例是我们的基准。

现在，让我们回到我们的物种树。当我们从物种A和B回溯基因谱系时，它们进入了它们共享的祖先种群。这个祖先物种存在了一段时间——一个节间——然后它也与物种C的祖先合并。在这个节间内，来自A和B的谱系有一次“私下”溯祖的机会。如果它们确实溯祖了，基因树将是((A, B), C)，与物种树完美匹配。

但如果它们没有溯祖呢？如果祖先种群非常大（ $N_e$ 很大），或者物种形成事件之间的时间非常短（节间很短），我们追踪的两个谱系可能找不到彼此。它们在整个时期内漂流而没有溯祖。在祖先物种中未能溯祖，是不完全谱系分选（ILS）的核心现象。

当这种情况发生时，A和B的谱系仍然是分离的，它们落入与谱系C共享的更深层的祖先种群中。现在我们有了一个熟悉的情景：一个大种群中的三个谱系。我们知道，任何一对首先合并的概率都相等。这意味着有1/3的概率它们形成((A,B),C)树，但也有1/3的概率形成((A,C),B)树和1/3的概率形成((B,C),A)树。后两种基因树是不一致的——它们的拓扑结构与物种树冲突。

这不仅仅是一个故事，它是一个预测模型。得到一个与物种树匹配的基因树的概率是 $1 - \frac{2}{3}\exp(-t)$ ，其中 $t$ 是那个关键节间在溯祖单位下的长度（ $t$ 等于真实时间代数除以 $2N_e$ ）。两种不一致树各自的概率是 $\frac{1}{3}\exp(-t)$ 。这个优美的公式向我们展示了，当祖先种群庞大或物种形成接连快速发生时，预计会出现高水平的不一致性。

这揭示了为什么简单地用基因树“投票”可能会产生误导。完全有可能，真实的物种树仅由基因组中少数基因支持！这就是多物种溯祖（MSC）模型发挥作用的地方。它不仅仅是统计最常见的基因树。它利用这些概率公式来找到能为观察到的所有基因树拓扑分布提供最可能解释的物种树。当它看到一个模式，比如“树1占42%，树2占29%，树3占29%”，它能正确地识别出这是在一个具有短内部枝的特定物种树上，不完全谱系分选留下的印记。

这个框架是如此强大，甚至可以帮助我们检测其他演化事件。在纯粹的ILS下，两种不一致的基因树拓扑应该以相等的频率出现。如果我们的数据显示出显著的不对称性——比如说，((A,C),B)树远多于((B,C),A)树——这就是一个确凿的证据。对称性被打破了，表明基因不仅仅是随机分选的。这通常是物种间杂交的明显迹象，这个过程可以通过像ABBA-BABA检验这样的工具进行正式测试。通过理解溯祖理论的优雅简洁，我们获得了揭开演化史上最复杂、最引人入胜的戏剧的能力。

应用与跨学科联系

我们花了一些时间来了解溯祖理论的运作机制。我们已经看到，通过回溯时间的思维方式，我们可以想象从我们基因样本中抽取的祖先线索如何逐一合并，直到它们都在一个共同的祖先处相遇。这个观点，即合并的速率取决于种群的大小，简单到近乎具有欺骗性。你可能会倾向于认为它只是一个精巧的数学奇观，一个供种群遗传学家把玩的玩具模型。但那将是一个巨大的错误。这个简单的想法实际上是现代生物学中最强大和最通用的概念工具之一。它就像一个通用翻译器，让我们能够解读编码在生物体DNA中微弱而模糊的历史笔迹。

在本章中，我们将踏上一段旅程，看看这个工具能做什么。我们将看到，帮助我们重建一种新病毒爆炸性传播的逻辑，同样可以帮助我们解开生命之树的纠结分枝，追溯数百万年前发生的物种形成事件。我们将成为遗传侦探，学习如何区分种群增长的信号与自然选择的印记。在每一种情况下，我们都将看到溯祖理论内在的美感和统一性：一个单一、优雅的原则如何照亮了生物现象的壮观多样性。

遗传侦探：解读流行病史

当一种新疾病出现时，它似乎是凭空出现的，一个突如其来且令人恐惧的事件。但每一种新的病原体都有一段历史，其出现和传播的故事就写在它的基因里。溯祖理论为解读这个故事提供了钥匙。

想象一下，流行病学家在一次疫情爆发期间对来自不同患者的病毒基因组进行测序。遗传变异的模式能告诉我们什么呢？溯祖理论提供了一个直接的答案。如果一种病毒长期在一个种群中以低水平、稳定的方式传播，其有效种群大小 $N_e$ 大致保持不变。这意味着如果我们回溯谱系，它们将以一个稳定、可预测的速率溯祖。溯祖事件之间的时间间隔看起来会相当均匀。

但如果这种病毒是新的呢？如果它刚刚从动物宿主传播到人类呢？在这种情况下，我们会看到一个截然不同的景象。病毒种群会经历爆炸性的指数级增长。回溯时间来看，这意味着在近期，种群规模非常小，而今天则非常庞大。一个微小的过去种群意味着极高的溯祖速率。一个庞大的现有种群意味着非常低的溯祖速率。因此，病毒的系谱图会呈现出一种独特的形状：在靠近现在的时间点，前几个溯祖事件的等待时间很长，随后是在过去的一阵疯狂的合并。这种“星状”模式转化为一个非常具体的人口统计学特征。像贝叶斯天际线图这样的方法可以从序列数据中重建 $N_e$ 的历史，当它们揭示出一条长期平坦且低矮，然后突然像火箭一样飙升的曲线时，这就是近期外溢事件后爆发流行病的明显迹象。我们实际上是在遗传历史的后视镜中观察一场流行病的诞生。

这不仅仅是一个定性的故事。溯祖理论可以达到惊人的定量精度。例如，当我们找到我们所有病毒样本的最近共同祖先（MRCA）时，我们看到的并不是第一个人类感染（“索引病例”）的日期。总是存在一个滞后期，即在我们的样本病毒的祖先碰巧出现之前，感染已经在少数几个人中传播了一段时间。针对指数增长种群的溯祖理论，为我们提供了一种精确的数学方法来估计这个滞后期，其依据是病毒的基本再生数（ $R_0$ ）和我们样本的大小（ $N$ ）。它允许我们从MRCA的日期往回拨动时钟，以更好地估计真正的外溢日期。

溯祖理论的分辨能力可以进一步聚焦，甚至达到单个传播事件的层面。当一个人感染另一个人时，传播的不是整个多样化的病毒种群，而只是一个小的随机样本。这被称为传播瓶颈。这个瓶颈有多小？是单个病毒颗粒引发了新的感染，还是成百上千个？通过比较供体和受体中病毒的遗传多样性，我们可以回答这个问题。受体中的多样性会稍低，因为供体的部分变异在瓶颈中丢失了。这种损失的程度与瓶颈的大小 $N_b$ 直接相关。一个简单而优美的溯祖论证表明，受体与供体的多样性之比大约为 $(1 - 1/N_b)$ ，这使我们能够估计成功建立新感染的病毒颗粒数量。

这种逻辑不仅限于单一物种。我们生活在一个病原体经常在野生动物、牲畜和人类之间跳跃的世界。结构化溯祖模型通过将每个宿主物种视为一个独立的“亚群”来优雅地处理这种复杂性。谱系可以在一个亚群内溯祖，但它们也可以在亚群之间“迁移”。这里就有一个优美的联系：模型中向后追溯时间的“迁移事件”，无非就是向前追溯时间的跨物种传播事件。模型中的迁移率，如 $m_{HW}$ （模型中谱系从人类亚群跳到野生动物亚群的速率，时间上向后），直接对应于公共卫生官员和兽医们急于理解和预防的外溢事件（即从野生动物到人类的传播，时间上向前）的速率。

生命之树并非一棵简单的树

生命之树的形象，以其整洁的分叉枝干，是演化的有力象征。但溯祖理论揭示的现实，却奇妙地更为纷乱。一个物种的历史并不总是与其中基因的历史相同。

想象一下古生物学家发现化石，表明两种鸟类在200万年前从一个共同祖先分化。然后，遗传学家对这两种鸟类的某个特定基因进行测序，惊讶地发现，那个基因的共同祖先生活在500万年前。这是一个悖论吗？完全不是。这是一种叫做不完全谱系分选（ILS）的现象，溯祖理论完美地解释了它。

那个祖先鸟类物种并非一个单一、统一的实体；它是一个拥有自身遗传多样性的种群。该基因的不同拷贝存在于那个种群中。当物种分化时，由于偶然性，不同的祖先基因版本被传递给了两个新物种。回溯这些基因拷贝的历史，它们并不会在物种分化的那一刻溯祖。它们继续在祖先种群中作为独立的谱系向后追溯时间，直到最终偶然找到它们的共同祖先。它们等待溯祖所花费的“额外”时间——在我们假设的例子中是 $5.0 - 2.0 = 3.0$ 百万年——是祖先种群大小的直接衡量标准。以代为单位的期望等待时间就是 $2N_e$ ，其中 $N_e$ 是那个祖先种群的有效大小。因此，基因树与物种树之间的差异并非矛盾；它是祖先种群大小和多样性的化石记录。多物种溯祖（MSC）正是一个建立在此思想之上的强大框架，它允许我们在考虑到基因树在其枝干内随机分选的同时，推断物种树。

但如果生命之树的枝干不仅纷乱，而且纠缠不清呢？如果两个物种分化后，它们偶尔会相遇并通过杂交交换基因呢？这种情况非常普遍，尤其是在植物和某些动物中。如果我们天真地应用一个假设分化后完全隔离的简单MSC模型，我们可能会被引入歧途。

例如，假设两种橡树在200万年前分化，但在50万年前发生了杂交，一小部分来自物种B的基因流入了物种A。当我们对它们的基因组进行测序时，大多数基因将反映出200万年的分化历史。但一小部分基因会讲述一个不同的故事，一个更近期的共同祖先的故事。一个不知道杂交存在的MSC模型只会看到这两个故事的平均值，并可能错误地推断物种分化发生在大约170万年前的某个时间点。这是一个根本性的挑战：近期基因流的信号看起来很像近期物种形成事件或更大祖先种群的信号。

这就是下一代溯祖模型发挥作用的地方。多物种网络溯祖（MSNC）明确允许树中存在“网状演化”事件——即杂交。通过拟合一个网络模型而不是一个简单的树，我们可以正确地划分遗传数据。该模型能够识别出，一些基因由于基因渗入而具有较浅的历史，而另一些则具有反映真实物种形成事件的深远历史。它甚至可以推断出“幽灵渗入”，即基因流来自一个已经灭绝、我们从未测序过的谱系，但它的存在在基因组的一小部分中留下了深度分歧的幽灵般的回响。这就是溯祖理论最强大的地方，它重建了以前隐藏在视野之外的复杂、网状的历史。

选择与种群动态的印记

生物学的一大追求是寻找适应的遗传基础——精确定位那些使生物体能够在新的环境中生存、抵抗疾病或发展新特征的突变。这项研究之所以复杂，是因为一个种群的历史——它的增长、萎缩和迁徙——同样在基因组上留下了深刻的烙印。溯祖理论是我们区分这两个故事的重要指南。

考虑一个最近经历了指数级增长的种群，比如现代人类。一个庞大的当今种群意味着较低的溯祖速率。从一个样本中回溯谱系，它们往往会有很长的末端枝，然后才在较小的祖先种群中开始快速溯祖。这些长的末端枝是新突变产生的沃土。其结果是一个特征性的遗传信号：过量的稀有突变，这些突变在我们样本中是单个个体所特有的。这种模式可以被像Tajima's $D$ 这样的统计检验捕捉到，在一个快速增长的种群中，该值往往为负。

现在是转折点。想象一个高度有利的新突变在一个种群中出现。它像野火一样迅速传播。当它席卷至高频时，它会拖着它所在的染色体片段一起传播。这个染色体区域的所有其他版本都被消除了。结果是，如果我们在这次选择性清除后对个体进行取样，它们在这个位点的所有基因拷贝都追溯到那个原始的幸运染色体。局部的系谱是一个“星爆”：所有谱系几乎在同一瞬间，即在清除发生时，溯祖。自从清除以来，新的、稀有的突变在通往现在的长枝上积累起来。其信号是什么？过量的稀有突变和一个强烈的负Tajima's $D$ 值。

这是同一个信号！种群增长的历史和强正选择的历史，通过一个简单的统计镜头来看，可能看起来非常相似。这是一个巨大的挑战，但也是溯祖框架旨在解决的问题。我们可以首先使用来自整个基因组的数据来建立一个基线种群动态模型——我们对种群兴衰历史的最佳猜测。然后，我们扫描基因组，寻找那些异常的位点，那些其系谱比我们仅在背景种群动态下预期的更像“星状”、其Tajima's $D$ 值更负的区域。通过这种方式，我们减去种群动态历史的影响，以揭示选择的印记。

溯祖理论还能阐明更奇特的筛选形式。考虑超级基因，它们是由染色体倒位锁定在一起并作为一个单一单元遗传的大块功能相关基因。它们带来了令人难以置信的多态性，比如用于拟态的Heliconius蝴蝶的不同翅膀图案。在许多情况下，这些不同的超级基因排列通过平衡选择维持了数百万年，通常是因为杂合子具有最高的适应性。溯祖理论对此情景做出了一个惊人的预测。如果我们比较两种不同排列（比如A型和B型）之间的基因序列，它们的共同祖先必定生活在创造这种排列的倒位事件之前。它们的分化将是古老的。但如果我们观察A型排列内部的多样性，所有这些拷贝都是作为一个小的亚种群演化的。它们的溯祖时间将近得多。这就产生了一个“深度分歧”的信号：每种类型内部的多样性很浅，但它们之间的分歧却非常深刻，可以追溯到多态性本身的起源。在序列数据中找到这种模式是这种长期平衡选择的有力证据。

结论

我们已经看到溯祖理论在流行病学家、系统发育学家和自然选择研究者手中的作用。我们用它追踪病毒在物种间的跳跃，解开生命的网状结构，并区分适应与种群动态的故事。其应用的广度证明了一个简单而优美的思想的力量。

在其核心，溯祖理论只是一点关于谱系偶然合并的概率论。然而，这个简单的过程，在不同的时间尺度和不同的背景下反复上演，产生了我们在生物世界中看到的极其复杂的遗传变异模式。溯祖理论的伟大胜利在于，它给了我们一种向后解读这些模式的方法，逆转这个过程，并重建那些创造了它们的历史戏剧——流行病、物种形成、适应。它将一串DNA字母从对一个生物体的简单描述，转变为一份丰富的历史文献，一份我们才刚刚开始学习如何阅读的文献。