群体历史推断：从DNA中解读群体历史

玻尔百科

核心要点

群体历史推断利用遗传数据重建群体的历史，包括其规模、结构和连通性随时间的变化。
有效群体大小（ $N_e$ ）是衡量遗传漂变的一个指标，是利用基于突变率或重组模式的时钟从DNA中推断出的核心概念。
自然选择等演化力量和确定性偏倚等技术性假象，会产生模拟群体历史的模式，需要仔细分析加以区分。
其应用范围广泛，从揭示人类迁徙和已灭绝物种的深远历史，到指导对濒危群体的实时保护工作。

引言

每个生物体内的DNA都包含着一段隐藏的历史——一个关于其祖先、迁徙、数量和生存斗争的故事。但我们如何才能破译这段用基因语言写成的复杂叙事呢？这正是群体历史推断所要解决的核心挑战。这一强大领域结合了遗传学、统计学和演化理论，旨在重建群体的过往生命历程。没有时间机器，我们无法直接观察这些历史事件，这在我们理解物种如何适应、演化并响应环境变化方面留下了巨大的空白。

本文全面概述了这一引人入胜的学科。首先，在“原理与机制”部分，我们将深入探讨基本概念，探索在遗传学上什么构成了一个“群体”，有效群体大小（ $N_e$ ）这一关键概念，以及我们基因组中使我们能够辨识时间的分子钟。我们将揭示突变和重组的模式如何作为线索来重建群体规模的变化。然后，在“应用与交叉学科联系”部分，我们将游历这些方法的多样化应用，从揭示人类和已灭绝物种的古老迁徙，到为现代保护策略提供信息，再到理清随机偶然性与自然选择之间复杂的相互作用。让我们从探索那些使我们能从生命之书中解读历史的核心原理开始。

原理与机制

从DNA中解读群体历史，有点像侦探抵达一个早已结束的派对现场。客人们都已离去，但留下了线索——杂乱的脚印、凝固在时间中的未完对话，以及暗示着亲缘关系的家族相似性。我们的工作就是重建派对的故事：当时有多少人？他们是突然间涌入，还是随着时间推移陆续到来？是否有些小团体挤在角落里，而其他人则自由交往？这个侦探故事的语言是群体遗传学，其语法建立在几个既优美简洁又异常强大的原理之上。

究竟什么是“群体”？

在我们讲述一个群体的故事之前，我们必须先就其定义达成共识。这似乎很简单，但大自然总爱跟我们开玩笑。想象一片海草草甸。我们可以看到成千上万的嫩枝，每一株看起来都像一个独立的植物。但如果我们分析它们的基因，我们可能会发现，覆盖数百平方米的大片区域在基因上是完全相同的——一个通过克隆繁殖扩散的单一“个体”（一个 遗传株 (genet)）。这些独立的茎只是模块化部分，被称为 分株 (ramets)。

如果我们的研究是关于这些分株如何竞争阳光，我们应该计算分株的数量。但如果我们想了解基因通过有性繁殖的流动——这是演化历史的本质——我们必须计算遗传株的数量。为什么？因为基因库，那个巨大的共享遗传信息库，只有通过有性繁殖的个体才能为其做出贡献。如果我们天真地计算每一株分株来研究群体的遗传构成，我们就会像一个民意调查员，采访同一个人80次，却以为自己调查了一个庞大而多样化的人群。这将极大地扭曲我们对群体遗传多样性和结构的看法。演化上的“个体”是参与减数分裂和重组这场宏大游戏的那个单位。

这种模糊性并不仅限于克隆生物。考虑生活在邻近珊瑚礁上的两群海洋无脊椎动物。在每个珊瑚礁内部，个体似乎是随机交配的，它们的基因处于一种舒适的平衡状态——我们称之为 Hardy-Weinberg Equilibrium。但是，如果我们将两个珊瑚礁的样本混合在一起，作为一个大群体进行分析，我们会突然发现杂合子数量出现了奇怪的亏缺。这就是 Wahlund效应，一个明确的信号，表明我们无意中将两个实际上并未自由交配的群体混为一谈。从交配的角度来看，它们是截然不同的“操作”群体。

然而，如果我们测量它们整体的遗传分化，我们可能会发现一个很小的值，比如说  $F_{ST}$  为 $0.03$ 。这个数字衡量的是群体之间的差异占总遗传变异的多少，它讲述了另一个故事。如此低的 $F_{ST}$ 值，虽然不为零，却意味着每一代都有几个个体在珊瑚礁之间迁移。那么，它们是一个群体还是两个群体？答案，就像科学中的许多问题一样，是：这取决于你的问题。对于关于交配规则的问题，它们是两个。对于关于长期基因流和共同祖先的问题，它们是一个更大的 集合种群 (metapopulation) 中两个相互连接的 亚群 (demes)。“群体”的定义不是一个僵化的盒子，而是我们选择观察世界的镜头。

通用货币：有效群体大小

一旦我们定义了群体，就需要一种方法来衡量其在时间长河中的规模。但我们感兴趣的不是简单的个体总数，即普查群体大小（ $N_c$ ）。一个拥有一百万个体但只有十只雄性和十只雌性参与繁殖的群体，在遗传学上远小于一个一百个体且每个人都有同等机会的群体。侵蚀遗传多样性的力量是 遗传漂变——等位基因频率从一代到下一代的随机波动。漂变在较小的群体中作用更强。

为了捕捉这一点，我们使用 有效群体大小 (effective population size)，即  $N_e$  的概念。它是一个抽象概念，一个理论上的标尺。 $N_e$ 是一个理想化的、“完美”群体（其中所有个体随机交配且有同等机会留下后代）的大小，该群体所经历的遗传漂变量与我们真实的、“混乱”的群体相同。这个单一的数字优美地总结了偏斜的性别比、可变的繁殖成功率以及群体规模随时间波动的净效应。

但即使是这个概念也具有多层微妙之处。我们关心的是个体多快变得近交吗？那是 近交 $N_e$ 。我们关注的是等位基因频率从一代到下一代如何波动吗？那是 方差 $N_e$ 。还是我们回溯时间，探寻我们样本基因的祖先谱系合并或 溯祖 (coalesce) 为共同祖先的速度有多快？那是 溯祖 $N_e$ 。虽然这三个衡量标准在完美群体中是相同的，但在现实群体中它们可能不同。当我们分析现代全基因组数据时，我们几乎总是在推断作为时间函数的溯祖有效大小 $N_e(t)$ 。

解读历史的纸带记录

那么，我们到底如何计算这个神奇的数字 $N_e$ 呢？大自然为我们提供了几种不同的“时钟”，每一种都基于不同的机制运行。

时钟1：突变-漂变平衡

最简单的时钟依赖于两种基本力量之间的平衡。突变不断地向群体中注入新的遗传变异，就像水龙头缓慢滴水一样。遗传漂变则不断地移除它们，就像一个大小与 $N_e$ 成反比的排水口。在一个长期稳定的群体中，这两种力量达到平衡。我们观察到的总遗传多样性是这种平衡的直接体现。

我们可以通过抽样几个个体并计算任意两个染色体拷贝之间DNA差异的平均数来衡量这种多样性，这个量称为 核苷酸多样性 ( $\pi$ )。对于一个二倍体生物，存在一个极其简单的关系：

$\pi \approx 4 N_e \mu$

在这里， $\mu$ 是每个位点每代的突变率，我们通常可以独立估算。如果我们能从序列数据中测量出 $\pi$ ，并且我们知道 $\mu$ ，我们就能解出长期的平均有效群体大小 $N_e$ 。这给了我们一个关于群体深远历史的单一、静态的快照。

时钟2：重组时钟

要看到一部历史的电影而不仅仅是一张快照，我们需要一个更动态的时钟。那个时钟就是 重组。想象一下你从母亲那里继承的基因组。它不是她某条染色体的完美拷贝；而是她母亲和她父亲片段的马赛克。重组洗了牌。这种洗牌每一代都会发生。

现在，想象两个人从一个共同祖先那里继承了一段非常长且相同的DNA。要让这段片段保持完整，这个祖先一定生活在非常近的过去。根本没有足够的时间——足够多代的减数分裂洗牌——让重组把它切碎。相反，如果两个人只共享一小块像五彩纸屑一样的相同DNA，他们的共同祖先可能生活在数百或数千代之前，而祖先的片段已经被无数次重组事件切割成越来越小的碎片。

这个简单而优美的想法是现代群体历史推断的关键。通过扫描基因组寻找这些共享片段，我们就能辨别时间。我们发现两种这样的片段：

纯合片段 (Runs of Homozygosity, ROH): 在 单个个体内部，两条染色体相同的长片段。当你的母亲和父亲都从同一个近代祖先那里遗传了同一段片段时，就会产生这种现象。一个经历过近期严重瓶颈或奠基者事件的群体会显示出大量非常长的ROH，因为每个人都来自一小群近期的奠基者。
同源片段 (Identity-by-Descent, IBD): 在 两个不同个体之间 相同的长片段。

通过分析许多对个体中IBD片段长度的完整分布，我们可以重建有效群体大小的连续历史。某个长度为 $l$ 的片段的丰度告诉我们大约在 $t \approx \frac{1}{2l}$ 代前的群体大小。这是一项了不起的成就：今天共享DNA片段的长度是遥远过去群体大小的直接回响。

当线索产生误导：混淆的力量

基因组侦探的生活从不容易。我们在DNA中观察到的模式并不总是它们看起来的那样，因为其他演化力量留下的指纹可能与群体历史的指纹惊人地相似，从而造成混淆。

自然选择的伪装

最臭名昭著的冒名顶替者是 自然选择。想象一个新出现的有利突变在群体中席卷开来。当这个“明星”等位基因频率上升至固定时，它会拖着整段染色体一起——这种现象称为 遗传搭便车。这个过程会清除该区域所有的遗传变异。在清除结束后，新的突变开始出现。但因为它们都是近期的，它们在我们的样本中以非常低的频率存在，作为单体或双体出现。如果整个基因组中发生了许多这样的 选择性清除，总体结果就是一个 位点频率谱 (Site Frequency Spectrum, SFS)——等位基因频率的直方图——呈现出大量稀有变异的过剩。

问题在于，快速的群体扩张会产生完全相同的效果！一个扩张的群体同样拥有一个具有许多近期分支的谱系，导致稀有变异的过剩。如果不加小心，一位生物学家可能会观察一个持续适应的物种，并错误地断定它一直在爆炸性增长。

这种模仿不仅限于正选择。不断清除有害突变的渐进过程，即 背景选择 (background selection, BGS)，也会移除连锁的中性变异。这种效应在基因密集且重组率低的地方最为强烈。与选择性清除一样，BGS使SFS偏向稀有变异，创造了另一个群体增长的虚假信号。幸运的是，我们可以开发更复杂的检验方法。例如，BGS会在全基因组范围内造成多样性与重组率之间的可预测相关性，而选择性清除则会造成具有独特性单元型特征的、局部的多样性急剧下降。通过结合多条证据线，我们可以开始理清这些效应。

方法和分子的假象

陷阱不仅是生物学上的。有时，我们自己的方法也会欺骗我们。想象一下，你为了研究遗传变异而创造了一个工具，一个“SNP芯片”，首先在一个由比如说20个人组成的小样本中发现变异位点。根据设计，你只会发现那些在这个小样本中足够常见以至于能出现的变异。你会系统性地错过最稀有的变异。如果你随后使用这套有偏的SNP来分析一个更大的群体，你会发现一个人为制造的稀有等位基因亏缺。如果你没有意识到这种 确定性偏倚，你可能会错误地推断该群体经历了一次严重的瓶颈，而实际上瓶颈存在于你的实验设计中！

即使是分子生物学的精细细节也可能使我们误入歧途。当重组发生时，它并不总是一次干净的交换。有时，一条染色体上的一小段DNA会被“复制粘贴”到另一条上，这个过程称为 基因转换。这个过程同样会打破等位基因之间的关联，尤其是在非常短的距离上。如果我们的基因组模型只包括交换而忽略了基因转换，我们就会低估真实的重组量。当我们的模型看到遗传关联的衰减速度比预期快时，它会通过推断一个更大的近期群体规模来进行补偿——这是一个虚假的群体增长信号。

因此，群体历史推断是一项需要极度谨慎和创造力的工作。它要求建立不仅在数学上优雅，而且在生物学上稳健的模型。我们必须不断追问，不仅是“数据讲述了什么故事？”，还有“还有哪些其他故事可以解释同样的事实？”通过利用不同的时钟进行三角定位，检验混淆力量的信号，并理解我们方法的偏差，我们可以缓慢而仔细地拼凑出写在我们基因组中的史诗般的历史。

应用与交叉学科联系

既然我们已经探索了群体历史推断的基本原理，我们可能会倾向于认为它只是群体遗传学中一个专业化，甚至有些深奥的角落。但事实远非如此。在科学中，最强大的思想是那些不安分守己的思想；它们会溢出边界，连接不同的领域，让我们能够提出我们从未想过可能提出的问题。群体历史推断正是这样一种思想。它不仅仅是一个计算祖先数量的工具；它是一台时间机器，是侦探的放大镜，也是理解偶然与必然在演化中博弈的哲人石。让我们踏上一段旅程，看看这一个概念如何作为一条统一的线索，将从遥远过去到鲜活现在的生命故事编织在一起。

揭示深远历史：基因组时间机器

群体历史推断最令人惊叹的应用是它能够仅凭DNA序列重建生命历史。它使我们能够将时钟倒拨，不仅仅是几百年，而是数千年。

想象一下试图重建人类走出非洲的宏大迁徙故事。很长一段时间里，这是人类学家和考古学家的领域，他们从零散的骨骼和器物中拼凑故事。然后，基因组学登场了。“走出非洲”模型提出，现代人类起源于非洲，所有非非洲人群都是由迁徙出去的群体建立的。每当一小群奠基者离开去建立一个新的群体时，他们只能携带其更大的母群体中遗传多样性的一个子集。这就是我们所说的“系列奠基者效应”。

我们的理论预测什么呢？它预测了一个优美而简单的梯度：最大的遗传多样性应该在非洲发现，并且随着我们距离越来越远，从欧洲到亚洲再到美洲，多样性应该稳步下降。而这正是我们发现的。无论我们是观察我们DNA中的单字母变化，还是像插入和缺失这样的更大结构变异，这个模式都成立。例如，一项对埃塞俄比亚、法国和汉族人群中插入缺失变异的研究，显示了这种多样性的精确下降，为化石讲述的故事提供了惊人的佐证——一个写在我们自己基因组中的宏大旅程的故事。

这种能力不仅限于我们自己的物种。我们现在可以触及更深远的过去，讲述那些已不再行走于地球上的生物的故事。假设一队古遗传学家在永久冻土中发现了一块保存完好的、有12000年历史的已灭绝巨型地懒骨头。从这单一的骨头中，他们测序了一个个体的完整基因组。一个单一的基因组能告诉我们一个已经灭绝了数千年的整个物种的什么信息呢？

一切。一种被称为配对序列马尔可夫溯祖模型（Pairwise Sequentially Markovian Coalescent），或称PSMC的巧妙方法，将那个单一二倍体个体内的两套染色体视为来自古代群体的两个谱系的样本。通过沿着基因组扫描并分析这两套染色体拷贝之间的相似性和差异性（杂合性），我们可以推断出它们所来自的有效群体大小（ $N_e$ ）的历史。当应用于那只地懒时，该方法可能会揭示其群体规模的急剧下降，始于大约3万年前，并在大约1.9万年前触底。快速查阅古气候学记录揭示了罪魁祸首：这个时期与末次冰盛期（Last Glacial Maximum）完全吻合，那是一个极度寒冷和栖息地丧失的时期。由古代气候变化驱动的地懒衰落史，正等待着从一个早已死去的个体的DNA中被解读出来。这不是推测；这是历史，是用一种新的读写能力解读出来的历史。

洞察现实世界：实时生态学

虽然窥探遥远的过去令人激动，但群体历史推断对于理解此时此地同样强大。对于试图保护濒危物种的生态学家和保护生物学家来说，了解群体之间的联系方式对他们研究的物种来说是生死攸关的问题。一个群体是真正孤立的，还是个体在不同栖息地之间移动，带来新的遗传物质？

在这里，我们的方法变成了一套具有非凡时间精度的工具包。想象一下研究一种生活在被大坝分割的河流系统中的鱼类。通过收集遗传样本，我们可以成为生态侦探。

亲本分析： 通过将幼鱼的基因型与所有可能的成年候选鱼进行比较，我们可以几乎确定地识别出它们的父母。如果我们在一个水池中发现一条后代，而其父母在另一个水池中被采样，我们就直接目睹了一次已实现的扩散事件——一个个体移动并成功繁殖。这为我们提供了最直接时间尺度上的基因流图景：上一个繁殖季节（ $0$ – $1$ 代）。
第一代迁移体检测： 我们也可以对任何一条鱼进行分析，问：它的基因型在这里统计上“正常”吗？我们计算其基因构成来自当地基因库与来自其他地方基因库的概率。如果这条鱼的基因型在其捕获地点出现的可能性极小，但在别处却是一种常见类型，那么我们就捕获了一个第一代迁移体——一个个体出生在别处，并在其一生中移动过来（时间尺度为 $1$ 代）。
群体归属分析： 拓宽我们的视野，我们可以分析整体的遗传结构，这反映了过去几代迁移和漂变的平衡。这告诉我们关于连通性的一般模式，而不仅仅是单一事件。

这套工具为我们提供了对生态系统动态前所未有的、多层次的视角。它使我们能够从长期平均值转向对一个活生生的景观进行实时监控。

伟大的综合：构建完整的演化图景

一个科学概念的真正力量在于它成为连接不同领域的粘合剂时得以显现。群体历史推断已经成为这种粘合剂，使我们能够构建曾经只存在于科幻小说中的整合性演化“超级模型”。

思考一下生物学中最大的问题之一：新物种是如何产生的？一个经典的场景涉及地理隔离。但这是一次异域性隔离分布，即一个大的连续群体被新的屏障（如河流改道）一分为二？还是一次边缘性迁殖，即大陆上少数勇敢的奠基者殖民了一个新岛屿？

要回答这个问题，我们必须成为多个学科的大师。首先，作为生态学家，我们可以构建物种分布模型（Species Distribution Models, SDMs），根据环境因素预测物种的适宜栖息地。通过将这些模型投射到古气候重建上，我们可以创建数千年前那个物种所处世界的地图。通往岛屿的陆桥是否曾短暂出现？曾经连成一片的栖息地是否被一分为二？

然后，作为群体遗传学家，我们基于基因组数据构建相互竞争的群体历史模型。隔离分布模型预测群体分裂为两个规模大致相当的群体。边缘性迁殖模型预测岛屿奠基者群体经历了严重的瓶颈。这些不同的历史留下了独特的信号：边缘性迁殖模型预测岛屿群体的遗传多样性（ $\pi$ ）将急剧下降，稀有等位基因过剩（负的Tajima’s $D$ ），以及有来自大陆的非对称基因流历史。通过使用生态学的回溯预测来为我们的遗传模型提供信息——例如，仅在SDM表明存在廊道时才允许迁移——我们可以正式检验哪种组合的生态-基因组故事最符合我们今天看到的数据。这是一种真正的综合，是对一个物种诞生的整体性重构。

这种整合能力延伸到了物种之间相互作用的演化。一个复杂的拟态环，其中多个物种趋同于相同的警戒色，是如何形成的？一种植物与其特化的传粉者是如何共同演化的？这些都是关于“共同演化的地理镶嵌格局”的问题。相互作用物种的群体历史为这场演化剧的上演提供了舞台。通过首先重建群体如何分裂、移动和合并的历史（由中性基因构建的群体历史支架），我们便可以在此基础上叠加参与相互作用的特定基因的故事——比如蝴蝶中控制颜色模式的超基因，或者控制花形状和喙长度的基因。这使我们能够提出精确的问题：拟态性状是演化一次并通过基因流传播，还是多次独立演化？植物及其传粉者是否共享了被古代气候屏障分割的相同历史？要提出这些问题，本身就需要一个科学艺术品般的抽样设计，精心规划以捕捉整个景观中相关的空间和遗传数据 [@problem-id:2549416]。

终极问题：理清偶然与必然

或许，群体历史推断最深刻的应用在于它帮助我们解决演化生物学中最深层次的问题：我们如何区分随机偶然（遗传漂变，由群体历史捕获）与适应（自然选择）的作用？

几十年来，生物学家一直在寻找驱动有利突变固定的正选择信号。一种经典方法，即McDonald-Kreitman (MK)检验，比较了物种内与物种间氨基酸改变（非同义）突变与沉默（同义）突变的比例。其逻辑是，如果正选择正在驱动非同义变化走向固定，那么物种间固定差异的这一比例应该高于物种内多态性的比例。

然而，一个棘手的问题出现了。研究人员经常会从这个检验中发现强烈的适应性统计信号，即使是在那些似乎长期处于强纯化选择下的基因中（其中替换速率比率 $\omega$ 远小于1）。这似乎是一个悖论。而悖论的解答就在于群体历史。

想象一个最近经历了大规模扩张的群体。这一群体历史事件有两个后果。首先，它产生了大量新突变，其中大部分以极低的频率出现。其次，现在庞大的群体规模使得纯化选择更有效地清除轻微有害的突变。非同义变化比同义变化更有可能是轻微有害的。因此，在扩张的群体中，这些轻微“坏”的非同义突变在其最终被清除之前，被维持在比其中性对应物更低的频率上。这个过程显著降低了非同义与同义*多态性*的比率。当这个被人为压低的比率被代入经典的MK检验时，它就产生了一个虚假的正选择信号。“适应”成了一种幻象——一个由群体历史与纯化选择相互作用产生的幽灵。

这一认识催生了新一代更复杂的方法（通常称为DFE-alpha）。其逻辑优雅而强大：首先，利用来自同义位点的“干净”信号来推断真实的群体历史。然后，在保持该群体历史不变的情况下，对最能解释观察到的非同义多态性模式的适合度效应分布（DFE）进行建模。只有这样，我们才能计算出可归因于非适应性力量（漂变和纯化选择）的预期分化量。适应性演化的真实量，即 $\alpha$ ，就是剩余的部分——即便是我们这个复杂的群体历史与选择联合模型也无法解释的超额非同义分化。这表明，群体历史推断不仅仅是一个配角；它是正确理解自然选择主角作用的先决条件。

统一的线索

从已灭绝地懒的幽灵到蝴蝶的舞蹈，再到适应的本质，群体历史推断是那条统一的线索。它提供了必要的历史和生态背景，没有它，我们对演化的图景将是不完整的。它迫使我们从过程和历史的角度思考，并连接了古生物学、生态学、保护学和演化理论等不同领域。即使是计算工具本身的发展，也涉及对不同建模哲学之间统计权衡的深刻思考，代表了一个融合了生物学、统计学和计算机科学的充满活力的跨学科交叉点。通过学习解读群体的故事，我们学会了用全新的视角审视整个生命的织锦，更深刻地领会其历史的美丽与统一。