首页折叠的位点频率谱 (SFS)：群体遗传学...

折叠的位点频率谱 (SFS)：群体遗传学中的稳健工具

玻尔百科

定义

折叠的位点频率谱 (SFS)：群体遗传学中的稳健工具是群体遗传学中一种在祖先等位基因未知时，通过统计次等位基因频率来构建的分析方法。该方法能有效避免由于祖先状态误判导致的误差，并常用于计算 Tajima's D 等多样性统计量以及推演群体的历史动态。尽管其牺牲了部分检测正向选择信号的能力，但在处理古代 DNA 等质量较低且祖先状态不明的数据集时具有重要价值。

核心要点

折叠的位点频率谱（SFS）是通过计算遗传位点上少数（较不常见）等位基因的数目来创建的，这种方法在祖先等位基因未知时使用。
折叠SFS使其对祖先状态错误定向的误差具有稳健性，但牺牲了检测某些正选择信号的能力。
尽管存在局限性，折叠SFS仍是计算如Tajima's D等关键多样性统计量和推断群体人口历史的强大工具。
折叠SFS在分析具有挑战性的数据集时尤其有价值，例如来自古DNA的数据，这些数据质量低且祖先状态不确定。

引言

在群体遗传学领域，理解一个物种的历史就如同解读一部用DNA写成的古老手稿。位点频率谱（SFS）是完成这项任务最基本的工具之一，它提供了群体内遗传变异的统计摘要——一个直方图。理想的分析需要知道每个遗传变异的祖先状态，以构建“展开的”SFS，从而清晰地展示演化过程。然而，确定这个祖先状态常常是不可能的，特别是对于非模式生物或古老样本，这给研究人员带来了重大的知识鸿沟。

本文通过关注一个稳健且广泛使用的替代方法来应对这一挑战：折叠的位点频率谱。我们将探讨这种巧妙的修改如何让遗传学家在信息不全的情况下也能继续他们的工作。接下来的章节将引导您了解这一基本概念。首先，在“原理与机制”中，我们将审视什么是折叠SFS，它是如何从其展开的对应物构建而来的，以及在信息损失和稳健性增益之间的关键权衡。之后，“应用与跨学科联系”将展示折叠SFS如何应用于真实世界数据，以测量遗传多样性、重建群体的历史，甚至检测自然选择的微妙足迹。

原理与机制

想象你是一位历史语言学家，试图追溯一个词的演变。你理想的工具将是一台完美的“时间机器”——一部古籍，告诉你这个词的原始、祖先形式。有了这个，你就能自信地描绘出导致其现代变体的每一次变化、每一次“突变”。在群体遗传学中，我们有类似的任务：理解我们自己DNA的历史。位点频率谱（SFS）是我们阅读这段历史的主要手稿。它是一个简单却极其强大的工具——一个对群体内遗传变异进行分类的直方图。

理想视角：遗传时间机器与展开谱

要构建信息最丰富的SFS，我们首先需要那台语言学上的时间机器。在遗传学中，这以外群（outgroup）的形式出现：一个亲缘关系密切的物种，我们可以用其基因组作为参考。通过将我们群体的序列与外群进行比较，我们可以推断出等位基因的祖先状态（我们远古祖先拥有的版本）和衍生状态（由突变产生的新版本）。

有了这些知识，我们就可以构建一个展开的SFS。过程很简单：对于基因组中的每个变异位点，我们计算样本中有多少个体携带衍生等位基因。如果我们有一个包含 $n$ 条染色体的样本，衍生等位基因可能出现一次、两次、三次，一直到 $n-1$ 次。（我们忽略0和 $n$ 的情况，因为这些位点在我们的样本中不是变异的）。展开的SFS只是一个条形图，显示了有多少遗传位点属于这些类别中的每一种。

那么，这个图表应该是什么样子？如果我们观察中性突变——即那些不影响生物体生存或繁殖的突变——理论给出了一个惊人简单的预测。衍生等位基因数量为 $i$ 的位点期望数与 $1/i$ 成正比。这就形成了一个特有的“L形”：大量的位点上衍生等位基因极其罕见（一大堆数量为 $i=1$ 的“单倍体型”），随着等位基因变得越来越普遍，位点数量迅速减少。

这个直觉非常优美。每个新突变在群体中都以单倍体型的形式诞生。这些新来者中的绝大多数在几代之内就因随机机会（一个称为遗传漂变的过程）而丢失。它们就像彩票；大多数都毫无价值。只有一个微小的、幸运的部分会存活下来，并最终上升到更高的频率。SFS是这个持续过程的快照：一群新生儿和几个饱经风霜的幸存者。这个 $1/i$ 分布是中性演化的基本基线，是我们用来与所有真实世界观察结果进行比较的零假设。

当时间机器失灵：折叠的艺术

但是，当我们的时间机器坏了会怎么样？对于许多新研究的生物体，一个可靠的外群根本不存在，或者它与研究对象的亲缘关系太远以至于比较毫无意义。我们在时间中迷失了方向。在一个变异位点上，我们看到两种等位基因，比如'A'和'T'，但我们无法知道哪个是祖先形式，哪个是新突变。我们无法计算衍生等位基因的数量。

我们能做什么？我们可以采用一种更保守但仍然非常有用的计算方法。我们不再计算衍生等位基因，而是计算少数等位基因——即在我们的样本中较不常见的版本。例如，如果我们抽样20条染色体，发现15条有等位基因'A'，5条有等位基因'T'，那么少数等位基因就是'T'，其数量是5。

这个过程被称为折叠SFS。想象一下，展开的SFS是一把刻度为1到19的衍生等位基因计数尺（对于一个包含20个样本）。一个衍生等位基因计数为3的位点在一端。一个衍生等位基因计数为17（意味着祖先等位基因计数为3）的位点在另一端。如果我们不知道尺子的哪一端是“祖先”端，这两个位点就变得无法区分。在这两种情况下，我们都只看到一个少数等位基因计数为3的变异。我们实际上所做的就是将这把尺子在其中点对折。展开谱上的每个条目 $i$ 都与其对应的条目 $n-i$ 合并。数学上，折叠SFS第 $j$ 个区间的位点数 $\eta_j$ 是展开SFS第 $j$ 个和第 $(n-j)$ 个区间的位点数 $\xi_j$ 和 $\xi_{n-j}$ 之和。这意味着我们的新的、折叠的SFS的类别数量大约减少了一半，为我们提供了一幅分辨率较低的变异图景。

重大的权衡：得与失

折叠行为代表了一种经典的科学权衡。我们失去了关键信息，但获得了针对某种错误的稳健性。

首先，是损失。消失的最重要的信息是区分稀有衍生等位基因和常见衍生等位基因的能力。一个刚刚开始其旅程的新突变，看起来与一个已经接近固定的古老突变完全相同。如果我们想研究正选择，这是一个巨大的打击。当一个有益突变出现时，自然选择可以迅速将其推向高频。这个过程，称为选择性清除，在基因组中留下一个独特的印记：在有益基因周围区域出现过量的高频衍生等位基因。这在展开SFS的高频端表现为一个“凸起”。折叠通过将高频衍生等位基因与低频等位基因合并，完全抹去了这个信号。旨在检测这种信号的强大统计量，如Fay and Wu's H，在应用于折叠SFS时实际上变得毫无用处。

但我们得到了什么？确定性。如果我们的时间机器——外群——有缺陷怎么办？这是一个真实存在的问题，称为祖先状态错误定向。如果我们错误地交换了祖先和衍生的标签，一个真实衍生计数为 $j$ 的位点将被错误地记录为计数为 $n-j$ 。这将完全扭曲展开的SFS，将计数从低频端移动到高频端，反之亦然。但请注意折叠的魔力：它本身的设计就是将区间 $j$ 和 $n-j$ 的计数相加！因此，折叠的SFS对这种对称的错误定向误差完全免疫,。无论我们弄错祖先状态的频率有多高，最终的折叠直方图都保持不变。我们用看到演化方向的能力，换来了我们确实看到的模式并非由错误参考造成的假象这一确定性。

解读折叠谱：探寻群体历史的线索

即使分辨率较低，折叠SFS也远非无用。谱的整体形状仍然包含着关于群体历史——其扩张、收缩和迁徙的故事——的丰富线索。为了解读这些线索，我们通常用统计量来概括SFS，其中最著名的是对比两种不同的遗传多样性测量方法：

Watterson's Estimator ( $\hat{\theta}_W$ )：这是从会计师的角度看待多样性。它直接根据变异位点的总数 $S$ 计算得出。它简单直观，但它平等对待所有变异位点，无论变异是单倍体型还是存在于一半的群体中。
核苷酸多样性 ( $\pi$ )：这是从概率论者的角度看待多样性。它提问：“如果我从样本中随机抽取两条染色体，它们在某个特定位点上拥有不同等位基因的概率是多少？”一个处于中等频率（比如50%）的变异对这个指标的贡献远大于一个罕见的单倍体型，因为它更有可能在一个随机配对中被发现。

这两个衡量标准之间的张力由Tajima's D捕捉，这是一个与差值 $\pi - \hat{\theta}_W$ 成比例的统计量。令人惊讶的是，这个强大的工具在折叠SFS上也能完美工作。原因是，一个位点对 $\pi$ 的贡献取决于两种等位基因频率的乘积， $p$ 和 $q$ 。这个乘积 $p \times q$ 无论哪个等位基因是哪个，都是相同的，因此它不受我们对祖先状态无知的影响。由于 $\pi$ 和 $\hat{\theta}_W$ 都可以从折叠SFS计算得出，Tajima's D 也可以。

Tajima's D 的正负号讲述了一个故事。快速的种群增长历史往往会产生过量的新生、稀有突变。这使得位点数 $S$ 的增加幅度超过了成对多样性 $\pi$ 的增加幅度，从而导致负的Tajima's D。相反，一个经历过严重瓶颈（规模急剧缩小）的种群会失去大部分稀有变异，留下处于中等频率的变异。这使得 $\pi$ 相对于 $S$ 增加，从而导致正的Tajima's D。因此，即使从一个折叠谱中，我们也可以推断出我们群体过去的戏剧性历史。

驾驭现实世界：数据、噪音与发现

这个理论框架是现代群体遗传学的基石，但其在真实世界数据中的应用才是真正的技艺所在。真实数据是杂乱、不完整且充满噪音的。

一个常见的问题是数据缺失。由于测序技术的限制，我们常常无法在每个位点上为每个个体获得可靠的基因型。这意味着样本大小可能因位点而异。简单地将这些位点混合在一起，就像用不同尺子测量的结果取平均值。为了解决这个问题，群体遗传学家开发了优雅的统计方法，将样本量较大的位点的数据投影到一个共同的、较小的样本量上，从而确保可以从零散的数据中构建一个一致的SFS。

一个更隐蔽的问题是测序错误。读取DNA碱基时的随机错误可以创造一个实际不存在的“幻影”变异。这些错误几乎总是以单倍体型的形式出现在数据中。这种虚假单倍体型的泛滥会人为地造成负的Tajima's D，完美地模仿了种群扩张或选择性清除的信号。要区分一个真正的生物学发现和一个技术假象，需要对SFS的预期形状有深入的理解，并对错误过程进行仔细建模。

那么我们通过折叠丢失的信息呢？它永远消失了吗？不一定。在某些情况下，我们可以尝试用统计学方法重建我们的时间机器。通过对错误定向过程建模并估计错误率 $\epsilon$ ，先进的方法可以尝试在数学上“展开”SFS，恢复对真实衍生等位基因频率的概率性估计，并恢复我们检测自然选择微妙信号的能力。这项持续的努力表明，SFS这个简单的概念如何提供一个持久而灵活的框架，将基因组时代的嘈杂、复杂的数据转化为清晰的演化历史叙事。

应用与跨学科联系

掌握了位点频率谱的原理后，我们现在进入真实世界，看看这个优雅的工具在何处真正大放异彩。就像棱镜将白光折射成彩虹一样，SFS，特别是其折叠形式，将原始、看似混乱的遗传变异数据分离成一种结构化的模式，从而讲述故事。它揭示了古代迁徙的回响、毁灭性瘟疫的伤痕，以及自然选择那微妙而无情的手。我们将看到，SFS不仅仅是一个统计摘要；它是一个镜头，通过它我们可以阅读用物种自身DNA写成的传记。

最基本的任务：在信息不全时测量多样性

在我们能够提出关于历史的复杂问题之前，我们必须回答一个简单的问题：一个群体中有多少遗传变异？最直观的衡量标准是核苷酸多样性，或 $\pi$ ，定义为任意两个随机选择的个体（或染色体）之间DNA差异的平均数。

想象一下，你已经对来自 $n$ 个个体的某个基因进行了测序。在某个特定位点，你发现了 $j$ 个拷贝的一种等位基因（比如'A'）和 $n-j$ 个拷贝的另一种等位基因（'T'）。有多少对个体会在此位点上存在差异？答案很简单，就是选择一个拥有'A'的个体和一个拥有'T'的个体的方式数，即 $j \times (n-j)$ 。为了得到每个位点的平均多样性，我们将这个量在所有变异位点上求和，然后除以我们可能选择的个体对的总数 $\binom{n}{2}$ ，以及我们观察的总位点数 $L$ 。

现在，精彩的部分来了。如果我们不知道哪个等位基因，'A'还是'T'，是祖先等位基因怎么办？这是一个常见的问题，尤其是在研究没有近缘“外群”可供比较的物种时。我们被迫“折叠”我们的频率谱，只记录少数等位基因（即较不常见的那个）的数量。这种模糊性会破坏我们计算 $\pi$ 的能力吗？完全不会！差异对的数量 $j(n-j)$ 是神奇地对称的。如果我们错误地将'T'识别为少数等位基因，它的数量将是 $n-j$ ，而差异对的数量将是 $(n-j)j$ ——完全相同的值。折叠SFS，源于必要性和信息缺失，却精确地保留了计算这一基本多样性度量所需的信息。这个简单而优雅的事实是所有后续应用的基础。

解读历史的伤痕：SFS作为群体历史记录

一个在数千年间保持恒定大小的群体，其SFS具有一种特征性的形状，即稀有变异很常见，而常见变异很稀有。但没有哪个群体的历史是如此简单。饥荒、扩张、迁徙和瘟疫都会通过将SFS“雕塑”成不同形状来留下它们的印记。

种群增长与瓶颈： 想象一个最近经历了爆炸性增长的群体。许多新突变会近期出现，但没有一个有时间漂移到高频。结果是大量极稀有变异的过剩，特别是“单倍体型”（仅在一个个体中见到的突变）。SFS会严重偏向低频区间。相反，一个经历过瓶颈（规模急剧缩小）的群体会因偶然失去许多稀有变异。这可能导致中频等位基因的相对过剩。使用折叠SFS，我们仍然可以清晰地看到这些扭曲。低计数少数等位基因的过量是近期扩张的明显迹象，而其他扭曲则可能指向瓶颈效应。在保护遗传学和人类演化等领域，研究人员将这些SFS形状拟合到复杂的群体历史模型中，以估计像人类历史上“走出非洲”瓶颈或因栖息地丧失而导致的濒危物种种群崩溃等事件的时间和严重程度。然而，一个微妙的挑战出现了：是否可能区分一个短暂而剧烈的瓶颈和一个漫长而温和的瓶颈？通常，这两种情景可以产生非常相似的SFS形状，尤其是在低频端。区分它们的关键在于它们在中等频率变异数量上产生的细微差异，这证明了基于SFS推断的能力及其局限性。
种群结构与迁徙： 如果一个物种不是一个庞大、快乐、随机交配的大家庭，而是分裂成有有限迁徙的岛屿或亚群，会发生什么？SFS再次讲述了这个故事。如果我们汇集来自两个长期隔离的群体的样本，我们会看到一个独特的信号。首先，我们看到每个群体特有的常见稀有变异。但我们也会看到大量的变异在一个群体中很常见，而在另一个群体中完全不存在。在汇集的SFS中，这些变异表现为中等频率等位基因的一个明显“驼峰”。如果我们从两个群体中各抽样 $n/2$ 个个体，这些“固定差异”将在少数等位基因计数为 $n/2$ 的地方显示为一个尖峰。这种双峰形状——一个在极低频率处的峰值和另一个在中等频率处的峰值——是强大种群结构的明确标志。这种模式与种群增长的信号如此不同，以至于SFS成为区分这些不同演化力量的主要工具。更进一步，通过检查两个群体之间的联合SFS，该SFS同时记录了两个群体中的等位基因频率，我们甚至可以检测迁徙的方向并重建历史上的范围扩张，这是生物地理学的一个强大工具。

检测自然选择之手

也许SFS最令人兴奋的应用是在寻找自然选择中。当一个新的、有益的突变出现时，它可以通过一个称为“遗传搭便车”的过程在群体中横扫，并拖动与之连锁的DNA。这个事件，即选择性清除，在SFS上留下了戏剧性且局部的伤痕。

硬清除、软清除与平衡选择： 经典的“硬清除”发生在一个单一的新突变横扫至固定时。由此产生的谱系呈星状，清除了邻近的变异，并创造了大量过剩的新生、稀有突变。这会产生一个U形的展开SFS，以及在折叠SFS中相应的低计数等位基因过量。但如果选择作用于一个已存在于群体中的变异（“软清除”）呢？在这种情况下，多个祖先单倍型被一同扫向高频。这保留了更多的变异，并创造了一个独特的SFS信号：多样性减少，但伴有明显的中等频率等位基因过量。折叠SFS，凭借其中等计数等位基因的峰值，成为区分这两种适应模式的关键证据。第三种模式，平衡选择，会长期主动维持多个等位基因（例如控制蝴蝶拟态的超基因单倍型）。这在等位基因类别之间造成了深刻的谱系分裂，导致中等频率多态性的巨大过量和极高的遗传多样性，这种模式很容易通过基于SFS的统计数据与清除区分开来。
巨大的挑战：选择与群体历史： 细心的读者可能会注意到一个问题：选择性清除的信号（稀有变异过量）与种群增长的信号惊人地相似。这种混淆效应是在基因组中扫描选择信号的最大挑战。我们如何确定我们找到的是一个受选择的基因，而不仅仅是群体历史事件的幽灵？解决方案在于一个多管齐下、统计上严谨的方法。首先，我们必须使用一个适当的零模型，该模型要考虑到群体复杂的历史，这通常是从全基因组数据中估计出来的。其次，我们必须认识到，清除是一个局部事件，而群体历史是一个全局事件。真正的清除会在SFS中产生一个局部的扭曲，该扭曲随重组距离的增加而衰减，而群体历史事件不会产生这种模式。现代方法使用复合似然框架，比较在一个基因组窗口中观察到的SFS在中性群体历史模型下的似然性与在一个包含局部清除的模型下的似然性。通过整合背景选择、突变率异质性甚至识别祖先等位基因的错误等因素，这些检验可以强大而准确地定位近期适应的基因组靶点。

深入远古：折叠SFS与古DNA

SFS的最终前沿是其在古DNA（aDNA）上的应用。试图测序尼安德特人或猛犸象的基因组，就像试图阅读一份被埋藏了4万年的手稿。DNA被碎裂成微小的片段，受到化学损伤，并被现代DNA污染。依赖于长而高质量序列片段的方法，如流行的PSMC/MSMC，在处理这类数据时常常会惨败。

这时，SFS，特别是折叠SFS，就派上了用场。基于SFS的方法不是试图阅读整个句子，而是通过汇总来自许多个体的数千个短而受损的片段中单个“字母”（等位基因）的频率来工作。因为我们无法确定一个'C'变成'T'是真实的突变还是仅仅是化学损伤，所以依赖展开的SFS是危险的。折叠SFS不对哪个等位基因是祖先等位基因做任何假设，因此更加稳健。通过开发复杂的统计模型，同时考虑群体历史、化学损伤和现代污染，研究人员甚至可以从最降解的aDNA中估计出可靠的折叠SFS。这使他们能够重建已灭绝种群和物种的群体历史，为我们打开了一扇通往一度被认为永远消失的过去的窗户。

从最简单的多样性测量到已灭绝古人类的复杂历史，位点频率谱提供了一个统一的框架。它的折叠形式，最初是因知识不全而被迫做出的妥协，结果却成为一个稳健而强大的工具，再次证明了在科学中，我们的局限性常常能激发我们最具创造性和洞察力的发现。