固定指数（FST）：衡量种群分化的指南

玻尔百科

定义

固定指数（FST）：衡量种群分化的指南是群体遗传学中衡量种群分化的重要指标，通过计算种群细分导致的杂合度比例降低来量化遗传差异。该指数反映了导致种群分歧的遗传漂变与促进种群同质化的基因流之间的平衡关系。它广泛应用于保护生物学和人类学，用于评估种群健康状况、研究历史社会结构以及识别受自然选择影响的基因。

核心要点

固定指数（ $F_{ST}$ ）通过衡量因种群细分所导致的遗传多样性（杂合度）的相对减少量，来量化种群分化。
$F_{ST}$ 从根本上反映了两种相对演化力量之间的平衡：使种群分化的遗传漂变，和使种群趋同的基因流（迁移）。
该指数应用广泛，从在保育生物学中评估种群健康状况，到揭示人类历史社会结构，再到识别受自然选择作用的基因。
尽管高 $F_{ST}$ 值表明存在显著的遗传隔离和独特的演化历史，但它是一个衡量种群结构的指标，而非物种形成的直接或自动指标。

引言

在生命科学的研究中，最基本的问题之一是新形态如何产生。这通常始于种群彼此分化，走上各自独立的演化道路。但我们如何能超越简单的观察，定量地衡量群体之间的“差异性”？这正是固定指数（ $F_{ST}$ ）被提出来要解决的核心问题。它提供了一个单一而强大的数值来描述种群结构，将一堆遗传数据转变为一个关于分离、迁徙和演化的动态故事。

本文为理解固定指数提供了一份全面的指南。在接下来的章节中，您将学到从其基本原理到最前沿应用的一切。我们将首先探讨 $F_{ST}$ 背后的“原理与机制”，揭示一个简单的预期杂合子缺失——即瓦伦德效应（Wahlund effect）——如何能被用来构建一个稳健的分化度量。我们将看到 $F_{ST}$ 如何与统计学方差相关联，以及它如何融入 Sewall Wright 更广泛的 F-统计量框架中，以厘清近亲繁殖和种群结构的影响。随后，“应用与跨学科联系”一章将揭示这一理论概念在现实世界中如何成为一个强大的透镜，被保育生物学家用来拯救濒危物种，被人类学家用来从我们的 DNA 中解读社会历史，并被遗传学家用来精确定位正在经历自然选择的基因。

原理与机制

想象一下，你是一位博物学家，正在探索一片山脉。你注意到，一座山峰上的鼠兔——一种毛茸茸的兔子近亲——似乎与另一座山峰上的略有不同。又或者，你正在研究高山野花，观察到朝北的山坡上开满了红色的花，而朝南的山坡上几乎全是白色的花。你的直觉告诉你，这些种群是不同的，它们已经开始走向各自独立的演化道路。但是，你如何能给这种感觉赋予一个数字？你如何衡量群体之间的“差异性”？这正是固定指数（ $F_{ST}$ ）被发明出来要回答的核心问题。

两个种群的故事：消失的杂合子之谜

要开始我们的旅程，我们需要一种衡量遗传变异的“货币”。我们将使用的就是杂合度。对于一个具有两个版本或等位基因的简单基因——比如， $R$ 代表红花， $r$ 代表白花——一个个体可以是纯合的（ $RR$ 或 $rr$ ）或杂合的（ $Rr$ ）。群体中杂合子的比例是其遗传多样性的直接度量。如果交配是随机的，杂合子的频率可以从等位基因频率中预测出来，这一原则被称为哈迪-温伯格平衡。

现在，让我们来进行一个思想实验，其灵感来源于种群遗传学中的一个经典情景。想象两个孤立的山谷。在山谷1中，红色等位基因（ $R$ ）非常普遍，频率为 $p_1 = 0.8$ 。在山谷2中，红色等位基因很罕见，频率为 $p_2 = 0.2$ 。在每个山谷内，植物都是随机交配的。因此，在山谷1中，杂合（ $Rr$ ）植物的预期比例是 $2 \times p_1 \times (1-p_1) = 2 \times 0.8 \times 0.2 = 0.32$ 。在山谷2中，它是 $2 \times p_2 \times (1-p_2) = 2 \times 0.2 \times 0.8 = 0.32$ 。这两个山谷的平均预期杂合度自然是 $0.32$ 。

但是，假设一位生物学家不知道这两个不同的山谷，他从两个山谷收集了种子，将它们混合在一起，并将其视为一个巨大的种群。在这个混合样本中， $R$ 等位基因的总频率将是两个山谷的平均值： $\bar{p} = (0.8 + 0.2) / 2 = 0.5$ 。然后，这位生物学家会预期这个“总”种群中杂合子的频率为 $2 \times \bar{p} \times (1-\bar{p}) = 2 \times 0.5 \times 0.5 = 0.50$ 。

看！这位生物学家预期有 50% 的杂合子，但在自然界中实际发现的平均值只有 32%。杂合子出现了巨大的缺失。它们去哪儿了？这种令人困惑的缺失并非由于近亲繁殖（与近亲交配），因为我们已经确定在每个山谷内交配是随机的。这种缺失的出现仅仅是因为我们错误地将两个不同的种群混为一谈。这种现象被称为瓦伦德效应。种群的结构本身——其划分为不同的群体——在总体层面上造成了明显的、 “虚构的”杂合子缺失。这一见解是理解 $F_{ST}$ 的关键。

量化差异： $F_{ST}$ 的诞生

瓦伦德效应为我们提供了一种量化种群结构的绝佳方法。我们有两个杂合度的度量：

$H_T$ ：如果所有种群构成一个大的、随机交配的基因库，其预期的杂合度。在我们的花卉例子中， $H_T = 0.50$ 。“T”代表总（Total）。
$H_S$ ：每个独立亚群内部预期杂合度的平均值。在我们的例子中， $H_S = 0.32$ 。“S”代表亚群（Subpopulation）。

如果种群在遗传上有所不同，它们的等位基因频率就会有差异，并且由于瓦伦德效应， $H_S$ 将小于 $H_T$ 。这个差值 $H_T - H_S$ 正是由于种群被细分而导致的杂合度降低量。

演化生物学界的巨擘之一 Sewall Wright 将 $F_{ST}$ 定义为由于这种细分而导致的杂合度的相对减少量。公式非常简洁：

$F_{ST} = \frac{H_T - H_S}{H_T}$

让我们为我们的野花种群计算一下：

$F_{ST} = \frac{0.50 - 0.32}{0.50} = \frac{0.18}{0.50} = 0.36$

这个数字， $F_{ST} = 0.36$ ，就是我们对“差异性”的度量。它告诉我们，在一个统一的种群中本应存在的遗传多样性中，有36%因为种群间的隔离而被“丢失”了，或者更准确地说，是被分配到了各个独立的种群中。

$F_{ST}$ 的取值范围是 0 到 1。 $F_{ST}$ 为 0 意味着 $H_S = H_T$ ，表明种群间的等位基因频率没有差异——它们都是一个和谐的大家庭。 $F_{ST}$ 为 1 意味着 $H_S = 0$ ，这是一种每个种群都完全固定了不同等位基因的情况；它们的分化程度达到了最大。 $0.25$ 的值通常被认为代表了巨大的遗传分化。

另一种视角： $F_{ST}$ 作为方差的度量

在物理学以及所有科学领域中，最美妙的事情之一就是两条看似截然不同的路径通向了同一个终点。我们已经用杂合度定义了 $F_{ST}$ 。但还有另一种同样强大的思考方式：将其视为一种方差的度量。

想象一下，你从几个种群中获得了等位基因频率，比如一项假想研究中的五个小区，某个等位基因 $A$ 的频率为 $\{0.10, 0.20, 0.15, 0.05, 0.30\}$ 。平均频率 $\bar{p}$ 是 $0.16$ 。这些频率围绕着均值散布。我们可以计算这些频率的方差，一个衡量离散程度的标准统计量，我们称之为 $s_p^2$ 。

我们可能拥有的最大方差是多少？复合种群中可用的总遗传变异由 $\bar{p}(1-\bar{p})$ 这一项来体现。这是一个二项变量的方差——可以把它看作是从总基因库中抽取一个等位基因时固有的“不确定性”。

事实证明， $F_{ST}$ 就是观测到的种群间等位基因频率的方差，并用这个最大可能方差进行了标准化：

$F_{ST} = \frac{s_p^2}{\bar{p}(1-\bar{p})}$

这个观点意义深远。它揭示了 $F_{ST}$ 的作用与一种名为方差分析（ANOVA）的核心统计工具相同。它将总遗传方差分解为存在于种群之间的组分和存在于种群内部的组分。 $F_{ST}$ 是总方差中存在于种群间的那一部分。杂合度和方差，这两条路径，通向了同一座山峰。

厘清全貌：近亲繁殖与种群结构

到目前为止，我们一直假设杂合子缺失的唯一原因是种群结构。但如果亚群内部也存在近亲繁殖——非随机交配——该怎么办？我们如何区分这两种效应？这就是 Wright 的 F-统计量的全部威力所在。

我们还需要一个信息： $H_I$ ，即观测到的杂合度，也就是杂合个体的实际计数。这使我们能够定义另外两个 F-统计量：

$F_{IS}$ ：它衡量的是一个个体（Individual）相对于其亚群（Subpopulation）的杂合子缺失。它是“近亲繁殖系数”。它将观测到的杂合度（ $H_I$ ）与亚群内的预期杂合度（ $H_S$ ）进行比较。如果亚群内交配是随机的， $H_I = H_S$ 且 $F_{IS} = 0$ 。如果存在近亲繁殖， $H_I \lt H_S$ 且 $F_{IS} > 0$ 。

$F_{IS} = \frac{H_S - H_I}{H_S}$
$F_{IT}$ ：它衡量的是一个个体（Individual）相对于总（Total）种群的总杂合子缺失。它将观测到的杂合度（ $H_I$ ）与混合总种群中的预期杂合度（ $H_T$ ）进行比较。

$F_{IT} = \frac{H_T - H_I}{H_T}$

在我们之前的花卉例子中，我们看到每个山谷内观测到的杂合度与预期的完全一样（ $0.32$ ），所以 $H_I = H_S = 0.32$ 。这意味着 $F_{IS} = 0$ ，证实了没有近亲繁殖。我们还看到 $F_{IT}$ 是 $0.36$ 。这是一个典型的案例，其中总缺失（ $F_{IT} > 0$ ）完全是由结构（ $F_{ST} > 0$ ）而非近亲繁殖（ $F_{IS} = 0$ ）造成的。

这三个指数通过一个简洁而强大的方程式优雅地联系在一起：

$(1 - F_{IT}) = (1 - F_{IS})(1 - F_{ST})$

这不仅仅是一堆符号的杂乱组合。它讲述了一个故事。术语 $(1-F)$ 可以解读为“剩余杂合度的比例”。因此，这个方程说的是：在总体水平上剩余的杂合度，是近亲繁殖后剩余的杂合度与考虑了种群结构后剩余的杂合度的乘积。这两种效应是相乘的。这个优美的关系使我们能够将总的杂合子缺失分解为其不同的原因：群体内缺乏随机交配，以及群体间缺乏基因流。

演化的引擎： $F_{ST}$ 告诉我们关于真实世界的什么

我们现在有了一个衡量种群结构的工具，但它告诉了我们关于潜在演化力量的什么信息？种群不会无缘无故地变得不同。它们分化是由于遗传漂变——等位基因频率从一代到下一代的随机波动，这在小种群中要强烈得多。与漂变相对抗的是基因流（迁移），它在种群之间混合等位基因，使它们变得更加相似。

$F_{ST}$ 是这两种基本力量之间平衡的直接反映。高的 $F_{ST}$ 告诉我们漂变胜过了基因流。低的 $F_{ST}$ 告诉我们基因流足够强大，足以使种群趋于同质。

令人惊奇的是，对于一个简单的“岛屿模型”的种群结构，我们可以写出 $F_{ST}$ 与塑造它的力量之间的明确关系：

$F_{ST} \approx \frac{1}{1 + 4N_e m}$

在这里， $N_e$ 是有效种群大小（衡量漂变作用强弱的指标）， $m$ 是每一代中迁徙者占种群的比例。乘积 $N_e m$ 是每代到达的迁徙个体的绝对数量。这个方程堪称瑰宝。它表明， $F_{ST}$ 不仅仅取决于种群大小或迁移率，而是取决于它们的乘积——迁徙者的数量。

由此，一个著名的经验法则应运而生。如果每代只有一个迁徙者到达（ $N_e m = 1$ ），那么 $F_{ST} \approx 1/(1+4) = 0.2$ 。如果十个迁徙者到达（ $N_e m = 10$ ）， $F_{ST} \approx 1/(1+40) \approx 0.024$ 。这揭示了基因流惊人的力量：即使是极少数个体在种群间流动，也足以阻止它们发生显著的分化。这个从计算杂合子得出的简单数字 $F_{ST}$ ，已经成为我们洞察演化引擎的窗口——这个引擎就是塑造地球生命宏伟织锦的、隔离力量“漂变”与连接力量“迁移”之间的拉锯战。

应用与跨学科联系

在我们了解了固定指数的原理和机制之后，你可能会有一种感觉，就像刚刚学会了国际象棋的规则一样。你明白棋子如何移动——杂合度如何被分配，种群结构如何造成缺失——但你还没有见过大师们的对弈。这个数字，这个 $F_{ST}$ ，到底能做什么？答案是，它的用途惊人地广泛。这个简单的指数不仅仅是种群遗传学的记账工作；它是一个具有深远力量的透镜，让我们能够解读种群隐藏的历史，诊断濒危物种的健康状况，描绘地理对生命的微妙影响，甚至揭示出写在我们 DNA 中的古代人类社会结构的印记。它将静态的遗传数据集合转变为一个关于分离、迁徙和适应的动态故事。

保育工作者的工具箱：解读物种的健康状况

$F_{ST}$ 最直接、最重要的应用或许是在保育生物学领域。想象一下，你是一位生物学家，任务是保护一个受威胁的物种，比如生活在两个孤立山谷中的一种稀有蝾螈。你最紧迫的问题是：这两个种群是真正分离的，还是仍由一条隐藏的个体流联系着？一个高的 $F_{ST}$ 值就像一个即时的危险信号。它告诉你，这些种群在遗传上是不同的，意味着它们之间的基因流非常低。例如， $F_{ST}$ 值为 0.12 表示中度分化；而在一个关于濒危兰花的假想研究中发现的 0.55 的值，则表明种群间的差异如此之大，以至于该物种一半以上的总遗传方差存在于种群之间的差异中，而非种群内部。

这带来了一个关键的、也许是反直觉的保育启示。高的 $F_{ST}$ 意味着每个孤立的种群都已成为该物种遗传遗产的独特宝库。失去其中任何一个种群都会导致整体遗传多样性的灾难性和不成比例的损失。因此，正确的保育策略不是将资源集中在“最好”的种群上，而是将所有种群作为独特而宝贵的单元加以保护。

我们甚至可以从这种定性的警告转向定量的估计。在像“岛屿模型”这样的简单模型下， $F_{ST}$ 与每代交换的有效迁徙者数量（记为 $N_e m$ ）有着优美的关系。其近似关系为 $F_{ST} \approx \frac{1}{1 + 4N_e m}$ 。通过在野外测量 $F_{ST}$ ——比如说，对邻近森林斑块中的蓝色箭毒蛙种群进行测量——我们可以重新整理这个公式来估计 $N_e m$ 的值。这给了保育工作者一个可以操作的具体数字。种群遗传学中一个经典的经验法则是，即使每代只有一个迁徙者（ $N_e m = 1$ ），通常也足以防止种群因遗传漂变而产生强烈分化。如果我们的计算得出的值远低于这个水平，我们就知道这些种群正走向深度隔离的轨道。

地理、障碍与生命织锦

隔离的影响很少是全有或全无的。更多时候，它是一个简单直观的距离函数：邻居比大陆两端的个体更有可能进行交配。这种被称为“距离隔离”（Isolation by Distance, IBD）的现象预测，遗传分化应随地理距离的增加而增加。 $F_{ST}$ 是检验这一点的完美工具。对于沿着山坡生长的某种野花，我们预期山脚和山顶种群之间的 $F_{ST}$ 会显著高于山坡中部的两个种群之间的 $F_{ST}$ 。

但在这里，我们发现了一个奇妙的微妙之处，它迫使我们像生物学家一样思考。什么是距离？对于一只鸟来说，它可能是“乌鸦飞行的”直线距离。但对于生活在分叉河流系统中的淡水贻贝呢？它的幼虫通过搭便车的方式在鱼身上扩散。对于这种生物，地图上地理位置相近的两点，如果必须沿着一条河的支流一直往下游，再回到另一条支流才能到达，那么它们的距离可能就非常遥远。在这种情况下，将 $F_{ST}$ 与直线“欧几里得”距离作图，会显示出一个混乱、几乎随机的模式。但如果将其与真实的“河流距离”作图，一个优美、清晰的关系就会浮现：沿河蜿蜒路径的旅行距离越长，遗传分化就越高。 $F_{ST}$ 成为了一个不仅能衡量距离效应，还能揭示“距离”对相关生物体真正意味着什么的工具。

这一原则也适用于人造景观。当一片连续的森林被新的农田或高速公路分割时，一个曾经统一的种群就被碎片化了。利用理论模型，我们可以预测 $F_{ST}$ 将如何在几代之内累积，随着遗传漂变将现在孤立的种群拉开距离，从零开始增加，只有可能仍然存在的微弱基因流才能抑制这一过程。通过这种方式， $F_{ST}$ 让我们能够预测栖息地破碎化的遗传后果。

两性异事：从 DNA 中揭示社会生活

基因的移动是由生物体的移动介导的，而在许多物种中，两性对于旅行有着截然不同的看法。这种“性别偏向性扩散”在基因组中留下了独特的印记，而 $F_{ST}$ 可以帮助我们解码。

考虑一种鼠兔，其中雄性是恋地性的——它们终生留在自己的出生地——而雌性则会扩散到新的群体中。现在，让我们比较基因组中具有不同遗传模式的两个部分。线粒体DNA（mtDNA）只由母亲遗传。它的命运完全与雌性的移动联系在一起。由于雌性会迁徙，它们会携带自己的 mtDNA，从而在整个景观中形成稳定的线粒体基因流。因此，我们预测 mtDNA 的 $F_{ST}$ 会很低。

与此形成鲜明对比的是，核DNA由双亲遗传。其整体基因流模式是流动的雌性和固定的雄性的平均值。因为其遗传信息中来自雄性的那一半不移动，所以核标记的整体基因流将低于 mtDNA。因此，我们预期核 DNA 的 $F_{ST}$ 将高于线粒体 DNA 的 $F_{ST}$ 。

这一原则在人类学遗传学领域取得了惊人的应用。想象一种长期实行严格从夫居的人类文化：结婚后，女性移居到丈夫的村庄，而男性则留在自己出生的村庄。我们会预测什么？

Y染色体DNA： 仅由父亲传给儿子，其命运与不迁徙的男性捆绑在一起。基因流应接近于零，导致村庄之间的高度分化。我们预期 $F_{ST}$ 最高。
线粒体DNA： 由母亲传给后代，其命运与迁徙的女性捆绑在一起。基因流应很高，导致低分化。我们预期 $F_{ST}$ 最低。
常染色体DNA： 由双亲遗传，其基因流将是一个中间值，反映了两种模式的平均。其 $F_{ST}$ 应介于 Y 染色体和 mtDNA 之间。

因此，预测的顺序是 $F_{ST(Y)} > F_{ST(Auto)} > F_{ST(mtDNA)}$ 。当遗传学家分析来自这些人群的 DNA 时，他们发现的正是这种模式。这是一个惊人的结果。实际上，我们可以利用 $F_{ST}$ 的相对值，从现今人们的 DNA 中解读出社会规则和婚姻模式的历史。

选择的印记：在基因组的草堆中寻针

到目前为止，我们已经讨论了 $F_{ST}$ 如何衡量迁徙和漂变等种群水平力量的影响。但其最激动人心的现代应用可能是在单个基因水平上检测自然选择的作用。

想象一个拥有数千个基因的基因组。其中绝大多数是“中性”的，它们在一组种群中的 $F_{ST}$ 值将由这些种群共同的人口历史所塑造——它们分离了多久，以及它们迁徙的程度。这就形成了一个基线分化水平。

现在考虑一个受到分化选择的单一基因——即该基因的不同版本（等位基因）在不同环境中受到青睐。例如，一个促进厚毛皮的等位基因可能在北极狐种群中受到强烈青睐，而一个促进薄毛皮的等位基因则在温带种群中受到青睐。自然选择将以比遗传漂变快得多、剧烈得多的方式，主动拉大两个种群的等位基因频率。

因此，这个基因的 $F_{ST}$ 值将远高于基因组其余部分所见的基线水平。它将成为一个统计上的“离群值”。通过扫描整个基因组并寻找这些具有异常高 $F_{ST}$ 值的位点，科学家可以精确定位那些可能负责局部适应的基因。这种“离群值扫描”方法已成为演化基因组学的基石，帮助识别从树木的气候耐受性到昆虫的杀虫剂抗性以及人类饮食适应等各种现象所涉及的基因。

物种形成的边缘： $F_{ST}$ 能告诉我们什么，不能告诉我们什么

鉴于以上所有内容，人们很容易将 $F_{ST}$ 视为物种形成本身的标尺。如果两个种群的 $F_{ST}$ 极高，比如 0.8，这是否意味着它们已经成为独立的物种？

答案是一个关键的“不，不一定”。这使我们认识到该指数所能告诉我们的局限性，以及它与著名的生物学物种概念（BSC）的关系，该概念根据物种间的交配能力来定义物종。在中性基因上测得的高 $F_{ST}$ 告诉我们，两个种群已经隔离了很长时间，使得遗传漂变将它们的等位基因频率推向了极大的差异。然而，它并没有直接告诉我们它们是否已经演化出生殖隔离屏障。完全有可能，两个鱼类种群在不同的水系中隔离了数千代，积累了巨大的中性遗传分化，而控制交配行为和发育兼容性的基因却保持完全不变。如果一场洪水重新连接了它们的栖息地，它们可能会自由交配并产下健康、可育的后代。根据 BSC，它们仍然是同一个物种，尽管它们的 $F_{ST}$ 很高。

$F_{ST}$ 是衡量种群结构和历史的指标，而不是物种地位的自动指示器。它告诉我们分化的旅程，但它并不告诉我们是否已经到达了不可逆转分离的最终目的地——物种形成。它巧妙地描述了过程，但结果必须通过其他生物学证据来验证。在理解这一区别时，我们看到了这个概念的完全成熟：一个威力巨大的工具，其正确使用需要对其范围和局限性有深刻的认识。

固定指数（FST）：衡量种群分化的指南

引言

原理与机制

两个种群的故事：消失的杂合子之谜

量化差异：FSTF_{ST}FST​的诞生

另一种视角：FSTF_{ST}FST​ 作为方差的度量

厘清全貌：近亲繁殖与种群结构

演化的引擎：FSTF_{ST}FST​ 告诉我们关于真实世界的什么

应用与跨学科联系

保育工作者的工具箱：解读物种的健康状况

地理、障碍与生命织锦

两性异事：从 DNA 中揭示社会生活

选择的印记：在基因组的草堆中寻针

物种形成的边缘：FSTF_{ST}FST​ 能告诉我们什么，不能告诉我们什么

固定指数（FST）：衡量种群分化的指南

引言

原理与机制

两个种群的故事：消失的杂合子之谜

量化差异：FSTF_{ST}FST​的诞生

另一种视角：FSTF_{ST}FST​ 作为方差的度量

厘清全貌：近亲繁殖与种群结构

演化的引擎：FSTF_{ST}FST​ 告诉我们关于真实世界的什么

应用与跨学科联系

保育工作者的工具箱：解读物种的健康状况

地理、障碍与生命织锦

两性异事：从 DNA 中揭示社会生活

选择的印记：在基因组的草堆中寻针

物种形成的边缘：FSTF_{ST}FST​ 能告诉我们什么，不能告诉我们什么

量化差异： $F_{ST}$ 的诞生

另一种视角： $F_{ST}$ 作为方差的度量

演化的引擎： $F_{ST}$ 告诉我们关于真实世界的什么

物种形成的边缘： $F_{ST}$ 能告诉我们什么，不能告诉我们什么

量化差异： $F_{ST}$ 的诞生

另一种视角： $F_{ST}$ 作为方差的度量

演化的引擎： $F_{ST}$ 告诉我们关于真实世界的什么

物种形成的边缘： $F_{ST}$ 能告诉我们什么，不能告诉我们什么