B 等位基因频率 (B-Allele Frequency, BAF)

玻尔百科

定义

B 等位基因频率 (B-Allele Frequency, BAF) 是指基因组中杂合位点上特定等位基因所占的比例，在正常的二倍体样本中，其数值通常聚集在 0、0.5 和 1 附近。该指标通过识别偏离标准三带模式的异常，成为检测缺失、重复以及杂合性丢失 (LOH) 等基因组结构变异的强有力工具。通过结合测量总 DNA 含量的 Log R Ratio (LRR)，BAF 可以进一步用于评估肿瘤纯度并区分复杂的拷贝数变异事件。

核心要点

B 等位基因频率 (BAF) 是杂合位点上一种等位基因（“B”等位基因）所占的比例，在正常的二倍体基因组中，其理想值应聚集在 0、0.5 和 1 附近。
BAF 模式偏离标准的三条带模式是基因组结构事件（如缺失、重复（三体）和杂合性缺失 (LOH)）的有力指标。
当与衡量总 DNA 数量的 Log R 比率 (LRR) 一同分析时，BAF 能够区分复杂事件，例如半合子性缺失和拷贝数中性 LOH。
在混合细胞群（如肿瘤活检样本）中，观测到的 BAF 值会以可预测的方式发生偏移，这使得估算肿瘤纯度和倍性成为可能。

引言

我们的遗传密码，即生命的 DNA 蓝图，在人与人之间基本上是相同的，但被称为 SNP 的微小变异使我们每个人都独一无二。虽然简单地对基因进行测序能告诉我们生命的“砖块”，但要理解大规模的基因组结构——我们染色体拷贝的数量和来源——则需要一种不同的方法。我们如何能检测出大段染色体何时被复制、删除或仅从单个亲本遗传而来？本文将介绍 B 等位基因频率 (BAF)，这是一个简单而强大的指标，为我们提供了一个观察这种基因组结构的窗口。在接下来的章节中，我们将首先探讨 BAF 的基本原理，学习如何从微阵列和测序数据中计算它，以及它的模式如何揭示基因组区域的潜在拷贝数。然后，我们将探讨其多样化的应用，从诊断体质性遗传疾病到剖析复杂、混乱的癌细胞基因组，展示 BAF 如何将临床遗传学到肿瘤学等领域统一起来。

原理与机制

想象一下我们的基因组，即构建和维持人体的全套 DNA 指令，就像一个巨大的图书库。这些书是用一个仅有四个字母的简单字母表写成的： $A$ 、 $C$ 、 $G$ 和 $T$ 。虽然绝大部分文本在人与人之间是相同的，但偶尔会出现单字母的“拼写错误”，这使得我们每个人都与众不同。其中最常见的被称为单核苷酸多态性 (Single Nucleotide Polymorphisms)，或称 SNPs。在基因组文本的某个特定位置——一个单字母位置——有些人的碱基可能是 $A$ ，而另一些人则可能是 $T$ 。

为简单起见，让我们忘掉实际的字母，只将任何一个 SNP 上的两种可能变体称为“等位基因 A”和“等位基因 B”。因为我们从每位亲本那里继承一套染色体，所以我们的基因文库中每本书都有两个副本。这意味着对于任何给定的 SNP，我们的个人基因型可以是三种可能性之一： $AA$ （我们从父母双方都得到了 A）， $BB$ （我们从父母双方都得到了 B），或者 $AB$ （我们各得到一个）。我们如何能在全基因组的数百万个位点上读取这种简单的双字母代码呢？更重要的是，它能告诉我们什么秘密？

用光来计数等位基因

最早用于大规模读取 SNP 的巧妙方法之一，涉及对光的聪明运用。想象一下，你有两种微小的荧光探针。一种探针被设计成只与等位基因 A 结合，我们让它发出红光。另一种探针只与等位基因 B 结合，我们让它发出绿光。

当我们将一个人的 DNA 洗过覆盖着这些探针的芯片时，探针会根据 DNA 序列发光。红光 ( $I_A$ ) 和绿光 ( $I_B$ ) 的总量告诉我们存在的 A 和 B 等位基因的数量。这引出了一个极其简单而强大的想法。我们不必担心绝对亮度，因为它可能因各种技术原因而变化。相反，我们只问：绿光占总光量的比例是多少？

我们称之为 B 等位基因频率 (B-Allele Frequency)，或 BAF。它由一个简单的比率定义：

\mathrm{BAF} = \frac{I_B}{I_A + I_B}

现在，让我们像物理学家一样思考，预测我们应该会看到什么。

如果一个人在某个 SNP 上的基因型是 AA，那么就没有 B 等位基因。我们预计不会有绿光 ( $I_B \approx 0$ )，所以 BAF 应该非常接近 0。
如果基因型是 BB，那么就没有 A 等位基因。我们预计所有的光都是绿色的 ( $I_A \approx 0$ )，所以 BAF 应该非常接近 1。
如果基因型是 AB，那么 A 和 B 等位基因的数量相等。我们预计红光和绿光的强度大致相等 ( $I_A \approx I_B$ )，所以 BAF 应该在 0.5 左右。

如果我们取一个人的 DNA，并绘制出一条染色体上成千上万个 SNP 的 BAF 值，一个美丽的模式就会出现：三条清晰的水平点带，紧密地聚集在 0、0.5 和 1 这三个值附近。这种三带模式是正常、健康的二倍体基因组的特征性标志。它是我们双亲遗传的直接可视化，是我们两个亲本的基因组回响。

从光到 Reads：数字时代的 BAF

遗传学领域已经转向一种更直接的方法：下一代测序 (Next-Generation Sequencing, NGS)。我们现在不再测量探针的集体辉光，而是可以直接读取单个 DNA 分子，生成数百万个基因组文本的短“reads”。

要在一个 SNP 位点找到 BAF，过程更加直观：我们只需计数。我们查看所有覆盖该 SNP 位置的 reads，并统计有多少携带 B 等位基因，多少携带 A 等位基因。BAF 就是 B-reads 的数量除以总 reads 数。

但是，自然界和技术都是复杂的。测序仪可能会出错，将 A 误读为 B。一条 read 可能与基因组的其他部分非常相似，以至于我们的计算机程序将其比对到错误的位置。为了获得可靠的 BAF 估算，科学家必须像一个谨慎的侦探一样行事，丢弃不可靠的证据。我们使用质量分数——比如用于衡量比对置信度的比对质量 (mapping quality)和用于衡量碱基调用准确性的碱基质量 (base quality)——来过滤掉噪音。只有专注于高质量的 reads，我们才能确信我们计算出的 BAF 反映的是细胞的真实生物学状况，而不仅仅是技术假象。

基因组侦探：当 BAF 发生偏离时

故事从这里才真正变得有趣。当 BAF 值不完全落在 0、0.5 和 1 这三条带上时会发生什么？这不是噪音；这是一条线索。它意味着我们的基本假设——染色体正好有两个拷贝——是错误的。BAF 成为了一名强大的侦探，能嗅出我们基因组结构的大规模变化。

额外拷贝的案例

让我们考虑三体 (trisomy)，这是一种细胞拥有三条而不是两条染色体拷贝的状况（例如，21 三体导致唐氏综合征）。这会产生什么样的 BAF 模式？在任何给定的 SNP 位点，可能的基因型不再仅仅是 AA、AB 和 BB。由于有三个等位基因的“槽位”可以填充，我们可能会有 AAA、AAB、ABB 或 BBB。

让我们预测每种情况的 BAF [@problem_D:4611487]：

AAA：3 个等位基因中有 0 个是 B。预期的 BAF 是 $\frac{0}{3} = 0$ 。
AAB：3 个等位基因中有 1 个是 B。预期的 BAF 是 $\frac{1}{3}$ 。
ABB：3 个等位基因中有 2 个是 B。预期的 BAF 是 $\frac{2}{3}$ 。
BBB：3 个等位基因中有 3 个是 B。预期的 BAF 是 $\frac{3}{3} = 1$ 。

突然之间，我们简单的三带图发生了变化！在一个三体区域，我们期望看到四条清晰的 BAF 值带，分别聚集在 0、 $1/3$ 、 $2/3$ 和 1 附近。这两条“中间”带的出现，是三拷贝状态清晰无误的标志。这是一个美丽的例子，说明一个简单的定量测量如何能揭示深刻的生物学变化。

当然，现实世界从来没有那么完美。测量系统的电子和化学特性可能会轻微地偏向于某个等位基因。这意味着观察到的聚类可能不完全在 $1/3$ 和 $2/3$ 处，而是略有偏移。然而，通过对这些技术偏差进行建模，我们可以对其进行校正，并仍然清楚地识别出三体的四带特征。

缺失拷贝的案例

如果一大段染色体被删除了会怎样？这在癌症中很常见，基因组的某些部分会丢失。如果被删除的片段包含一个杂合的 SNP（基因型为 AB），那么细胞现在只剩下一个等位基因——A 或 B。这一事件被称为杂合性缺失 (Loss of Heterozygosity, LOH)。

在 BAF 图中，效果是戏剧性的。代表杂合 AB 状态的中间 0.5 带，在缺失区域完全消失了。所有的数据点都跳到了 0 和 1 的轨道上。BAF 在向我们尖叫：“平衡消失了！这里有东西不见了！”

强强联合：BAF 与 Log R 比率

BAF 在测量等位基因的相对平衡方面非常出色，但它并不能说明全部情况。思考一下上面的 LOH 案例。BAF 模式告诉我们 AB 状态消失了，但它无法区分两种截然不同的情况：

拷贝数中性 LOH (Copy-Neutral LOH)：一条染色体拷贝丢失了，但剩下的那条被复制了。总拷贝数仍然是两个，但基因型现在是 AA 或 BB。
半合子性缺失 (Hemizygous Deletion)：一条染色体拷贝丢失了，并且没有东西替代它。总拷贝数现在是一。

为了解决这个问题，BAF 需要一个搭档：Log R 比率 (Log R Ratio, LRR)。你可以把 LRR 看作是衡量一个区域内 DNA 总量的指标。它本质上是总信号强度 ( $I_A + I_B$ ) 与正常参考样本相比的对数值。简单来说， $LRR \approx \log_2(\frac{\text{总拷贝数}}{2})$ 。

对于一个正常的、拥有 2 个拷贝的二倍体区域， $LRR \approx \log_2(\frac{2}{2}) = 0$ 。
对于一个拥有 1 个拷贝的区域（缺失）， $LRR \approx \log_2(\frac{1}{2}) = -1$ 。
对于一个拥有 3 个拷贝的区域（重复）， $LRR \approx \log_2(\frac{3}{2}) \approx 0.58$ 。

现在我们可以看到这对组合的力量了。在我们的 LOH 谜题中：

拷贝数中性 LOH 的 LRR 接近 0（总量正常），但 BAF 为 0 或 1（失去平衡）。
半合子性缺失的 LRR 接近 -1（DNA 缺失），并且 BAF 为 0 或 1。

通过将 LRR 和 BAF 一起绘图，我们可以轻松地区分这些状态。LRR 告诉我们“有多少”，而 BAF 告诉我们“以什么比例”。它们共同让我们能够描绘出一幅丰富而详细的基因组拷贝数和等位基因结构的图景。

现实世界的复杂性：癌症、纯度与混杂线索

到目前为止，我们大多假设我们的样本来自一个均一的细胞群体。但在现实世界中，尤其是在癌症诊断中，肿瘤活检几乎总是恶性癌细胞和健康正常细胞的混合物。这种混合物使我们的侦探工作变得复杂。

让我们将肿瘤纯度 ( $p$ ) 定义为样本中癌细胞的比例。剩下的比例， $1-p$ ，由正常细胞组成，我们知道这些细胞在杂合位点的 BAF 为 0.5。

想象一个简单的案例：肿瘤细胞中发生了半合子性缺失（一个拷贝丢失）。这是 Knudson 的癌症形成二次打击假说中的经典“第二次打击”。肿瘤细胞只有一个等位基因（A 或 B），但它们与同时拥有两个等位基因（AB）的正常细胞混合在一起。我们从整体样本中测得的 BAF 将是这两个群体的加权平均值。

如果肿瘤细胞丢失了 B 等位基因，它们对 BAF 的贡献为 0。正常细胞贡献的 BAF 为 0.5。最终观察到的 BAF 将介于两者之间。一点代数运算表明，BAF 将是 $\frac{1-p}{2-p}$ 。如果肿瘤细胞丢失了 A 等位基因，观察到的 BAF 将是 $\frac{1}{2-p}$ 。

这是一个美妙的结果！随着肿瘤纯度 ( $p$ ) 从 0 增加到 1，这些 BAF 值从中心的 0.5 位置向 0 和 1 的极端移动。这些“分裂”的 BAF 带的位置不仅告诉我们存在缺失，还可以为我们提供肿瘤纯度的估计！

这仅仅是复杂性的开始。癌细胞基因组可能被疯狂地重排，细胞的平均拷贝数（倍性 (ploidy)）可能为 3、4 甚至更多。观察到的 BAF 和 LRR 信号是真实肿瘤拷贝数、肿瘤纯度和整体肿瘤倍性的复杂函数。解开这个谜题需要复杂的数学模型，这些模型可以同时估计所有这些参数。

此外，我们必须时刻警惕那些可能模仿生物信号的技术假象。例如，测序实验的 PCR 扩增步骤中的偏差可能会让人觉得 B 等位基因比 A 等位基因多。在一个有趣的转折中，正常二倍体样本中 $\lambda$ 倍的扩增偏差所产生的 BAF 信号，与一个纯度为 $p = \lambda - 1$ 的肿瘤中发生体细胞重复所产生的信号完全相同。这有力地提醒我们 Feynman 的著名告诫：“首要原则是，你绝不能欺骗自己——而你自己正是最容易被欺骗的人。”对整个测量过程的深入理解对于正确解读这些基因组线索至关重要。

从一个简单的荧光比率到现代癌症基因组学的基石，B 等位基因频率证明了定量思维在生物学中的力量。它展示了我们如何通过仔细测量和建模，将简单的数据转化为关于生命结构以及驱动疾病变化的深刻见解。

应用与跨学科联系

一群人与一个团队之间有何区别？一堆砖块与一栋房子之间又有何不同？这不仅仅关乎组成部分，更关乎它们的组织、比例以及彼此之间的关系。在遗传学中，我们长期以来都是编目生命“砖块”——即编码它们的基因和 DNA 序列——的专家。但深刻的理解来自于洞察其结构。B 等位基因频率 (BAF) 是我们最优雅的结构工具之一。它是一个看似简单的比率，却赋予我们一种新的视野，让我们能够感知基因组中隐藏的对称性和刺眼的非对称性。它使我们超越了仅仅计算基因数量的层面，进而理解它们的亲本来源、拷贝数和平衡状态。在本章中，我们将踏上一段旅程，看看这个简洁而富有表现力的数字如何照亮人类遗传学的广阔图景，从我们染色体的遗传结构到癌症的混乱大厦。

遗传学家的工具箱：解读生命模式

想象一下，绘制出一个人整个基因组中数千个变异位点 (SNP) 的 BAF 图。对于一个健康的二倍体个体，一个美丽而简单的模式会显现出来：在 BAF 值为 $0$ 、 $0.5$ 和 $1$ 的位置出现三条清晰、锐利的线。这是二倍体状态的三大支柱。位于 $0$ 和 $1$ 的线代表纯合基因型，即染色体的两个遗传拷贝都携带相同的等位基因（ $AA$ 或 $BB$ ）。正中间位于 $0.5$ 的线代表杂合状态（ $AB$ ），这是从父母双方遗传不同信息的标志。这种三线模式是基准线——平衡、双亲遗传的标志。

然而，BAF 的真正力量在于检测偏离这种完美状态的情况。如果一条染色体的一部分缺失了会怎样？在半合子性缺失中，两个染色体拷贝中的一个丢失，总拷贝数变为一。在这样的区域，不可能是杂合的。你要么拥有 $A$ 等位基因，要么拥有 $B$ 等位基因，但不能两者兼有。结果是，中间位于 $0.5$ 的 BAF 带消失了，只剩下 $0$ 和 $1$ 的带。这种现象，被称为杂合性缺失 (LOH)，是一个直接且视觉上引人注目的指标，表明正常的双亲贡献已被破坏。

但这种 LOH 模式提出了一个新问题：是什么原因造成的？它真的是一次缺失吗？单凭 BAF 图无法回答这一点。这时，科学工具的协同作用就发挥了作用。通过将 BAF 与衡量总 DNA 数量的指标（如 SNP 阵列的 Log R 比率 (LRR) 或测序的归一化测序深度）配对，模糊性便消失了。LRR 告诉我们那里有多少 DNA，而 BAF 告诉我们其等位基因比例。它们共同提供了一个多维度的视图。

考虑一个显示 LOH 的区域。如果该区域的 LRR 为负值（表明 DNA 少于预期），我们可以自信地诊断为拷贝数为 $1$ 的半合子性缺失。如果 LRR 降至接近零，我们看到的是纯合缺失，即染色体片段的两个拷贝都已完全丢失。

但最引人入胜的情况是，当一个区域显示出清晰的 LOH——中间的 BAF 带消失了——但 LRR 却完全正常，集中在 $0$ 附近！这是一种拷贝数中性 LOH。DNA 的数量是正确的；细胞有两个拷贝。然而，它们是相同的。这是单亲同二体的典型标志，即一个人从单个亲本那里遗传了某个染色体片段的两个相同拷贝。这是一个深刻的发现，对于像芯片 CGH (array CGH) 这样只测量总拷贝数并且不会发现任何异常的旧技术来说是完全不可见的。BAF 使我们能够检测到基因组结构中的一个根本性变化，而这种变化从简单的定量角度来看是隐藏的。

当涉及 DNA 增加时，BAF 同样富有表现力。重复或三体，即一个区域有三个拷贝而不是两个，会产生其独特的信号。在这里，四种基因型是可能的： $AAA$ 、 $AAB$ 、 $ABB$ 和 $BBB$ 。稍加思考 BAF 的计算公式 $\frac{n_B}{n_A+n_B}$ ，就能揭示我们应该预期的结果。纯合状态 $AAA$ 和 $BBB$ 产生的 BAF 分别为 $0$ 和 $1$ 。杂合状态 $AAB$ 和 $ABB$ 不再是平衡的；它们产生的 BAF 分别为 $\frac{1}{3}$ 和 $\frac{2}{3}$ 。这两条新带的出现，形成了一种四线模式，是三拷贝状态的经典标志。这不仅仅是一个抽象的模式；它允许精确诊断像 3q29 微重复综合征这样的遗传病，将特定的 BAF 特征与现实世界的临床结果联系起来。

洞悉癌症混沌的窗口：BAF 在肿瘤学中的应用

癌细胞的基因组通常是一片混乱的景象——一个疯狂的复制、缺失和重排过程。BAF 为我们提供了一个洞察这种基因组不稳定性的关键窗口。然而，肿瘤活检很少是纯粹的癌细胞样本；它是肿瘤细胞和健康正常细胞的混合物。乍一看，这似乎是个问题。我们讨论过的清晰的 BAF 模式被正常二倍体细胞的贡献“弄脏”了。条带偏离了它们在 $0$ 、 $1/3$ 、 $1/2$ 、 $2/3$ 或 $1$ 的理想位置。

但在这复杂性中蕴含着更深层的机会。这些偏移的 BAF 带的精确位置不是随机噪声。它是一个定量测量值，包含了关于肿瘤中遗传变异的性质以及样本中肿瘤细胞比例（“纯度”）的信息。

观察到的 BAF 是肿瘤和正常细胞群体 BAF 的加权平均值，其权重基于纯度 ( $p$ ) 和每个群体中的拷贝数（肿瘤为 $c_t$ ，正常为 $c_n$ ）。在生殖系杂合位点上，预期的 BAF 可以用这个优雅的公式表示： $\mathrm{BAF}_{\text{observed}} = \frac{p \cdot c_t \cdot \mathrm{BAF}_t + (1-p) \cdot c_n \cdot \mathrm{BAF}_n}{p \cdot c_t + (1-p) \cdot c_n}$ 其中 $\mathrm{BAF}_t$ 和 $\mathrm{BAF}_n$ 分别是纯肿瘤细胞和正常细胞内的 B 等位基因频率。

这个公式非常强大。例如，想象我们试图区分两种都只有一个 B 等位基因拷贝的肿瘤状态，例如 $AAB$ （总拷贝数 $c_t=3$ ）和 $AAAB$ （总拷贝数 $c_t=4$ ）。在纯样本中，它们的 BAF 分别是 $\frac{1}{3}$ 和 $\frac{1}{4}$ 。但在混合样本中，我们公式的分母包含了总拷贝数 $c_t$ ，对于这两种情况是不同的。这导致每种状态预测的 $\mathrm{BAF}_{\text{observed}}$ 也不同。通过测量实际的 BAF 并知道肿瘤纯度，我们可以高置信度地区分这些状态。我们也可以反向操作：如果我们假设肿瘤中发生了某个事件（如拷贝数中性 LOH）并且我们知道纯度，我们就可以预测预期的 BAF，并将其与我们的观察结果进行比较，从而验证或拒绝我们关于肿瘤演化的假设。

超越整体：揭示嵌合现象

混合群体的逻辑不仅限于癌症，还延伸到一个引人入胜的体质性现象：嵌合现象 (mosaicism)。嵌合体个体由两个或多个源自单个合子的遗传上不同的细胞群组成。BAF 为我们提供了一个定量的工具来剖析这种内部多样性。

考虑嵌合型特纳综合征的经典案例，其中女性混合了正常的 $46,XX$ 细胞和丢失了一条 X 染色体变成 $45,X$ 的细胞。在常染色体上，BAF 模式是正常的。但在 X 染色体上，发生了有趣的事情。对于在 $46,XX$ 细胞系中是杂合的 ( $AB$ ) SNP， $45,X$ 细胞将只有一个等位基因，即 $A$ 或 $B$ 。

假设有比例为 $f$ 的细胞是 $45,X$ 。剩下的 $1-f$ 是 $46,XX$ 。对于一个杂合位点，等位基因总数与 $f \cdot 1 + (1-f) \cdot 2 = 2-f$ 成正比。现在，考虑一个杂合位点，其中 $45,X$ 细胞碰巧保留了 $A$ 等位基因。 $B$ 等位基因的数量仅来自 $46,XX$ 细胞，与 $1-f$ 成正比。由此产生的 BAF 是 $\frac{1-f}{2-f}$ 。在相反的情况下，即 $45,X$ 细胞保留了 $B$ 等位基因， $B$ 等位基因的总数与 $f \cdot 1 + (1-f) \cdot 1 = 1$ 成正比。BAF 是 $\frac{1}{2-f}$ 。

因此，位于 $0.5$ 的单个杂合带分裂成两条新带。更美妙的是，如果我们测量这两条新带的位置，我们就有了两个只有一个未知数 $f$ 的方程。例如，观察到大约在 $0.375$ 和 $0.625$ 的条带，可以让我们解出 $f$ ，并确定该个体大约有 $40\%$ 的 $45,X$ 细胞群体。这是一个惊人的例子，说明图上的一个简单模式如何能揭示个体的精确细胞组成。

一个简单比率的雄辩

我们的旅程从健康基因组简单的三线模式，走向了癌症样本复杂、偏移的条带。我们从一个简单的定义 $\frac{n_B}{n_A+n_B}$ 开始。通过在整个基因组中观察这个比率，我们能够看到缺失、重复、单亲二体、癌症的混乱演化以及嵌合现象的隐藏比例。B 等位基因频率是一个统一了不同领域——体质遗传学、肿瘤学、生物信息学和发育生物学——的概念，它提供了一种描述基因组结构的通用语言。它深刻地提醒我们，有时自然界中最强大的真理并非存在于绝对数量之中，而是存在于它们之间简单而优雅的关系之中。