罕见变异

玻尔百科

核心要点

由于纯化选择的筛选作用，罕见变异对性状和疾病的影响通常比常见变异更大。
位点频率谱 (SFS) 及Tajima's D等统计量可以揭示一个群体的 demographic history（人口历史）及其基因组受到的自然选择影响。
基因水平的负荷检验（如SKAT）通过汇总罕见变异来识别与复杂疾病相关的基因，即使单个变异因过于罕见而无法被检测到。
罕见变异在药物基因组学等临床应用中至关重要，可用于解释极端的药物反应；与常见变异结合使用时，还能改善疾病风险预测。

引言

人类基因组远非整齐划一；它是一幅由丰富遗传变异构成的织锦。虽然人与人之间的许多遗传差异是常见的，但绝大多数差异却极为罕见，往往仅存在于单个家庭甚至个人。这就引出了一个根本性问题：这片罕见变异的海洋究竟有何意义？这些变异仅仅是随机噪声，还是蕴含着我们健康、演化和疾病易感性的关键线索？本文将通过全面概述罕见变异来解答这一问题。首先，在“原理与机制”一章中，我们将探讨纯化选择和遗传漂变等演化力量，正是这些力量支配着罕见变异的存在，并造就了变异频率与其功能影响之间强大的反比关系。我们还将考察位点频率谱等工具如何揭示群体历史和选择的印记。随后，“应用与跨学科关联”一章将展示这些原理如何付诸实践，介绍用于将罕见变异与疾病关联起来的统计方法、它们在临床诊断和预测中的作用，以及它们对药物基因组学等领域的变革性影响。

原理与机制

如果你漫步于人类基因组，比较成千上万个不同个体的DNA序列，你不会看到一幅单调 uniformity 的景象。相反，你会发现一个充满变异的景观。在数百万个特定位点上，你会发现不同个体携带不同的遗传“字母”，即等位基因。那个引人入胜、开启我们旅程的问题是：这种变异是否存在某种结构？

答案是响亮的“是”。这些变异并非随机的混乱组合，而是遵循着深刻而优美的原则。你首先会注意到的是，它们的普遍性差异巨大。一些变异古老而常见，为大部分人类所共有。另一些则以低频出现，还有大量的变异则极其罕见，可能只存在于全球少数几个家庭，甚至某一个人身上。按照惯例，遗传学家通常根据次要等位基因频率 (minor allele frequency, MAF)——即频率较低的等位基因的频率——对变异进行分类。MAF大于5%的变异被认为是常见的，介于1%到5%之间的为低频，而低于1%的则为罕见。我们的基因组绝大多数由罕见变异构成——这一简单观察，正是我们将用来揭示我们演化与健康故事的线索。

自然选择的巨筛

为什么大多数变异是罕见的？要理解这一点，我们必须认识到塑造我们基因组的两股强大力量：遗传漂变的无目的游走和自然选择的无情压力。遗传漂变就像醉汉走路；纯粹出于偶然，一个等位基因的频率可能代代相传地波动，有时完全消失，有时则变得常见。但选择是一股有目的的力量。特别是纯化选择，它就像一个巨大的筛子，不断地过滤我们的基因库。

想一想：一个基因是经过数百万年演化而完善的精密机器。一个新的随机突变更可能破坏这台机器，而不是改进它。它可能改变蛋白质的形状，扰乱其功能，或改变其与其他分子的相互作用。这些变化大多数在某种程度上是有害的。纯化选择就是移除这些有害等位基因的过程。

现在，关键的联系来了：这个筛子的强度取决于危害的大小。一个灾难性有害的突变会被迅速淘汰，永远不会出现在少数几个不幸个体之外。一个仅有轻微危害的突变可能会以极低的频率持续存在，然后最终被清除。而一个影响微乎其微的突变对选择来说基本上是不可见的；它的命运被交给了遗传漂变的随机游走，从而可能变得相当常见。

这就创造了一个根本性且极为重要的反比关系：对于影响生物体功能的等位基因而言，其效应大小与其存在的罕见性之间存在强烈的相关性。

想象一个编码受体的基因，该受体是一种救命药物的靶点。一个频率低于1%的罕见变异可能会极大地改变受体的形状，导致药物完全无法结合——这是一个巨大的、具有临床意义的效应。与此同时，一个在12%的人群中发现的常见变异可能只会微乎其微地改变结合亲和力，几乎难以察觉。这并非巧合。罕见变异效应巨大，使其成为纯化选择的主要目标，从而阻止其变得常见。常见变异效应微小，使其得以溜过筛子。这一原则是现代遗传学中最强大的原则之一，它解释了为何全基因组关联研究（GWAS）总是发现最罕见的变异往往对人类性状和疾病具有最大的影响。

群体的日记：位点频率谱

为了观察这些原则的实际作用，科学家们需要一种能够一次性审视所有变异的方法。他们通过构建位点频率谱 (Site Frequency Spectrum, SFS) 来实现这一点。SFS本质上是一个直方图，它根据一个群体样本中所有遗传变异的频率进行组织。它绘制了在每种可能的计数（x轴）下发现的变异数量（y轴），从仅在样本中一个個體上觀察到的单次变异（singletons），一直到几乎每个人都有的变异。

对于一个在没有强大选择压力下演化的大而稳定的群体，SFS具有典型的“L形”。存在大量的单次变异，较少数量的“二次变异”（doubletons），以此类推，常见的变异非常少。这种形状的出现是因为新的突变不断作为单次变异进入基因库。大多数很快会因遗传漂变而丢失，但这种持续的供应使直方图的“罕见”区域始终保持饱和。

然而，SFS的形状并非一成不变。它对演化的力量极为敏感，就像一本记录群体历史的日记。为了概括其形状，遗传学家经常使用一种名为Tajima’s $D$ 的统计量。 $D \approx 0$ 的值表明SFS呈现出稳定群体预期的L形。偏离零则告诉我们一个更有趣的故事正在发生。具体来说，负的Tajima's $D$ 表示SFS的尾部比预期的更长——即罕见变异显著过剩。相反，正的Tajima's $D$ 则表示罕见变异不足，而中等频率的变异相对过剩。

基因组中的伤痕：历史和选择如何塑造SFS

什么样的事件会如此戏剧性地改变一个群体的SFS？两大力量在起作用：人口历史和自然选择。

让我们考虑两种历史情景。首先，想象一个群体經歷了一次严重的瓶颈效应——一场灾难性事件使其规模缩小到少数几个个体。在这个小群体中，遗传漂变的力量非常强大。许多罕见变异因偶然丢失，这 фактически地截断了SFS的尾部。存活下来的变异更有可能漂变到中等频率。结果是一个罕见变异不足的SFS，导致一个正的Tajima's $D$ 。

现在，考虑一个不同的故事：奠基者事件及随后的快速扩张。一小群奠基者在一个新领地定居，其人口呈指数级增长。这个过程在基因组上留下了非常不同的伤痕。首先，奠基者事件本身就是一个抽样过程，在这个过程中，来自源群体的罕见等位基因如果存活下来，很可能在新群体中以单次变异的形式开始。然后，随着人口爆炸式增长，两件事发生了：（1）新的突变不断出现；（2）遗传漂变在如今的大群体中变得非常微弱。这种组合将奠基者等位基因和新突变“冻结”在低频率，导致它们堆积起来。这导致罕见变异的大量过剩和强烈的负Tajima's $D$ 。

然而，在这里，我们遇到了一个揭示遗传学微妙之处的奇妙谜题。事实证明，负的Tajima's $D$ 也可能是由背景选择引起的——即纯化选择持续作用，从功能重要的基因中移除有害突变。通过清除有害突变，选择也顺带移除了任何恰好与它们在染色体上物理连锁的中性变异。这个过程在移除那些有时间漂变到中等频率的较老中性变异时更有效，从而留下了相对过剩的年轻、罕见的突变。

所以，一个负的Tajima's $D$ 可能意味着群体扩张，也可能意味着纯化选择。我们如何区分？我们可以寻找模式。群体扩张是一个人口事件，它或多或少平等地影响整个基因组。而选择则作用于特定的基因。因此，如果我们看到整个基因组的Tajima's $D$ 大约是 $-0.20$ ，但在与某种疾病相关的一组特定基因内部，它骤降至 $-1.20$ ，那么我们就找到了纯化选择作用于这些基因的确凿证据。

罕见性的地理分布

罕见变异的性质还有另一个至关重要的维度：空间。罕见变异不仅在数量上稀少，它们在地理上也常常受到限制。原因很简单：罕见变异是年轻的。

一个中性等位基因的年龄平均与其频率成正比。一个在50%的人群中发现的等位基因可能很古老，有数十万年的时间在全球传播。而一个频率为0.1%的罕见变异，可能只有几十代人的历史。它根本没有足够的时间远离其最初出现的地方。一个出现在安第斯山脉一个小村庄的突变，可能至今仍只存在于那个村庄及其周边地区。许多罕见变异是单个群体甚至单个大家族“私有”的。

这种地理限制带来了深远的影响。这意味着芬兰人的罕见变异集合与日本人的系统性地不同。这就是为什么早期使用SNP芯片——通过在某一群体（如欧洲人）中发现常见变异而设计的芯片——进行的遗传学研究，在研究其他群体的罕见变异时表现得 notoriously 糟糕；它们在错误的地方寻找错误的东西。这也解释了为什么研究罕见变異对群体分层如此敏感。如果由于环境因素，疾病A在群体A中比群体B更常见，而群体A又恰好有一套私有的罕见变异，那么就很容易危险地得出结论，认为这些变异导致了该疾病，而实际上它们只是与祖先相关的无辜旁观者。这个问题在现代罕见变异检验中被放大了，因为这些检验被专门设计来增加这些罕见的、群体特异性等位基因的权重，因此需要比常见变异研究更复杂的统计校正方法。

罕见变异的故事就是我们基因组的微缩史。它们是洞察突变、偶然、历史和选择相互作用的直接窗口。它们数量众多、影响强大，并且充满了关于我们是谁、我们来自哪里以及是什么使我们易患疾病的信息。理解它们优美而复杂的性质不仅仅是一项学术活动；它是遗传医学的前沿。

应用与跨学科关联

在探索了支配罕见遗传变异世界的基本原则之后，我们现在到达了一个令人振奋的制高点。从这里，我们可以俯瞰这些概念变为现实的广阔图景。理论上理解罕见变异的机制是一回事，而亲眼见证这些知识如何重塑我们寻找疾病原因的方式、彻底改变我们使用药物的方法，并帮助我们回答关于人类遗传的一些最深层问题，则完全是另一回事。罕见变异的研究并非遗传学的一个孤立角落；它是一个充满活力的十字路口，统计学、医学、技术乃至流行病学在此交汇。

遗传发现的新工具包

几十年来，遗传学家面临一个棘手的问题。他们知道许多严重疾病，尤其是那些早年发病的疾病，很可能是由强效的遗传变化引起的。然而，当他们寻找这些原因时，却常常受挫。问题在于视角。一个罕见的变异，就其本质而言，只存在于少数人中。试图证明这样一个变异与某种疾病之间存在统计学关联，就像试图证明一声耳语引发了雪崩一样；在背景噪声的映衬下，信号实在太微弱了。

突破来自于思维的转变。如果我们不只听一个单一的耳语，而是倾听来自同一地方的许多耳语汇成的 murmuring，结果会怎样？这就是基因水平负荷检验背后的核心思想。我们不再逐一检验一个基因中的每个罕见变异，而是将它们汇总起来。我们可以为每个人创建一个简单的“负荷分数”，这个分数可能是在某个特定基因内，他携带的罕见、预测有害的变异的数量。然后，我们可以提出一个更有力的问题：与健康个体相比，患病人群在该基因中是否作为一个整体承载着更重的变异负荷？

这种方法如今已成为发现严重儿科疾病遗传根源的主力。想象一下，一群患有病因不明的严重神经肌肉疾病的儿童。通过对他们的基因进行测序，并将其罕见、破坏性变异的负荷与一个大型对照组进行比较，研究人员可以精确定位到一个在受影响儿童中“负荷”显著更重的基因。这可以为疾病的生物学基础提供第一个关键线索，即使研究中几乎每个孩子在该基因内都有一个不同的罕见变异。

但自然界一如既往地充满了奇妙的微妙之处。如果一个基因同时含有增加风险和实际上具有保护性的罕见变异，那该怎么办？一个简单地将变异加总的负荷检验可能会看到效应相互抵消，从而得出该基因不重要的错误结论。为了解决这个问题，一种更复杂的工具被发明出来：序列核关联检验 (Sequence Kernel Association Test, SKAT)。SKAT不仅仅是加总效应；它更像是一个检测整体遗传扰动的测试。它将每个变异的统计信号平方，使其方向变得无关紧要——一个大的正效应和一个大的负效应都对检验结果产生正向贡献。这使得SKAT成为寻找那些遗传结构复杂、风险与保护性等位基因混合存在的基因的有力工具。选择简单的负荷检验还是SKAT，是一个战略性决策，取决于我们关于一个基因如何导致疾病的假设：它是一个简单的、单向的推动，还是一个由不同效应交织而成的更复杂的织锦？

从诊断到预测

罕见变异的效用远不止简单地回答一个基因是否与某种疾病相关。它们可以帮助我们理解一种疾病的谱系。对于像自闭症谱系障碍 (ASD) 这样的复杂神经发育状况，诊断本身并不能告诉我们个体面临的具体挑战。在这里，“罕见变异负荷”的概念变得极其有用。通过量化一个个体在一组神经发育基因中携带的有害罕见变异的总数，研究人员发现，更高的负荷可能与临床严重性的指标相关。例如，更高的遗传负荷可能与症状严重程度量表上的更高得分或适应性行为评估中的更低得分相关。这表明存在一种累加或剂量-反应关系，即每个有害变异都为该状况背后的生物学 disruption 贡献了微小但递增的量，描绘出一幅比简单“是/否”诊断丰富得多的图景。

这个想法自然地引向了遗传医学的前沿：风险预测。如今，多基因风险评分 (Polygenic Risk Scores, PRS)——它汇总了数千个常见遗传变异的微小效应——正成为评估个人患冠状动脉疾病或乳腺癌等疾病基线风险的强大工具。但这些评分并不完整。一个关键的洞见是，来自罕见变异的遗传信息在很大程度上独立于来自常见变异的信息。这两种类型的变异在人群中并没有很好的相关性。因此，一个罕见变异负荷分数和一个常见变异PRS是完美互补的。将它们结合在一个预测模型中，就像给全球天气图添加高分辨率的卫星图像。PRS提供了广阔的、大陆尺度的风险景观，而罕见变异分数则精确定位了局部的、高影响的事件，尤其是对于那些处于风险分布极端尾部的个体而言。一幅真正全面的遗传风险图景要求我们同时关注两者。

“遗传力缺失”的悖论

多年来，遗传学家一直被“遗传力缺失”问题所困扰。对于像抽动秽语综合征这样的性状，双生子研究可能表明遗传学解释了例如 $h^2_{\mathrm{twin}} = 0.70$ 的风险变异。然而，对常见变异的研究可能只解释了其中的一小部分，也许是 $h^2_{\mathrm{SNP}} = 0.18$ 。另外的 $0.52$ 在哪里？一个诱人的答案是，它一定隐藏在效应巨大的罕见变异中。

然而，一个简单的群体遗传学数学揭示了一个深刻且违反直觉的真理。单个遗传变异对群体中某个性状总方差的贡献由公式 $2pqa^2$ 给出，其中 $p$ 是风险等位基因的频率， $q = 1-p$ ， $a$ 是其对该性状的效应大小。请注意，贡献不仅取决于效应大小( $a$ )，还乘以一个与其频率相关的项( $2pq$ )。这个频率项在常见变异（其中 $p=0.5$ ）时最大，而对于非常罕见的变异（其中 $p$ 接近 $0$ ），则变得微不足道。

这意味着一个罕见变异可能对携带它的个体产生巨大、改变一生的影响（大的 $a$ ），但它对群体整体变异的贡献可能微乎其微，仅仅因为拥有它的人太少了。想象两个已知的抽动秽语综合征罕见变异，一个效应大小为 $a=0.9$ ，频率为 $p=0.0015$ ；另一个效应大小为 $a=1.3$ ，频率为 $p=0.00025$ 。尽管它们各自的效应很强，但它们对群体遗传力的总贡献仅约为 $0.0033$ ，这只是“缺失”的 $0.52$ 中的一小部分。这个令人谦卑的计算表明，罕见变异虽然对拥有它们的个体至关重要，但并非解决整个遗传力缺失难题的简单万能钥匙。答案很可能在于更多效应微小的常见变异、大量不同的罕见变异、结构变异以及我们尚未完全理解的相互作用的复杂组合。

从实验室到临床

罕见变异的影响在临床上最为具体。考虑一下药物基因组学领域，即研究基因如何影响个人对药物的反应。一名患者可能在接受标准剂量的三环类抗抑郁药后出现严重毒性，其血液中的药物水平比预期高出许多倍。一项标准的药物基因组学检测，该检测寻找药物代谢酶基因（如CYP2D6）中的一组常见变异，结果却显示“正常”。这怎么可能？答案往往在于一个该检测 panel 未设计检测的罕见的、“私有的”突变。该患者可能携带一个罕见的无义变异或一个大的结构性缺失，这完全敲除了该酶的功能，使他们成为一个“弱代谢者”，尽管拥有“正常”的常见变异。这种情况突显了一个关键教训：极端的药物反应通常由罕见变异驱动，而识别它们需要超越有限的SNP panel，转向更全面的基于测序的方法。

这使我们注意到实验室技术和健康公平挑战的关键作用。为了服务于多样化的人群，临床实验室必须明智地选择其工具。基因分型芯片就像一张清单，优化用于寻找通常在欧洲人群研究中发现的常见变异。它会错过那些它未被设计来寻找的罕见变异，并且在其他祖先的个体中表现不佳。相比之下，下一代测序 (NGS) 就像直接阅读遗传文本。一个靶向的NGS panel可以读取重要药物基因的完整序列，从而能够以高灵敏度检测任何变异，无论是常见的还是罕见的，已知的还是新颖的，且适用于所有祖先。此外，通过读取长段DNA，NGS可以物理确定两个变异是在同一条染色体上（顺式）还是在相对的染色体上（反式），这对于正确解读许多药物基因组学“星号等位基因”至关重要。对于一个致力于为每位患者提供准确结果的实验室来说，NGS是远为优越的选择。

最后，在最优雅的应用之一中，罕见变异正成为推断因果关系和指导药物发现的工具。通过一种称为孟德尔随机化的方法，我们可以利用遗传学来模拟一项随机对照试验。例如，如果我们想知道降低某种蛋白质的水平是否会降低某种疾病的风险，我们可以研究那些天生就携带该蛋白质编码基因中罕见、功能丧失性变异负荷的人。这些个体在本质上，在受孕时被随机分配到一种终生的“较低蛋白质水平”状态。通过将他们的健康结果与没有这种负荷的人进行比较，我们可以对该蛋白质在疾病中的作用做出强有力的因果推断。这为制药公司决定追求哪些药物靶点提供了宝贵的证据，可能节省数十亿美元和多年的失败研究。

从解释异常值到预测风险，再到指导新药开发，罕见变异的研究开启了我们探索和改善人类健康的新篇章。它们提醒我们，在浩瀚的人类基因组中，即便是最微小、最不频繁的变化，也可能蕴含着最深奥的秘密。