基因组风险评分

玻尔百科

定义

基因组风险评分指一种遗传学评估方法，通过汇总全基因组关联分析中识别出的数千或数百万个遗传变异的微小效应，来估算个体对复杂性状的遗传倾向。该方法在构建过程中需要利用复杂的统计学手段处理连锁不平衡问题，从而得出一种概率性的风险指标。基因组风险评分并非决定性的预测，其临床应用和准确性目前受到环境因素、祖源背景以及欧洲裔人群数据偏倚的影响。

核心要点

基因组风险评分（GRS）通过累加 GWAS 中发现的成千上万甚至数百万个遗传变异的微小效应，来估计对复杂性状的遗传易感性。
构建准确的 GRS 需要复杂的统计方法来解释连锁不平衡（LD），即邻近遗传变异的非随机遗传现象。
GRS 是对概率性风险的一种衡量，而非确定性的预言，必须在临床因素、环境和祖源的背景下进行仔细解读。
对来自欧洲祖源人群数据的严重依赖导致了显著的祖源偏倚，降低了 GRS 在其他全球人群中的准确性和实用性。

引言

为什么有些人尽管生活方式健康，却会患上心脏病，而另一些有多种风险因素的人却能健康数十年？答案可能部分隐藏在我们 DNA 中那微妙而集体的语言里。虽然单个基因可以导致罕见疾病，但我们对常见复杂疾病的易感性往往是由成千上万个遗传变异的综合影响所塑造的。理解和量化这种分散的遗传风险一直是医学界面临的挑战。基因组风险评分（GRS）作为一种强大的工具应运而生，用以弥合这一差距，它提供了一种将海量基因组数据提炼成单一、可预测遗传易感性指标的方法。

本文将深入探讨基因组风险评分的世界。第一章“原理与机制”将解析数量遗传学的基础概念，解释这些评分如何基于全基因组数据进行计算的统计引擎，并直面遗传相关性和祖源偏倚等重大挑战。接下来的章节“应用与跨学科联系”将探讨这些评分在医学上如何用于精细化风险预测，在遗传学上如何用于理解遗传模式，以及它们日益广泛的应用所引发的深刻的伦理、法律和社会问题。

原理与机制

要真正掌握基因组风险评分的力量与风险，我们不能只看它产生的最终数字。我们必须更深入地探究我们生物遗传的内在逻辑。这个故事的开端不是单个基因，而是成千上万个基因微妙而集体的低语。

基因组的交响乐

为什么像身高这样的复杂性状，或像心脏病这样的疾病倾向，似乎在家族中遗传，却没有单基因疾病那样清晰、可预测的模式？答案在于数量遗传学的一个基本概念，该领域将遗传视为一场宏大的统计交响乐。个体的可观察性状，即其表型（ $P$ ），可以被看作是其遗传构成（ $G$ ）与环境影响（ $E$ ）的总和。最简单的形式是 $P = G + E$ 。

这意味着我们在一个群体中观察到的总变异，即表型方差（ $V_P$ ），是来自基因的变异（ $V_G$ ）和来自环境的变异（ $V_E$ ）之和，前提是基因与环境相互独立。

$V_P = V_G + V_E$

但当我们深入探究“遗传”部分时，故事就变得更加有趣了。遗传贡献 $G$ 并非一个单一、整体的实体。它更像一个交响乐团。我们可以将其方差分解为协同作用以创造最终演奏效果的不同组成部分：

$V_G = V_A + V_D + V_I$

加性遗传方差（ $V_A$ ）：这是主旋律。它是你携带的所有单个遗传变异（等位基因）效应的简单线性总和。每个等位基因都为你的身高或风险增加一点点，就像和弦中的单个音符。这是遗传中最能稳定地由亲代传给子代的部分，也是基因组风险评分构建的基础。
显性方差（ $V_D$ ）：这是由同一基因上的等位基因所产生的和谐与不和谐。对于一个给定的基因，你拥有两个拷贝（等位基因），分别来自父母双方。有时它们的效果并非简单相加，而是相互作用。一个隐性等位基因可能会被一个显性等位基因完全掩盖。这种偏离简单加和的相互作用就是显性。
上位性方差（ $V_I$ ）：这是交响乐中最复杂的部分——不同基因之间的相互作用。它好比小提琴声部与木管乐器声部的相互呼应。一个基因中某个变异的效应可能会被另一个完全不同基因中的变异放大、抑制或彻底改变。

基因组风险评分的核心，是一次大胆的尝试，旨在分离和测量这个交响乐团的一部分：加性部分 $A$ 。它做出了一个简化但强有力的假设：对于复杂性状，你的遗传风险中最可预测的部分来自于许多微小、独立效应的总和。

谱写评分：微小效应的交响曲

那么，我们如何构建一个工具来测量这个加性遗传值呢？答案是多基因风险评分（PRS），或更广义地，基因组风险评分。其基本配方出人意料地优雅。对每个人来说，该评分是其全基因组中携带的风险变异的加权和：

$PRS = \sum_{j=1}^{M} \hat{\beta}_j G_{j}$

让我们来分解这个优美的公式：

$G_j$ 是你在基因组特定位置 $j$ 的基因型，编码为你拥有的风险等位基因数量（ $0$ 、 $1$ 或 $2$ ）。
$\hat{\beta}_j$ 是权重，即该等位基因的估计效应值。它告诉我们那个单一的遗传字母对性状的贡献有多大。
总和（ $\sum$ ）是针对成百上千甚至数百万（ $M$ ）个这样的位点进行的。

这些权重，即 $\hat{\beta}_j$ 值，从何而来？它们是被称为全基因组关联研究（GWAS）的宏大科学努力的产物。在 GWAS 中，科学家们比较成千上万名患有某种疾病的人（病例）与未患病者（对照）的基因组。通过扫描数百万个遗传变异，他们可以识别出哪些变异在病例组中略微更常见。这种关联的统计强度为我们提供了效应值 $\hat{\beta}_j$ 。对于疾病而言，这通常是对数比值比——衡量该等位基因的单个拷贝使患病几率增加多少的指标。

关键是，对于大多数复杂性状，这些 $\hat{\beta}_j$ 效应中的绝大多数都非常微小。不存在单一的“心脏病基因”。相反，你的风险是成千上万个变异共同作用的结果，每个变异的贡献都微乎其微。早期的基因风险评分（GRS）只关注少数几个通过了非常严格的统计显著性阈值的变异。而现代的 PRS 则拥抱疾病的“多基因”特性，纳入了更大范围的变异，甚至包括那些效应非常小、不具统计显著性的变异，认识到它们集体的低语可能比少数几个响亮的呐喊更重要。

这样一个评分的预测能力——它能解释的性状方差比例（ $R^2$ ）——可以被证明取决于其包含的所有变异的属性。在简化的独立性假设下，可解释的方差近似为：

$R^2 \approx \sum_{j=1}^{m} 2 p_j(1-p_j) \hat{\beta}_j^2$

这个方程堪称微型杰作。它告诉我们，评分的能力来自于累加许多变异（ $m$ ）的贡献，其中每个变异的重要性由其效应值的平方（ $\hat{\beta}_j^2$ ）和其在人群中的频率（基因型方差 $2p_j(1-p_j)$ ）决定。一个罕见的变异需要非常大的效应才能做出有意义的贡献，而一个常见的变异即使效应很小也能显著地做出贡献。

指挥家的挑战：驯服噪音

当然，现实从来没有这么简单。构建一个准确的 PRS 是一项艰巨的统计挑战，好比指挥家试图从嘈杂的交响乐团中创造出清晰的旋律。最重大的挑战是连锁不平衡（LD）。基因像串珠一样排列在染色体上，物理上彼此靠近的变异往往会成块地一起遗传。这意味着它们并非独立的。

如果我们天真地将两个高度相关的变异的效应相加，我们实际上是在重复计算同一个信号。这种过度热情会使评分膨胀，导致过拟合，并在我们尝试将其用于新人群时表现不佳。为了解决这个问题，科学家们已经发展了几种方法，从简单的启发式方法到复杂的模型：

聚类和阈值法（C+T）：这是经典的实用方法。首先，我们设定一个显著性阈值（一个 $p$ 值）从 GWAS 中筛选出有潜力的变异。然后，为了处理 LD，我们对它们进行“聚类”。在每个相关的变异块中，我们挑选信号最强的那个（“索引”变异），并丢弃其余的。这就像只听一个声部中第一小提琴的声音，并告诉其他人保持安静以避免冗余。
贝叶斯收缩方法（例如 LDpred, PRS-CS）：这些是大师级的指挥家。这些方法不是粗暴地让相关的演奏者静音，而是使用一个正式的统计模型来智能地调整每个变异的音量。它们使用一个高质量的“参考面板”——例如来自千人基因组计划的 LD 图谱——来理解所有变异之间的相关性。然后，它们使用贝叶斯框架来“收缩”效应值，将充满噪音的估计值拉向零，同时保留强大、真实的信号。像 LDpred 这样的方法使用“尖峰-厚板”先验，该先验假设一些变异具有真实效应（厚板），而大多数效应为零（尖峰）。PRS-CS 使用“连续收缩”先验，它灵活地对所有效应进行不同程度的收缩，使其能够适应性状的遗传结构。这些方法通过对基因组交响乐的全部复杂性进行建模，产生了更为稳健和准确的评分。

解读评分：概率，而非预言

完成所有这些工作后，我们得到一个数字——PRS。它意味着什么？这或许是理解这些评分最关键的部分。PRS 是对概率性风险的衡量，而非确定性的预言。

考虑一个假设的家庭调查。一位祖父可能患有某种神经系统疾病，并且 PRS 非常高。他将基因传给他的孩子。他的女儿可能遗传到一种使她的 PRS 更高的变异组合，但她却完全没有患病。与此同时，她的兄弟可能遗传到低于平均水平的 PRS，但仍然患上了这种疾病。这是因为 PRS 只捕捉了加性遗传部分。最终的结果——健康或疾病——还受到非加性遗传效应（显性和上位性）、环境因素和纯粹偶然性的影响。

这就是为什么我们必须用两个不同的指标来评估一个 PRS：

区分度：这是评分正确排序人们的能力。如果我们随机抽取一个患病者和一个未患病者，评分正确地给患病者赋更高值的概率是多少？这由曲线下面积（AUC）来衡量。AUC 为 $0.5$ 不比抛硬币好；AUC 为 $1.0$ 则是完美的区分。
校准度：这是评分准确预测绝对风险的能力。如果一个 PRS 模型预测一组人在未来十年内患病的风险为 $5\%$ ，那么这组人中是否真的有大约 $5\%$ 的人患病？一个校准良好的评分提供有意义的绝对风险估计，而一个校准失当的评分可能会系统性地高估或低估每个人的风险。

全球巡演：多支交响乐团的故事

至此，我们来到了当今基因组风险评分面临的最大挑战。用于推导效应值（ $\hat{\beta}_j$ ）的大规模 GWAS 绝大多数都是在欧洲血统的人群中进行的。这造成了一种深刻而危险的算法偏倚。

当一个在某个群体中训练的 PRS 应用于另一个群体时，其性能往往会急剧下降。这不是恶意行为，而是由不具代表性的数据所产生的统计现实。“交响乐团”是不同的：

等位基因频率和 LD 模式因祖源而异。遗传变异之间的相关性——正是 PRS 构建方法试图建模的 LD 结构——在具有不同进化历史的人群中是不同的。在欧洲人群中一个能很好代表致病突变的变异，在非洲或亚洲人群中可能是一个很差的代表。
基线风险和环境背景不同。基因与环境的相互作用是复杂的，将一个在某种背景下构建的模型应用于另一种背景充满了错误。

这种性能下降体现在两个方面：

可移植性差：评分的区分能力（其 AUC）下降。它在按风险对人群进行排序方面的效果变差。
校准度差：绝对风险估计变得极不准确。

想象一个人的原始 PRS 值为 $3.0$ 。在他自己祖源匹配的参考人群中，这个分数可能使他处于第 98 个百分位数——一个非常高风险的明确信号。然而，如果一个实验室错误地使用了来自不同祖源的参考人群，其均值和方差略有不同，那么同样的原始分数 $3.0$ 可能只对应于第 95 个百分位数。这个看似微小的统计转变可能意味着是否能获得预防性筛查项目的资格。这凸显了 PRS 并非一个普适常数；它的意义与其构建和解读时所处的群体背景密不可分。

理解这些原理——从方差分解到 LD 的微妙之处以及跨祖源应用的陷阱——至关重要。它让我们能够正确认识基因组风险评分：它们不是水晶球，而是我们才刚刚开始学习如何驾驭的强大、复杂且不完美的工具。

应用与跨学科联系

在窥探了基因组风险评分构建的复杂机制之后，我们可能会倾向于将其视为一种分子水晶球。但它并非如此。将其视为确定的预言，就错失了其真正的美和效用。基因组风险评分（GRS）更像是一件在庞大交响乐团中经过精心调校的单一乐器。它本身发出的音符只是一声低语；然而，当它与一个人生命的宏伟乐章——他们的临床体征、家族史、所处环境——合奏时，它能增添新的和谐层次与理解。因此，它的应用不在于算命，而在于精炼、质疑和深化我们对人类健康的看法，从诊室到法庭。

精炼临床画像：轻推的艺术

基因组风险评分最直接的希望或许在于为心脏病、中风和糖尿病等常见疾病的风险画像提供更清晰的轮廓。医生们已经在使用权衡年龄、血压和胆固醇等因素的工具来估计一个人的未来风险。GRS 并非要取代这些工具，而是要增强它们，为计算增添一个独特的遗传维度。

想象一位患者，根据常规因素，其未来十年内心脏病发作的风险估计为 $12\%$ 。GRS 通过抽样数十万个遗传标记，可以为这个估计提供一个微妙但至关重要的“轻推”。其逻辑是一种乘法式的精细化调整。如果 GRS 表明遗传易感性高于平均水平，它并不仅仅是在风险上增加几个百分点。相反，它会乘以事件的比值。对于这位患者，一个高的 GRS 可能会调整他们的基线比值，将最初的 $12\%$ 概率转化为更准确的 $14.2\%$ 。这种调整来自许多微小影响变异的集体、乘法效应，其中一些略微增加风险，另一些略微降低风险，所有这些都融合成一个单一的、个性化的因素。

但是，这种轻推真的有用吗？我们如何知道将 GRS 添加到我们的模型中是否真的改善了它们？科学需要证据，而在风险预测的世界里，证据来自于严格的评估。当研究人员评估一种用于缺血性中风的 GRS 时，他们不仅问它是否与该疾病相关。他们提出了两个更深刻的问题。首先，新模型是否能更好地分辨出谁会中风，谁不会？这是一种区分度的衡量，通常用一个叫做曲线下面积（AUC）的统计量来捕捉。AUC 的增加，比如从 $0.72$ 到 $0.74$ ，标志着模型预测视力的真实、尽管温和的改善。其次，也许更重要的是，新模型是否能正确地将人们重新分配到不同的风险类别？如果 GRS 正确地将一个将要中风的人从“低风险”类别移动到“高风险”类别，那就是一个临床上的胜利。如果它错误地将一个健康的人移入高风险组，那就是一种潜在的伤害。通过统计这些正确和错误的移动，一个称为重分类分析的过程，科学家们可以量化 GRS 在传统风险因素之外所增加的实际临床价值。

解开遗传的织锦

遗传学的故事曾经被讲述为显性基因和隐性基因的简单故事，这是 Gregor Mendel 豌豆实验的遗产。我们现在知道，对于大多数人类性状，现实要复杂得多——这是一幅由无数线索编织而成的丰富织锦。基因组风险评分是探索这幅织锦的关键工具，尤其是在罕见、强大基因的线索与常见遗传变异的细丝交织的地方。

考虑肥厚型心肌病（HCM），这是一种通常由肌小节基因中的单个、强效致病性变异引起的心脏病。然而，携带完全相同变异的两个家庭成员却可能有截然不同的命运。一个可能心肌严重增厚，而另一个的心脏则接近正常。为什么？多基因背景提供了一个惊人而优雅的答案。一个人的 GRS 充当了主基因效应的调节剂。高风险的多基因背景可以放大致病变异的影响，将心壁厚度推过诊断阈值。而低风险的背景则可以缓冲它，使携带者免于临床疾病。用遗传学的语言来说，GRS 同时调节了单基因变异的表现度（性状的严重程度）和外显率（表现出该性状的概率）。这揭示了一个美丽的遗传风险连续体，其中“单基因”疾病几乎从来不是真正的单基因。

这一原则在癌症遗传学中得到了强有力的应用。像 BOADICEA 这样的复杂模型被用来根据女性的家族史和对 BRCA1 和 BRCA2 等主要基因的检测来估计她患乳腺癌或卵巢癌的风险。当 GRS 被添加到这个模型中时，它做了一件了不起的事情。因为 GRS 可以解释一部分“家族性风险”，它可以改变计算出的一个人携带 BRCA 突变的概率。如果一个来自高风险家庭的女性 GRS 非常高，模型可能会得出结论，她家庭的癌症负担主要是多基因性的，从而降低了她携带 BRCA 突变的可能性。相反，同一个女性的低 GRS 会增强对单个强大基因在起作用的怀疑。这是一种贝叶斯推断的实际应用，其中一条遗传信息被用来更新我们对另一条信息的信念。

更广阔的视角：行为、发育与身份

基因组学的影响范围超越了临床，延伸到构成我们之所以为我们的本质之中。在这里，GRS 提供的见解或许最为深刻，而对其进行谨慎解读的需求也最为迫切。

以注意缺陷/多动障碍（ADHD）为例。双生子研究长期以来表明它具有高度遗传性，遗传因素可能占人群中易感性变异的 $70-80\%$ 。然而，当我们从最大的全基因组研究中为 ADHD 构建 GRS 时，它只解释了该变异的一小部分——或许只有 $5\%$ 左右。这不是矛盾，而是一种启示。它告诉我们，ADHD 的遗传性并非由少数几个强大的基因所致，而是分散在成千上万个遗传变异中，每个变异的效应都微乎其微。这种高度多基因的结构是复杂行为和精神性状的标志。这是反对遗传决定论的有力论据；没有单一的“ADHD 基因”，而是一种复杂的遗传易感性，它由发育和环境塑造而成。

此外，遗传的“低语”并非对每个人都一样。可以构建模型，允许基因的效应在两性之间有所不同。对于一种受性别影响的遗传病，完全相同的基因型对于男性和女性可能产生不同的多基因评分。这是通过在基础统计模型中包含基因型与性别的交互作用项来实现的，反映了基因的功能可以被更广泛的生理背景（包括激素环境）所调节的生物学现实。这为我们理解遗传风险增添了又一个细微的层次。

人的背景：伦理、法律与社会

面对这样一个具有潜力的工具，社会必须努力思考如何明智和公正地使用它。GRS 不仅仅是一个科学对象；它也是一个社会对象，与我们对公平、隐私和健康定义的最深切关注相交织。

许多人首要关注的是遗传歧视。在美国，2008 年的《遗传信息非歧视法案》（GINA）提供了一项关键的保障。这项联邦法律明确禁止健康保险公司利用个人的遗传信息——包括 GRS 甚至其家族史——来做出关于参保资格或设定保费的决定。然而，这项法律的保护并非无所不包。关键是，GINA 的保护不适用于人寿保险、残疾保险或长期护理保险，这些领域在这方面基本上不受监管。这个法律环境是 GRS 故事的一个重要部分。

除了法律之外，一个更微妙的伦理挑战也浮现出来：正常人类变异的医学化。一个来自 GRS 的“高风险”标签听起来确定而令人担忧。但它到底意味着什么？让我们考虑一个假设的心血管疾病 GRS，其中得分最高的前 $20\%$ 被标记为“高风险”。如果这个群体的相对风险是人口基线 $10\%$ 的 $2.0$ 倍，他们的绝对风险就是 $20\%$ 。这意味着，被贴上这个令人担忧标签的人中，有 $80\%$ 在未来十年内不会患上这种疾病。该标签的阳性预测值仅为 $20\%$ 。现在，想象我们为这个群体中的所有 $20,000$ 人提供一种预防性药物。如果该药物将他们的绝对风险降低 $3\%$ ，它将预防 $600$ 例心脏病发作。但如果该药物同时在 $5\%$ 的使用者中引起显著的副作用，它将导致 $1,000$ 例不良事件。最终结果是弊大于利。这个冷静的计算表明，一个筛查项目，即使是基于复杂的遗传学，也可能违背医学的第一原则——不伤害——并使其 detrimentally 将一大片健康人群医学化。

这些挑战在儿科等敏感领域被放大。将用于学习障碍的 GRS 应用于幼儿，承载着巨大的分量。由于同样的统计现实，对于一个患病率为 $8\%$ 的病症，“高风险”评分的阳性预测值可能只有 $16\%$ 。在如此不确定的基础上给一个孩子贴上“高风险”的标签，有带来污名化和教育伤害的风险，使得谨慎、多方面的处理方法至关重要。

在产前筛查领域，风险最高，局限性也最明显。想象一下，将用于精神分裂症等复杂精神疾病的 GRS 应用于胎儿。首先，存在相对风险与绝对风险之间的鸿沟：在 $1\%$ 的终生基线风险上增加四倍的相对风险，仍然只意味着患病的绝对风险为 $4\%$ ——以及 $96\%$ 的不患病几率。其次，也是更关键的，是祖源问题。大多数 GRS 是基于欧洲血统人群的数据构建的。当应用于非洲、亚洲或其他祖源的个体时，它们的预测能力会急剧下降，因为评分所依赖的遗传相关模式在不同人群之间存在差异。将一个源自欧洲的评分应用于非欧洲血统的胎儿，在科学上是不合理的，在伦理上也是充满争议的。这就像用巴黎的地图在东京导航。最后，这样的评分完全忽略了将塑造该个体一生的广阔而不可知的环境因素。将这样一个存在严重缺陷且不确定的数字作为生命中最重大决定之一的基础，是对该技术的深刻滥用。

因此，基因组风险评分是一个极其微妙的工具。它不给我们简单的答案。相反，它邀请我们进入一个关于风险、身份以及我们的基因与生活之间复杂舞蹈的更复杂、更诚实的对话中。它是我们生物学的一面镜子，在它的映像中，我们看到的不是一个固定的命运，而是一片充满可能性的风景。