
为什么有些人比其他人更容易患上心脏病或糖尿病等常见疾病?几十年来,答案一直隐藏在我们极其复杂的 DNA 之中,远非单个、强大的基因所能解释。挑战在于如何破译成千上万个遗传变异共同发出的微弱信号,这些信号在潜移默化中塑造着我们的生物命运。多基因风险评分 (Polygenic Risk Score, PRS) 作为一项革命性工具应运而生,以应对这一挑战,它为特定性状或疾病提供了个体遗传易感性的量化指标。本文旨在揭开 PRS 的神秘面纱,引导您从其核心原理走向其在现实世界中的影响。在第一部分“原理与机制”中,我们将解析 PRS 是如何计算和解读的,探索将原始遗传数据转化为有意义的风险评估的统计学基础。随后,在“应用与跨学科联系”部分,我们将走进诊所和研究实验室,了解这一强大的评分如何重塑个性化医疗、理清先天与后天的复杂关系,并为科学和社会提出关键性的新问题。
想象一下,我们试图理解为什么有些人高,而有些人矮。几个世纪以来,我们都知道这有“家族遗传”的因素,但故事远比一个单一的“身高基因”要复杂得多。这更像一个交响乐团,有数百名音乐家在演奏。一些乐器,如大号,起着深沉、基础性的作用。而另一些,如一把小提琴,只贡献一个微小、几乎察觉不到的音符。要理解最终的乐曲——即一个人的身高——你不能只数音乐家的数量,还必须知道每个人在演奏什么乐器,以及演奏的声音有多大。多基因风险评分 (PRS) 正是我们为此所做的尝试:倾听整个遗传乐团的演奏,并理解其对某个性状或疾病的集体影响。
多基因风险评分的核心计算过程出奇地简单,它是一个加权求和的运算。科学家首先进行一项全基因组关联研究 (Genome-Wide Association Study, GWAS),这是一项庞大的工程,他们扫描数十万人的基因组,寻找称为单核苷酸多态性 (Single Nucleotide Polymorphisms, SNPs) 的微小遗传变异。你可以把 SNPs 想象成你庞大的 DNA 之书中的单字母拼写错误。GWAS 能够识别出哪些“拼写错误”在患有特定疾病(如2型糖尿病)的人群中比在未患病人群中出现的频率稍高。
对于每个与疾病相关的 SNP,研究会计算出一个效应量 (effect size),这是一个量化特定变异增加——或有时是减少——风险程度的数值。这个效应量通常用符号 表示,即比值比 (odds ratio) 的自然对数 ()。你可以把 看作是该特定 SNP 的一个“权重”或“重要性因子”。一个大的 意味着这个 SNP 是我们乐团中的一把大号;一个小的 则意味着它是一个三角铁。
要计算某个个体的 PRS,我们只需逐个检查其 DNA 中的 SNP,并进行一个简单的计算:
在这里,对于每个 SNP ,我们取其效应量 并乘以 ,即该个体携带的该 SNP 风险等位基因的数量。由于我们从父母双方各继承一套染色体,因此任何给定的风险等位基因,个体都可能拥有 0、1 或 2 个拷贝。在对每个相关的 SNP 进行此操作后,我们将所有结果相加,得到最终得分。
例如,假设分析了一个人针对某种虚构疾病的三个 SNP 的基因型。他们可能是一个高影响力风险等位基因的纯合子(2个拷贝),一个中等影响力风险等位基因的杂合子(1个拷贝),甚至可能携带一个具有保护性的等位基因,即其 值为负,实际上降低了他们的风险(1个拷贝)。最终的得分是所有这些加权贡献的总和。
但为什么要加权呢?为什么不直接数出某人拥有的所有风险等位基因的数量?这是一个揭示 PRS 方法精妙之处的关键点。想象两个个体 X 和 Y。个体 X 有三个风险等位基因,但它们都属于效应非常小的 SNPs(三角铁和小提琴)。个体 Y 只有一个风险等位基因,但它所属的 SNP 具有巨大的效应量(整个铜管乐组)。简单的“风险等位基因计数”会错误地断定个体 X 的风险更高。然而,加权的 PRS 则能正确识别出个体 Y 的单个、强大的风险等位基因赋予了其远为更高的遗传易感性。它承认,在风险的遗传交响乐中,并非所有演奏者的声音都同样响亮。
经过所有这些计算,你会得到一个数字,比如 1.15。这代表什么?是高还是低?一个原始的 PRS 分数本身,就像被告知你的考试成绩是 87 分,却不知道满分是 100 分还是 200 分一样。没有上下文,这个数字毫无意义。
这个上下文来自参考人群 (reference population)。为了使 PRS 具有可解释性,科学家们会计算一个大型、有代表性群体中数千名个体的得分。这样他们就能得到一个分数分布,通常呈钟形曲线。然后,他们可以计算出这个人群中分数的平均值 () 和标准差 ()。
有了这些信息,任何人的原始 PRS 都可以被转换成一个 z-score (z值):
这个简单的公式告诉你,你的分数偏离平均值多少个标准差。z值为 0 意味着你处于完全平均的水平。z值为 +2 则意味着你的遗传风险显著高于平均水平。
更直观的是,这个 z值可以被转换成百分位数 (percentile)。如果你的冠状动脉疾病得分处于第 95 百分位,这并不意味着你有 95% 的机会患上该疾病。这或许是对 PRS 最常见也最危险的误解。它真正的意思是,你对该疾病的估计遗传易感性高于参考人群中 95% 的人。它是一个排名,一个关于你相对遗传地位的陈述。它告诉你你在线上的位置,而不是你的最终命运。
多基因风险评分是一个革命性的工具,但它并非水晶球。理解其局限性与理解其构建原理同等重要。
首先,PRS 的预测能力常常被误解。一项研究可能报告说,某个性状的 PRS 的 值为 。这并不意味着该分数对任何给定个体的“准确率为8%”。它的意思是,在整个人群中,PRS 所捕捉到的遗传差异可以解释我们观察到的该性状在人与人之间总变异的 8%。对于一个受数千种因素影响的复杂性状,仅用遗传学解释 8% 的变异可能对公共卫生和研究非常有价值,但仍有 92% 的变异需要由其他因素来解释。
这就引出了最根本的真理:基因并非命运。思考一下同卵双胞胎 Alex 和 Ben 的经典例子。他们出生时拥有完全相同的 DNA,因此也拥有完全相同的 PRS。假设他们患类风湿性关节炎的得分非常高,处于第 98 百分位。然而,几十年后,Alex 可能患上了严重的该疾病,而 Ben 却保持完全健康。为何会出现这种不一致?答案在于遗传基因组之外的一切:饮食、锻炼、压力水平、感染、肠道微生物组,以及一生中独特的环境暴露。这些因素不仅增加了风险;它们还能与潜在的遗传易感性相互作用,增强或减弱它。PRS 量化了起点,即遗传的易感性,但它没有考虑到最终决定结果的生命旅程。
最后,PRS 模型本身也存在一些可能限制其适用性的隐藏假设。
本质上,PRS 并非最终答案。它是一个强大、个性化的评估工具,估量了谜题中的一块——我们的遗传易感性。它让我们得以一窥我们的生物蓝图,但它不能也无法预见生命旅程中那美丽而混乱的复杂性。
既然我们已经掌握了多基因风险评分 (PRS) 的构建原理,我们便来到了最关乎人类的问题:“所以呢?” 我们到底能用这个数字、这个成千上万微弱遗传信号的总结做些什么?一个科学概念的真正魅力不仅在于其内在的精妙,还在于它让我们能够探索的新领域和它提供的新工具。PRS 不仅仅是一个分数,它是一种新的透镜,为我们提供了更清晰、更细致的视角来审视健康、疾病乃至错综复杂的生命织锦。让我们踏上旅程,看看这个透镜能带我们去往何方。
几十年来,医学一直基于平均值运作。你被告知,你患某种疾病的风险是你这个年龄和生活方式的人的平均风险。PRS 代表了一次革命性的进步,是从群体平均值的粗略分辨率到个人概率的更精细颗粒度的转变。
想象你在玩一个纸牌游戏,抽到一张A会导致某个特定结果。群体平均风险就像是知道一副标准的52张牌中有四张A。然而,PRS 会给你一些关于你手中具体牌的提示。它不能确定地告诉你你手里有A,但它可能会告诉你,你个人的“牌堆”在洗牌时的方式使得你或多或少更有可能抽到一张A。它优化了赔率。例如,知道冠状动脉疾病等疾病的平均终生风险大约是 ,PRS 可能会揭示你的相对风险是其 倍,从而将你个人的绝对风险置于接近 的水平。这不是诊断,而是一个更具个性化的概率,是能够指导筛查、预防和生活方式决策的强大信息。
但是,这些新信息如何融入现有的遗传学世界呢?多年来,我们已经知道一些强大的单基因突变——相当于遗传学中的黑桃A——它们会显著增加疾病风险。那么,PRS 这个关乎数百张“低价值牌”集体效应的工具,是否会使这些“孟德尔式”发现变得过时呢?远非如此。真正的力量在于我们将它们结合起来。
考虑一个在 LDLR 这样的基因中携带高影响力变异的人,这个基因已知会导致家族性高胆固醇血症。这个单一变异就像一个强大的乘数,作用于他的心脏病风险。现在,我们可以将他的 PRS 加入考量。通过数学方法将来自单个强大基因的风险与来自数千个小效应变异的风险相结合,我们能得到一个远为全面的风险概况。
这种整合揭示了我们生物学中一个美妙的精微之处:遗传背景至关重要。一个基因的效应并非独立于其邻近基因。在某些情况下,一个人可能携带某种疾病的高风险孟德尔变异,但他们的多基因背景却具有很强的保护性,以至于大大降低了该疾病最终显现的几率。这就像你的团队里有一位明星球员(单基因),但整体表现还取决于团队其他成员的水平(多基因背景)。在其他情况下,一个保护性基因可能具有如此强大的效应,以至于它基本上压制了高风险的多基因背景,这种现象被称为上位效应 (epistasis)。PRS 让我们第一次能够开始量化整个“团队”的贡献。
或许最激动人心的临床前沿是超越风险预测,去指导治疗。这就是药物基因组学 (pharmacogenomics) 的核心——研究你的基因如何影响你对药物的反应。想象两个高血压患者,他们可能被开了同样的药,但一个人反应良好,而另一个人效果甚微。为什么?部分答案就在他们的基因里。通过构建一个基于已知影响药物疗效的遗传变异的 PRS,我们可以开始预测谁会是“响应者”,谁可能需要不同的治疗方法。这是真正个性化医疗的黎明,治疗方案不仅针对疾病,更针对个体的独特生物学特性。
在临床之外,PRS 已成为研究人员努力理解人类性状和疾病复杂成因不可或缺的工具。科学中最古老也最困难的挑战之一是区分相关性与因果性。是更多的教育导致更长的寿命,还是像社会经济背景这样的其他因素同时影响了两者?
在这里,PRS 催生了一种极其巧妙的研究策略,称为孟德尔随机化 (Mendelian Randomization)。其逻辑简单而深刻。当我们从父母那里继承基因时,这是一个随机洗牌的过程。你无法选择你的遗传变异。这个“基因彩票”意味着我们可以将一个如受教育程度这样性状的 PRS 用作一项自然实验。因为你关于教育的 PRS 是在受孕时就已确定——远在任何环境因素发挥作用之前——我们可以用它作为一个“工具变量”来研究教育对后来结果(如寿命)的因果效应,同时最大限度地减少社会或环境混杂因素的干扰。这种方法需要复杂的统计学来处理像基因多效性(即基因影响多个性状)这样的复杂问题,但它在遗传学、流行病学甚至社会科学之间架起了一座强大的桥梁。
PRS 还帮助我们超越了简单的“先天与后天之争” (nature versus nurture),走向一个更综合的“先天和后天” (nature and nurture) 观点。我们的基因并非在真空中运作。它们的效应可以被我们的环境放大或减弱,这种现象被称为基因-环境相互作用 ()。有了 PRS,我们终于可以开始量化这一点。例如,研究人员可以模拟由环境暴露(如我们饮食中的某种化学物质)所带来的风险,对于具有高风险遗传背景的人来说,可能远大于低风险背景的人。你的遗传风险不是一个固定的数字;它是一个与你的世界进行对话的动态因素。
此外,这种遗传透镜揭示了我们的基因与我们的生活环境是何等紧密地交织在一起。研究人员可以利用一个如受教育程度这样性状的 PRS 作为我们称之为社会经济地位的那个庞大、难以衡量的因素网络的遗传代理。通过这样做,他们可以更好地厘清一个健康结果(如高血压)的遗传信号中,有多少是直接的生物学效应,又有多少是通过社会和环境途径传导的。
任何强大的新技术都伴随着巨大的责任。PRS 也不例外。它蕴含着巨大的希望,但如果我们不保持警惕,它也可能反映我们的社会偏见并有被滥用的可能。理解 PRS 是什么,以及它不是什么,至关重要。
PRS 是一个概率工具,而非水晶球。高分并不意味着你注定会得病,低分也不能保证你免疫。详细的家族研究清楚地表明了这一点:我们可以找到尽管 PRS 非常高却完全健康的个体,也能找到尽管 PRS 很低却患有某种疾病的患者。这是因为 PRS 尽管功能强大,却只捕捉了故事的一部分。其余部分由稀有遗传变异、生活方式选择、环境暴露以及不可简化的偶然因素共同书写。
这种概率性使得利用 PRS 进行确定性决策的想法——例如根据 PRS 将儿童分流到不同的教育轨道——不仅不道德,而且在科学上也是站不住脚的。这背后有几个冷冰冰的科学原因。首先,当前 PRS 对复杂性状的预测准确性是有限的。一个解释了某个性状 方差的评分,意味着还有 的方差完全无法解释——这样的不确定性对于为个体做出改变人生的决定来说实在太大了。其次,PRS 所依据的遗传力 (heritability) 是一个群体统计量;它对单个个体的确定性命运毫无说明力。第三,在一个祖源群体(比如欧洲人)中开发的 PRS,由于遗传结构和环境的差异,在其他群体中通常表现不佳。将其盲目地应用于不同的人群是不公平的,这将是系统性偏见的温床。
因此,我们得出了一个更成熟的理解。多基因风险评分不是一个定义我们命运的简单数字。它是一个复杂、精妙而强大的工具。它不给我们简单的答案,而是邀请我们进入一场关于塑造我们的力量的更深入、更深刻的对话。它帮助我们实现个性化医疗,提升我们的研究水平,并迫使我们直面生物学与社会之间复杂的相互作用。这项卓越科学成就的最终价值,将在于我们是否有智慧去运用它,不是为了制造新的标签来框定人们,而是为了更好地欣赏并关怀人类之所以为人的美妙复杂性。