单倍型定相

玻尔百科

核心要点

单倍型定相是确定哪些遗传变异在同一条染色体上从单个亲本共同遗传下来的过程。
定相依赖于使用家系遗传模式的确定性方法，或使用群体水平连锁不平衡的统计学方法。
这一过程对于个性化医疗、免疫系统分析、疾病诊断以及理解复杂遗传机制至关重要。
定相错误（如转换错误）会降低研究的统计功效，从而掩盖真实的遗传关联。

引言

现代基因测序提供了海量信息，能够识别个体所拥有的特定遗传变异。然而，这些原始数据常常像一堆杂乱的拼图，只告诉我们存在哪些变异，却没有说明它们是如何排列在分别来自父母的染色体上的。知道一个人拥有两种不同的变异，与知道这两种变异是共同遗传自一条染色体上还是分别遗传自两条染色体上，是两码事。这块关键的缺失信息——即“相”——对于真正理解性状和疾病的遗传基础至关重要。单倍型定相就是解决这个难题的计算过程，它通过未定相的基因型数据，重建两个不同的单倍型——即变异在每条亲本染色体上存在的序列。

本文将探索单倍型定相的世界，从其核心原理到其变革性的应用。第一章“原理与机制”将揭示定相的工作原理，探讨家系遗传的确定性逻辑以及利用群体数据的强大统计方法。接下来的章节“应用与跨学科联系”将展示为何这一过程如此重要，揭示其在个性化医疗、免疫学、癌症研究和表观遗传学等多个领域的影响。读完本文，您将理解定相如何将一份简单的遗传变异列表，转变为关于遗传与功能的丰富叙事。

原理与机制

想象一下，你的基因组是一个图书馆，里面有两套完整的百科全书——一套来自你的母亲，另一套来自你的父亲。每套包含23卷，我们称之为染色体。现在，现代基因测序就像一个速度极快但有点混乱的图书管理员。他能读完每一卷每一页的文字，但读完后，他会把所有书页都扔进一个巨大的、杂乱的堆里。从这堆书页中，我们可以知道，例如，你有一页关于“艺术”的内容带有一个错字，而另一页关于“艺术”的内容则没有错字。我们知道你在这个“艺术”基因上是杂合的。但我们丢失了一个关键信息：带有错字的那一页来自哪一套百科全书？在那一套书中还有哪些其他的书页？

这就是单倍型定相的根本挑战。单倍型（haplotype）是指在单条染色体上物理连锁在一起的特定变异序列（就像“艺术”卷中的那个错字）——也就是来自某位亲本的一卷百科全书。标准的基因分型告诉我们你拥有哪些变异，但没有告诉我们它们是如何分组到你的两条亲本染色体上的。定相是从这堆混乱的书页中重建出那两套原始百科全书的艺术与科学。它是将未定相的基因型解析为一对已定相单倍型的过程。

家系这块“罗塞塔石碑”：确定性定相

我们究竟该如何解开这个谜题？最直接、也是最强大的方法，就是查看家系信息。让我们回到图书管理员的那堆书页。假设我们也能接触到你父母的那两套百科全书。这下情况就完全不同了。

假设我们对同一条染色体上两个邻近的变异感兴趣，比如说在位点1（等位基因 $A$ 或 $a$ ）和位点2（等位基因 $B$ 或 $b$ ）。你的基因型在两个位点上都是杂合的：你是 $Aa$ 和 $Bb$ 。这给你的单倍型留下了两种可能性：要么一条染色体携带 $A$ 和 $B$ ，另一条携带 $a$ 和 $b$ （我们写作 $AB/ab$ 的双倍体型），要么配对是 $Ab/aB$ 。此时“相”是不明确的。

但现在让我们看看你的父母。假设你父亲的基因型是 $aa$ 和 $BB$ 。因为他在两个位点上都是纯合的，他产生的每个精子都必须携带相同的单倍型： $aB$ 。没有其他可能性。因此，你必然从他那里继承了 $aB$ 这个单倍型。谜题瞬间解开了一半！由于你的完整基因型是 $AaBb$ ，那么剩下的等位基因 $A$ 和 $b$ 必定来自你的母亲。我们刚刚确定无疑地推断出，你真实的“相”是 $Ab/aB$ 。

这种孟德尔遗传逻辑是定相的一块“罗塞塔石碑”。通过观察变异在一个家系或谱系（pedigree）中如何传递，我们常常可以完全确定地解决“相”的模糊性。基因组的某些部分能提供更强的线索。例如，X染色体具有独特的遗传模式。父亲将其唯一的X染色体传递给所有女儿，其主要部分不会发生任何重组（洗牌）。这意味着父亲提供了一个完美的、完整的单倍型“模板”，通过它就可以推断出他女儿从母亲那里继承的单倍型。同样，染色体中的结构特征有时会形成巨大的“无重组区块”，其中一整段等位基因作为一个单一、不可分割的单元被遗传下来，这极大地简化了追踪遗传的难题。

群体的智慧：统计定相与连锁不平衡

家系数据固然很好，但大多数大规模遗传学研究涉及数千名被认为是“无亲缘关系”的个体。我们就必须放弃吗？完全不必。我们只需要更聪明一些，用统计学的力量来换取家系逻辑的确定性。我们需要的关键概念是连锁不平衡（Linkage Disequilibrium, LD）。

LD 这个术语极好地描述了一个简单的概念：在一个群体中，不同位点上的一些等位基因倾向于以高于随机预期的频率共同出现在同一条染色体上。可以把它看作一种遗传上的“同伴压力”。如果在我们的百科全书比喻中，带有错字的“艺术”卷几乎总是与带有特定插图的“音乐”卷出现在同一套书中，那么这两个变异就处于连锁不平衡状态。这种关联之所以存在，是因为它们在染色体上物理位置相近，而重组——即创造新组合的洗牌过程——在进化史上还没有足够的时间将它们分开。

这如何帮助我们对个体进行定相呢？让我们回到那个基因型为 $AaBb$ 的个体。我们没有他们父母的数据，但我们有一个大型的参考面板（reference panel）——一个包含来自相似祖先群体的数千个已定相单倍型的数据库。我们查找四种可能的双位点单倍型的频率： $f(AB)$ , $f(Ab)$ , $f(aB)$ 和 $f(ab)$ 。

要判断我们的个体是 $AB/ab$ 还是 $Ab/aB$ ，我们可以问：考虑到群体中的单倍型频率，哪种情况更可能发生？

$AB/ab$ 构型的似然性与抽取一个 $AB$ 单倍型和一个 $ab$ 单倍型的概率成正比，即 $f(AB) \times f(ab)$ 。
$Ab/aB$ 构型的似然性与 $f(Ab) \times f(aB)$ 成正比。

假设在我们的参考面板中，我们发现 $f(AB) = 0.35$ ， $f(ab) = 0.35$ ， $f(Ab) = 0.15$ ， $f(aB) = 0.15$ 。 $AB/ab$ 的似然值为 $0.35 \times 0.35 = 0.1225$ 。 $Ab/aB$ 的似然值为 $0.15 \times 0.15 = 0.0225$ 。

显然， $AB/ab$ 构型更有可能。我们甚至可以计算一个置信度： $AB/ab$ 构型的概率是 $\frac{0.1225}{0.1225 + 0.0225} \approx 0.845$ 。虽然不是百分之百确定，但这已经是一个非常强的概率推断。通过利用参考面板中蕴含的“群体智慧”，我们可以对个体的“相”做出有根据的猜测。

祖先嵌合体：算法如何重建单倍型

将这种逻辑从两个变异扩展到整个基因组的数百万个变异，需要一个强大的算法框架。最成功的模型将我们的单倍型视为由参考面板中保存的古老单倍型拼接而成的嵌合体。这就是用于定相的隐马尔可夫模型（Hidden Markov Models, HMMs）背后的核心思想。

想象你自己的单倍型是一个长长的、秘密的句子。参考面板则是一个巨大的、包含已知句子的图书馆。HMM 假设你的秘密句子是通过一个“复制”过程创建的：它开始从图书馆中的一个句子复制一段，然后在某个点“跳跃”或“切换”到复制另一个句子，依此类推。这条从不同参考句子复制的路径生成了一个嵌合体，也就是你最终的单倍型。

隐藏状态： 在你染色体的任何位置，算法想要知道的“隐藏”信息是：它当前正在从哪个参考单倍型进行复制？
状态转移： 参考单倍型之间的“跳跃”对应于历史上的重组事件。在两个标记之间发生跳跃的概率取决于它们之间的遗传距离——它们相距越远，发生重组事件的可能性就越大，HMM 切换到新模板的可能性也就越大。这就是为什么精确的重组图谱对于高质量的定相至关重要。
发射概率： 算法并非在黑暗中工作。它拥有你未定相的基因型数据。这些数据“发射”出线索。如果你在某个位置的基因型是纯合的，比如说 $\text{TT}$ ，算法就知道，无论它当前为你的两条染色体复制的是哪个参考单倍型，它们在该位置都必须是 $\text{T}$ 。这限制了在数据库中可能的路径。

HMM 的任务就是找到穿过参考数据库的最可能的一对“复制路径”，这对路径组合起来能最好地解释你实际拥有的未定相基因型。这条最可能的路径就是推断出的一对单倍型。这是一个极其优雅的解决方案，将定相的难题转变为在祖先可能性的迷宫中寻找最佳路径的问题。

另一种优美而直观的方法利用了测序的物理现实。利用现代长读长测序技术，单个读长可以跨越多个杂合位点。如果一个读长在位点1包含等位基因 $A$ ，在位点2包含等位基因 $b$ ，这就是对一个 $Ab$ 片段的直接物理观察。如果我们构建一个图，其中节点是杂合变异，并且在任何两个出现在同一读长上的变异之间画一条边，那么这个图会自然地分解为两个密集的节点簇。这两个簇就是两个单倍型！定相问题就等同于经典的计算机科学问题——在图中找到一个最小割（minimum cut），即一种能切断最少（且最弱）连接的划分，而这些连接对应于测序错误。

当猜测出错时：定相错误的现实

尽管这些统计方法非常强大，但它们并非万无一失。它们做出的是有根据的猜测，而这些猜测有时会出错。最常见的错误是转换错误（switch error）。当算法正在正确追踪一个单倍型，但在某个点上混淆了，并“转换”到追踪同源染色体上的另一个单倍型时，就会发生这种错误。

这类错误有什么后果呢？想象你是一名遗传侦探，正在寻找一个已知的与疾病相关的特定“罪犯”单倍型——比如说，一个由五个罕见变异组成的特定组合。发生在这个模式中间的转换错误可能会将其打断。你的分析会报告说这个“罪犯”单倍型不存在，即便它确实存在。这是一个假阴性结果。这种错误分类，当它相对于病例/对照状态随机发生时，会产生一个有害的影响：它会削弱真实的关联信号。单倍型的真实效应被定相错误的噪音稀释了，使其更难被检测到。你发现疾病关联的统计功效也因此降低了。

这就是为什么最好的遗传分析不仅仅是将最可能的那对单倍型（一种“硬性判读”）奉为圭臬。相反，它们将定相的不确定性直接整合到统计模型中。通过使用来自 HMM 的后验概率——即算法对其猜测的置信度——我们可以执行更稳健的检验，这些检验考虑到了模糊性，并且不易被错误误导。

因此，单倍型定相是一个从模糊到推断的旅程。它始于家系遗传的简单确定性逻辑，并发展成为重建我们个人祖先嵌合体的复杂统计学和算法学探索。这个过程是现代遗传学许多领域的基础，从临床诊断到理解人类历史。它也有力地提醒我们，在我们的基因组中，就像在所有科学中一样，承认并利用不确定性，是通往发现的最可靠路径。

应用与跨学科联系

我们已经花了一些时间来理解单倍型定相的“是什么”和“如何做”——也就是重建我们从父母那里继承的两套独立生命说明书的精细艺术。你可能会留下一个完全合理的问题：那又怎样？这只是生物信息学家们的一个巧妙的计算难题，还是它会改变我们看待世界的方式？事实证明，知道哪些遗传变异在同一条染色体上共同传递并非细枝末节。它是解锁生命科学惊人广阔领域更深层次理解的关键。定相将我们扁平的、一维的遗传变异列表，转变为一幅丰富的、三维的遗传与功能图景。让我们一起走进其中一些领域，看看它是如何做到的。

从药箱到免疫系统：定相在临床实践中的应用

单倍型定相最个人化、最直接的影响或许是在医学领域。我们正在从“一刀切”的治疗方法，迈向一个根据个体基因构成量身定制治疗方案的未来。定相不仅仅是这场革命的一部分，它更是一个先决条件。

以药物基因组学（pharmacogenomics）领域为例，该领域研究我们的基因如何影响我们对药物的反应。许多药物在肝脏中被一个称为细胞色素P450的酶家族分解。这个家族中最重要的成员之一是一种名为 CYP2D6 的酶。你代谢大约四分之一处方药（从抗抑郁药到止痛药）的能力，取决于你的 $\text{CYP2D6}$ 基因的活性。这个基因以其高度变异性而闻名，已知的版本或等位基因超过100种。基因上某些单核苷酸变异（SNV）的组合会导致酶的活性过高，而另一些组合则会导致酶完全没有功能。

关键在于：是单条染色体上变异的特定组合——即单倍型——决定了酶的功能。这些单倍型非常重要，以至于它们有自己的命名系统，称为“星号等位基因”命名法（例如 $\text{CYP2D6*4}$ ， $\text{CYP2D6*10}$ ）。临床医生不能简单地统计你的“好”变异和“坏”变异的数量；他们需要知道，例如，两个“坏”变异是位于同一条染色体上（导致该基因的一个拷贝失效），还是位于不同的染色体上（可能损害两个拷贝）。定相是唯一能确切知道答案的方法。这些信息被用来计算一个“活性分数”，以预测你是慢代谢者、正常代谢者还是超快代谢者，从而让医生能够调整剂量，使其更安全、更有效。要准确确定这些星号等位基因，特别是对于像 $\text{CYP2D6}$ 这样复杂的基因——它有相似的“表亲”（假基因），并且容易发生复制或缺失——需要一个复杂的生物信息学流程，结合不同的测序技术和专门的算法来正确确定其“相”。

这一原则延伸到了我们生物身份的核心：免疫系统。人类白细胞抗原（HLA）系统，由6号染色体上主要组织相容性复合体（MHC）中的一个密集基因簇编码，是你的身体用来识别“敌我”的系统。它让你的免疫细胞能够发现入侵的病毒或癌细胞。你一条染色体上的一整套 HLA 等位基因是作为一个整体遗传的，称为扩展单倍型。这个单倍型就是你的“组织类型”，找到匹配的组织类型是成功进行器官和骨髓移植的全部基础。一个错误的“相”分配可能导致一个看似匹配的结果实际上是危险的错配，从而导致移植排斥。此外，特定的 HLA 单倍型与多种自身免疫性疾病（从1型糖尿病到类风湿性关节炎）密切相关。由于该区域极高的多态性和复杂性，重建这些单倍型是一项巨大的挑战，但它对临床实践和研究都至关重要。

有时，定相可以解开用其他方法无法破解的谜团。想一下 ABO 血型系统。标准的说法是你从父母各继承一个等位基因（A、B 或 O）。但如果一个人的红细胞上同时表现出 A 和 B 两种抗原，而他又似乎将这两种特性作为一个整体遗传给他的孩子，这该如何解释？他们可能拥有一个罕见的 $\text{cis-AB}$ 等位基因，即一个单一、不寻常的基因产生了一种同时具有 A 和 B 活性的酶。或者，他们也可能只是一个标准的 AB 型个体，一个 A 等位基因在一条染色体上，一个 B 等位基因在另一条染色体上（“反式”构型）。标准的血型检测无法区分这两种情况。但对 $\text{ABO}$ 基因进行定相可以。通过使用长读长测序，我们可以物理地观察到决定 A 型和决定 B 型的突变是否在同一个 DNA 分子上，从而最终解开这个谜题，这对输血和家系研究具有至关重要的意义。

解读疾病与遗传的蓝图

除了直接的临床决策，定相让我们能够以全新的清晰度解读人类基因组，揭示蓝图中可能导致疾病的细微错误。

单亲二体（Uniparental Disomy, UPD）是一种特殊情况，个体从单个亲本那里继承了某条染色体的两个拷贝，而不是像通常那样从父母各继承一个。如果遗传到的两条染色体是来自该亲本的两条不同的同源染色体（这种情况称为异二体），那么这个人的染色体数量正常，并拥有健康的杂合性。我们怎么可能检测到这种情况呢？答案就在于定相。通过将孩子某条染色体的两个已定相单倍型与父母的进行比较，我们可以看到这种独特的信号。如果孩子的两个单倍型都与母亲的两个单倍型完全匹配，而没有来自父亲的贡献，我们就发现了母源UPD。如果能引入祖父母的数据，这种分析会更加强大，因为他们的DNA可以让我们明确地对父母的染色体进行定相，从而消除任何模糊性。

定相对于理解我们染色体的大规模结构变化也必不可少。基因组不是静态的；大段的片段可能被删除、复制、倒位，甚至在易位（translocation）中移动到完全不同的染色体上。这类事件是许多癌症的标志。想象一下，在1号染色体和12号染色体的末端发现了断裂的证据。这是一个单一的、灾难性的事件，即两条染色体交换了臂，还是两个独立、不相关的事件恰好都发生在这些染色体的末端附近？利用已定相的长读长测序，我们就能找到答案。如果我们发现有单个DNA读长起始于1号染色体，终止于12号染色体，并且这些读长都属于同一个单倍型，那我们就找到了确凿的证据：在基因组的一个拷贝上发生了单次易位事件。重建癌细胞疯狂重排的基因组历史，正依赖于这种侦探工作。

扩展的宇宙：定相在生物学前沿的应用

定相的力量远远超出了人类基因组的范畴，延伸到所有生命系统的基本运作中。

例如，我们的DNA编码只是故事的一部分。表观遗传学（Epigenetics）是研究覆盖在DNA之上的化学标记的学科，这些标记告诉我们的细胞应该开启或关闭哪些基因。DNA甲基化就是这样一种标记。在一种称为等位基因特异性甲基化（allele-specific methylation）的现象中，从母亲那里遗传的基因拷贝可能被甲基化（从而被沉默），而从父亲那里遗传的拷贝则是活跃的。要观察到这一点，我们需要同时做两件事：测量DNA的甲基化状态，并确定我们正在观察的是哪个亲本的拷贝。定相提供了关键的连接。通过在用于测量甲基化的同一测序读长上识别杂合的SNP，我们可以将每个表观遗传标记分配给其亲本来源，从而揭示一个隐藏的调控层。

定相甚至能让我们回溯时光，用现代工具重塑经典遗传学。一个世纪前，遗传学家们通过对生物进行多代杂交，观察性状共同遗传的频率，来辛苦地绘制基因位置图。由染色体上位置相近的基因决定的性状，很少因重组而被分开。现在，我们可以以惊人的速度和精度实现同样的目标。通过对杂交后代进行测序并对其单倍型进行定相，我们可以直接计算任意两个遗传标记之间的重组事件数量。这使我们能够仅凭DNA序列就创建高分辨率的遗传图谱，而无需观察任何物理性状。

最后，定相的概念是如此基础，以至于它甚至适用于我们筛选整个生态系统的DNA时。宏基因组学（metagenomics）领域对某个环境中所有生物的混合DNA进行测序，例如人类肠道或一份土壤样本。这种遗传物质的“大杂烩”包含成百上千个物种，而每个物种又可能以多个不同菌株的形式存在。我们该如何理清这一切？分离共存细菌菌株的基因组这一挑战，其核心就是一个大规模的定相问题。通过识别不同菌株特有的SNV，并发现它们连锁在同一DNA读长上，我们就可以从混合物中通过计算重建出单个基因组。这使我们能够了解微生物世界的真实多样性，以及不同菌株如何对健康、疾病和环境做出贡献。

从医生的诊室到广阔、无形的微生物世界，单倍型定相是一个统一的概念。它提醒我们，背景决定一切。一个遗传变异不是一个孤立的行动者；它是一个团队的一部分，一个写在染色体上的故事。定相，就是将这个故事按其原文阅读的过程，让我们最终能够理解其真正含义。