首页单倍型

单倍型

玻尔百科

定义

单倍型是指位于同一染色体上且因物理距离接近而共同遗传的一组特定等位基因序列。在遗传学研究中，由于连锁不平衡现象，单倍型被广泛用于全基因组关联分析以定位致病基因。这种遗传单位在医学配型、法医家系追踪以及进化生物学中的超级基因研究中具有重要应用价值。

核心要点

单倍型是由于物理位置上的邻近而在单条染色体上一起遗传的等位基因的特定序列。
连锁不平衡的概念——即等位基因共同遗传的频率高于随机预期的现象——使单倍型成为在GWAS中定位疾病基因的有力工具。
单倍型在不同领域有关键应用，包括在医学中确定供体相容性（HLA）、在法医学中追溯父系血统（Y-STR）以及在进化生物学中识别选择性清除。
进化可以利用染色体倒位创造“超级基因”，将有益的等位基因锁定在一个不发生重组的单倍型区块中，作为一个单一的遗传单位发挥作用。

引言

在广阔的基因组图景中，单个基因通常被视为主要角色。然而，这种观点忽略了一个关键的生物组织层次：基因并非作为孤立单位遗传，而是作为染色体上的连锁区块遗传。本文深入探讨单倍型的概念——即在单条染色体上代代相传的基因变体（等位基因）的特定组合。理解单倍型至关重要，因为它填补了单基因分析留下的空白，揭示了遗传标记的共同遗传如何塑造健康、疾病和进化。接下来的章节将引导您了解这一基本概念。首先，在“原理与机制”中，我们将探讨单倍型如何形成、维持以及被重组打乱的遗传机制。然后，在“应用与学科交叉”中，我们将见证单倍型在医学、进化生物学乃至法医学领域的深远影响，展示这些遗传的DNA区块如何讲述关于我们过去、现在和未来的丰富故事。

原理与机制

要真正领会单倍型的力量，我们必须深入细胞的核心，见证染色体在遗传过程中的优雅之舞。这个故事始于一个简单的定义，但其展开揭示了现代遗传学中一些最深刻和实用的原理。

一串珍珠：定义单倍型

想象一下，你的一条染色体是一根长绳，上面的基因就像串在这根绳子上的珍珠。虽然每颗珍珠（一个基因）的位置是固定的，但珍珠本身可以有不同的颜色或形状。基因的这些不同版本被称为等位基因。单倍型就是单条染色体长绳上发现的等位基因的特定序列——即那套特定的珍珠。

让我们考虑一个经典情景。一株植物有一个控制花色的基因，其等位基因为A（红色）和a（白色）；在同一条染色体上还有一个连锁的控制叶形的基因，其等位基因为B（宽叶）和b（窄叶）。一个基因型为AaBb的植物个体有两条同源染色体：一条遗传自母亲，一条遗传自父亲。它的“相”（phase）——即等位基因在其两条染色体上的具体排列——可能是一条染色体携带A和B等位基因，而另一条携带a和b。在这种情况下，该个体拥有两种不同的单倍型：(A, B)和(a, b)。

单倍型的力量来自于它们能创造的巨大组合数量。如果我们检查一个染色体的小区域，其中只有四个DNA序列可变的位点（loci），且每个位点有两个可能的等位基因（一个双等位SNP），那么不同单倍型的总数不是 $4 \times 2 = 8$ ，而是 $2 \times 2 \times 2 \times 2 = 2^4 = 16$ 。增加更多的变异位点，可能的独特“珍珠串”数量就会爆炸式增长，为遗传多样性提供了广阔的基础。

染色体之舞：重组与遗传

那么，这些单倍型是如何代代相传的呢？在产生精子和卵细胞的减数分裂过程中，个体会从每对同源染色体中传递一条。如果细胞机制完美无瑕，我们那株(A, B) / (a, b)的植物将只产生带有亲本单倍型的配子：(A, B)和(a, b)。

但大自然比这更有创造力。在一个称为交换（crossing over）的奇妙过程中，两条同源染色体配对、缠绕，并可以交换它们的DNA片段。这种物理交换发生在一个称为交叉（chiasma）的连接点，并且发生在两条非姐妹染色单体之间——每条来自一个亲本染色体。

如果这个交换事件发生在花色基因和叶形基因之间的某个位置，一件非凡的事情就会发生。来自第一条染色体的A可以与来自第二条染色体的b出现在同一条链上，而a可以与B结合。突然间，我们的植物可以产生两种全新的重组单倍型：(A, b)和(a, B)。因此，一个AaBb的个体可以产生四种不同类型的配子：AB、ab、Ab和aB。

这种重组的频率是基因间物理距离的函数。靠得非常近的基因是“紧密连锁”的，很少被交换事件分开。而在染色体上相距很远的基因，其行为几乎就像它们位于完全不同的染色体上一样。这个简单的物理事实对人类健康和进化有着深远的影响。

刻在石头上的句子：HLA单倍型

在人类白细胞抗原（HLA）系统中，连锁基因和单倍型的概念表现得最为生动，这是我们身体的遗传身份证。这些基因位于6号染色体上的一个密集簇中，是适应性免疫系统的主控制器。由于HLA基因排列得非常紧密，它们作为一个区块——一个单一的多基因单倍型——被遗传下来。

这就是为什么找到一个相容的器官捐献者如此具有挑战性。你从母亲那里遗传一个HLA单倍型，从父亲那里遗传一个。你的细胞共显性地表达来自两者的蛋白质。一个兄弟姐妹有 $1/4$ 的机会遗传到与你完全相同的两个单倍型，使他们成为“完美匹配”。任何其他组合都代表着部分不匹配，可能会被免疫系统排斥。

然而，“紧密连锁”并不意味着“不可分割”。HLA区域内的重组虽然罕见，但确实会发生。考虑一个父亲，他的两个单倍型是{A1, B8, DR3}（来自他的母亲）和{A2, B27, DR4}（来自他的父亲）。他通常会把其中一个完整的区块传给他的孩子。但如果发现他的孩子遗传了{A1, B27, DR4}，我们就捕捉到了一个正在发生的交换事件。在父亲的减数分裂过程中，HLA-A位点和HLA-B位点之间必定发生了一次重组事件，创造了一个新的重组单倍型，这是他从父母那里遗传来的两个单倍型的嵌合体。这是对DNA物理交换的一个美丽而切实的证明。

基因组中的幽灵：连锁不平衡

当不同位点上的等位基因共同遗传的频率高于或低于随机预期的频率时，我们称它们处于连锁不平衡（LD）状态。如果等位基因A和B处于完全连锁平衡状态，那么AB单倍型的频率将简单地是等位基因A的频率乘以等位基因B的频率。但由于物理连锁，这种情况很少发生。

HLA区域的紧密连锁在人类基因组中产生了最强的一些LD。例如，在欧洲人群中，观察到单倍型A*01:01~B*08:01的频率约为 $0.080$ 。然而，如果将A*01:01等位基因的个体频率（ $0.24$ ）和B*08:01等位基因的个体频率（ $0.10$ ）相乘，你预期单倍型的频率仅为 $0.24 \times 0.10 = 0.024$ 。该单倍型的实际频率是随机预期的三倍以上，这一事实是强LD的标志。这告诉我们，这个特定的等位基因组合一直在共同传递，作为一个区块经历了许多代，抵抗着重组的洗牌效应。等位基因之间的这种“粘性”使单倍型成为遗传侦探的有力工具。

遗传侦探：单倍型在疾病研究中的应用

我们为什么如此关注连锁不平衡？因为它是我们寻找导致糖尿病、精神分裂症和心脏病等复杂疾病的遗传变异的关键。所使用的技术是全基因组关联研究（GWAS）。

想象一个真正导致疾病的单一突变。这个致病突变在人类历史的某个时刻出现在一条特定的染色体上。因此，它作为某个特定祖先单倍型的一部分而存在。经过多代繁衍，这条染色体被传递下去。重组会打乱它的部分片段，但由于LD，紧邻致病突变的一块等位基因会倾向于与它一起被遗传，就像一群忠实的朋友。

在GWAS中，我们可能会发现一个常见的、易于测量的SNP等位基因与疾病相关。但这个SNP可能不是病因。它可能只是一个“标签”——一个与真正未被观察到的致病突变处于LD状态的忠实朋友。这就是为什么研究单个SNP有时会产生误导。

通过分析单倍型，我们可以得到更清晰的图像。标记原始致病染色体片段的特定等位基因组合将显示出比任何单个“标签”SNP更强的与疾病的关联。例如，一项研究可能发现等位基因A对某疾病的优势比为 $2.34$ ，而等位基因T的优势比为 $2.19$ 。但当一起分析时，A-T单倍型的优势比可能达到 $3.00$ ，从而更精确地指向含有真正致病因素的遗传区域。强LD将遗传风险集中在特定的单倍型上，使它们更容易被发现。

解读家族故事：定相与系谱

遗传学家通过研究家族来解开这个复杂的故事。通过在家系（pedigree）中追踪标记等位基因如何从父母传递给子女，他们可以解开哪个等位基因在哪条染色体上的谜题——这个过程称为定相（phasing）。一旦父母的单倍型已知，他们就能准确地找出哪些孩子接受了重组染色体，甚至能精确定位交换可能发生的位置。这种对必然重组事件（obligate recombination event）的识别是基因定位和理解我们遗传结构的基础，这种结构不是由单个字母书写的，而是由我们称之为单倍型的有意义的句子构成的。

应用与学科交叉

我们花了一些时间来理解基因组的机制，了解到单倍型是在单条染色体上一起遗传的一系列遗传变异——像一个作为一个单词传递下来的字母串。这似乎只是简单的记录工作。但对物理学家来说，这就像发现某些粒子总是处于纠缠状态，它们的命运跨越时空被绑定在一起。这种“遗传纠缠”，即连锁，并非一个微不足道的细节；它是一个基本原则，在广阔且看似不相关的科学领域中回响。

在本章中，我们将穿越这些领域。我们将看到这个连锁遗传的简单概念如何让我们修复身体、侦破罪案、追溯波澜壮阔的进化史诗，并理解大自然如何构建其最复杂和美丽的创造物。单倍型不仅是一个遗传单位；它是一把钥匙，解锁用我们DNA语言书写的故事。

个人单倍型：医学与身份

单倍型最直接和个人化的应用或许是在医学领域。你的身体与外部世界处于持续的对话中，而这场对话的词汇就写在你的基因里。这一点在你的免疫系统这座堡垒中表现得最为明显。

在6号染色体上，有一个广阔而密集的遗传都市，称为主要组织相容性复合体（MHC）。在这里，一组基因，包括著名的人类白细胞抗原（HLA）基因，构建了位于你细胞表面的蛋白质。这些蛋白质就像你身体的国旗，不断地向游走的免疫巡逻兵展示细胞内部发生的事情的片段。如果它们展示的是你自身蛋白质的一部分，巡逻兵就会继续前进。如果它们展示的是病毒的一部分，警报就会响起。

关键点在于，这些HLA基因排列得非常紧密，以至于它们几乎总是作为一个单一、完整的区块——一个单倍型——被遗传下来。你从母亲那里得到一个HLA单倍型，从父亲那里得到一个。这就是为什么在骨髓或器官移植中，你的兄弟姐妹是首先被检测作为潜在捐献者的人。这是一个简单的孟德尔抽签：你和你的兄弟姐妹有四分之一的机会遗传到完全相同的HLA单倍型对，使你们成为完美的免疫学匹配。有二分之一的机会你们会共享一个单倍型，成为部分匹配，还有四分之一的机会你们一个也不共享。这不仅仅是一个统计上的奇事；这是生死攸关的问题，完全由一个基因区块的连锁遗传所决定。

但故事远不止于此。MHC不仅仅是一个小社区；它可以包含被称为保守扩展单倍型（CEHs）的巨大、古老的DNA区块。这些是长程单倍型，有时跨越数百万个DNA碱基，被进化所保存，并以显著的频率存在于群体中。它们连锁得如此紧密，以至于几乎作为一个单一单位行动，通常携带特定的HLA等位基因组合，以及其他参与免疫的邻近基因的等位基因，比如补体蛋白或炎症因子的基因。携带某个特定的CEH会显著增加患某些自身免疫性疾病的风险，在这些疾病中，免疫系统会错误地攻击身体自身的组织。关联信号在整个单倍型上如此广泛，以至于遗传学家要精确定位哪个特定基因或变异是真正的罪魁祸首，面临着巨大的挑战。然而，这些常见的CEH对于移植来说也可能是一种变相的祝福。如果患者携带一个常见的CEH，那么在同一群体中找到一个也携带该精确扩展单倍型的非亲缘捐献者的概率就会高得多，这是其在群体中频率的直接结果。

你的个人单倍型的影响超出了免疫范畴。考虑一下新兴的药物遗传学领域——研究你的基因如何影响你对药物反应的科学。许多药物在肝脏中被一个称为细胞色素P450的酶家族分解。其中最重要的一种是CYP2D6，它代谢从抗抑郁药到止痛药的各种物质。[CYP2D6](/sciencepedia/feynman/keyword/cyp2d6)基因以其高度变异性而闻名，这些变异不是以单个突变的形式，而是以单倍型的形式被编目，并被赋予“星号等位基因”（star allele）的称号（如[CYP2D6](/sciencepedia/feynman/keyword/cyp2d6)*4或[CYP2D6](/sciencepedia/feynman/keyword/cyp2d6)*10）。每个星号等位基因代表一个具有已知功能后果的特定单倍型——导致正常功能、功能减退甚至无功能的酶。一些单倍型甚至涉及整个基因的重复，导致超快代谢。通过识别患者的两个单倍型（他们的双倍体型），临床医生可以计算一个“活性分数”，并预测他们对某种药物将是慢代谢者、正常代谢者还是超快代谢者，从而可以调整剂量以防止危险的副作用或治疗失败。你独特的单倍型对决定了你个人的药物处理特征。

最后，单倍型在法医学中作为一种强大的身份标识形式。Y染色体由父亲传给儿子，其大部分——即非重组区——在减数分裂期间不与X染色体交换部分。因此，Y染色体上的标记集合（如短串联重复序列，或STRs）作为一个单一、不可改变的Y-STR单倍型被遗传。这个单倍型就像一个遗传的“姓氏”，由所有来自同一父系血统的男性共享。在刑事调查中，犯罪现场发现的Y-STR单倍型无法确定单个个体，但可以包含或排除整个父系家族——嫌疑人、他的兄弟、他的父亲、他的父系堂兄弟等等。这种完全连锁意味着统计方法是不同的；必须使用整个单倍型在人群数据库中的频率，而不是将单个标记的频率相乘。这是连锁在其最极端形式下的一个美丽而鲜明的例证。

历史单倍型：解读进化史诗

如果单倍型能讲述一个家族的故事，它们能讲述我们整个物种的故事吗？答案是肯定的。对群体遗传学家来说，基因组是一份历史文献，而单倍型是它的段落。进化的力量——突变、选择和漂变——在不断地书写、编辑和擦除这些段落。

让我们从一个简单的思想实验开始。想象一个有害突变——一个损害有机体的遗传错误——出现在某条染色体上。这条染色体有一个特定的中性变异单倍型背景。由于重组并非在每一代都保证发生，这个坏突变和它的中性邻居是连锁的。当自然选择作用于从群体中清除有害突变时，它不仅仅是移除了那个坏字母；它常常扔掉写有这个字母的整页纸。所有碰巧与这个坏突变连锁的完全正常的中性变异也随之被消除。这个过程被称为背景选择，就像对遗传多样性之树进行持续、安静的修剪，塑造了我们在每个物种中看到的变异模式。

但选择不仅破坏；它也创造。当一个新的、非常有益的突变出现时，就像挖到了金矿。携带它的个体及其后代繁荣昌盛。这个奇妙新等位基因的频率在群体中飙升。在此过程中，它拖着整个单倍型邻域一起前进。这被称为遗传搭便车。如果这个过程足够快，重组就没有多少时间来打破这个幸运的单倍型。结果就是一次选择性清除，其中有益位点周围的基因组显示出显著的特征：一个非常长、非常普遍的单倍型，以及一个遗传多样性急剧减少的深谷。当适应性来自一个单一的新突变时，这被称为“硬清除”（hard sweep）。

然而，有时有益的等位基因已经以低水平存在于群体中，位于几个不同的单倍型背景之上。当环境变化，这个等位基因突然变得有利时，所有这些不同的单倍型频率会一起增加。这是一次“软清除”（soft sweep）。通过检查携带某个有益等位基因的不同单倍型的数量，我们可以区分这些情景。是一个英雄的血统占据了主导（硬清除），还是一个不同家族的联盟崛起（软清除）？单倍型模式讲述了这个故事。

这引出了现代人类遗传学中最激动人心的故事之一：适应性基因渗入。我们的祖先不仅仅是取代了像尼安德特人（Neanderthals）这样的其他古人类；他们与他们杂交。当这种情况发生时，尼安德特人基因组的小片段——尼安德特单倍型——进入了人类基因库。大多数可能是中性或轻微有害的，并最终消失了。但有些携带的等位基因对进入新环境的现代人类有益。这些有益的等位基因随后经历了选择性清除。我们如何找到这些古老的礼物？我们寻找一个独特的特征：一个单倍型（1）非常长且频率高，是近期选择性清除的经典标志，但同时（2）高度分化，携带一簇与其他人类单倍型看起来非常不同的遗传变异。这种组合是一个确凿的证据，表明来自一个分化群体的古老DNA片段因为非常有用，乘着正选择的浪潮在今天变得普遍。单倍型是我们窥探这些深刻的、数百万年之久的关于迁徙、适应和物种间爱恋故事的窗口。

建筑单倍型：大自然如何用区块构建

到目前为止，我们已经将单倍型视为其他过程的结果。但如果进化可以主动使用单倍型作为一种设计策略呢？如果大自然可以决定将基因捆绑在一起以构建新的东西呢？这就是超级基因的概念。

超级基因是一簇协同作用以控制复杂性状的独立基因，但它们连锁得如此紧密，以至于作为一个单一、不可分割的单位被遗传。创造超级基因的经典方法是染色体倒位——染色体的一个片段上下颠倒。携带倒位杂合子的个体在该区域无法产生可存活的重组配子，因为翻转的片段无法与标准排列的染色体正常配对。重组被有效地抑制了。

想象一组基因A和B，它们在一起时有益，但分开则无益。例如，A赋予对杀虫剂某一部分的抗性，而B赋予对另一部分的抗性；只有AB组合才能提供完全的保护。如果这些基因可以重组，选择将很难保持这个成功的AB组合，因为它会不断被分解成无用的Ab和aB单倍型。但如果出现一个染色体倒位，同时捕获了A和B，它就创造了一个I(AB)超级单倍型。这个倒位就像一个遗传盾牌，防止这个成功的组合被重组拆散。因此，这个倒位单倍型的频率会比标准的、可重组的AB单倍型增加得快得多，因为它将它的“中奖彩票”完整地传给了下一代。

我们在自然界中看到了这种优雅的建筑原理在起作用。一个美丽的例子来自报春花（Primula），它表现出一种称为二型花柱（distyly）的多态性。植物有两种形态：“长花柱型”（pin，长花柱，短雄蕊）和“短花柱型”（thrum，短花柱，长雄蕊）。这种安排促进了两种形态之间的异花授粉。整套短花柱型性状——花的形态以及与其他短花柱型花粉的生化不亲和性——由一个称为S-位点的单一遗传区域控制。详细的遗传研究表明，这个S-位点不是一个基因，而是一个由至少五个功能上特化的不同基因组成的簇，它们全部被锁定在一个不重组的区块中，形成一个超级基因。整个区块作为一个单一的显性等位基因遗传，并通过平衡选择在群体中维持，导致长花柱型和短花柱型植物的比例接近完美的 $1:1$ 。进化将不同的基因捆绑成一个单一的功能性单倍型，创造了一个稳定、复杂的生物系统。