
人类基因组是一个充满悖论的地方。虽然个体间可能的基因组合数量是天文数字,但我们在自然界中观察到的理论模式仅占一小部分。这种有限的多样性并非随机,而是被组织成称为单倍型区块的离散连锁变异片段。本文旨在探讨一个根本问题:为何我们的基因组会以这种方式构建,以及我们如何利用这种结构进行科学发现。通过探索遗传和种群历史的原理,我们将揭示这些区块的起源及其作为强大工具的用途。接下来的章节将首先解释单倍型区块形成的“原理与机制”,然后探讨其“应用与跨学科联系”,从定位人类疾病到解读进化历史,甚至在神经科学等遥远领域寻找类似的模式。
想象你有一串一千个灯泡,每个灯泡可以是红色或蓝色。可能的模式总数是一个天文数字——1后面跟着300个零!现在,假设你走遍世界,观察现存的每一串灯。你期望看到令人眼花缭乱、近乎无限多样的模式。但实际上,你只发现了几十种独特的模式,并且这些模式在反复出现。你会感到困惑,心想:“这肯定有原因!必然存在某种潜在的规则或历史过程限制了可能性。”
这正是我们在人类基因组中遇到的情况。我们拥有的不是灯泡,而是单核苷酸多态性(SNPs)——即我们DNA上因人而异的位置。对于一个包含8个常见SNP的片段,每个SNP有两种可能的等位基因(“红色”或“蓝色”版本),理论上存在种不同的组合,即单倍型。然而,当我们调查一个群体时,我们常常只发现其中少数几种——也许只有14种左右——的单倍型实际存在。绝大多数理论上的组合都神秘地缺失了。这是为什么呢?
答案,如同生物学中许多情况一样,在于历史。
把一条染色体想象成一本非常古老的书,通过无数代人从父母传给子女。等位基因的序列就是书页上的文字。在精子和卵细胞形成过程中——一个称为减数分裂的过程——这本书被复制时,并非总是从头到尾完美地拷贝。相反,我们从父母那里继承的两本书(一本来自母亲,一本来自父亲)可以并排躺着,并交换整个章节。这就是减数重组。
如果两个等位基因(我们书中的两个词)在书页上相距很远,几乎可以肯定,这些随机交换中的某一次会发生在它们之间。它们将被独立遗传,仿佛它们在完全不同的书中。但如果两个等位基因非常靠近,它们被分开的可能性就小得多。它们在物理上是连锁的,倾向于作为一个单一单元被一同传递下去,就像一个在世代传承中保持完整的短语。这种共同遗传的倾向称为连锁。
这个过程自然地将基因组划分成一个个“邻里”。在一个邻里内部,等位基因是“好邻居”——它们紧密相连,命运与共。然而,在这些邻里之间,存在着重组频繁发生的“断层线”。这些由紧密连锁的等位基因组成的邻里就是我们所说的单倍型区块。它们由等位基因之间强烈的统计关联性定义,这一特性被称为连锁不平衡(LD)。你可以将LD看作是衡量等位基因配对非随机性程度的指标。在一个区块内,LD很高;如果你知道一个SNP的等位基因,你就有很大机会猜出同一区块内附近另一个SNP的等位基因。
定义这些区块边界的断层线并非随机。它们是基因组中特定的、狭窄的区域,重组机制在这里异常活跃。我们称之为重组热点。单倍型区块边界的一个典型标志是LD的急剧下降,并且这一下降与一个已知的重组热点完美吻合。例如,我们可能发现SNP 彼此之间都处于高度LD,而SNP 彼此之间也处于高度LD,但第一组中的任何SNP与第二组中的任何SNP都只有非常低的LD。这种模式立刻告诉我们,在和之间很可能存在一个重组热点,它在进化过程中一直在积极地将这两个群体分开,从而有效地创造了两个不同的区块:() 和 ()。重要的是,不要将单倍型区块与连锁群混淆,后者是一个大得多的实体,基本上指的是整条染色体上所有在某种程度上相互连锁的基因。
我们可以让这个画面更精确一些。想象染色体是一条长街。重组事件就像人们过马路。如果人们随处乱穿马路,邻里之间的界限就会变得模糊。但实际情况并非如此。细胞在特定位置设置了指定的“人行横道”——即重组热点。
我们可以用两个关键参数来对此建模:热点的密度()和它们的强度()。
热点密度():这是每个区块有多少条人行横道。如果密度高,人行横道彼此靠近,“邻里”(单倍型区块)之间的距离就会很短。如果密度低,区块就会很长。区块的平均长度大约是。
热点强度():这是每条人行横道的受欢迎程度。强度意味着一个热点极其活跃,几乎所有的“穿越”(重组)都发生在那里。这会在区块之间形成一个非常清晰、突然的边界,一个像悬崖一样陡峭的LD下降。如果强度低,有些人仍然会乱穿马路,边界就会更像一个平缓的斜坡。
因此,我们基因组中美丽的区块状模式是重组物理结构的直接结果——一个由漫长而安静的道路和繁忙的十字路口点缀而成的景观。
这个模型很优雅,但我们如何在浩如烟海的遗传数据中实际找到这些区块呢?我们寻找过去重组事件留下的不可磨灭的伤痕。
最基本的工具是四配子检验。它基于一个极其简单的逻辑。考虑两个SNP位点,每个位点都有两种可能的等位基因,我们称之为0(祖先型)和1(衍生型)。这产生了四种可能的双字母单倍型:(0,0)、(0,1)、(1,0)和(1,1)。
现在,想象一个没有重组的简单历史。你从一个(0,0)单倍型开始。在第二个位点发生突变,产生了一个(0,1)单倍型。然后,在其中一个(0,1)分支上,第一个位点又发生了一次突变,产生了(1,1)单倍型。在这个历史中,你只产生了四种可能配子中的三种:(0,0)、(0,1)和(1,1)。(1,0)单倍型是不可能产生的,除非发生回复突变(这极为罕见)或重组。
因此,在一个群体中出现所有四种配子——(0,0)、(0,1)、(1,0)和(1,1)——就是重组发生的铁证。这明确证明了在历史上的某个时刻,在这两个位点之间发生了一次剪切和粘贴事件,将一个祖先染色体上的'1'与另一个染色体上的'0'组合在了一起。
我们可以系统地应用这个检验。为了找到区块,我们寻找一个可能的最长连续SNP片段,其中片段内的每一对位点都通过了检验(即观察到的配子最多只有三种)。一旦我们找到一对未通过检验的位点,我们就知道我们已经越过了一个重组断点,一个新的区块必须开始。这个简单的组合规则是将区块结构描绘到基因组上的一个强大方法。
四配子检验关注的是单倍型的存在与否。但它们的频率又如何呢?这里,事情变得更加微妙。我们有两个主要的统计工具来衡量LD,即Lewontin的和相关系数平方。它们讲述的故事略有不同。
是一个对重组非常敏感的度量。如果一对SNP的四种配子中有一种缺失,那么根据定义,。因为在一个区块内重组是罕见的,所以四种可能的单倍型中有一种仅仅因为尚未被创造出来而缺失是很常见的。这意味着对于整个区块中的许多SNP对,我们可能观察到。这创造了一个将区块维系在一起的高值的“坚实主干”。
另一方面,衡量的是如果你知道一个位点的等位基因,你能多大程度上预测另一个位点的等位基因。这不仅取决于重组,还取决于等位基因频率。想象一下,一对SNP中,一个的等位基因很稀有(比如群体中只有1%的人拥有),而另一个的等位基因非常常见(40%)。即使它们从未被重组分开(),它们之间的也会很低。知道某人拥有常见的等位基因,几乎不能告诉你他们是否拥有那个稀有的。因此,我们常常看到一个区域具有持续的高值(一个好的区块),但其值却到处波动。
这些不同的度量以及其他度量可以组合成各种定义区块的算法。有些方法非常严格,比如四配子检验。其他方法则寻找一个区域内有一定百分比的SNP对,根据的置信区间显示出“强LD”。实际上,根据你选择的具体规则和阈值,你可以在完全相同的数据上画出略有不同的区块边界!这提醒我们,“单倍型区块”既是一种真实的生物现象,也是我们施加于数据之上的一种统计构建。
到目前为止,我们把区块描绘成染色体上的静态特征。但要真正理解它们,我们必须透过时间的镜头,将它们视为祖先的动态记录。
人们很容易将区块想象成基因组的物理功能单元,就像墙上的砖块。这是一个常见且重要的误解。单倍型区块是一个群体中的统计模式,反映了其在生殖系中的重组历史。它们与拓扑关联域(TADs)等事物有根本的不同,后者是物理的、结构性的域,描述了DNA在单个体细胞核内的折叠方式。TAD的边界由结构蛋白决定,在不同细胞类型中是稳定的。而单倍型区块的边界由重组热点决定,是一个群体基因库的属性。它们是回答不同问题的不同概念。
群体本身的特征——其人口统计历史——深刻地塑造了区块结构。关键参数是有效群体大小(),它反映了一个群体中繁殖个体的数量。在一个非常大的群体中,有更多的世代,因此有更多的机会让重组打破LD。这导致了更小、更零碎的单倍型区块。相反,如果一个群体经历瓶颈效应(规模急剧减少),遗传漂变的力量会变得更强。偶然情况下,只有少数单倍型存活下来,并以大块的形式传递给后代,从而产生更长、更清晰的区块。一个更大的群体()就像一个强大的编辑器,随着时间的推移,将历史书切割成越来越细的碎片。
理解这一切最深刻的方式是通过一个叫做祖先重组图(ARG)的概念。想象一下,将你样本中每个人的单一段DNA的祖先追溯回去。你会构建一个家谱,或称谱系。现在,对下一段DNA做同样的事情。如果在你的样本历史中,这两个位点之间没有发生过重组,它们的家谱将是完全相同的。但一旦你越过一个历史上的重组断点,这个谱系树就变了!
从这个角度看,一条染色体是一幅美丽的局部谱系构成的镶嵌图。镶嵌图中的每一块“瓷砖”都是一段连续的DNA,对于你样本中的每个人来说,它们共享完全相同的祖先树。一个单倍型区块就是其中一块瓷砖的可见表现。区块内的高LD之所以存在,是因为该片段中的所有变异都是在那棵唯一的、共享的树的枝干上作为突变产生的。区块的终点即是谱系改变、一块新的祖先瓷砖开始的地方。
与任何科学测量一样,我们对单倍型区块的看法并非完美。我们从个体收集的原始数据是其未定相的基因型——我们知道他们在某个位置有一个A和一个T,但我们不知道A是在他们从母亲那里得到的染色体上,T是在从父亲那里得到的染色体上,还是反之。我们使用统计算法来对数据进行定相,将等位基因分配到两条亲本染色体上。
这些算法可能会出错,称为转换错误。转换错误是指算法从某个点开始错误地翻转了母源和父源的分配。这种错误看起来就像一个实际上并未发生的重组事件,造成了人为的LD分解。这可能导致我们看到的区块比它们真实的要短、更零碎。这就像我们试图阅读的文字上有一块污迹,打断了文本。幸运的是,通过使用来自家庭(父母和子女三人组)的数据,我们可以直接观察孟德尔遗传,从而检测并纠正许多这类错误,有效地擦亮我们的眼镜,揭示出更清晰的真实区块结构。
现在我们已经拆解了基因组的钟表机构,看到了单倍型区块是如何形成的,你可能会认为它们不过是我们遥远祖先历史中的一些奇特现象。但这就像看着一堆形状完美的齿轮和杠杆,却没能看出它们可以组装成手表、汽车引擎或望远镜。这些遗传历史的区块,这些我们祖先染色体的凝固片段,不仅仅是历史遗物;它们是极其强大的工具。它们是现代遗传学大部分内容的书写语言,是我们解读进化历史的透镜,而且最令人惊讶的是,它们是一个如此强大的抽象概念,以至于在那些乍看之下与DNA毫无关联的领域中都能找到其回响。
想象一下,你的任务是为一座广阔、蔓延的城市绘制一幅详细地图。你会记录每一栋建筑的每一块砖吗?当然不会。你会识别出街区、主干道和关键地标。其余的则可以推断出来。我们的基因组,拥有三十亿个碱基对,是一座规模宏大的城市,而单倍型区块就是它的街区。这个简单的类比是现代人类遗传学的基石。
当科学家进行全基因组关联研究(GWAS)以寻找与糖尿病或心脏病等疾病相关的遗传变异时,他们面临着一个巨大的挑战。人类群体中存在数百万种常见变异。为成千上万的人对每一个变异进行基因分型,其成本和时间都是令人望而却步的。但单倍型区块提供了一条绝妙的捷径。由于一个区块内的所有变异都是作为一个整体被共同遗传的,它们高度相关。我们不需要对所有变异进行分型。我们只需要对一些代表性的标记进行分型,这些标记被称为标签SNP。通过读取一个标签SNP的状态,我们就可以可靠地预测其区块内大多数其他变异的状态,就像知道你身处时代广场就能了解周围的街道一样。
目标是选择最少数量的标签SNP来“捕获”最大量的遗传信息,通常基于一个连锁不平衡阈值,如。这些基因分型“芯片”的设计是基因组工程的杰作,但其指导原则很简单:你需要的标签密度取决于局部的区块结构。在因频繁重组而破碎成许多短区块的基因组区域,你需要更高密度的标签。而在拥有广阔、完整区块的区域,几个标签就可以覆盖巨大的领地。这种源于对单倍型结构理解的策略,使得大规模人类遗传学研究成为可能。
一项GWAS可能会告诉我们,某个城市街区——一个单倍型区块——与某种疾病密切相关。但这仅仅是开始。该区块可能包含数十个变异,而其中可能只有一个是真正的生物学元凶。其余的只是恰好住在同一街区的无辜旁观者。从一个关联区块到确定具体的致病变异的过程被称为精细定位,这是当今遗传学面临的核心挑战之一。
在这里,从单倍型的角度思考同样至关重要。有时,真正的致病变异甚至不在我们使用的基因分型芯片上。在这种情况下,可能没有一个单一的标签SNP自身能显示出非常强的关联性。然而,一个特定的标签SNP组合——一个单倍型——可以作为未测量的致病变异的更好代理。因此,基于单倍型的统计检验可能比任何基于单个SNP的检验具有更强的检测关联的能力,尽管它因为更复杂而带来一些统计成本。
为了真正在单倍型区块的草堆中找到那根致病的针,我们可以使用一种更复杂的方法:贝叶斯精细定位。我们可以将区块视为我们的“搜索空间”,并假设其中隐藏着一个致病变异。然后,我们将来自GWAS的统计证据与其他信息来源相结合。例如,如果我们从其他实验中得知,一些变异位于基因组的“功能性”部分(如开启或关闭基因的增强子),而另一些则位于“沙漠”地带,我们可以将这些信息用作先验信念。我们可以推断,位于增强子中的变异比位于沙漠中的变异更有可能是致病的。通过在贝叶斯框架中正式结合GWAS信号和这些功能注释,我们可以为区块中的每个变异计算一个后验纳入概率(PIP),告诉我们它成为致病变异的概率。这种强大的方法使我们能够构建一个包含少数几个顶级候选变异的“可信集”,以供进一步的实验验证,这是利用单倍型区块来构建我们寻找疾病基因框架的直接应用。
最后,单倍型使我们能够看到单SNP检验无法察觉的遗传效应类型。想象一个开关,只有当两个特定的按钮被同时按下时才能工作。这就是顺式上位性的概念,即一个变异的效应取决于同一条染色体上另一个变异的等位基因。单倍型,就其本质而言,捕获了这种相位信息,并能揭示这种相互作用的效应。这在研究混合群体时也至关重要,这些群体的基因组是来自不同祖先背景的单倍型镶嵌体。理解单倍型结构是正确解释关联信号和避免在这些群体中出现虚假结果的关键。
如果说人类遗传学是利用单倍型区块来绘制现在,那么进化生物学就是利用它们来解读过去。这些区块就像地质地层或树的年轮;它们的大小、形状和在基因组中的分布,讲述了我们物种穿越时间的丰富故事。
单倍型区块能讲述的最戏剧性的故事之一是选择性清除。想象一下,一个新突变出现了,它非常有益——也许它能赋予对致命疾病的抵抗力,或者使人们能够消化一种新的食物来源。携带这个等位基因的个体会留下更多后代,经过几代之后,这个等位基因将在群体中“席卷”,频率迅速上升。在这一过程中,它会把其整个祖先单倍型区块一同带上,这种现象被称为遗传搭便车。由于清除是近期且迅速的,重组没有时间将区块分解开。结果是在基因组中留下了一个引人注目的印记:一个异常长的单倍型区块,遗传多样性极低,并被群体中的大部分成员共享。
这方面的典型例子是乳糖酶基因。在历史上从事奶牛养殖的群体中,一个允许成年人消化牛奶的突变赋予了巨大的生存优势。今天,在这些群体中,我们看到基因周围有一个巨大的单倍型区块,这是这一强大选择性清除的清晰足迹。在没有奶牛养殖历史的群体中,没有发生这样的清除,周围的区域被分解成许多更小、更多样化的区块,就像基因组中任何其他中性部分一样。
通过扫描基因组寻找这些标志性的长区块,我们可以识别出数百个在人类近代史上受到正向选择的基因,揭示了对饮食、气候和病原体的适应。但我们必须小心。选择性清除是一个局部事件,在基因组的一个部分创造了一个长区块。另一个历史事件,种群瓶颈,也能减少遗传多样性。瓶颈——即一个群体数量锐减然后恢复——影响的是整个基因组。我们如何区分这两者呢?通过观察区块长度的统计数据。瓶颈效应会倾向于缩小整个基因组的所有区块,但它不太可能创造一个单一的、异常长的区块。如果我们发现一个区块的长度与基因组其他部分相比是一个巨大的异常值,那么它更有可能是选择性清除的标志,而不是全基因组瓶颈的结果。
单倍型区块的图谱对所有人类来说并非完全相同。如果我们比较一个西非裔人和一个欧洲裔人的基因组,我们会发现他们单倍型区块的平均长度和分布存在显著差异。这些差异讲述了深层的人口历史故事。例如,“走出非洲”的迁徙涉及了一次瓶颈效应,这增加了连锁不平衡的程度,并导致非非洲人群中平均单倍型区块更长。
但人口统计学只是故事的一部分。单倍型区块的边界是重组热点。这些热点的位置并非固定不变;它们由一个名为[PRDM9](/sciencepedia/feynman/keyword/prdm9)的基因控制。[PRDM9](/sciencepedia/feynman/keyword/prdm9)的不同版本(等位基因)识别不同的DNA基序,从而在不同位置创建热点。由于不同大陆人群中[PRDM9](/sciencepedia/feynman/keyword/prdm9)等位基因的频率不同,重组的景观本身也不同。因此,不同人群之间单倍型图谱的差异是两个过程的美妙结合:深层的人口统计历史塑造了LD的总体水平,而[PRDM9](/sciencepedia/feynman/keyword/prdm9)基因的分子进化则重新绘制了区块形成的边界。
在某些情况下,重组可以在染色体的大片区域内几乎完全被抑制。染色体倒位是一种突变,其中染色体的一个大片段被首尾翻转。在一个倒位纯合子个体中,配对和重组可以正常进行。但在一个杂合子——即拥有一条标准染色体和一条倒位染色体的个体——中,减数分裂是一个混乱的过程。倒位区域内的交换会产生不可存活的配子。结果是,整个倒位片段内的有效重组被抑制。这个区域变成了一个“超基因”,一个巨大的、跨越数百万碱基的单倍型区块,其中所有的等位基因被锁定在一起,作为一个单一单元遗传。这些超基因是强大的进化工具,允许共同适应的基因组得以保持在一起,而它们在基因组中鲜明的标志就是一个单一、巨大的单倍型区块,其边界就是倒位断点本身。
到目前为止,我们一直将单倍型视为DNA的一个特征。但其 underlying 概念更为普遍和优美。一个单倍型区块,其核心是一组特征,它们之所以被共同遗传或共同出现,是因为某种机制阻止了它们被拆散。这个抽象的思想——连锁遗传的逻辑——是如此强大,以至于我们可以在完全不同的科学领域中发现它的作用。
考虑一个蛋白质,它是一条长长的氨基酸链,折叠成复杂的三维形状。为了使蛋白质发挥功能,链上不同位置的某些氨基酸必须协同工作,也许是形成一个结合口袋或一个结构支架。随着蛋白质在不同物种间进化,这些位置不能独立改变。一个位置的突变可能需要另一个位置的突变来补偿,以维持蛋白质的功能。这些位点是共进化的。
我们可以将这组共进化的氨基酸位置视为一个“功能单倍型”。如果我们对来自许多不同物种的该蛋白质进行多序列比对,我们可以将每个位置视为一个位点,将氨基酸类型视为一个等位基因。然后,我们可以应用与遗传学中完全相同的数学工具——比如计算——来衡量氨基酸位点之间的“连锁不平衡”。在发现强统计耦合的地方,我们找到了跨越巨大进化时间尺度被保存下来的共进化残基区块。这些“蛋白质单倍型区块”揭示了蛋白质机器的功能模块和结构约束,展示了从种群遗传学到分子进化的惊人概念迁移。
让我们再进行一次更大胆的跨越。思考一下大脑。当你执行一项认知任务,比如识别人脸时,你大脑的不同区域会变得活跃。我们可以使用功能性磁共振成像(fMRI)来观察这一点,它会产生大脑中活跃“体素”(三维像素)的模式。每次你识别人脸时,一个相似但不完全相同的体素模式会亮起。
我们可以做一个类比。让每个体素成为一个“位点”,其状态(活跃或不活跃)成为一个“等位基因”。那么,每次任务试验就是大脑中的一个“单倍型”。是否存在“神经回路单倍型”——即一组在功能上如此紧密相连以至于总是同时激活的体素?我们能找到构成思想的区块吗?我们可以使用四配子检验——一种经典的用于检测重组的种群遗传学工具——来找出答案。如果在所有试验中,我们看到两个体素之间所有四种可能的激活和不激活模式(活跃-活跃,活跃-不活跃,不活跃-活跃,不活跃-不活跃),这表明它们是可分离处理流的一部分。如果我们只看到三种或更少的模式,这表明它们被锁定在一个不可分割的计算单元中。通过应用这一逻辑,我们可以将大脑的活动划分为“神经单倍型区块”——即可能代表认知构建块的基本、共同激活的回路。
从设计基因分型芯片的实际操作,到破解人类进化的宏大叙事,再到在蛋白质中寻找功能模块,甚至在大脑中发现计算回路,单倍型区块证明了它是一个具有惊人多功能性的概念。它提醒我们,有时,科学中最深刻的见解来自于识别一个简单的模式——在这里,是那些紧密相连的事物留下的遗产——并追随其回响进入最意想不到的地方。