
几十年来,读取遗传密码就像重新拼凑一本被碎纸机处理过的书。传统的“短读长”测序方法会产生数百万个微小片段,这构成了一个令人沮g丧的难题,尤其是在处理复杂基因组中常见的重复序列时。此外,依赖大规模扩增来产生可读信号会引入显著的偏好,扭曲了样本的生物学现实。长读长测序代表了我们解读生命之书能力的范式转变,它提供了能够一次性连续读取整个章节的工具。
本文深入探讨了长读长测序这一变革性世界,旨在解决先前技术的根本局限性。通过在不进行扩增的情况下分析单个分子,这些方法为我们的遗传和表观遗传图景提供了更清晰、更完整、无偏好的视图。我们将探索实现这一目标的巧妙解决方案,以及它们在科学和医学领域产生的深远影响。
首先,在原理与机制部分,我们将揭示两种主流长读长策略——SMRT测序和纳米孔测序——背后优美的物理学和生物化学原理。然后,在应用与跨学科联系部分,我们将考察这些技术如何被用于组装完整基因组、理解基因表达、诊断疾病,以及在从微生物学到免疫学等领域掀起革命的开创性方式。
要真正领会长读长测序带来的革命,我们必须超越对更长读长的简单渴望,深入探究使其成为可能的物理原理的核心。这是一个关于两种截然不同策略的故事,它们源于同一个根本性的雄心:以自然书写的方式读取单个DNA分子,而不受扩增这一扭曲性滤镜的影响。
多年来,DNA测序的主导范式——即所谓的“短读长”或“下一代”测序——依赖于一个巧妙但最终有所妥协的技巧:大规模扩增。为了获得足够强的信号供测序仪识别,单个DNA片段通过聚合酶链式反应(PCR)被一遍又一遍地复制,形成一个由数百万个相同“双胞胎”组成的密集簇。然后,测序仪会从这一齐声歌唱的分子合唱团中读取序列。
但这种扩增并非完美过程。这有点像试图将一份文件复印数千次;细微的偏好会悄然出现,并在每个循环中被放大。一些DNA序列,特别是富含鸟嘌呤(G)和胞嘧啶(C)的序列,比其他序列“更难”复制。想象一下基因组中的A和B两个区域,它们在你的细胞中以1:1的比例存在。区域A可能很容易复制,每个循环的效率为(接近完美的倍增),而顽固的、富含GC的区域B的效率仅为。仅仅经过20轮PCR,你样本中A与B的比例就不再是1:1。它已经被扭曲为,这是一个超过30倍的惊人系数! 区域A的表达量现在被高估了30多倍。这不是一个小错误;这是对生物学现实的深刻扭曲,使得准确计算基因拷贝数或检测某些变异变得极其困难。
长读长测序技术源于对这种理念的彻底背离。其目标是开发出足够灵敏的仪器,能够听到单个分子的低语,从而消除PCR扩增那喧闹合唱的必要。通过测序天然、未经修饰的DNA链,这些方法有望提供更真实、无偏好的基因组图景。 这一追求催生了两种卓越但截然不同的物理解决方案。
想象一下,你被赋予一项任务:阅读一本用四种字母(A、T、C、G)写成的书。两种主流的长读长策略以根本不同的方式处理这个问题。
第一种策略,称为单分子实时(SMRT)测序,就像雇佣了世界上最勤奋的抄写员——一个DNA聚合酶——并实时观察它抄写这本书。我们使用一台极其灵敏的相机,在抄写员每次添加一个字母时检测到微小的光闪。这是一场光的交响乐,其节奏与生物化学的韵律同步。
第二种策略,纳米孔测序,是分子工程的一项壮举。它就像将整条DNA链,逐个字母地,穿过一个无限小的孔——一个“纳米孔”。当每组字母通过时,它会以一种独特的方式扰乱电流。我们不是在观察抄写员;我们是在感受字母滑过传感器时的形状。这是一个通过离子电流的涟漪讲述的故事。
让我们来探索赋予这两种策略生命的优美物理学和工程学。
SMRT测序的核心是一个DNA聚合酶,它被固定在一个微小孔的底部。挑战是巨大的:当一个带荧光标记的核苷酸浸泡在数百万个其他相同的荧光分子海洋中时,你如何看到它发出的微弱光闪?这就像试图在一体育场满是萤火虫的情况下,发现一只萤火虫的闪烁。
解决方案是一种称为零模波导(ZMW)的光学物理奇迹。ZMW是在一层薄金属膜上的一个微小孔洞,直径仅几十纳米。当光照射到这层膜上时,它无法穿过这个纳米尺度的孔洞。取而代之的是,它会产生一个微小且迅速衰减的电磁场——即倏逝波——它只照亮孔的最底部。这个观测体积极其微小,约为仄升()。相比之下,标准的共聚焦显微镜的观测体积要大数千倍,约为飞升()。即使在聚合酶高效工作所需的高浓度核苷酸条件下,这个由ZMW照亮的微小体积也确保了平均而言,只有那个正被聚合酶主动持有的核苷酸被看到。其他分子飘过时产生的短暂信号只是背景噪音。ZMW是我们这位独奏者的完美微型舞台。
第二个天才之举在于“墨水”——即核苷酸本身的设计。四种碱基(A、T、C、G)中的每一种都标有不同颜色的荧光染料。至关重要的是,染料附着在核苷酸的磷酸盐尾部,这正是DNA合成过程中被聚合酶自然切除并丢弃的部分。这被称为磷酸键合核苷酸。当聚合酶整合一个碱基时,带有染料标记的磷酸盐被切断,释放出一个短暂的彩色光脉冲,被检测器看到。然后染料扩散开去,新合成的DNA链则保持完全天然和未修饰的状态。这是一个极其优雅的机制:信号本身就是反应的副产品。
读长的长度取决于酶的耐力,即持续合成能力(processivity)。聚合酶以一定的速度沿着DNA模板移动,直到它随机解离。这是一个无记忆过程,具有恒定的风险率。这个简单的动力学模型意味着酶工作的总时间,从而也决定了读长的长度,遵循一个指数分布。平均读长,作为持续合成能力的衡量标准,就是简单的。 这就解释了在SMRT测序运行中观察到的读长分布特征。即便是这个系统也并非完美;非常稳定的富含GC的序列可以形成复杂的二级结构,像减速带一样,减慢聚合酶的速度,甚至导致其脱落,从而引入一种微妙的、非PCR形式的GC偏好。
纳米孔测序基于一个完全不同的原理。它使用一个蛋白质孔,宽度仅几纳米,嵌入一个合成膜中。通过在该膜上施加电压来建立离子电流。然后,一条单链DNA被电泳力拉过这个孔。
当DNA蜿蜒穿过时,碱基会阻碍离子的流动。通过的电流量对当前占据孔最窄部分——一个约5个碱基的小窗口,称为-mer——的特定字母的身份极为敏感。一个ACGTA序列将产生与GCATC序列不同的电流水平。机器会随时间记录这种波动的电流,创建一个“电流信号图(squiggle)”,然后通过计算将其解码回A、T、C、G的序列。
这种直接的物理测量带来一个非凡的后果:它可以自然地检测到修饰碱基。像甲基化这样的表观遗传修饰会在碱基上增加一个小的化学基团。这个修饰过的碱基具有不同的大小和电荷特征,所以当它穿过孔时,会产生与其未修饰对应物略有不同的电流扰动。机器可以真正地“感觉”到这种差异,从而允许直接、同时地对同一单个分子的遗传和表观遗传密码进行测序。
每种测量方法都有其自身特有的错误来源,而这种“错误谱”是其底层物理过程的直接指纹。
短读长平台,在每个离散、同步的化学循环中添加一个碱基,因此非常擅长计数。它很难错过一个循环或在一个循环中添加两个碱基,所以插入和删除(indels)极为罕见。它们的主要弱点是替换错误,这可能源于荧光颜色被错误识别,或者一个簇中的某些分子与化学循环失去同步。
长读长平台面临着相反的挑战。SMRT和纳米孔测序都实时测量一个连续的过程,原始数据必须通过计算分割成离散的碱基判读。这种分割是它们错误的主要来源,表现为高比例的插入和删除。
对于SMRT测序,一个太暗的真实光脉冲可能会被检测器错过,导致一个删除。一个随机的背景噪音闪烁可能被误解为一个脉冲,导致一个插入。对于纳米孔测序,挑战在于精确确定某个电流水平对应多少个碱基。在同聚物区域——一长串相同的字母,如AAAAAAAA——电流几乎保持不变。碱基判读软件必须根据这个恒定信号的持续时间来推断该段的长度,而DNA速度的轻微变化使这项任务变得困难。错误判断这个持续时间是纳米孔测序中插入/删除错误的主要来源。
我们可以从数量上看到这一点。一个碱基判读的质量通常用Phred分数()表示,其中。更高的Q值意味着更低的错误概率。对于一个棘手区域中典型的原始长读长碱基判读,替换错误概率可能是,对应于质量分数。然而,插入/删除错误概率可能要高得多,比如说,这对应于一个更低的质量分数。这从数量上表明,插入/删除是主要的错误模式。
虽然长读长技术的原始错误率高于其短读长对手,但它们拥有一个隐藏的优势:它们的错误性质不同,可以通过巧妙的策略来克服。
一种方法是在同一技术内部建立共识。在SMRT测序中,一个小的DNA分子可以被环化。高持续合成能力的聚合酶可以在一次运行中一遍又一遍地读取同一个环。这被称为环化共识测序(CCS),或HiFi测序。由于插入/删除错误在很大程度上是随机的,第一次读取中发生的删除不太可能在第二次或第三次读取的同一位置再次发生。通过对多次读取的信息进行平均,这些随机错误被有效抵消,从而产生一条既长又惊人准确(通常>99.9%正确)的最终读长。剩下的少数错误往往是那些无法通过平均消除的罕见、系统性错误。
一个更强大的想法是结合两种长读长技术。SMRT和纳米孔测序是正交测量原理的完美例子。它们使用不同的物理学(光 vs. 电流),因此它们有不同的系统性偏好。一个聚合酶难以读取的序列(SMRT),可能毫无问题地滑过纳米孔;而一个让纳米孔基于电流的计数感到困惑的同聚物序列,可以通过SMRT的“一碱基一闪光”机制完美解决。
结合这些独立测量的力量是深远的。想象一下,在某个给定位置,SMRT的错误概率为,纳米孔的错误概率为。如果我们假设它们的错误是独立的——鉴于它们不同的物理原理,这是一个合理的起点——那么它们在同一位置都出错的概率就是它们各自概率的乘积:。这对应于超过98%的准确率!通过要求对同一分子的两种根本不同的观察结果达成一致,我们可以达到任何一个平台单独都无法提供的置信水平。这种多样性中的统一是科学中一个反复出现的主题,也是释放长读长测序全部潜力的关键。
既然我们已经探索了使我们能够读取生命密码长片段的精妙机制,我们就可以提出最令人兴奋的问题:我们能用它做什么?理解了原理就像学会了一场宏大游戏的规则;现在我们可以看看这场游戏如何在生物学、医学及更广阔的复杂领域中进行。长读长测序的应用不仅仅是增量改进;它们代表了我们感知生命世界能力的根本性转变,使我们能够回答直到最近还完全遥不可及的问题。
基因组学最基本的任务是从头到尾读取一个生物的完整遗传蓝图——其基因组。几十年来,这就像试图重新拼凑一本被切成数百万张五彩纸屑大小碎片的书。这些碎片,即旧测序技术的“短读长”,通常只有几百个字母长。真正的噩梦始于重复序列。想象一本书中,“生存还是毁灭”这个短语出现了数千次。如果你的纸屑比这个短语还短,你就无法知道每个实例前后连接的页面是什么。组装过程会陷入一团模糊的纠结之中而停滞不前。
自然界中许多最有趣和最复杂的基因组都充满了这样的重复元件。以一种新发现的兰花的基因组为例,这种植物以其复杂的生物学特性和庞大的遗传密码而闻名。当科学家们首次尝试用短读长组装其基因组时,他们只得到一个令人沮丧的、支离破碎的拼图,由数千个不相连的小片段组成。兰花的基因组充满了数千个碱基对长的重复元件,远远超过了他们读长的长度。组装软件迷失在了一个充满镜像的大厅里。
这正是长读长测序从根本上改变游戏规则的地方。一条长达数万碱基的读长,就像找到了那本被撕碎的书的一整页完好无损的页面。它可以毫不费力地跨越那些长而令人困惑的重复序列,将自身锚定在两端独特的文本上。通过提供这种长程的、连续的信息,它解决了困扰短读长组装的模糊性,解开了死结,照亮了通往基因组迷宫的真正路径。我们第一次能够产生真正完整的、“端粒到端粒”的组装,即便是最复杂的基因组也不例外,最终可以无缺页地阅读生命之书。
基因组,我们的DNA,是总食谱。但细胞中的实际工作是由蛋白质完成的,其配方被转录成临时的信使RNA(mRNA)分子。在真核生物中,这个过程涉及一个有趣的步骤,称为剪接,其中非编码区(内含子)被切除,编码区(外显子)被缝合在一起。细胞可以非常有创造力,常常以不同的方式剪接同一个基因,从而从单个基因产生多种不同的配方,或称“亚型”。了解在哪些细胞中、何时产生哪些亚型,对于理解健康与疾病至关重要。
使用短读长RNA测序来研究这个过程,就像听一出所有演员台词都被切碎并扔成一堆的戏剧。你可以计算单词数量并大致了解剧情,但你失去了对话。你无法确定哪个演员说了一句完整的句子,也无法确定顺序。例如,你可以通过找到一条连接通常不相邻的两个外显子的短读长,来发现“外显子跳跃”事件的证据,但要重建所有正在表达的亚型的完整、复杂的图景,是一个充满不确定性的计算难题。
长读长RNA测序以其优美的简洁性解决了这个问题。通过在一个连续的读长中从头到尾测序整个mRNA分子,就像录制一个演员在某个场景中的全部台词。没有任何模糊性。你确切地看到哪些外显子存在以及它们的顺序,揭示了全长亚型。这是一场革命,揭示了一个隐藏的转录本多样性世界。对于像牛津纳米孔公司的直接RNA测序这样的技术尤其如此,它读取的是天然RNA分子本身,避免了酶促转换步骤带来的偏好,甚至能捕捉到RNA上的化学修饰信息。对于一个具有多个剪接点、相隔数千个碱基的复杂转录本,短读长片段根本无法将它们连接起来。然而,一条长读长可以跨越整个距离,直接确定剪接选择的相位,为我们提供基因表达的完整、明确的故事。
我们大多数人是二倍体生物;我们携带两套基因组,一套遗传自父方,一套遗传自母方。这两套,或称“单倍型”,并非完全相同。它们就像同一套百科全书的两个略有不同的版本,其中散布着微小的变异——称为杂合变异的单字母“拼写错误”。区分这两个亲本来源的拷贝是一个称为“定相”的过程,它具有深远的意义。
想象一个基因中有两个致病性变异。如果一个人在同一条染色体上(顺式)拥有这两个变异,而另一条染色体是正常的,他们很可能是一个健康的携带者。但如果他们在两条染色体上各有一个致病性变异(反式),这个基因可能完全没有功能,导致隐性遗传病。短读长一次只看一个“词”,无法告诉你这个词来自两套百科全书中的哪一套。
然而,一条长读长可以从两本书中的一本读出整段或整页。如果一条长读长包含两个或更多的杂合变异,它就提供了直接的物理证据,证明这些变异存在于同一个分子上,即同一个单倍型上。它们是顺式的。一条读长以这种方式具有“定相信息”的概率,直接取决于它能连接多少个变异。如果我们将杂合位点建模为以每碱基的速率随机发生,那么一条长度为的长读长将一个位点与至少另一个变异连接起来的概率,可以由泊松过程的数学完美描述,得到概率为。读长越长,我们就越确定能捕捉到这些连接。这种能力将基因组学从一个简单的变异列表,转变为我们遗传继承的真正二倍体图景。
我们的基因组并非静止、完美的文本。它们带有进化和细胞生命的伤疤——称为结构变异(SVs)的大规模重排。整个“章节”可能被删除、复制、倒置或移动到完全不同的卷中。这些结构变异常常是罕见先天性疾病和癌症基因组混乱景观的驱动因素。
用短读长检测这些大事件,就像试图仅通过观察单个词语来注意到一个被删除的章节。这是极其困难的。相比之下,长读长具有变革性。一条数万碱基长的读长可以直接跨越一个巨大删除的断点,无缝地连接起被聚合在一起的基因组两个不同部分。它可以揭示一个重复基因的精确插入点,并解开对其他方法来说不可见的复杂重排。这在基因组工程领域也至关重要。当使用像CRISPR-Cas9这样的工具编辑基因时,我们必须确保这个过程没有无意中导致大的、非预期的删除或重排。长读长是进行这种质量控制的权威工具,因为它们可以跨越潜在的断点,即使在损伤更可能发生且更难检测的重复区域也是如此。这种能力对于解析基因组中那些臭名昭著的复杂且临床上至关重要的区域至关重要,例如药物基因组学基因座CYP2D6,它充满了结构变异,深刻影响着个体如何代谢很大一部分常用药物。
也许某些长读长技术最优雅的能力是能够看到DNA字母之外的东西。想象一位读者不仅能阅读文本,还能注意到所有的高亮、下划线和留在页边的便签。这就是“表观遗传学”,而这些注释是DNA碱基上的化学修饰,例如甲基化,它们在不改变序列本身的情况下调控基因的使用。
单分子实时(SMRT)测序通过观察单个DNA聚合酶的工作来实现这一点。当聚合酶遇到一个甲基化的碱基时,它会多停留一小会儿。通过精确测量这些微小的时间变化——脉冲间期(IPD)——机器可以在测序的同时直接检测到天然DNA分子上的化学修饰。因为这些信息是在一条长读长上捕获的,所以它可以与遗传变异进行定相。这使我们能够回答诸如“这个基因的甲基化拷贝是我从母亲那里遗传的还是从父亲那里遗传的?”这类问题。这是单倍型解析的表观遗传学,是研究诸如基因组印记等现象的革命性工具。
同样的原理为抗击传染病提供了有力的武器。细菌使用甲基化作为一种细胞身份形式,不同菌株拥有独特的甲基转移酶集合,这些酶创造出独特的、全基因组范围的甲基化“指纹”。SMRT测序可以在一次实验中读取这个指纹,从而实现极其精确的菌株分型,以追踪疫情的传播。此外,一条长读长可以同时确定一个危险的抗生素抗性基因是位于细菌的主染色体上,还是位于一个称为质粒的小型可移动DNA片段上,后者可以轻易地与其他细菌共享。这为临床护理和公共卫生提供了关键的、可操作的信息。
我们的免疫系统是创造性工程的奇迹。为了识别近乎无限多样的潜在病原体,它运行着自己的内部基因编辑工场。在发育中的B细胞和T细胞中,编码免疫受体的基因片段通过一个称为V(D)J重组的过程被洗牌和组合。这个组合过程产生了数十亿个独特的T细胞受体(TCRs)和B细胞受体(BCRs),创造出一个能够识别几乎任何外来分子的庞大而多样的库。
读取这个库提出了一个独特的挑战。一方面,你可能想在数百万个细胞的海洋中找到一个非常具体、稀有的免疫细胞克隆。为此,你需要进行深度采样。短读长平台产生的巨大读长数量——每次运行数亿条——使其成为进行此类“稀有克隆捕捞”的理想选择。另一方面,一个B细胞受体(抗体)的全部功能不仅由其可变的V(D)J区决定,还由其远端的恒定区决定,后者决定了其同种型(例如IgM、IgG、IgA)和在体内的功能。短读长无法跨越这个鸿沟。只有长读长能够一次性捕获全长转录本,将可变区的特异性与恒定区的功能联系起来,并对在此过程中获得的所有体细胞高频突变进行定相。在免疫学中,技术的选择成为一个有趣的战略决策,需要根据具体的生物学问题量身定制。
对于基因组学中最艰巨的挑战,我们不必只选择一种工具。我们可以组建一个“梦之队”。再次考虑*CYP2D6*基因座,这个区域因其与一个高度相似的假基因、重复序列和复杂的结构变异纠缠在一起而臭名昭著,对任何单一技术来说都是一场噩梦。在这里,科学家们采用了一种“混合”策略,结合了多个正交平台的优势。
首先,他们使用长读长来构建基础支架,其长度提供了跨越重复和复制的能力,解析了宏观结构并对单倍型进行定相。接下来,他们使用数百万条超高准确度的短读长来“打磨”这个支架,将它们比对到长读长框架上,以校正其微小的随机错误,并精确确定每个变异的序列。最后,他们甚至可以引入第三方,比如光学图谱(Optical Mapping),它提供了一种非常长程的基因组“卫星视图”,以验证他们组装的最大尺度结构是正确的。
这种整合正交证据——来自具有不同物理原理和错误模型的独立方法的数据——的概念,是科学方法最稳健的体现。当一个复杂的结构变异得到长读长的连续性、短读长的碱基级精度以及光学图谱的宏观尺度验证的支持时,我们可以非常有信心地确定我们所看到的是真实的。
我们新获得的完整阅读生命之书的能力,从封面到封底,连同其所有注释,不仅仅是一项技术成就。它是一种正在改变我们世界的力量,使我们能够诊断棘手的疾病,设计个性化药物,并以我们曾经只能梦想的方式理解错综复杂的生命之网。发现之旅才刚刚开始。