高通量测序

玻尔百科

核心要点

高通量测序的核心原理是大规模并行化，允许同时读取数百万条DNA链。
HTS不仅能读取序列，还能充当数字计数器，从而实现定量分析，例如识别蛋白质结合位点或评估突变适应度。
HTS正在改变宏基因组学、法医学、以及通过液体活检和HLA分型等应用实现的精准医疗等多个领域。
Sanger测序对于靶向测序、验证NGS结果以及解析短读长无法解决的复杂、重复的基因组区域仍然至关重要。

引言

读取一个生物体完整的遗传蓝图——其基因组——曾是一项艰巨的任务，耗时数年，耗资数十亿。如今，这项艰巨的任务可以在数小时内完成。这一戏剧性的转变归功于高通量测序（HTS）的出现，这项技术从根本上改变了生物学和医学。通过超越其前辈一次一个的局限，HTS为生物学研究创造了一个新的范式。本文将对这一革命性方法进行全面探讨。在第一章“原理与机制”中，我们将剖析HTS背后的核心概念，从大规模并行化的天才构想到边合成边测序的复杂化学过程。随后，“应用与跨学科联系”一章将展示HTS在现实世界中的影响，揭示它如何被用于普查微生物世界、以前所未有的精度抗击癌症，甚至实时观察进化的展开。

原理与机制

要真正领会高通量测序这场革命，我们必须首先回顾它的前身——一种以其发明者Frederick Sanger命名的、非常精妙的方法。想象一下，基因组是一座巨大而未曾被阅读的图书馆。Sanger测序提供了从其中一本书中可靠地读取单个句子的第一种方法。该方法非常巧妙：你复制你的DNA句子，但偷偷混入特殊的“链终止”字母。这些字母就像有缺陷的标点符号，会使复制过程戛然而止。四个字母（A、T、C、G）中的每一种都有自己的颜色。通过制造数百万个在每个可能位置停止的副本，然后按大小对生成的片段进行排序，你就可以简单地读取颜色序列，从而知道DNA的序列。这是分子逻辑的一项宏伟成就。

但这里有一个问题。这个过程，即使在数百个平行的毛细管中自动化进行，也是逐句读取的。用这种方式读取整个图书馆——一个完整的基因组——是人类基因组计划耗时十多年和数十亿美元才完成的艰巨任务。人们渴望的不仅仅是读一个句子，甚至一本书，而是在一个下午读完整座图书馆，这需要一种新的思维方式。

并行化的革命：从一到十亿

定义现代下一代测序（NGS）的概念性飞跃，并非关于更快地读取单个DNA链，而是关于同时读取数百万甚至数十亿条链。这就是大规模并行化的原理。

可以这样想：Sanger测序就像一个勤奋的抄写员，一次一个词地朗读一本书。NGS则像是将一百万本书的副本撕碎，把一个句子分给一百万个微型机器人抄写员，让他们同时读取各自的句子。并行收集到的巨大信息量造就了“高通量”。

规模上的差异不仅仅是增量式的，而是惊人的。考虑一个假设情景，对一个大小为420万个碱基对的中等细菌基因组进行测序。一台最先进的Sanger测序仪，一次运行96个样本，需要超过7200小时——即300多天——才能生成足够的数据。而一台现代的台式NGS平台，在一次仅需29小时的运行中就能完成同样的任务。这不仅仅是一项改进，它是一场变革，改变了我们敢于提出的问题的类型。

这种能力的飞跃也伴随着一个权衡。Sanger测序通常能产生700-1000个碱基的长而连续的读长，而最常见的NGS平台则产生数量巨大但短得多的读长，通常为100-300个碱基。于是，挑战从缓慢的读取转变为一个巨大的计算难题：将这数十亿个短句子重新组装成原始的书籍。

测序的协奏：实际工作流程

那么，如何编排这场由十亿个同步反应组成的交响乐呢？这个过程是化学、工程学和光学的杰作，分几个关键步骤展开。

首先，待测DNA——例如，你的整个基因组——被打碎成包含数百万个短片段的细雾。这些片段的集合被称为测序文库。但这些片段都是不同且未知的。一台机器怎么可能处理所有这些片段呢？

解决方案是另一个简单而巧妙的创举：接头（adapters）。这些是短的、合成的DNA片段，被连接或“粘贴”到文库中每个片段的两端。这些接头充当通用手柄。它们的序列是已知的，提供了一个标准的起点，一个让测序机器“抓住”并开始工作的地方。没有这个通用的引物结合位点，就不可能在多样化的未知片段池上启动测序反应。

接下来，这个带有接头标签的片段文库被流过一种称为流通池（flow cell）的特殊玻璃载片。流通池的表面是一片由互补DNA“钩子”组成的草坪，这些钩子抓住接头，将每个片段锚定到一个特定的点上。然后，通过一个称为桥式扩增（bridge amplification）的过程，每个锚定的片段在其位置上被反复复制，形成一个由数百万个相同分子组成的密集、克隆的簇。这一步的目的是信号放大；单个DNA分子太“安静”以至于无法被“听到”，但一个由百万个相同分子组成的簇则能大声宣告它的存在。

现在，主要环节开始了：边合成边测序（sequencing-by-synthesis）。我们不是读取现有的链，而是观察一条新的互补链是如何一次一个碱基被构建起来的。由Illumina平台使用的最广泛的方法，是一个美丽的化学与光的循环。机器用所有四种类型的核苷酸（A、C、G、T）淹没流通池。然而，这些是特殊的核苷酸。每种类型都附着有一个独特的荧光色标签，并且它还携带一个“可逆终止子”，阻止更多核苷酸的添加。在每个簇中，DNA聚合酶找到与模板匹配的正确核苷酸并将其掺入。然后，一切都停止了。机器用激光激发整个流通池，一台高分辨率相机拍摄一张照片。一个发出绿光的点可能是'T'，而一个蓝色的点是'C'。图像捕获后，化学清洗会切掉荧光标签和终止子，使DNA链为下一个循环重新做好准备。这个“掺入、成像、切割”的过程重复数百次，建立起一个类似电影的记录，记录下每个循环中每个点出现的颜色，这直接转化为数十亿个片段中每一个的DNA序列。

然而，大自然解决问题的方法不止一种。例如，Ion Torrent平台完全摒弃了光。它依赖于一个基本的化学事实：当一个核苷酸被添加到正在增长的DNA链上时，会释放一个氢离子（ $H^+$ ）作为副产品。Ion Torrent机器使用一个半导体芯片，上面有数百万个微观孔，每个孔中含有一个DNA簇。每个孔下方是一个极其灵敏的pH计。机器依次用一种类型的核苷酸淹没芯片。如果该核苷酸被掺入，就会释放 $H^+$ 离子，孔中的pH值会轻微下降，传感器将此变化检测为电信号。没有光，没有相机——只是将化学反应直接转化为数字信息。这是物理学与生物学统一的美妙展示。

不仅仅是序列：计数的威力

NGS真正的范式转变不仅在于其读取序列的能力，还在于其计数的能力。因为我们正在对来自混合群体的数百万个独立分子进行测序，所以我们可以将机器视为一个数字计数器。输出的不仅仅是“序列是ACGT...”，而是“我们发现了序列A 5000次，序列B 152次，而序列C只有3次”。这种定量能力开辟了全新的生物学领域。

考虑这样一个挑战：绘制一个特定蛋白质，比如一个转录因子，在整个基因组中的结合位置。一种名为染色质免疫沉淀（ChIP）的技术，让我们能“钓”出所有与我们感兴趣的蛋白质物理结合的DNA片段。结果是一试管中含有成千上万，甚至数百万种不同DNA序列的复杂混合物，每一种都代表一个结合位点。我们如何识别这混合物中有什么？Sanger测序在这里毫无用处；它一次只能读取一个片段。但通过NGS，我们可以对整个池进行深度测序。数据中出现最频繁的序列，恰恰就是细胞中最常见的结合位点。NGS使得ChIP-seq成为可能，从而使得绘制整个基因组调控网络成为可能。

这种“测序即计数”的原理也是深度突变扫描（DMS）背后的引擎。想象一下，你想了解一个蛋白质中每个氨基酸的功能。你可以创建一个巨大的基因库，每个基因都带有一个不同的单点突变。然后，你让这个生物体库经受压力测试——例如，只有最有效的酶变体才能存活的测试。通过使用NGS在选择前后对每个变体的频率进行计数，你可以为每个突变计算一个“富集分数”。消失的突变显然是必不可少的，而变得更频繁的则是有益的。这使我们能够描绘出蛋白质的详细功能图景，这是在NGS的定量能力出现之前无法想象的壮举。

两种方法的故事：旧即是金

有了NGS的强大威力，你可能会认为Sanger测序应该被放进博物馆。但在科学中，很少有单一的“最佳”工具，只有适合特定工作的正确工具。对于某些任务，Sanger测序不仅仍然适用，而且往往更优。

如果你的目标简单而有针对性——例如，验证你成功地将一个特定的单点突变引入到一个小质粒中——使用整个NGS运行就是杀鸡用牛刀。这就像用一艘货船去递送一封信。Sanger测序在这里是完美的工具：对于少数样本来说，它快速、成本效益高，并能给你一个单一、干净、长的读长，直接回答你的问题。

关键区别在于读长和错误谱。Sanger测序提供一个长、高度准确、连续的读长。NGS提供数十亿个短的、统计推导出的读长。在处理基因组的复杂区域，如长的、重复的DNA片段时，这种区别至关重要。完全落在此类重复区域内的短NGS读长无法被唯一定位。这就像有一千份“猫坐在垫子上”的句子副本，却不知道它们在书中的哪个位置。而一个单一、长的Sanger读长可以直接穿过整个重复区域，进入两侧的独特序列，从而提供关于该基因组位点结构的清晰、明确的信息。

最后，也许最重要的是，Sanger测序作为验证NGS发现的“金标准”。为什么要用一种旧技术来检查一种新技术呢？因为它们的工作原理不同，错误模式也不同。NGS平台基于对数千个读长的统计分析来判断一个杂合变异（即母源和父源的基因拷贝在一个字母上不同）。这是一种推断。而Sanger测序的迹线图或电泳图（electropherogram），则提供了一个直接的、类似模拟的信号。在一个杂合位点，你可以真切地看到两个荧光峰叠加在一起，提供了一个清晰而明确的确认。使用一种正交方法来确认结果是严谨科学的基石。它确保我们不会被主要工具的假象所迷惑，而正是在这个角色中，Sanger测序的优雅简洁继续闪耀光芒。

应用与跨学科联系

在我们穿越了高通量测序的基本原理之旅后，您可能感觉自己有点像一个刚学会了革命性新望远镜复杂运作原理的人。您理解了光学、探测器和机械原理。现在，激动人心的部分来了：将那台望远镜转向天空，看看外面到底有什么。我们会发现什么新恒星？哪些星系将被揭示？在本章中，我们将探索这个强大的生物世界新“透镜”所开启的应用宇宙，将抽象的原理与每天在实验室和诊所中发生的切实变革联系起来。

从Sanger测序到高通量方法的转变不仅仅是增量改进；这是一次深刻的范式转变。这就像是精心研究一颗恒星与进行一次全天巡天、一次性绘制数百万个星系图之间的区别。过去我们只能看到一个数据点，现在我们看到的是一个充满信息的全景景观。

宏大普查：从单一到众多

也许高通量测序带来的最直接的革命是进行普查的能力。以前，一个微生物学家想从池塘中鉴定一种细菌，必须将其分离出来，在纯培养基中培养——这本身就是一个挑战，因为大多数微生物拒绝在实验室中生长——然后对它的单个16S rRNA基因进行测序。这是一个艰苦的过程，它给了我们一个公民的详细画像，却忽略了它来自的繁华都市。

高通量测序彻底改变了游戏规则。现在，科学家可以取同一样本的水，提取其中所有东西的DNA，并一次性对所有的16S rRNA基因进行测序。他们得到的不是一个单一、干净的序列，而是数百万个读长。当这些读长被分类和计数后，它们提供了一份关于整个微生物群落的丰富而详细的普查报告：哪些物种存在，以及它们的相对丰度是多少。这种被称为宏基因组学的方法，揭示了地球上惊人的“看不见的多数”生命，即那些支配着从海洋健康到我们自身肠道功能的微生物暗物质。

这种“普查”能力不仅限于微生物。想象一下，你担心一种昂贵的草药补充剂， marketed as "100% pure," 可能含有像碎米或花生壳这样的廉价填充物。你会如何检查？你可以使用同样的原理。通过从粉末中提取所有DNA，并使用高通量测序读取植物的标准“条形码”基因，你可以生成一份瓶中所有植物物种的完整清单。这种技术，即DNA宏条形码技术（DNA metabarcoding），已经成为从食品安全和真伪测试到环境监测等所有领域的强大工具，让我们能够看到我们的食物、水和空气中真正含有什么。

精准的艺术：洞察更精细的细节

虽然一次性测序数百万个事物的能力令人印象深刻，但高通量测序也赋予了我们前所未有的能力，去观察单个事物的精细细节。这不仅仅是关于更多的数据；它是关于更好、更高分辨率的数据。旧技术常常看到一幅模糊的画面，把那些有细微差别的东西混为一谈。HTS则将它们带入清晰的焦点。

一个引人注目的例子来自法医学。几十年来，DNA指纹分析一直依赖于分析短串联重复序列（STRs）——DNA的短重复片段，其长度因人而异。经典技术，毛细管电泳，通过大小分离这些DNA片段。但如果两个不同的STR等位基因具有相同的长度但不同的内部序列怎么办？旧方法会认为它们是相同的。相比之下，高通量测序读取STR的实际核苷酸序列，可以轻松区分这些“同长异序等位基因（isoalleles）”。这种分辨先前隐藏变异的能力，极大地增加了DNA图谱的区分能力，使得随机匹配发生的可能性更小，从而加强了刑事调查中的证据力度。

这种对精度的需求在医学上具有生死攸关的后果。对于一次成功的器官或干细胞移植，供体和受体的人类白细胞抗原（HLA）基因必须尽可能匹配，以避免灾难性的免疫反应。早期基于抗体（血清学）的分型方法只能提供低分辨率的匹配，就像确认两个人都是“B型”血一样。这通常是好的，但并不完美。高通量测序允许对HLA基因进行等位基因级别、逐个碱基的比较。它可以揭示一个供体和一个受体之间微妙的、单个氨基酸的差异，而他们通过旧方法看起来是完美匹配的。识别并避免这些高分辨率错配，对于预防移植物抗宿主病和确保移植成功至关重要。

肿瘤学家的“新工具箱”：用信息对抗癌症

癌症，其核心是基因组的疾病。因此，一种读取基因组的技术成为我们对抗癌症最强大的武器之一，是顺理成章的。

最令人兴奋的前沿之一是“液体活检”。肿瘤在生长和死亡过程中，会将其DNA碎片释放到血液中。高通量测序现在已经足够灵敏，可以在一次简单的抽血中检测到这些微量的循环肿瘤DNA（ctDNA）。这使得医生可以在没有侵入性手术活检的情况下，分析患者肿瘤中的突变。根据临床问题，可以部署不同类型的HTS，例如高度靶向的扩增子测序或更广泛的杂交捕获测序，从而实现灵活而强大的诊断方法。

这种令人难以置信的灵敏度也可以用来追捕治疗后最后存活的癌细胞。这就是“微小残留病”（MRD）的挑战，即便是少数残留细胞也可能导致复发。在像多发性骨髓瘤这样的血癌中，HTS可以用来追踪作为患者特定癌症遗传“条形码”的独特免疫球蛋白基因重排。通过对来自骨髓样本的数百万个DNA分子进行测序，这项技术可以检测到百万个健康细胞中的一个癌细胞——灵敏度达到 $10^{-6}$ 。这为治疗反应提供了前所未有的深度视角，指导关于停止、继续或升级治疗的决策。

当然，记住我们的工具在测量什么是很重要的。一种竞争性技术，新一代流式细胞术，通过蛋白质标记来识别残留的癌细胞。这证实了它们是完整的、活的细胞。而HTS则检测DNA。这些DNA可能来自活细胞，也可能来自刚刚死亡的细胞。理解这些微妙之处是现代医学艺术的一部分。最终，病理学的未来在于整合诊断，病理学家将显微镜下的经典视图与蛋白质标记和来自HTS的深度基因组图谱相结合，以形成对疾病最完整的描绘。

工程与进化：读取、书写和观察生命

除了观察自然世界，高通量测序也是我们尝试工程改造它的基石。在合成生物学领域，科学家们设计和构建新颖的遗传线路，HTS是不可或缺的质量控制工具。如果你订购了一个包含1200个略有不同的基因版本的文库，以测试哪个版本效果最好，你如何知道你收到的就是你设计的？你可以对整个池进行测序。HTS提供了一个快速、定量的读出，显示哪些变体存在及其丰度，并揭示了合成错误的频率。这是现代工程生物学“设计-构建-测试-学习”循环的关键部分。

这一原理也延伸到发现新药。在一种称为展示筛选（display screening）的技术中，科学家可以创建一个包含十亿种不同抗体变体的文库，并测试哪些变体能与目标（如病毒蛋白）结合。在“淘选”出结合物后，他们会得到一个较小的成功候选者池。他们如何知道应该追求哪些？他们使用HTS在选择前后对池进行测序。通过比较每个变体的频率，他们可以计算出一个“富集分数”，这是该变体在进化竞赛中成功程度的定量度量。这使他们能够专注于真正的赢家。要准确地做到这一点，需要极高的复杂性，包括使用独特分子标识符（UMIs）来校正测序过程本身引入的偏差。

也许最深刻的是，HTS让我们能够实时观察进化的发生。通过每隔几天从病毒感染的患者身上取样，并对病毒种群进行深度测序，我们可以看到新突变的出现，并观察它们的频率变化。我们可以直接测量进化速率，并看到病毒基因组的哪些部分，如免疫表位，正承受着来自宿主免疫系统的最强选择压力。我们不再局限于推断进化的过去历史；我们现在可以坐下来，一帧一帧地观看其展开的戏剧。

克服生物学的“变化球”

尽管高通量测序功能强大，但它并非魔杖。生命之书是一本凌乱、复杂的文本，充满了脚注、修订和“幽灵”章节。天真地应用HTS可能会让你误入歧途。真正的艺术在于将技术与对生物学的深刻理解相结合。

对此的一个绝佳例证是常染色体显性多囊肾病（ADPKD）的诊断。主要致病基因PKD1的测序是出了名的困难，因为基因组中含有六个高度相似的“假基因”——作为遗传回声的非功能性拷贝。如果你试图用标准的HTS方法对PKD1进行测序，你将不可避免地也会测序到这些假基因，导致读长混乱不堪，很可能导致误诊。优雅的解决方案是首先使用一种称为长片段PCR（Long-Range PCR）的技术，利用与真PKD1基因特有区域结合的引物，来特异性地扩增它，并将其与其基因组幽灵分离开来。只有这样，你才能将HTS应用于纯化后的产物。这种多步骤的工作流程，将巧妙的分子生物学与测序的力量相结合，提供了进行可靠临床诊断所需的清晰、明确的结果。

这最后一个例子恰如其分地总结了我们的探索。高通量测序给了我们一种非凡的新感觉。它使我们能够对未见的世界进行普查，将基因组的最精细细节带入焦点，以惊人的灵敏度追踪疾病，并观察进化过程本身。但它是一个在好奇而聪明的科学家手中最强大的工具，这位科学家既了解其巨大的能力，也了解其微妙的局限性。我们所触及的发现仅仅是个开始。现在可以回答的问题宇宙是浩瀚的，而望远镜终于在我们手中。