组学技术

玻尔百科

核心要点

中心法则（DNA到RNA到蛋白质）为基因组学、转录组学和蛋白质组学提供了组织框架，它们分别研究生物体的潜能、意图和行动。
不同组学之间的一个关键技术差异是扩增；“复印”DNA和RNA的能力使得单细胞分析成为可能，而对于不可扩增的蛋白质和代谢物，这仍然是一个挑战。
多组学整合通过要求在从基因到代谢物的不同分子层面获得一致的证据，从而建立稳健的生物学理解，减少了伪相关的可能性。
空间组学技术正在彻底改变生物学，它通过在测量分子的同时保留其在组织中的位置，弥合了分子基因组学和解剖组织学之间的鸿沟。

引言

几个世纪以来，生物学的进步是通过将生物体拆解来进行的。这种还原论方法为我们带来了深刻的见解，但往往无法捕捉到完整系统的动态复杂性。单个基因、蛋白质和其他分子是如何协同工作，共同谱写出生命的交响曲的？“组学技术”的兴起标志着一种范式转变，它提供的工具不仅能研究单个部分，还能同时研究整个生物系统。本文将深入探讨这一革命性领域。首先，在“原理与机制”部分，我们将探讨支撑基因组学、转录组学、蛋白质组学和代谢组学的基本概念，揭示连接遗传蓝图与功能性行动的逻辑。随后，“应用与跨学科联系”部分将展示这些技术如何被应用于解决现实世界的问题，从鉴定基因功能、诊断疾病，到合理设计新疫苗和绘制组织的分子地理图。让我们从审视使这种整体性生物学观点成为可能的核心原理开始。

原理与机制

想象一下，你正试图了解一个广阔而繁华的城市。你可以从一张卫星地图开始，它显示了每条街道和每座建筑的布局。这让你对城市的潜力——它能做什么——有了一定的了解。但这并不能告诉你现在正在发生什么。工厂在运转吗？市场繁忙吗？主干道上堵车了吗？要知道这些，你需要倾听城市的喧嚣：交通流量、无线电广播、电话通话。而要了解城市的最终产出，你需要追踪正在生产和消费的商品、提供的服务以及产生的废物。

现代生物学在试图理解细胞或整个生物体这个“城市”时，也面临着类似的挑战。几十年来，我们一直着迷于还原论的成功——将城市一块砖一块砖地拆开，并独立研究每一块砖。这为我们带来了惊人的见解，比如“一个基因，一个酶”的假说和分子生物学的中心法则。但这并没有告诉我们这个城市作为一个整体是如何运作的。组学技术的兴起代表了一种范式转变，从研究单个砖块转向一次性创建整个城市的综合地图和活动日志。本章将探讨使这一切成为可能的基本原理。

从蓝图到功能：分子级联

每个细胞的核心是分子生物学的中心法则，这是一个优美而简单的原理，描述了信息的流动： $DNA \to RNA \to Protein$ 。这个级联反应为主要的组学领域提供了天然的组织框架。

基因组学：总蓝图。 你的基因组是你细胞中DNA的完整集合。它是总蓝图，是包含了构建和运作你身体每个部分指令的卫星地图。基因组学就是研究这张蓝图的学科。通过对DNA进行测序——例如，通过鸟枪法宏基因组学，该技术对来自一个生物群落的所有DNA进行测序——我们可以创建一个全面的“零件清单”。我们可以看到哪些基因存在，从而了解该生物体或群落的遗传潜能——它能够做什么。例如，在肠道微生物群落中，宏基因组学可以告诉我们是否存在用于消化特定膳食纤维的基因。
转录组学：每日工作指令。 地图上有座建筑并不意味着它当前正在被使用。同样，并非所有基因都一直处于活跃状态。一个基因要变得活跃，必须从DNA转录成信使RNA（mRNA）分子。你可以把mRNA看作是蓝图中某个特定指令的临时副本——一个发送到细胞施工现场的工作指令。转录组学是在特定时刻研究所有这些工作指令（即“转录组”）的学科。它告诉我们哪些基因正在表达以及它们的活跃程度，从而揭示细胞的表达潜能或其“意图”。这就像收听城市的无线电交通，以了解哪些区域目前是活跃的。
蛋白质组学：工人与机器。 编码在mRNA中的工作指令被发送到称为核糖体的细胞工厂，在那里它们被翻译成蛋白质。蛋白质是细胞真正的劳动者。它们是催化反应的酶，是赋予细胞形状的结构成分，也是允许细胞间通信的信号。蛋白质组学，通常使用质谱法进行，是研究所有蛋白质（即“蛋白质组”）的学科。它揭示了执行的功能——细胞实际在做什么[@problem_se_id:4771964]。如果说转录组显示的是意图，那么蛋白质组显示的就是行动。

这个层级关系——潜能 $\to$ 意图 $\to$ 行动——是根本性的。知道一个基因存在（基因组学）不同于知道它正在被开启（转录组学），而这又不同于知道最终的蛋白质存在且活跃（蛋白质组学）。

生命的通货：代谢物告诉我们什么

故事并没有在蛋白质这里结束。这些酶和机器正忙于工作，转化分子，产生能量，并生成信号。这些小分子——糖、脂肪、氨基酸及其无数衍生物——被称为代谢物。

代谢组学是研究这些小分子集合的学科。它测量细胞活动的功能输出。如果说基因组学是蓝图，蛋白质组学是机械，那么代谢组学就是研究正在生产的商品、消耗的燃料和发送的信息。

正是在这里，遗传潜能与现实世界功能之间的联系变得异常清晰。想象一下，一项宏基因组学研究发现，你的肠道微生物拥有一个基因簇，预测可以分解一种名为“Fructan-Z”的膳食纤维。这只是一个基于蓝图的假设。但如果你接着使用代谢组学，发现在你食用Fructan-Z后，其在肠道中的水平下降，而其分解产物的水平上升，你就获得了直接的功能验证。你已经证明了遗传潜能正在体内被实现。

此外，代谢物通常正是介导身体内长距离通信的分子。肠道细菌产生的小分子可以进入血液，并传播到大脑，影响情绪和行为。这就是口腔微生物组-肠-脑轴的基础。要理解这样的功能联系，我们必须能够测量这些“可穿梭的效应分子”，而它们几乎总是被代谢组学捕获的小分子。

小数量的专制与扩增的魔力

你可能会想，既然我们可以测量所有这些不同的分子，为什么单细胞转录组学在单细胞代谢组学之前数年就已成为常规技术，而后者至今仍是一项艰巨的挑战？答案在于一个优美而深刻的技术差异：扩增。

一个单细胞所含的物质极其微量。要测量其内部的RNA转录本，我们并非直接检测它们。相反，我们使用一种奇妙的生物学技巧。我们将RNA分子转化为它们更稳定的DNA对应物，然后使用一种叫做聚合酶的酶，为每一个DNA分子制造数百万或数十亿个拷贝。这个过程，即聚合酶链式反应（PCR）或相关技术，就像一台分子复印机。它将一个单一、无法检测的分子变成一堆巨大、易于检测的相同拷贝。正是这种魔力使得基因组学和转录组学即使从单个细胞出发也成为可能。

现在，考虑一下代谢物。对于糖、氨基酸或脂质，没有通用的分子复印机。你无法“扩增”一个葡萄糖分子。你被迫去测量细胞中最初存在的那个精确而微小的分子数量。在样品制备过程中丢失的每一个分子都将永远丢失。这种扩增方法的缺失，是单细胞代谢组学（和蛋白质组学）比单细胞转录组学难度高出几个数量级的最根本原因。这鲜明地提醒我们，我们观察生物世界的能力，往往取决于我们所拥有的巧妙化学工具。

拼凑谜题：为什么更多数据不仅仅是更多数据

随着生成这些海量“组学”数据集能力的具备，挑战从数据生成转向了数据解读。我们如何结合来自基因组学、转录组学、蛋白质组学和代谢组学的证据，来建立对疾病的稳健理解？

这就是多组学整合的原理，其逻辑可以通过贝叶斯视角来理解。想象你有一个假设——例如，基因 $G$ 是某种疾病的有效药物靶点。每个组学层面都提供了一份证据。

基因组学可能显示基因 $G$ 附近的一个遗传变异与该疾病相关。这是一个强大的因果锚点，因为你的基因（很大程度上）从出生起就是固定的，不受疾病本身的影响。
转录组学可能显示，在携带此变异的患者中，基因 $G$ 的表达水平更高。
蛋白质组学可能确认 $G$ 的蛋白质水平也更高。
表观基因组学（研究调控基因活性的DNA修饰的学科）可能揭示该变异导致表达变化的精确机制。

这些发现中的任何一个单独来看都可能只是侥幸，一种伪相关。但是，当所有这些正交的证据链都指向同一个结论时，我们对该假设的信心就会成倍增加。一个沿着中心法则顺流而下的连贯故事，是巧合的可能性要小得多。这种对跨层面一致性的要求，是稳健靶点识别的基石，使我们能够过滤掉假阳性，专注于最有前途的生物学通路。

溺于数据的危险：关于计数的教训

组学中，特别是基于测序的方法中，一个最微妙但最重要的原则是组成性。当我们进行RNA测序时，机器给我们的不是每个分子的绝对计数。相反，它对存在的分子进行随机抽样，并在一定的预算内（例如5000万次读取）进行测序。因此，输出的是一组比例，而不是绝对数量。

这导致了一个有趣的悖论。想象一个细胞发生变化，它大量增加了核糖体RNA的产生，可能增加了十倍。这些丰富的新转录本现在将“吸收”更大比例的测序读取。因此，细胞中每一个其他基因，即使其分子绝对数量根本没有改变，也会因读取次数减少而表现出来。如果你天真地比较“之前”和“之后”的计数，看起来就好像大部分基因组都被下调了，但这完全是一种错觉！。

这就是为什么当转录组的整体组成发生变化时，简单的文库大小归一化（如将计数转换为每百万计数的读取数，CPM）可能会产生严重的误导。为了克服这个问题，杰出的统计学家们开发了更稳健的归一化方法。像M值的截尾均值（TMM）和DESeq2的比率中值法等技术，被设计用来免受这种错觉的影响。它们的工作原理是假设大多数基因不发生变化，并利用这个稳定的多数作为基准来计算缩放因子。通过将比较锚定在保持不变的部分上，它们可以准确地测量真正发生变化的部分。同样的原则也适用于蛋白质组学数据，其中像血浆中白蛋白这样一种高度丰富且易变的蛋白质，也可能产生类似的组成性伪影。相比之下，像靶向代谢组学这样提供绝对浓度（例如，摩尔/升）的方法，不具有组成性，也就不需要这样的归一化。

重建地图：空间革命

多年来，组学研究需要做出一个权衡：你可以获得深入的分子图谱，但你必须将组织磨成“分子汤”，从而丢失所有的空间信息。但在生物学中，位置决定一切。神经元的功能由其连接定义；肿瘤的行为由其与周围免疫细胞的相互作用决定。

空间组学是一个革命性的新领域，旨在鱼与熊掌兼得：在测量全部分子信息的同时，将它们映射回其在组织中的原始位置。实现这一目标主要有两种策略：

基于测序的空间转录组学：这类方法，如广受欢迎的10x Visium平台，涉及将组织切片放置在一张覆盖有数千个微小斑点的载玻片上。每个斑点都有一个独特的空间条形码，并涂有寡核苷酸，用于捕获其正上方细胞的mRNA分子。实验结束后，所有带条形码的分子被测序，空间条形码告诉我们每个分子来自哪个斑点。分辨率由斑点的大小决定。一个Visium斑点的直径为 $55 \, \mu\text{m}$ ，可能捕获大约10-15个细胞的RNA，而像Slide-seq这样的新技术使用更小的微珠，可以接近单细胞分辨率。
基于成像的空间转录组学：这类方法，如MERFISH或seqFISH，采取相反的策略。它们不是捕获RNA并将其带到测序仪上，而是将RNA留在固定的细胞内，并将荧光标记物带到RNA上。通过复杂的组合标记和成像方案，它们可以用光“描绘”单个RNA分子，从而在亚细胞分辨率下对其进行计数和定位。虽然提供了惊人的细节，但这些方法通常是靶向的，这意味着你只能看到你事先为其设计了荧光探针的基因。

与任何高通量技术一样，空间组学对批次效应很敏感——这些系统性的技术变异源于在不同日期、使用不同试剂或在不同仪器上进行的实验。你可能会对同一块组织进行两次测量，发现第二次运行中的所有强度值都比第一次高1.5倍。这可能被误解为巨大的生物学变化，但它通常只是一个简单的缩放伪影。使用掺入控制（spike-in controls）——在每个实验中加入已知数量的人工分子——对于诊断和校正这些效应至关重要，使我们能够区分真实的生物学变异和技术噪音。

从中心法则到空间生物学的前沿，组学技术为我们提供了一个日益清晰的窗口，以窥探生命错综复杂的机制。通过理解其基本原理——分子级联、扩增的力量、整合的逻辑以及测量的精妙之处——我们不仅能开始欣赏生物学这个城市的复杂性，还能体会其内在的美丽与统一。

应用与跨学科联系

在上一章中，我们熟悉了现代生物学那些卓越的新工具——“组学”技术。我们了解到基因组学如何读取完整的DNA蓝图，转录组学如何倾听正在发送的信息，蛋白质组学如何编目蛋白质机器，代谢组学如何普查作为细胞生命通货的小分子。但是，拥有一套精良的工具是一回事，谱写一曲交响乐则是另一回事。这些技术的真正魔力不在于它们生成的清单，而在于它们让我们能够提出，并以惊人的清晰度回答那些深刻的问题。现在，我们从工坊走向音乐厅，去探索这些工具如何被用来破译、重新设计和治愈生命本身。

从蓝图到功能：破译生命密码

想象一下，你被交予了一座你从未见过的城市的完整建筑蓝图。你拥有每座建筑、每条街道、每根管道的规划图。这正是人类基因组计划给我们的东西。但蓝图并不能告诉你全部的故事。那座形状奇特的建筑的用途是什么？那个奇怪的管道交汇处的功能是什么？几十年来，生物学家一直面临着同样的问题，他们称之为“功能未知基因”（GUFs）。我们有它们的序列，它们的蓝图，但不知道它们是做什么的。

“组学”如何提供帮助？让我们尝试一个巧妙的策略——我们可以称之为“关联推断”。想象一下，你正试图了解一个庞大工厂里一位神秘工人的职能。你可以观察他几周，但一个更快的方法可能是看他与哪些团队一起工作。如果每次熔炉班组上班打卡时，这位工人也打卡，并且他们一起下班，你就会有强烈的线索表明他与供热有关。

这正是转录组学让我们能够做到的。例如，研究人员可以取一种微生物，并将其暴露于数十种不同的条件下——热、冷、酸性、营养丰富、饥饿——同时使用RNA测序来观察哪些基因被开启或关闭作为响应。如果我们的神秘基因始终与一组被充分了解的基因（比如用于修复DNA损伤的基因）一同被激活，我们就可以自信地假设它也是细胞应急修复小组的一员。通过观察这些跨越多种条件的共表达模式，我们可以绘制一张功能地图，将未知基因与已知通路连接起来，描绘出细胞内部的社交和专业网络。

运行中的生命逻辑：细胞状态的快照

虽然理解蓝图至关重要，但它是一幅静态的图画。要真正理解一个城市，你必须观察它的运作：交通的流动、商品的消耗、废物的产生。这是代谢组学的领域。它通过测量糖、氨基酸和脂质等小分子的丰度，为我们提供了细胞经济的动态快照。它问的不是细胞能做什么（基因组学），而是它正在做什么。

考虑一个工业生物反应器，这是一个巨大的容器，里面用工程细菌生产胰岛素等救命药物。如果污染物进入了怎么办？关闭所有设备代价高昂。相反，可以从培养基中取样并分析其化学成分。每一种细菌菌株，由于其独特的代谢线路，都会消耗和排泄一组独特的分子。这种消耗和排泄的模式创造了一种独特的“代谢指纹”。通过将污染物的指纹与已知细菌的文库进行比较，可以在几小时内而不是几天内识别出它。同样的原理正在彻底改变医学，研究人员发现像癌症和糖尿病这样的疾病也会在我们的血液中留下可识别的代谢指纹，预示着一个快速、无创诊断的未来。

逆向工程自然：“组学”在医学中的革命

在历史的大部分时间里，开发新药和疫苗是一个需要艰苦观察、并且常常全凭运气的过程。我们会发现一种有效的化合物，然后花上数年时间去弄清楚它为什么有效。“组学”使我们能够将这个过程颠倒过来。我们不再是在黑暗中摸索，而是可以从对敌人——病原体——的完全理解开始，并理性地设计我们的攻击方案。

这一点在“反向疫苗学”领域表现得最为清晰。制造疫苗的传统方法是获取病原体，将其杀死或减弱毒力，然后注射，希望免疫系统能学会识别它。为了找到病原体的特定部分用作疫苗（即“亚单位”疫苗），科学家们必须筛选成千上万个分子，看免疫系统对哪些有反应。这对于像Leishmania这样的细胞内寄生虫尤其困难，因为其保护性免疫依赖于特定类型的T细胞反应，而不仅仅是那些最容易测量的抗体。

反向疫苗学不是从湿实验室开始，而是从计算机上的病原体基因组序列开始。生物信息学算法扫描病原体的所有基因，预测哪些蛋白质可能位于其表面，从而能被宿主免疫系统接触到。它们可以筛选掉那些看起来与我们自身蛋白质太相似的蛋白质（以避免自身免疫反应），甚至可以预测哪些蛋白质片段在刺激那至关重要的T细胞反应方面最为有效。这种in silico分析产生了一个简短、可管理的最佳候选疫苗列表，以供合成和测试。这是从盲目搜索到靶向工程的转变，这一策略已经产生了拯救生命的疫苗，并正在改变我们与寄生虫病的斗争。

身体的交响乐：整合“组学”管弦乐队

最深刻的见解并非来自单一乐器，而是来自整个管弦乐队的和谐演奏。“组学”的真正力量在于我们将它们整合起来，创造一个整体的、多层次的生物学视图。这种方法，通常被称为“系统生物学”，使我们能够追踪一个信号在细胞各层级联传递的过程。

让我们回到我们的肠道，这里是数万亿微生物的家园，它们形成了一个复杂的生态系统。这个微生物组如何影响我们服用的药物？要回答这个问题，我们需要整个“组学”管弦乐队。

16S rRNA测序告诉我们谁在那里——一份微生物物种的普查。这就像知道你的管弦乐队里有小提琴、大提琴和喇叭。
宏基因组学对所有DNA进行测序，揭示了群落的全部遗传潜能。这就像拥有了每个音乐家的完整乐谱库。它告诉你他们能演奏什么。
宏转录组学和宏蛋白质组学告诉我们实际上正在表达什么——哪些乐谱正在被阅读，哪些乐器正在被演奏。这衡量了执行某种功能的能力。
代谢组学，通过测量药物及其副产品，告诉我们实际上正在演奏什么音乐。它衡量的是实时的活动或通量。

这种从潜能到能力再到活动的层级视图非常强大。它解释了为什么两个肠道微生物相似（16S）的人可能会以不同方式代谢一种药物；也许在其中一个人体内，关键基因根本没有被开启。同样的逻辑正在帮助我们解开像肠-脑轴这样极其复杂的谜题，其中微生物基因（ $G$ ）编码的酶（ $P$ ）产生的代谢物（ $M$ ）可以到达大脑并影响我们的情绪和健康。

通过增加时间维度，这种整合方法变得更加强大。在一项里程碑式的系统免疫学研究中，研究人员可以追踪对不同疫苗长达数周的反应。对于流感疫苗，第一天强烈的、早期的干扰素基因转录爆发，有力地预测了一个月后强健的抗体反应。对于一种HIV候选疫苗，这种早期信号缺失且无信息价值；相反，免疫“训练中心”（生发中心）的持续活动特征更为相关。对于结核病疫苗，关键特征是免疫细胞中深刻的代谢重编程。每种疫苗都会引发一个不同的免疫学故事，一曲独特的交响乐，只有同时倾听所有“组学”乐器才能听到。

从抽象数据到具体地图：空间前沿

直到最近，大多数“组学”技术都需要将一块组织磨成“分子汤”。我们得到了一个全面的成分列表，但失去了所有关于它们来源位置的信息。在生物学中，位置决定一切。肝细胞和神经元拥有相同的基因组，但它们的功能是由其环境及其在组织结构中的位置决定的。

进入下一场革命：空间转录组学。这项非凡的技术使我们能够不是在汤里，而是在一块完整组织切片的微小斑点网格上测量基因表达。在测量每个斑点的RNA后，我们可以将这些分子数据叠加到同一组织的高分辨率显微镜图像上。突然之间，我们可以看到哪些基因在肿瘤核心与侵袭边缘是活跃的，或者在一个健康区域与炎症部位是活跃的。我们正在为组织构建一个“谷歌地图”，在这里我们可以从一个器官放大到一个细胞邻域，并看到当地遗传活动的完整读出。这正在将有百年历史的组织学——研究组织结构的学科——与前沿的基因组学世界连接起来，创造出一种前所未有的、在其原生环境中的生物学视图。

从知识到行动：通往临床及更远的路

最终，这项宏伟努力的目标是改善人类健康并加深我们对生命的基本理解。但是，我们如何将一个在“组学”数据集中发现的有趣相关性转化为可靠的临床工具呢？这条道路是用科学的严谨性铺就的。在一组患者中发现两组疾病状态下的一组宿主基因有所不同是不够的。一个真正有用的生物标志物必须在一个完全独立的患者队列中得到验证，证明其灵敏度和特异性，然后才能在临床环境中被信任。这个严格的过程将短暂的发现与稳健的诊断工具区分开来。

此外，一个包含一千个差异表达基因的列表往往弊大于利。为了理解这种复杂性，我们需要见微知著。新的计算方法使我们能够将基因分组为通路和生物过程。我们不再追踪成千上万个单个基因“士兵”，而是可以追踪整个“排”的活动——DNA修复排、能量生产排、生长排。这种通路水平的视角为我们提供了关于疾病潜在变化的更易于解释和更稳健的图景。

这把我们带到了驱动现代生物学的那个宏伟而美丽的循环中。借助“组学”，我们实践系统生物学：我们分析现有的生命以创建一个“零件清单”并发现设计规则。这些知识反过来又推动了合成生物学领域的发展，在该领域我们基于那个零件清单和那些规则来合成新的生物回路和系统。当我们的合成创造物没有按预期表现时——这常常发生——这种失败揭示了我们理解上的差距，一个缺失的零件或一个未知的规则。这又将我们带回分析阶段，推动新的系统生物学研究来完善我们的模型。这种在拆解生命以理解它和组装生命以检验该理解之间的优雅互动，是一个新生物学时代的引擎——在这个时代，我们不仅是生命之书的读者，而且有史以来第一次，开始在其书页上书写。