分子图谱

玻尔百科

核心要点

分子图谱提供了一张高分辨率的基因表达空间地图，逐个细胞地揭示了整个组织中哪些基因是活跃的。
这些图谱的创建依赖于两种主要的空间转录组学策略：基于捕获的方法用于获得广泛的全转录组视图，而基于成像的方法则用于高分辨率的靶向分析。
分子图谱可作为基础参考或“生物学GPS”，有助于发育研究、疾病诊断以及跨科学领域的数据整合。
在计算上，这些图谱被用于从混合信号中反卷积细胞类型，并将不同类型的生物数据配准到同一个坐标系中。

引言

几十年来，基因组学通过测序基因组为生命提供了一份卓越的“零件清单”。然而，知道存在哪些零件与理解它们如何组装成一个功能性有机体是两码事。传统方法能告诉我们组织中哪些基因是活跃的，但无法告诉我们它们在哪里活跃，这在我们的知识中留下了一个关键的空白。一份简单的基因清单并非蓝图。分子图谱通过创建一张高分辨率地图来应对这一根本性挑战，该地图能逐个细胞地精确定位基因活动，从而提供了理解生物学功能至关重要的空间背景。

本文将探索分子图谱的世界。首先，我们将深入探讨“原理与机制”，审视那些为每个分子分配“邮政编码”的巧妙技术，以及不同绘图策略之间的基本权衡。随后，“应用与跨学科关联”部分将展示这些详细的蓝图如何被用于绘制发育图谱、理解疾病，并在遗传学、神经科学和进化生物学等领域之间建立强大的联系，从而改变我们解读生命语言的能力。

原理与机制

想象一下，你有一份制造汽车所需全部零件的完整清单——发动机缸体、活塞、火花塞、车轮。这份清单就像基因组，是生物体拥有的所有基因的库存。现在，再想象一下，你还统计了某一天某个特定工厂使用的每一个零件的数量。这就像传统的RNA测序实验；它告诉你哪些基因是活跃的以及活跃程度，但完全没有告诉你它们在哪里。火花塞是正在安装到发动机里，还是存放在仓库里？用于座椅的皮革是在内饰车间，还是被错误地送到了喷漆房？要了解工厂实际上如何运作，你需要的不仅仅是一份简单的库存清单，你需要一张蓝图。你需要知道所有零件的空间组织。

分子图谱正是生物组织的这样一张蓝图。它是一张地图，能逐个细胞地告诉我们，在整个器官的景观中，哪些基因被开启。但是，你究竟是如何创建这样一张地图的呢？你如何给像信使RNA（mRNA）这样转瞬即逝且微小无比的分子贴上“邮政编码”？这是现代生物学中最巧妙的挑战之一，其解决方案是化学、工程学、物理学和计算机科学的完美融合。

探寻分子邮政编码

大多数空间转录组学方法背后的核心技巧是空间条形码。把它想象成一个独特的地址标签。如果我们能根据每个mRNA分子的来源位置，为其附上一个独特的地址标签，那么我们就可以收集所有这些分子，读取它们自身的序列（以了解它是哪个基因）和附带的地址标签（以了解它来自哪里），然后通过计算重建出这张地图。该技术的核心在于如何分配这些地址标签。事实证明，有两种宏大的策略可以实现这一点。

两大策略：捕获法与原位法

第一种策略可称为“捕获并标记”。想象一下，将一张分子捕蝇纸铺在你的组织切片上。这张“捕蝇纸”实际上是一块玻璃载玻片或一层微珠床，上面覆盖着数百万个特殊的“捕获探针”。当你轻轻溶解细胞膜时，mRNA分子会漂出并粘附在它们正下方的探针上。巧妙之处在于，每个探针都已包含一个预制好的空间条形码。因此，当一个mRNA分子被捕获时，它就与一个编码特定 $(x, y)$ 坐标的条形码物理连接起来。然后，组织被洗去，载玻片上只剩下带有条形码的转录本。这些转录本被转化为更稳定的互补DNA（cDNA），然后被收集并由DNA测序仪读取。测序仪读出一长串配对：[基因身份，空间条形码]。

在这个基于捕获的家族中，有两种精巧的工程解决方案来制造带条形码的表面：

有序网格： 像10x Genomics的Visium这样的技术使用预制的点阵，非常像城市网格。每个点的位置以及该点上独特的条形码序列都是先验已知的——它们是制造设计的一部分。你只需将你的组织图像与这个已知网格对齐，就能将生物结构与你的数据联系起来。
随机散布： 其他技术，如Slide-seq，则采用不同的方法。它们制造数百万个微珠，每个微珠都携带自己独特的条形码。然后将这些微珠随机撒在载玻片上，形成一层致密、连续的毯子。在这种情况下，条形码到位置的映射是事先未知的。解决方案是在主实验之前执行一个“解码”步骤：科学家使用显微镜和巧妙的多步化学反应，读取载玻片上每一个微珠的条形码，并记录其 $(x, y)$ 位置。这就构建了条形码到坐标的映射 $f: b \mapsto (x, y)$ ，之后便可用它将测序数据放回空间中。

第二大策略则截然不同。我们可以称之为“原位标记”，即 in situ（源自拉丁语，意为“在原始位置”）。这种方法不是让分子漂移到捕获表面，而是将它们化学固定，锁在细胞内的天然位置。然后，科学家派入分子侦探——荧光标记的探针——去寻找并结合特定的mRNA序列。接着，一台高倍显微镜就像一颗卫星，拍摄组织的照片，精确定位每个发光探针的确切位置。

为了同时识别许多不同的基因，像MERFISH或10x的Xenium平台这样的方法，采用了一种组合条形码的形式。在第一轮成像中，它们可能用红光标记基因A和B，用绿光标记基因C和D。然后，它们洗掉这些探针，在第二轮中，用蓝光标记基因A和C，用黄光标记基因B和D。一个在第一轮是红色而在第二轮是蓝色的分子，必然是基因A。通过使用多轮成像和不同的颜色组合，科学家可以唯一地识别成百上千种不同的基因，每种基因都以显微镜的精度进行定位。

在这种基于成像的世界里，空间坐标不是来自载玻片上的合成条形码，而是直接从显微镜视场中荧光点的像素位置测量得出的。

巨大的权衡：基因组学里没有免费的午餐

那么，哪种策略更好呢？正如物理学家Richard Feynman肯定会欣赏的那样，天下没有免费的午餐。每种方法都受到基本物理极限的制约，在分辨率、通量和灵敏度之间形成了经典的工程权衡。

基于捕获的方法（如Visium和Slide-seq）是马拉松选手。它们通常是全转录组的，意味着它们有可能捕获任何活跃的基因，为你提供一个无偏的全景视图。它们还能相对快速地覆盖大面积的组织。然而，它们的致命弱点是分辨率。空间精度受到两个主要因素的限制：捕获点的大小（例如，Visium约为 $55$ 微米，覆盖多个细胞）以及更根本的分子扩散。mRNA分子并不仅仅是垂直下落；在细胞被打开后的短暂瞬间，它们会四处摆动。这种通常在几微米量级的扩散会使信号变得模糊，因为一个转录本可能被距离其起始位置一两个点之外的地方捕获。这使其更像是卫星图像：非常适合看整个国家，但当你试图寻找一辆特定的汽车时就会模糊不清。此外，捕获过程是概率性的；并非每个释放的mRNA分子都会被捕获。你期望在单个捕获点中找到的不同转录本的数量取决于多种因素，如捕获点的面积、局部细胞密度、每个细胞的mRNA分子数量以及整体的捕获效率（ $\eta_{capture}$ ）。

基于成像的方法（如MERFISH和Xenium）是肖像画大师。它们提供令人惊叹的亚细胞分辨率。由于分子被固定在原位，扩散不是问题。分辨率的限制转而来自光学的基本定律——特别是光的衍射极限，它决定了两个发光点之间可分辨的最小距离（通常约为 $200-300$ 纳米）。这不仅让你能看到一个基因在哪个细胞里，还能看到它在细胞的哪个位置。权衡是什么？通量。这些方法是靶向性的，意味着你必须事先决定要寻找哪些基因，并为它们设计特定的探针。你无法用这种方法发现一个全新的基因。更重要的是，它们速度慢。要获取覆盖大块组织所需的多轮高倍率图像可能需要数天时间。这就像拍摄一百万张高分辨率照片来拼凑一幅全景图，而不是只拍一张广角照片。

从平面地图到三维世界

这些令人惊叹的技术通常从单个薄组织切片生成2D地图。但器官是3D的。为了构建一个真正的图谱，科学家们执行一个简单而强大的程序：他们取一个器官，比如说一个胚胎大脑，将它切成数百个连续的、纸一样薄的切片。然后，他们对系列中的每个切片进行空间转录组学分析。通过在计算上将这些2D地图重新堆叠并对齐，他们可以重建整个器官的三维基因表达结构，这很像CT扫描仪通过一系列2D X射线图像构建身体的3D模型。

作为参考的图谱：生物学的GPS

一旦建成，分子图谱不仅仅是一张漂亮的图片。它成为一个标准参考，一个“生物学的谷歌地图”，可以用来导航和解释新的实验。一些最激动人心、计算上最深刻的原理正是在这里发挥作用。

想象一下，你有一个来自新实验的低分辨率空间图，也许是关于患病组织的。你图上的每个点都是许多细胞的混合物。你如何能弄清楚每个点中存在哪些细胞类型？你可以使用高分辨率图谱作为字典。被称为反卷积的计算方法可以处理你点中的混合信号，并通过与参考图谱中纯净的单细胞“特征”进行比较，来估计存在的每种细胞类型的比例。为了稳健地做到这一点，这些算法必须足够聪明，能够校正“批次效应”——即不同实验之间不可避免的技术差异——同时小心地保留真实的生物学信号。例如，一个复杂的模型可能会使用一种像条件变分自编码器（cVAE）这样的技术，来学习一个明确地对样本来源不敏感，但仍能预测所有样本共享的生物学结构的基因表达表示。

图谱还可以作为其他类型数据的坐标系。假设你使用一种名为组织透明化的技术，使整个小鼠大脑变得透明，从而可以对表达特定荧光蛋白的每一个神经元的位置进行成像。你现在有了一个细胞的3D点云。要知道这些细胞是什么类型，你必须将这个新的大脑图像与参考图谱对齐。这是通过一个称为微分同胚配准的过程完成的，这是一种强大的数学技术，可以找到一个平滑、连续的“扭曲”场 ( $\boldsymbol{\phi}$ )，以最佳方式拉伸和挤压你的样本图像，使其与图谱的解剖结构相匹配。

真正美妙的是，这个过程还能告诉我们映射的确定性有多高。配准从来都不是完美的。扭曲的不确定性，由协方差矩阵 $\boldsymbol{\Sigma}(\mathbf{x})$ 表示，意味着你样本中位置 $\mathbf{x}$ 处的一个细胞可能映射到图谱中一个小的可能位置云。如果这个不确定性云完全落在一个定义明确的大脑区域内，你的细胞类型分配就是可信的。但如果这个云跨越了两个区域的边界，该方法可以通过计算所得细胞类型概率的熵，来精确地告诉你这个分配的模糊程度。这种严谨地传播和量化不确定性的能力，是成熟科学仪器的标志，它将我们的分子地图从静态图片转变为用于发现的动态、概率性指南。

应用与跨学科关联

所以，我们已经看到了构建分子图谱的精美而复杂的过程。我们可以取一块组织切片，一个活的或发育中的东西的微小部分，然后生成一张细节惊人的地图，逐个基因地揭示其细胞的秘密生活。这是一项了不起的技术成就。但是，一张地图，无论多么详细，其价值取决于它所能引导的旅程。我们能用这些图谱做什么？我们能探索哪些新世界？

事实证明，分子图谱不仅仅是一张静态的图画；它是一个动态的工具，一种生物学的通用罗塞塔石碑。它使我们能够将基因组的抽象语言——A、T、C和G——翻译成形态、功能、疾病乃至行为的具象语言。在学习了这些地图如何构建的原理之后，我们现在可以踏上探索之旅，看看它们揭示了什么。

绘制生命蓝图

也许分子图谱最直观的应用是在“蓝图”概念最为字面的领域：发育生物学。一个单一的受精卵，一个看似均一的潜力球体，是如何将自己塑造成一个极其复杂的生物，拥有跳动的心脏、能看的眼睛和会飞的翅膀？

几个世纪以来，生物学家通过显微镜观察这一奇迹的展开，描绘细胞和组织不断变化的形态。他们能看到发生了什么，但其底层的指令仍然是隐藏的。有了分子图谱，我们现在可以实时观察蓝图被读取的过程。想象一下我们正在观察一个发育中的鸡胚。分子图谱让我们能精确地看到那些指令神经系统形成的基因，如 Pax6，在何处被开启，从而将新生的外胚层与未来正忙于开启自身基因集（如 T-box）的中胚层区分开来。

我们能做的不仅仅是追踪几个已知基因。我们可以取一个完整的结构，比如Drosophila果蝇的翅成虫盘——这个微小的幼虫组织将来会变成成虫的翅膀——并创建一个完整的空间转录组图谱。在没有任何先验假设的情况下，我们可以让计算机简单地将具有相似基因表达模式的区域分组。就像变魔术一样，计算机将重新发现生物学家们通过数十年遗传实验辛辛苦苦鉴定出的翅膀基本区室。由主调节基因vestigial的高表达所定义的中央翅囊，与周围的背板区分开来，揭示了决定果蝇最终形态的无形分子边界。这是一个意义深远的结果。它表明，我们看到的解剖结构，在很大程度上是底层空间有序的转录程序的下游结果。图谱使这种联系变得明确。

当地图出错时：理解疾病

如果图谱能向我们展示构建一个有机体的正确方式，那么理所当然，它也能向我们展示当指令出错时会发生什么。这就是利用分子图谱理解疾病的核心。

考虑一条天生尾部有缺陷的斑马鱼。基因突变是最终原因，但是DNA中的一个拼写错误是如何导致尾部畸形的呢？通过创建突变体胚胎的分子图谱，并将其与健康的野生型胚胎图谱进行比较，我们可以精确定位突变的具体后果。这个过程包括仔细准备两者的组织切片，在带有空间条形码的载玻片上捕获它们的信使RNA，然后进行测序并将所有信息映射回其原始位置。两个图谱的比较可以揭示，在突变体的发育中尾部，某些基因在错误的位置被开启，而另一些则根本没有开启。图谱将一个神秘的缺陷转变为一张具体的分子错误地图，为理解疾病机制提供了宝贵的指南。

这一原理有力地延伸到人类医学中，特别是在抗击癌症方面。癌症本质上是一种发育蓝图被破坏的疾病。细胞忘记了自己的身份，无视邻居，并根据一套被破坏的遗传指令进行增殖。像“癌症基因组图谱”（The Cancer Genome Atlas）这样的大规模项目，已经从数千名患者的肿瘤中创建了庞大的“错误地图”库。

现在，事情变得非常巧妙了。假设你有一个患有非常罕见癌症的病人，而你的样本太少，无法从头构建一个可靠的预测模型。你能做什么？你可以利用泛癌图谱中包含的知识。使用一种称为“迁移学习”的策略，可以在公共图谱中的数千个肿瘤图谱上预训练一个计算机模型，以学习癌症基因表达的基本模式。这个训练好的模型就成了一个专家级的特征提取器。当它看到你单个病人的基因表达数据时，它可以将那种高维度的复杂性提炼成一个单一的、信息量极高的分数。例如，这个分数可能能够清晰地将对治疗有反应的患者与没有反应的患者区分开来，从而实现仅凭小数据集无法达到的诊断准确性。图谱成为了一个累积知识的基础，新的临床见解可以在此之上快速构建。

作为跨学科枢纽的图谱

分子图谱最令人兴奋的方面之一是它能够充当一座桥梁，连接以往分散的科学领域，并让它们能够相互对话。

以遗传学和神经科学之间的联系为例。一项全基因组关联研究（GWAS）可能会筛选数千人的基因组，并发现一个与复杂性状（如音乐能力）相关的微小遗传变异。这是一种统计相关性，但离生物学解释还有很长的路要走。与该变异相关的基因只是一个名字。它做什么？在这里，人脑的基因表达图谱变得不可或缺。我们可以简单地在地图上查找我们感兴趣的基因。它在大脑中表达吗？如果表达，在哪里？它的表达在负责处理声音的听觉皮层是否特别高？通过进行一个直接的统计检验，我们可以询问该基因在听觉皮层中的表达是否比其他大脑区域显著富集。一个阳性结果提供了一个强有力的、可检验的假设：这个遗传变异可能通过改变对大脑声音处理中心至关重要的基因的功能来影响音乐能力。图谱提供了关键的“位置”信息，将群体水平的遗传发现与细胞水平的功能联系起来。

这种整合可以更深入，旨在实现神经科学的圣杯：将分子、回路与行为联系起来。想象一下一种小型海洋蠕虫 Platynereis dumerilii 的幼虫。这种微小的生物是神经科学家的梦想，它的神经系统非常小，以至于我们已经绘制了每一个神经元以及它们之间每一个突触连接的图谱——即它的“连接组”。我们还有一个完整的分子图谱，告诉我们每个神经元中哪些基因是活跃的。现在我们可以将这两张地图结合起来。我们可以建立一个蠕虫趋光性回路的计算模型，该回路控制它如何游离光线。模型从连接组的“线路”开始，然后利用转录组图谱添加另一层：神经肽信号。一个神经元中特定神经肽基因的表达水平及其在另一个神经元中的受体，可以用来计算一个“调节因子”，该因子动态地增强或减弱它们之间的突触。通过模拟这个集成模型，我们可以预测蠕虫对光刺激的转向反应，从而提供了从基因表达到行为输出的定量联系。这是基因组学、连接组学和计算神经科学的惊人综合。

穿越深邃时间的旅程

最后，分子图谱不仅让我们能够跨越学科，还能穿越广阔的进化时间。动物和植物的身体显然是不同的，它们经过了超过十亿年的独立进化。但是，构建它们的基本原理也完全不同吗？

通过创建并比较来自，比如说，发育中的动物胚胎和植物胚胎的单细胞分子图谱，我们可以进行一种“分子考古学”。简单比较基因表达水平是不够的；基因本身已经变化太多了。最严谨的方法是转向更高层次的抽象。我们不比较单个基因，而是比较“调控子”（regulons）的活动——即由单个主开关转录因子控制的整个基因模块。这些调控程序是发育工具包的核心逻辑。当我们在这一层面上比较图谱时，我们可能会发现惊人的保守性。使用一组特定的主调节因子（如动物中的Homeobox基因或植物中的MADS-box基因）来协调身体蓝图的原则是一种共享策略。通过根据细胞类型共享的调控子活动来对齐它们的发育轨迹，我们可以区分深度保守的发育程序和物种特有的创新，例如网络的重连或其时序的变化（异时性）。

这种比较能力也适用于我们自己的物种。我们可以构建脑类器官的分子图谱——这是在实验室培养皿中由人类干细胞生长出的微型、类脑结构。这些类器官在多大程度上真正模仿了发育中的人脑？通过将类器官的单细胞图谱与来自真实人类胎儿大脑的图谱进行比较，我们可以得到一个定量的答案。一个有原则的分析包括细致地考虑到技术假象，如双细胞（两个细胞被误认为一个）和环境RNA污染，并使用胎儿图谱作为“金标准”来注释类器官中存在的细胞类型。这样的比较使我们能够识别哪些细胞类型被忠实地再现了，哪些缺失了，并评估所形成细胞的成熟度。这种反馈对于完善我们对人类发育和疾病的模型至关重要。

从观察单个胚胎的生长到理解癌症，从破译人类性状的基础到追溯生命逻辑的深远历史，分子图谱的应用与生物学本身一样广阔。它是终极的语境机器，一个为抽象的DNA代码注入空间、功能和进化意义的工具。我们今天正在构建的图谱是一个新的、更综合的生物学发现时代的基础文献。