分子分类

玻尔百科

核心要点

分子分类根据rRNA序列等遗传数据重新定义了生物关系，从而催生了革命性的生命三域系统（细菌域、古菌域、真核域）。
这种方法通过转录组学识别不同的细胞类型，以及发现癌症和朊病毒病等疾病的分子亚型，从而揭示了隐藏的多样性。
在实践中，它使分子流行病学能够精确追踪疾病暴发，并通过将治疗方法与患者独特的肿瘤特征相匹配来指导个性化医疗。
这些原理的应用超出了生物体本身，还可用于对PAMPs、DAMPs和lncRNAs等分子进行功能性分类，为理解生物系统提供了一个通用框架。

引言

数百年来，人类一直试图整理生物世界巨大的多样性，通常依赖于肉眼可见的特征。这种基于可观察性状或形态学的传统方法，就像按书皮的颜色和尺寸来整理图书馆——这是有用的第一步，但完全无法揭示书中的内容。这个系统常常将远亲归为一类，却将近亲分开，掩盖了书写在生命分子中的真实进化故事。分子分类学的发展标志着一个转折点，它提供了一种通用语言，让我们终于能够解读这个遗传故事。

本文将探讨这场科学革命的原理、机制和深远影响。它揭示了分子数据如何提供更准确、更高分辨率的生命图谱，从而填补了传统分类学留下的根本性空白。在两个章节中，您将发现支撑这种新视角的核心概念，并见证其在现实世界中的变革性应用。

首先，我们将深入探讨原理与机制，探索像 Carl Woese 这样的科学家如何利用分子数据重绘整个生命之树，以及转录组学等现代技术如何持续揭示从远古微生物到我们大脑神经元的隐藏多样性。然后，在应用与跨学科联系中，我们将见证这些原理的实际应用，看它们如何解决公共卫生危机、重新定义疾病以实现个性化医疗，并解开最深层的进化奥秘。

原理与机制

想象一下，你是一名图书管理员，任务是整理有史以来最宏伟的图书馆——地球上所有生命的图书馆。几个世纪以来，你的前辈们有一套简单的系统：他们按书的封面进行分类。所有红色的书放在一个书架上，蓝色的书放在另一个书架上。大书在这里，小书在那里。这似乎合乎逻辑，但你很快就会意识到这其实是一片混乱。一本食谱和一本关于量子物理学的书并排放着，仅仅因为它们都是蓝色硬壳的。这个系统完全没有告诉你书里的故事。

长期以来，生物学家就是这样对生命进行分类的。我们关注可观察的性状——生物体的“封面”。它有细胞核吗？它有脊椎吗？它能进行光合作用吗？这给了我们一个可行的系统，比如生命五界，但它常常将毫不相干的物种归为一类，却将近亲分开。那个真实的故事，那段写在生命分子中的进化史，一直未被解读。分子分类的出现，就像发现了一种通用语言，让我们终于能够阅读这些书，而不仅仅是看它们的封面。本章就是关于学习阅读这种语言。

从形态到亲缘：一场视觉革命

旧的观察方式将所有没有细胞核的生物都归入一个庞大的界，称为原核生物界（Monera）。它们是“原核生物”——那些简单的生物。这是一个简洁的分类，但却大错特错。革命发生在20世纪70年代，由一位名叫 Carl Woese 的生物学家引发，他找到了一种方法来解读生命图书馆中最古老的文本之一：编码核糖体RNA（rRNA）的基因。

为什么是这个特定的基因？可以把它想象成一个分子计时器。核糖体是细胞的蛋白质工厂，对所有已知的细胞生命都至关重要，所以每个生物体都有rRNA。它的功能极其关键，因此在进化过程中变化非常非常缓慢。通过比较不同生物的rRNA序列，我们可以计算出差异——即亿万年来积累的分子“拼写错误”——并用这个数字来衡量它们在多久以前拥有共同的祖先。差异越多，意味着亲缘关系越远。

当 Woese 应用这项技术时，结果颠覆了旧的分类体系。原核生物界中的生物，曾被认为是一个单一、统一的群体，结果分裂成了两个完全不同且分歧深远的群体。这两个群体之间的遗传鸿沟，与它们中任何一个与真核生物（比如我们）之间的鸿沟一样巨大。这是一场概念上的地震：“原核生物”不是一个家族。它们是两个古老的帝国，即细菌（Bacteria）和古菌（Archaea）。基于这一分子证据，Woese 提出了一个新的、更高的分类等级：域（domain）。所有生命被重新划分为一个三域系统：细菌域、古菌域和真核域。

更令人震惊的是浮现出的家族图谱。分析显示，我们所属的真核域（Eukarya）与古菌域（Archaea）共享一个比与细菌域（Bacteria）更近的共同祖先。在宏大的生命故事中，那些看起来简单的古菌——许多生活在温泉和盐湖等极端环境中——反而是我们更近的进化表亲。没有细胞核这一曾被用来将细菌和古菌归为一类的特征，并非特殊关系的标志，而是它们二者从一个更古老的祖先那里共同保留下来的一个古老特征。

这就引出了现代分类学或称支序分类学（cladistics）的一个关键原则：有效的类群必须是单系群（monophyletic），意味着它们包含一个共同祖先及其所有后代。可以把它想象成一张包括了祖父母以及他们所有子女和孙辈的全家福。“原核生物”这个旧的类群就是我们所说的并系群（paraphyletic）——这就像一张祖父母的全家福，但照片中缺少了他们的一部分后代（在这里就是真核生物）。由于它不能代表生命之树上一个完整的自然分支，“原核生物”这个术语现在被认为是一个非正式的描述，而不是一个有效的分类学群组。

这一原则不仅用于重绘整个生命之树，它还指导着生物学家的日常工作。当一位科学家根据新的DNA证据，提议将一种甲虫从 Spectroxylon 属移至 Phanocerus 属时，他们正在做出一个深刻的声明。他们是在说，我们先前基于甲虫外观的分类是具有误导性的。甲虫写在其基因中的真实故事揭示了，它与 Phanocerus 属中的物种共享一个更近的共同祖先。分类系统正在被更新，以更好地反映其实际的进化历史。

分子显微镜：解析生命隐藏的多样性

分子分类的力量远不止于修正旧的生命地图。它就像从放大镜升级到高倍显微镜，揭示了一个前所未见的隐藏多样性世界。

以人脑为例，这是一个由数十亿神经元组成的网络。一个多世纪以来，神经科学家根据神经元美丽而复杂的形状或形态对其进行分类——单极、双极、多极。但如果两个神经元看起来一模一样，具有完全相同的分支模式，却在神经回路中执行完全不同的工作呢？仅凭形态学无法将它们区分开来。

于是转录组学（transcriptomics）应运而生，这是一门研究细胞在特定时刻产生的所有RNA分子的学科。这个图谱，即细胞的转录组（transcriptome），直接反映了哪些基因是活跃的。它是细胞身份和意图的快照。通过根据转录组对神经元进行分类，科学家们发现了惊人多样的、以前不可见的细胞类型。两个形态上无法区分的神经元可能表达完全不同的神经递质、受体和离子通道基因集，注定它们扮演完全不同的功能角色。转录组分析提供了一种分辨率高得多的分类方法，能够识别出数百种不同的神经元亚型，而形态学只能区分少数几种。这就是分子分类的力量：不仅根据事物的表象来定义它们，更是在最根本的层面上根据它们是什么以及它们做什么来定义。

通用工具箱：分类对象不止于生物

分子分类的原则如此强大，以至于其应用远远超出了整理生命之树的范畴。这是一种普适的思维方式，使我们能够根据各种生物实体（从危险信号到遗传错误）的分子性质对其进行分类。

让我们看看免疫系统。其基本工作是区分“自我”与“非我”，或“安全”与“危险”。它通过分子分类来实现这一点。它将某些分子识别为危险信号。但什么使一个分子成为危险信号呢？是它的来源。

病原体相关分子模式（PAMP）是一种属于微生物但不属于我们自身细胞的分子。细菌鞭毛蛋白（Bacterial flagellin），构成细菌尾部的蛋白质，就是一个典型的PAMP。我们的身体知道我们不制造这种蛋白，所以它的出现意味着“入侵者”。
损伤相关分子模式（DAMP）是我们自己的分子，但它出现在了错误的地方。细胞外三磷酸腺苷（ATP）是完美的例子。ATP是细胞的能量货币，通常在健康细胞内部以高浓度存在。如果免疫系统在细胞外部检测到大量的ATP，这是一个明确的信号，表明有细胞破裂了——这是损伤或疾病的迹象。

在这里，划分为PAMP或DAMP并非基于生物体的进化史，而是基于信号本身的分子来源。这是一个对我们生存至关重要的、优美而功能性的分类方案。

我们甚至可以用这种方式对我们自己细胞内的分子进行分类。我们的基因组中充满了产生长链非编码RNA（lncRNAs）的基因，这些分子负责调控其他基因，而不是自身变成蛋白质。我们如何理解它们多样的作用呢？一种方法是根据它们的表达模式进行分类。管家lncRNA就像医院走廊的灯——永远亮着，为基本的细胞维持所必需。相比之下，信号lncRNA则像火警警报。在没有特定触发因素（如细菌感染）的情况下，其水平几乎为零；一旦触发，其表达量就会急剧上升，帮助协调细胞的防御反应。

当我们对基因突变进行分类时，这种分层方法或许最为清晰。我们可以对同一个事件应用两种正交的分类方案：

分子分类：DNA序列在物理上发生了什么变化？一个碱基被另一个碱基替换（substituted）了吗？是否有碱基被插入（inserted）或删除（deleted）？这是一种纯粹的结构描述。
功能分类：对蛋白质造成了什么后果？碱基替换可能是同义突变（synonymous）（不改变氨基酸）、错义突变（missense）（改变了氨基酸），或无义突变（nonsense）（产生了过早的终止信号）。插入一个或两个碱基将导致移码突变（frameshift），使下游整个信息变得混乱；而精确删除三个碱基则会导致一个单一氨基酸的干净的框内缺失（in-frame deletion）。

通过同时使用这两种方案，我们能得到一幅完整的图景。“无义突变”是功能上的后果，它是由“碱基替换”这一分子事件引起的。

剥洋葱：更优的分类如何揭示更深的真理

有时，分子层面的重新分类不仅仅是增加细节，它能揭示一个全新的现实层面。嘌呤能受体的故事就是这一过程的经典案例。

最初，科学家注意到细胞会对一类称为嘌呤的分子做出反应。他们根据药理学反应对受体进行分类。偏好腺苷分子的受体被称为 $P_1$ 受体。对ATP和ADP有反应的受体被称为 $P_2$ 受体。这是一种有用的功能性分类。

但随着我们的分子工具的改进，我们最终能够分离出这些受体的基因，并看清它们的真实面目。图景变得更加丰富和清晰。

$P_1$ 受体确实是腺苷的单一G蛋白偶联受体（GPCRs）家族。旧的分类完全站得住脚。
然而， $P_2$ 类别原来是两种完全不同类型蛋白质的混合体。一些是 $P_2X$ 受体，它们是配体门控离子通道。ATP结合后，一个通道打开，引起快速的电反应。另一些是 $P_2Y$ 受体，这是一个独立的GPCR家族，像 $P_1$ 受体一样，在细胞内启动一个较慢的生化信号级联反应。

分子分类不仅仅是增加了名称，它解释了机制。它解释了为什么一些ATP反应快如闪电（直接的通道开放），而另一些则很慢（多步信号级联）。它甚至解释了为什么一些“P2”受体对像UTP这样的嘧啶类分子有反应，而这些分子甚至不是嘌呤——因为 $P_2Y$ 家族的GPCRs恰好进化出了这种能力，这是一个被最初基于药理学的方案所掩盖的事实。通过从功能性分类转向结构性分子分类，我们剥开了洋葱的一层，从而在更深的层次上理解了该系统。

生命之树的边缘：病毒之谜

基于分子和祖先的分类系统对于细胞生命来说非常有效，因为所有细胞生命都源于一个共同的根——最后的普遍共同祖先（LUCA）。整个系统建立在一个假设之上，即一个通过垂直遗传（亲代到子代）连接的分支树。但病毒呢？

病毒是对这种世界观的终极挑战。它们不像树上一个不羁的分支，更像是花园里各处独立发芽并缠绕在每个树枝上的藤蔓。核心冲突是根本性的：

多系起源（Polyphyletic Origins）：没有证据表明所有病毒都有一个单一的共同祖先。强有力的证据表明，不同类型的病毒是多次、独立地起源的。有些可能来自退化的细胞，有些则是逃逸的细胞遗传物质片段。试图将它们强行归入一个单系树，就像坚持认为所有会飞的生物——鸟类、蝙蝠和黄蜂——都源自一个单一的“飞行祖先”。这违背了支序分类学的核心假设。
水平基因转移（Horizontal Gene Transfer）：病毒不仅仅是垂直地传递它们的基因。它们的存在完全依赖于入侵宿主细胞并劫持其机制。在这个过程中，它们是水平基因转移的大师，从宿主那里窃取基因，并与其他病毒交换基因。它们的基因组通常是马赛克，是由具有截然不同进化历史的基因拼接而成的。这种猖獗的基因交换将生命之树整齐的分支变成了一个纠缠不清的网状结构，使得简单的遗传历史无法追溯。

对病毒分类的挣扎并不代表分子分类的失败。相反，它精美地阐明了其基本原理和假设。它提醒我们，我们的模型是地图，为分支河流系统设计的地图可能不是绘制汹涌海洋的正确工具。生命的图书馆不仅包含代代相传的有序卷册，还包括小册子、被盗的书页和拼凑起来的宣言，它们都在讲述自己独特的进化故事。理解它们的持续探索，正是使生物学成为一场永恒激动人心的发现之旅的原因。

应用与跨学科联系

一项新的科学原理就像一种新的感官。它不仅仅为我们的知识库增添一个事实，它改变了我们看待世界的方式。在探讨了分子分类的原理之后，我们现在可以将这种新的“感官”投向世界，看看它能揭示什么秘密。我们会发现它的力量并不局限于某个狭窄的领域。相反，它像一把万能钥匙，在公共卫生、临床医学和宏大的进化研究等截然不同的学科中打开一扇扇大门。让我们从一个可以从侦探小说中取材的故事开始我们的旅程。

分子侦探的工具箱

想象一场公共卫生危机。人们正在生病，我们需要知道原因和来源。这就是分子分类成为强大侦探工具箱的用武之地。其核心是“分子指纹”的概念——为病原体生成一个独特、高分辨率的遗传特征。

考虑一个学生患上沙门氏菌病的案例。潜在的感染源名单非常庞大。但是，如果我们从该学生身上提取*沙门氏菌*样本，再从其宠物蛇的栖息地提取另一个样本，然后发现它们的分子指纹不仅相似，而且无法区分呢？如果公共卫生数据库显示这种特定的指纹极为罕见呢？巧合的可能性就急剧下降。我们已经找到了我们的“确凿证据”，在宠物和疾病之间建立了一个清晰、可能的联系。

同样的原则可以扩大规模来解决更大的谜团。当食源性疾病在几个州爆发时，调查人员面临着一项艰巨的任务。通过对来自患者和可疑食品生产设施的病原体进行全基因组测序，他们可以极其精确地比较遗传密码。如果来自患者的分离株与来自某个特定家禽加工厂的分离株几乎完全相同，那么疫情的源头就被确定了。这不再是猜测，而是由数据得出的结论。为了在全国范围内实现这一点，像美国疾控中心（CDC）的PulseNet这样的网络被建立起来。通过确保全国每个公共卫生实验室都使用标准化的“标尺”——一种一致的DNA指纹分析方法——他们的结果变得具有可比性。纽约、佛罗里达和德克萨斯州看似无关的李斯特菌病病例可以上传到中央数据库，如果指纹匹配，它们就会被揭示为源自同一公共源头的、分布广泛的单一疫情的一部分。这就像在国家的不同角落找到拼图碎片，然后发现它们共同构成了一幅完整而惊人的画面。

这些分子指纹讲述的故事可以更加细致入微。毕竟，病原体不是静态实体；它们在进化。在对一家长期护理机构中的多重耐药酵母*耳道假丝酵母（Candida auris）*的调查中，分子分型可能会揭示一个有趣的种群结构。我们可能会发现一个由相同菌株组成的主要集群，代表了主要的暴发。但我们也可能发现第二个较小的集群，其指纹略有不同，仅在少数几个标记上存在差异。这是微进化的标志——原始菌株在机构内从一个病人传播到另一个病人的过程中发生突变。与此同时，一名最近从另一家医院转来的病人可能携带一种指纹完全不同的菌株，代表着一次独立的、不相关的引入。因此，分子分类不仅提供了一个静态的快照，更提供了一幅微型流行病的动态画面，同时捕捉到了传播、进化和输入。

从病原体到患者：重新定义疾病

这种强大的分类镜头也可以向内转，从入侵的病原体转向患者和疾病本身的性质。几个世纪以来，我们根据疾病的症状或其影响的器官来对疾病进行分类。“结直肠癌”就是“结直肠癌”。分子分类打破了这些单一的类别，揭示了我们以为我们了解的疾病，实际上是不同分子实体的集合。

想象一下，对数百名被诊断为相同综合征的患者的基因表达谱应用无监督学习算法。这样的分析可能会将患者分为三个不同的集群，其依据不是他们的症状，而是他们细胞中哪些基因被上调或下调。这表明该综合征存在三种不同的“分子亚型”。这些新类别对于预后和治疗来说，往往比旧类别更有意义。

这些新的分类可以基于多种分子信号。有时，关键信息不在DNA序列本身，而在于其表观遗传修饰——即告诉细胞该读取哪些基因的化学标签。在结直肠癌中，一些肿瘤表现出“CpG岛甲基化表型”（CIMP），其特征是广泛的、异常的DNA甲基化，从而沉默了关键基因。通过检测一组特定基因启动子的甲基化情况，可以将肿瘤分类为CIMP阳性，这一指定具有重要的临床意义。在这里，我们不是根据疾病的遗传密码来分类，而是根据该密码如何被调控来分类。

也许最微妙、最优雅的例子来自朊病毒病的世界，例如散发性克雅氏病（sCJD）。在这些毁灭性的神经退行性疾病中，罪魁祸首是宿主自身的朊病毒蛋白，它错误折叠成一种有毒的、具传染性的形状。基因是正常的，氨基酸序列是正确的——唯一错误的是蛋白质的构象。令人难以置信的是，这种形状上的差异可以被分类。当错误折叠的蛋白用消化它的酶处理时，不同的构象会留下大小略有不同的抗蛋白酶核心。一个质量约为 $21$ 千道尔顿（ $21$ kDa）的核心片段定义了1型sCJD，而一个稍小的 $19$ kDa核心则定义了2型sCJD。这个在简单凝胶上揭示的微小分子量差异，区分了两种可能具有不同临床进展的疾病亚型。这是一个基于单个分子几何形状对疾病进行分类的惊人例子。

回报：个性化医疗

为分类而分类是优雅的，但为治愈而分类则是革命性的。一旦我们能以如此高的分子精度细分疾病，下一个合乎逻辑的步骤就是针对这些特定的亚型量身定制治疗方案。这就是个性化医疗的前景。

没有比使用患者来源的肿瘤类器官（PDTOs）更能说明这一点的应用了。想象一下，从患者的癌症中取一小块活检组织，在实验室中将其培育成三维的“类器官”——一个微型的、活生生的、代表该患者特定肿瘤的化身。第一步是扩增这种培养物。下一个关键步骤是应用我们的分子分类工具：我们对其基因组和转录组进行测序，以创建一个详细的分子画像。它是否在像KRAS这样的基因中带有特定的突变？某个特定的生长通路是否失控？有了这些信息，我们就可以智能地选择一组旨在靶向这些特定脆弱性的药物。然后，我们用这些不同的药物处理大量的微小类器官，并测量哪些药物在杀死癌细胞方面最有效。结果是为患者提供一个个性化的、基于机制的治疗建议——一场“培养皿中的临床试验”，这是由发育生物学、基因组学和分子分类的融合所实现的。

更深远的视角：揭示生命的历史

分子分类的影响力超越了人类的生命周期，使我们能够探索广阔的进化时间。它是我们用来解读用DNA语言书写的生命历史的最强大工具之一。

思考一下肢体消失的进化之谜。许多谱系，如蛇和各种蜥蜴群体，都独立地从四足祖先进化为无肢形态。进化每次都用同样的方式解决这个问题吗？乍一看，似乎是这样。在许多情况下，肢体的消失可以追溯到同一个基因开关的失活——一个名为ZRS的调控元件，它在发育中的肢芽中控制着Sonic Hedgehog基因。这似乎是一个平行进化的教科书式案例。

然而，更深层次的分子分类揭示了一个不同的故事。在一个蛇的谱系中，ZRS可能因为一次大的删除而失活，这次删除移除了它的整个核心区域。而在一个独立进化的无肢蜥蜴谱系中，ZRS的失活机制可能完全不同：通过在整个元件中缓慢积累许多微小的点突变。尽管目标是同一个基因开关，但破坏它的具体分子事件却根本不同。基于这些独特的分子变化，我们会将其归类为遗传水平上的趋同进化——两个谱系通过不同的分子路径达到了相同的表型终点。这种深刻的见解只有通过对突变本身的分类才能实现。

这将我们带到了最根本的层面。如果我们仅仅对基因组中自发产生的突变类型进行分类会怎样？单碱基替换主要有两类：转换（一个嘌呤变为另一个嘌呤，如 $A \leftrightarrow G$ ，或一个嘧啶变为另一个嘧啶，如 $C \leftrightarrow T$ ）和颠换（一个嘌呤变为一个嘧啶，反之亦然）。仅仅通过计算可能的结果数量，如果所有突变都是随机的，你期望颠换的数量是转换的两倍，即比率（ $R_{\mathrm{ti/tv}}$ ）为 $0.5$ 。然而，当我们对基因组进行测序并计算突变时，我们发现情况恰恰相反。观察到的比率几乎总是大于 $1$ ，通常为 $2$ 或更高，这表明存在强烈的“转换偏好”。这种简单的分类行为揭示了一个深刻的真理：突变并非盲目的随机游走。它受到化学定律（例如，胞嘧啶脱氨基变为胸腺嘧啶，这是一种转换）和DNA修复酶复杂监视机制的影响，这些酶在修复某些类型的错误方面比其他类型更有效。