依节解牛：分类的科学

玻尔百科

关键要点

有效的科学分类优先考虑共同祖先（同源性），而非表面相似性（同功性），以最大限度地提高预测能力。
最佳的分类系统取决于所要回答的问题，通常需要多个独立的（正交的）系统才能获得全面的理解。
严谨的分类遵循严格的规则，例如形成单系群和使用明确的名称，以确保清晰度和逻辑一致性。
分类是一种通用的工具，应用于各个学科，从生物学中对蛋白质和病毒的分类，到化学中对材料的分类，再到物理学中对一方程的分类。

引言

从整理书架到构建庞大的生命之树，分类行为是人类与科学的一项基本活动。它为混乱赋予秩序，让我们能够交流复杂的思想，并预测未知事物的属性。然而，要超越简单、直观的归类，创建具有真正科学力量的系统，需要一套更深层次的原则。本文将探讨我们如何对世界进行分类背后的科学，阐述从依据表面外观进行归类，到依据内在结构和演化历史进行分类这一关键转变。第一章“原则与机制”将深入探讨支配稳健分类系统的规则，对比同功与同源，并探索系统发育思维的巨大预测能力。紧随其后，“应用与跨学科联系”一章将展示这些原则的实际应用，揭示分类如何在微生物学、化学、物理学乃至传统生态知识等不同领域提供关键见解。

原则与机制

归类的诱惑

作为人类，我们有种根深蒂固的冲动去归类事物。我们把书按类型放到书架上，把工具按功能放到工具箱里，把衣服按种类放到衣柜里。为什么？因为分类为混乱带来秩序。它让我们能够理解复杂的世界，高效地沟通，最重要的是，做出预测。如果我告诉你我看到了一只“鸟”，你马上就能知道很多信息——它可能有羽毛、翅膀，并且会飞——而无需我描述每一个细节。

同样的冲动也驱动着科学。但正如我们将看到的，我们选择的归类方式可能会引导我们走向截然不同的理解之路。

想象一下，你是一位18世纪的博物学家，第一次遇到一只藤壶。它附着在岩石上，被封闭在坚硬的石灰质外壳里，似乎除了待在那里什么也不做。无论从哪个角度看，它都像一只软体动物，或许是你已经知道的帽贝和牡蛎的亲戚。于是，它被放进了“软体动物”的盒子里。这是通过同功性（analogy）进行分类——根据表面的相似性或相似的功能将事物分组。这很简单、直观，也常常是我们采取的第一步。但这是最深刻的方法吗？事实证明，藤壶隐藏着一个秘密，这个秘密将挑战整个思维方式。

更深层的秩序

依据表面所见进行分类的问题在于，自然界充满了骗子和伪装大师。藤壶的秘密并非在其成年形态中揭示，而是在其幼年时期。藤壶的幼体是一种自由游动的生物，长着有关节的腿，看起来与小螃蟹或小虾的幼体一模一样。成年藤壶那种固着、带壳的生存方式只是一种巧妙的适应；其基本身体构造，其本质，是甲壳类动物。

这一发现——深层的内在关系可能被外表所掩盖——引发了一场我们看待世界方式的革命。我们开始理解，最强大的分类系统并非基于事物看起来像什么，而是基于它们共同的历史。我们不仅仅是在归类，我们是在重建一棵家族树。

这段思想历程在微生物学的历史中得到了完美的体现。当 Antony van Leeuwenhoek 在17世纪第一次通过他的显微镜观察时，他看到了一个充满微小、移动生物的世界。他把它们都称为“animalcules”，即微型动物。这是一个完全合理的分类；他根据它们共有的一个明显特征——微小——将它们归为一类。

但快进300年。分子生物学家 Carl Woese 不仅仅是观察这些微生物，他决定去解读它们的遗传蓝图，特别是它们核糖体RNA（ $rRNA$ ）的序列，这是细胞机器的核心组成部分。他的发现令人震惊。Leeuwenhoek 的“微型动物”根本不是一个群体。它们分属于三个巨大且根本不同的生命域：细菌（Bacteria）、古菌（Archaea）和真核生物（Eukarya，我们属于此类）。在显微镜下看起来可能一模一样的细菌和古菌，它们之间的遗传鸿沟比蘑菇和大象之间的还要深。将它们归为一类的表面相似性，几个世纪以来都是一种幻象，掩盖了深刻的演化鸿沟。

这种从按外表归类到按系统发育（phylogeny）——即从共同祖先演化而来的历史——进行归类的转变，是现代生物学的基石。我们根据同源性（homology）来组织生物体：即从共同祖先那里继承来的共同特征，比如人臂和鲸鳍的骨骼结构。藤壶的幼体阶段是将其与螃蟹联系起来的同源性状，而其坚硬的外壳则是使其看起来像软体动物的同功性状。一个系统发育分类系统会优先考虑同源性而非同功性。

谱系的预测能力

你可能会问：“那又怎样？为什么一棵家族树是比按颜色或栖息地更好的分类方式？”答案是理解科学家为何如此痴迷于此的关键：预测能力。

让我们想象一下，我们在木星的卫星欧罗巴上发现了一个生机勃勃的生态系统。一组科学家建议按生态角色对新生命形式进行分类：“生产者”产生能量，“消费者”吃掉它们，“分解者”分解它们。这当然很有用，能帮助我们模拟能量流动。

但另一组科学家根据这些外星生物的遗传物质构建了一棵系统发育树。这个系统要强大得多。为什么？因为如果你知道一个生物体的最近亲属，你就可以预测它的一整套其他特征——不仅仅是它的食性。你可以对其生物化学、细胞结构、繁殖方式、可能影响它的疾病以及它可能隐藏的其他秘密做出有根据的推测。这是因为所有这些性状都与用于构建这棵树的基因一同被继承下来。

基于生态角色的分类告诉你一个生物体的工作。基于祖先的分类告诉你它的本质。它触及了生命的根本因果结构——“传衍修饰”——这正是它具有如此巨大科学力量的原因。

基本规则

如果要建立这样一个强大的系统，我们必须严谨。科学分类不仅仅是一个松散的集合；它有旨在确保其逻辑性和明确性的规则。

规则1：不可挑三拣四。 我们正式命名的任何类群都必须是单系群（monophyletic）。这意味着它必须包含一个共同祖先及其所有后代。想象一棵系统发育树，其中物种A和B是近亲，物种C是它们俩的远亲。创建一个只包含A和C，却排除B的命名类群，将是一个人为的构造。这就像将一个家庭定义为“你的祖母、你的姨妈和你的远房表亲”，却故意排除了你自己的母亲一样。它不代表家族树上一个完整的、自然的分支。一个单系群就是一个完整的分支，无论大小。

规则2：必须明确无误。 一个名称应该指向一个，且仅指向一个事物。在化学中，这一原则至关重要。考虑分子式为 $B_5H_{11}$ 的分子。我们可以简单地按照标准规则称其为“十一氢化五硼”。问题在于，这个分子式可以描述几种不同的分子，即同分异构体（isomers），它们具有不同的三维笼状结构，因此也具有不同的化学性质。这个简单的名称是模棱两可的。这就是为什么化学家使用结构分类系统的原因。对于 $B_5H_{11}$ ，其名称为arachno-pentaborane(11)。这个前缀 arachno（源自希腊语中的“蜘蛛网”）并不仅仅是华而不实的术语；它精确地描述了分子的笼状结构，明确地将其与任何其他可能的同分异构体区分开来。一个好的分类系统能消除混淆，而不是制造混淆。

为不同任务绘制不同地图

对系统发育的关注可能会让人觉得它是看待世界的唯一正确方式。但这是一个深刻的错误。最好的分类系统是能帮助你回答问题的系统。有时，你需要一张完全不同类型的地图。

想一想你大脑中的一个神经元。一位对它的形状和连接感兴趣的神经解剖学家可能会将其归类为“锥体细胞”。一位对药物如何影响它感兴趣的药理学家可能会将其归类为胆碱能的（cholinergic），因为它使用神经递质乙酰胆碱来发送信号。一位为其在回路中的作用建模的计算神经科学家可能会称其为“快放电中间神经元”。这些标签没有一个是错的。它们只是不同的、正交的（orthogonal）分类系统——切割现实的独立方式，每一种都对特定目的有价值。

这种正交分类的思想在神秘的病毒世界中得到了最精彩的体现。病毒是分类学家的噩梦。它们的起源模糊不清——可能多次出现——而且它们如此频繁地交换基因，以至于追踪一棵清晰的家族树常常是不可能的 [@problem-id:1937274]。国际病毒分类委员会（ICTV）试图创建一个系统发育系统，但这无疑是一项巨大的挑战。

于是巴尔的摩分类法（Baltimore classification）应运而生。由诺贝尔奖得主 David Baltimore 提出，该系统具有优美而实用的简洁性。它完全忽略历史，只问一个问题：“这种病毒如何制造信使RNA（ $mRNA$ ）？”由于所有病毒最终都必须说服宿主细胞的核糖体制造病毒蛋白，而核糖体只读取 $mRNA$ ，这是每个病毒都必须解决的核心问题。根据它们的基因组类型（DNA或RNA，单链或双链）以及它们通向 $mRNA$ 的途径，所有病毒都可以被优雅地分为七个类别之一。

知道一种病毒属于“第IV类”（ $+$ ssRNA）而不是“第VI类”（逆转录病毒），分子生物学家能立即知晓它使用的生物化学策略和它需要的酶。ICTV系统和巴尔的摩系统是两张正交的地图。一张是历史地图；另一张是机制地图。要真正了解病毒，你需要两者兼备。

在边缘处求索

科学最激动人心的部分不是欣赏我们整洁的地图，而是找到它们分崩离析的地方。我们分类系统的边缘是发现发生的地方，是世界告诉我们我们的理解尚不完整的地方。

无结构者： 几十年来，像SCOP和CATH这样的蛋白质分类数据库都建立在一个简单而优雅的前提上：蛋白质的功能由其稳定的、折叠的三维结构决定。这些数据库是这些折叠结构的美丽层级目录。然后，科学家们开始发现内在无序蛋白质（IDPs）——这些功能性、必需的蛋白质在其活性状态下根本没有稳定的折叠结构。它们是动态的、形态多变的集合体。它们无法被归入旧系统，因为它们打破了基本规则。它们不适合任何一个盒子，迫使我们重新绘制蛋白质世界的地图，并承认功能既可以源于秩序，也可以源于无序。
变形者： 更令人困惑的是那些能够采取两种不同稳定折叠的蛋白质。想象一种假设的蛋白质“Chameleonase”，它在未结合状态下类似于“TIM桶”结构，但在执行功能时会重折叠成“Rossmann折叠”结构。我们应该把它归到哪里？这是一个真正的难题。最稳健的解决方案是诉诸于一个更深、更稳定的分类层次：它的演化历史。遗传证据可能明确地将其置于一个由全是TIM桶结构的蛋白质组成的同源超家族（homologous superfamily）中。因此，我们将其与其家族归为一类，并做一个特殊注释：“警告：这个会变形。”我们系统的层级结构提供了一个解决方案；当更表面的层次（结构）变得模棱两可时，最深的层次（祖先）提供了锚点。
决定论的幻觉： 即使在纯粹的数学世界里，也需要我们不断完善我们的分类。考虑一个其运动由方程 $\frac{\mathrm{d}x}{\mathrm{d}t} = f(x)$ 支配的系统。如果定义作用力的函数 $f(x)$ 是光滑且连续的，那么该系统在经典意义上是确定性的：从一个给定的起点，只有一个可能的未来。但如果 $f(x)$ 有一个跳跃，一个不连续点，就像一个开关被拨动或一个有摩擦的表面会发生的情况？支配系统的规则仍然是完全定义的，不包含任何随机性。然而，在系统恰好触及不连续点的瞬间，它可能有多条同样有效的路径可以遵循。演化变得非确定性，不是因为随机性，而是因为确定性定律本身的性质。我们简单的标签“确定性”已不再足够；我们需要一个更细致的概念来捕捉这种奇怪但真实的行为。

归根结底，分类系统不是僵硬的笼子。它们是我们关于现实结构的现行假说。它们是我们为了在广阔、未知的自然领域中航行而绘制的地图。而最大的激动莫过于发现某个东西偏离了地图，以一种敬畏之心，迫使我们重新绘制这个世界。

应用与跨学科联系

在我们上次的讨论中，我们探索了分类的基本原则——依循自然本身的节理来剖析它的艺术与科学。我们看到，分类远不止是简单的归类；它是一个积极的探究过程，一种向世界提问的方式。现在，让我们踏上一段旅程，去看看这个原则的实际应用。我们将从我们自己的厨房走到活细胞的核心，从土著社区的古老智慧走到计算生物学的前沿。在每一个地方，我们都会发现，分类和命名的简单行为，是开启对功能、起源以及世界美丽而隐藏的统一性的更深层次理解的钥匙。

物质世界的语法

让我们从我们周围触手可及的“东西”开始。想一想一块简单的黄油。它是什么？我们可以看到它既不像水那样的简单液体，也不像石头那样的简单固体。物理化学给了我们一套描述这类物质的语法。它会问：什么东西与什么东西混合在一起？在黄油中，微小的水滴（液体）散布在连续的脂肪网络（固体）中。一个液体分散在固体中的系统有一个特定的名称：它是一种凝胶（gel）。这不仅仅是一个标签；这是一个将黄油与果冻甜点和某些类型的化妆品联系起来的概念，因为它们共享这种基本结构。如果角色互换，脂肪滴在水中，我们就会得到一种乳液（emulsion），比如牛奶。通过分类，我们立即理解了这种材料的某些性质和稳定性。

当我们从原子尺度观察物质时，这种分类行为变得更加强大。思考一下矿物完美、晶莹的秩序。晶体学家发现，所有的晶体，无论其化学成分如何，都必须属于七个晶系中的一个。我们如何决定是哪一个？假设一位科学家合成了一种新材料，发现其基本构件——晶胞——具有相等的边长（ $a=b=c$ ）和全是直角（ $\alpha=\beta=\gamma=90^\circ$ ）。有人可能会倾向于查看图表，看到菱方晶系允许 $a=b=c$ ，然后就此打住。但这将是一个错误！这些数据也完美地符合立方晶系的定义。

这里我们遇到了科学分类中的一个深刻规则：最大对称性原则。我们必须始终选择那个意味着最多对称性的分类，因为它是最具体、最具预测性的描述。一个立方体是一种特殊的菱面体，但称其为立方晶系能告诉我们更多关于其性质的信息——它如何与光相互作用，如何解理，其导电性。分类不仅仅是一个标签；它是对物体固有对称性的简明总结。从胶体的日常世界到晶体的原子精度，分类将一长串属性转变为一个理解的框架。

生命的逻辑

现在，让我们转向所有分类挑战中最伟大的一个：生命世界。生命的多样性如此巨大，如果没有一个逻辑系统来组织它，生物学将不过是集邮而已。

想想最简单的生命形式，细菌和其他原核生物。我们传统上按形状将它们分类：球形的是cocci，杆状的是bacilli。但如果我们发现一种微生物是完美的立方体呢？这不仅仅是一个异想天开的思维实验——这样的生物确实存在！它该归入哪里？一个较差的系统可能会束手无策，然后创建一个新的分类框。但一个稳健的系统依赖于原则，而不仅仅是例子。区分球菌和杆菌的真正原则不是“圆形vs.杆状”，而是isodiametric（在所有维度上大致相等）vs. elongated（具有长轴）。一个立方体是完全等轴的。因此，我们这个立方体微生物最好被理解为球菌的一种变体。一个好的分类系统足够灵活，能够在不破坏自身规则的情况下容纳新事物，因为它的规则是基于基本属性的。

超越单纯的形状，最强大的生物学分类往往基于功能以及使其得以实现的物理原理。想想蚯蚓如何爬行，乌贼的触手如何伸出捕捉猎物，或者昆虫如何移动它的腿。这些看起来完全不同。然而，它们都依赖于一种hydrostatic skeleton——利用流体来创造结构和力量。但在这里，更精细的分类揭示了机制的美丽多样性。

蚯蚓使用体腔静水骨骼（coelomic hydrostatic skeleton）。它的每个体节都像一个密封的、充满水的的气球。环绕其周长挤压气球（用环肌）使其变长；沿其长度挤压（用纵肌）使其变粗。关键是体节中的水量基本恒定。
乌贼的触手则不同。它没有中央的水气球。它是一束向各个方向延伸的密集肌肉纤维——一个肌肉静水压器（muscular hydrostat）。由于肌肉组织本身大部分是水且不可压缩，触手的体积也基本恒定。通过收缩不同的肌群，乌贼可以使触手变长、变短，或者以令人难以置信的灵活性弯曲它。
像半翅目若虫这样的昆虫，则使用了另一种技巧。为了移动一个部位，它不依赖于一个密封的容器。它使用泵和阀门主动地将流体（血淋巴）从其开放式循环系统泵入肢体，增加其体积和压力，迫使其伸展。

在这里，我们看到了三种不同的解决无刚性骨骼运动问题的“方案”。通过根据其底层物理学进行分类——体积是否恒定？力是如何产生的？——我们超越了对动物做什么的简单描述，开始理解它们如何做到。分类成为比较生物力学和演化洞察的工具。

人的因素：目的与视角

当然，现代科学并不是分类的唯一来源。每一种人类文化都发展出系统来理解其环境，这些系统由目的和深刻的、长期的观察驱动。对这种传统生态知识（TEK）的研究揭示，“最佳”的分类系统完全取决于你问的问题。

想象一个虚构的农业社区，他们对当地昆虫的分类基于一个单一、至关重要的标准：它们对主食作物的影响。他们可能会将某种甲虫和某种毛虫归为“主要害虫”，尽管现代分类学家会将它们放在完全不同的目（鞘翅目和鳞翅目）中。同时，另一种甲虫和另一种毛虫可能被归类为“无害”。这个社区的系统是功能性的、功利主义的，为农业而优化。科学系统是系统发育的，为理解演化历史而优化。两者本质上没有“优劣”之分；它们只是用于不同工作的不同工具。这告诉我们，所有的知识系统，包括我们自己的，都是由其目标塑造的。

然而，有时这些不同的认知方式会以惊人的方式汇合。设想一位生物学家正在研究洄游鱼类，使用高科技的稳定同位素分析其耳石，以确定一条鱼出生在哪条支流。与此同时，当地的土著长者通过颜色和鳍形的细微差异对完全相同的鱼进行分类，使用诸如来自某条河的鱼叫“日鳞”，来自另一条河的鱼叫“溪舞者”等传统名称。当这两个系统进行比较时，其一致性可能高得惊人。长者敏锐的眼睛察觉到的外部模式，是科学家测量的内部化学特征的可靠代理。这表明，传统生态知识不是民间传说，而是建立在几代人仔细观察基础上的有效经验科学。分类的核心是模式识别，一个训练有素的大脑可以像任何机器一样成为强大的工具。

这种相互竞争但都有效的系统的思想并不仅限于文化交汇处；它在现代科学的核心地带蓬勃发展。在生物信息学中，科学家对蛋白质的三维结构进行分类。两个主要的数据库，SCOP和CATH，就做这个工作。SCOP根据共享演化祖先的证据将蛋白质分组为“超家族”。CATH则根据“拓扑结构”——其内部结构元素的连接方式——来分组。通常情况下，它们是一致的。但有时，一个单一的演化事件，比如一次circular permutation（蛋白质的线性序列被有效地重新排列），可以在保留核心祖先折叠的同时创造出新的拓扑结构。在这种情况下，SCOP会将这两种蛋白质保留在同一个超家族中（它们是亲戚），但CATH会将它们放在不同的拓扑类别中（它们的接线图已经改变）。这不是分类的失败；而是一种成功。两个系统之间的差异揭示了一个迷人的演化故事。它告诉我们，现实是复杂的，通过不同分类方案的镜头观察它，可以给我们一个更丰富、更立体的真相视图。

分类本身的语言

分类的原则是如此普遍，以至于它们不仅适用于物理世界，也适用于我们为描述物理世界而构建的抽象数学世界。

当物理学家为一种现象建模时，从弦的振动到热的流动，模型通常采用偏微分方程（PDE）的形式。事实证明，我们可以对这些方程本身进行分类。对于大量的系统，这种分类取决于位于方程核心的一个矩阵的特征值。根据这些特征值，一个系统被分类为双曲型、抛物型或椭圆型。这不仅仅是数学家的游戏。这种分类具有直接的物理意义。双曲型系统，如波动方程，具有信息传播的明确速度。抛物型系统，如热方程，描述信息扩散和平滑的过程。知道一个系统的分类，甚至在我们尝试求解方程之前，就能告诉我们预期会看到什么样的行为。

此外，一个系统的分类不必是永久的。在动力系统的研究中，我们经常观察一个平衡点——系统处于静止状态。我们可以将这个点分类为稳定节点（所有附近的轨迹都被吸引进来）、鞍点（一些被吸引，另一些被抛开）等等。但是，如果我们缓慢地改变系统中的一个参数会发生什么？决定分类的特征值将会改变，在某个临界值，系统的性质可能会瞬间翻转。一个稳定节点可能在一个所谓的分岔（bifurcation）中变成一个鞍点。这告诉我们，分类不仅仅是给静态状态贴标签；它也是一种描述复杂系统中变化、不稳定性和新行为突然出现的语言。

最后，我们到达了最高级的元层面：我们如何对我们的分类进行分类？也就是说，我们应该如何设计我们使用的标识符和名称本身？思考一下国际象棋开局百科（ECO）和像Pfam这样的蛋白质数据库中使用的标识符之间的对比。像 C42 这样的国际象棋代码是一个语义标识符；字母'C'告诉你开局的大类，'42'指定了变化。层级结构被融入到名称中。相比之下，像 PF00001 这样的Pfam登录号是一个不透明标识符。这个数字本身不告诉你任何信息；它只是一个指向数据库条目的稳定、永久、唯一的指针。ECO代码是人类可读的，但随着国际象棋理论的演变可能需要修订。Pfam登录号本身没有意义，但保证永远不会改变，使其非常适合计算机和档案数据。这揭示了信息学中的一个基本权衡：我们是希望我们的标签富有意义，还是希望它们稳定而稳健？即使是命名系统的设计，本身也是一种分类行为，有其自身的原则和妥协。

从黄油到分岔，从微生物到元数据，我们已经看到，分类是智力最强大、最通用的工具之一。它不是将某物放到架子上的最后、尘封的动作。它是第一个、创造性的提问行为：“这个像什么？它如何工作？它从哪里来？”正是通过这个过程，我们将一个充满无限特殊性的世界，转变为一个可理解、美丽且相互关联的模式宇宙。