try ai
科普
编辑
分享
反馈
  • 系统发育树重建

系统发育树重建

SciencePedia玻尔百科
核心要点
  • 系统发育重建通过利用“系统发育信号”来破译进化历史——该信号遵循的原则是,亲缘关系越近的生物体,其遗传相似性越大。
  • 建树方法多种多样,从简单的简约法到复杂的统计模型(最大似然法和贝叶斯推断法),后者能够解释复杂的进化过程。
  • 系统发育树彻底改变了科学,它使得发现新的生命领域(古菌)、实时追踪病毒爆发以及理解癌症进化成为可能。
  • 系统发育学的应用超越了简单的树状结构,它能够揭示内共生和水平基因转移等事件,从而展现出一个更复杂、交织的生命历史。

引言

地球上多姿多彩的生命拥有一个共同的起源,其历史以DNA的语言记录下来。但我们如何阅读这浩瀚而古老的遗传文本,以绘制出进化的分支路径呢?这正是系统发育树重建的核心挑战,该领域致力于揭示生物体之间的历史关系。系统发育学远非简单的分类活动,它提供了一个强大的框架,用以理解从单个基因的功能到全球大流行病动态的方方面面。本文旨在解决一个根本性问题:我们如何从原始的基因序列,构建出一个连贯且富有洞察力的进化历史故事。接下来的章节将引导您完成这一过程。首先,我们将在“原理与机制”中探讨用于构建这些树的核心概念和计算方法。然后,我们将在“应用与跨学科联系”中,探索这些树在解决现实世界问题和回答深奥科学问题时的多种应用方式。

原理与机制

想象一下,你发现了一个巨大而古老的图书馆,里面的每一本书都用一种你不懂的语言写成。这些书都是一本早已失传的原始手稿的后代。千百年来,当抄写员复制文本时,他们犯了一些小错误——这里改了一个词,那里删了一句话。通过比较所有现存副本中的差异,你能否重建它们的复制历史?你能否弄清楚哪些书是从哪些书复制而来的,顺序如何,并最终重现所有书籍的分支家族树?这正是系统发育学的宏大挑战。“书籍”是现存生物的基因组,“语言”是DNA,“复制错误”是突变。我们的任务是阅读这本庞大、美丽且常常混乱的生命之书,以揭示其历史。

祖先的回响:系统发育信号

重建进化历史的整个事业都基于一个简单而优雅的原则:亲属之间比远亲之间更相似。想想你自己的家庭。你与兄弟姐妹和表兄弟姐妹的共同特征,可能比与世界另一端的陌生人要多。这不是巧合,而是你们拥有更近共同祖先的直接结果。

在生物学中,同样的模式适用于从鸟喙的形状到基因序列的一切事物。当一位进化生物学家发现蜥蜴物种的体型表现出​​系统发育信号​​时,他们是在说,特定蜥蜴的体型能很好地预测其在进化树上最近亲属的体型。这些蜥蜴并不是在协调它们的生长,它们只是从一个共同的祖先那里继承了决定体型的发育“规则”。这种相关生物体彼此相似的倾向,正是进化之书中的“墨水”。它是我们试图检测和解释的原始信号。没有这种系统发育信号,历史将被抹去,生命之书的页面将看起来像随机的噪音。

从原始文本到共同语言:比对

在我们开始比较我们的遗传“书籍”之前,我们面临着一个关键的第一步。想象一下,一个抄写员不小心跳过了一行,而另一个抄写员则添加了一个脚注。如果我们试图从头开始逐字比较他们的书籍,我们很快就会比较错误的部分。基因也存在同样的问题。随着时间的推移,DNA的小片段可能会被插入或删除(这一过程产生​​插入缺失​​),从而使整个序列发生位移。

为了进行有意义的比较,我们必须首先弄清楚不同物种序列中的哪些位置对应于它们共同祖先的同一位置。这个过程被称为​​多序列比对(MSA)​​。这是一项艰苦的计算任务,就像一个宏大的拼图游戏,需要将序列对齐并插入空位,以解释历史上的插入和删除。其目标是创建一个矩阵,其中每一列代表一个具有共同进化历史的位点——即在我们研究的所有生物体中都​​同源​​的位置。

可以说,这一步是最困难也是最重要的。我们整个历史重建的质量取决于我们比对的质量。在跨越数亿年的深层时间尺度上观察时尤其如此。我们今天在比对中看到的单个空位可能代表一次大的、古老的删除,也可能是许多在不同谱系、不同时间发生的较小、独立插入缺失造成的令人困惑的结果。这种模糊性使得插入缺失本身难以用作非常深远关系的可靠历史标记。做好比对是所有其他工作的基础步骤。

讲故事的艺术:如何构建树

一旦我们有了精心比对的序列——我们的同源性状——我们就可以提出核心问题:哪棵树能最好地解释我们所看到的异同模式?回答这个问题并非只有一种方法;相反,有不同的哲学和数学方法来寻找最佳的进化“故事”。

最简单的故事:简约法

最古老、最直观的方法是​​简约法​​。它遵循我们在日常生活中都会使用的一个原则:最简单的解释往往是最好的。对于系统发育学来说,这意味着最好的进化树是解释现有序列数据所需突变数量最少的树。我们计算每一种可能的树所需的改变次数,并选择得分最低的那一棵。

这是一个优美而简单的想法。但有时,世界并非如此简单。简约法有一个已知的弱点,一个称为​​长枝吸引​​的盲点。想象一下两个完全不相关的物种,但由于各自的原因,它们都开始以非常非常快的速度进化。它们在生命之树的真实分支上会非常长,代表着大量的突变。当它们独立积累变化时,它们在同一位点偶然获得相同突变的可能性就变得更高。简约法在追求简单性的过程中,看到了这些共享的“偶然”突变,并常常被愚弄。它错误地得出结论,认为最简单的解释是这两个谱系共享一个共同的祖先,并将它们组合在一起。这是一个被巧合误导的经典案例,有力地提醒我们,最简单的故事并不总是真实的。

最可能的故事:似然法和贝叶斯推断

为了克服简约法的陷阱,科学家们发展了更复杂的、基于模型的方法。这些方法不再仅仅是计算突变数量,而是使用概率论来寻找最可信的树。它们首先创建一个明确的​​进化模型​​——一套描述DNA序列如何随时间变化的规则。这些模型可以非常详细,考虑到某些突变比其他突变更常见,或者基因的某些部分比其他部分进化得更快。

有了这个模型,我们就可以使用两种强大的统计框架:

  1. ​​最大似然法(ML)​​:这种方法提出了一个微妙但深刻的问题:“假设某棵特定的树是真实的,观察到我们现有的DNA比对(DDD)的概率(p(D∣T)p(D \mid \mathcal{T})p(D∣T))是多少?”该方法随后为所有可能的树计算这个概率,并宣布获胜者是使我们数据的似然性最大化的那棵树。它找到了使我们的观察结果最不令人意外的历史。

  2. ​​贝叶斯推断​​:贝叶斯方法更进一步,提出了一个对许多人来说更直观的问题:“给定我们观察到的DNA数据,某一特定树是正确树的概率(p(T∣D)p(\mathcal{T} \mid D)p(T∣D))是多少?”该方法使用著名的贝叶斯定理,将来自ML方法的似然性与我们关于进化如何运作的“先验”信念相结合。其强大之处不在于给我们一棵“最佳”树,而在于提供一个跨越所有可能树的概率分布。它告诉我们哪些树最有可能,但它也量化了我们的不确定性,向我们展示了树的哪些部分我们可以确信,哪些部分仍然模糊不清。

这些基于模型的方法是现代系统发育学的主力。通过对进化过程进行逼真的建模,它们能够看透那些愚弄简约法的误导性巧合,为我们提供一个更稳健、更细致的历史图景。

定位:找到根

通过任何这些方法产生的树最初就像一个从天花板上悬挂下来的活动装饰品。你可以看到哪些部分是连接在一起的,但你不知道哪个方向是“上”。这棵树是​​无根的​​。它显示了物种之间的关系,但没有显示时间的方向。

为了给树定向并找到其基部,我们需要一个​​外群​​。外群是一个我们根据外部信息确信,与我们感兴趣的所有物种(​​内群​​)的关系比内群中任何物种之间的关系都更远的物种。当我们将这个外群纳入我们的分析时,它会通过自己深长的分支连接到树上。该分支与树其余部分连接的点就是​​根​​——我们重建中最古老的点。通过添加这个锚点,我们为树赋予了时间线。我们现在可以从过去(根)到现代(末端)来解读进化的流向,区分祖征和更晚衍生的性状。

树的果实:重写历史

为什么要费这么大劲呢?因为由此产生的树可以从最深远的层面上重塑我们对生命世界的理解。

一棵系统发育树不仅仅是将相似的事物分组;它重建了一系列历史事件。考虑一个在单一物种内复制的基因。这两个拷贝现在是​​旁系同源基因​​,它们可以自由地独立进化。当该物种后来分裂成两个物种时,每个新物种都继承了这两个拷贝。这两个不同物种中相同基因的拷贝被称为​​直系同源基因​​。如果一个旁系同源谱系进化得非常快,而另一个非常慢,一个简单的寻找“最相似”基因的搜索很容易将旁系同源基因误认为直系同源基因。系统发育树通过明确重建复制和物种形成事件来解决这种模糊性,正确识别出仅靠相似性会掩盖的真实历史关系。

在更宏大的尺度上,这些方法重写了生命之书本身。几十年来,生物学将生命分为两类:简单的原核生物(如细菌)和复杂的真核生物(如我们)。但在20世纪70年代,Carl Woese利用核糖体基因(16S rRNA)的序列——一个极好的分子钟,因为它存在于所有生命中并且进化非常缓慢——来构建一棵普适的生命树。当他使用一个稳健的、考虑了该分子复杂进化方式的系统发育模型时,结果令人震惊。这棵树没有两个主干,而是三个。他发现了一个全新的生命领域,即​​古菌​​,它们外表像细菌,但在分子水平上是一种独特的生命形式,并且惊人地,与我们真核生物的亲缘关系比与细菌更近。系统发育学推翻了旧有的两界观点,给了我们现代宏伟的三域生命树。

更奇妙的是,系统发育学可以揭示何时两棵树胜于一棵。如果你用人细胞核中的基因建一棵树,你会发现我们与古菌是姐妹群。但如果你用我们线粒体(细胞的动力工厂)内的基因建一棵树,你会得到一个完全不同的答案:你会发现我们是一种细菌。这是矛盾吗?不!这是复杂生命历史上最重要事件——​​内共生​​——的响亮回响。核基因树讲述了我们宿主祖先(一种古菌)的故事。线粒体树则讲述了它的祖先(一种被吞噬并成为我们谱系永久一部分的α-变形菌)的故事。我们不是单一的谱系;我们是一个嵌合体,是两个远古分离的生命领域的永久融合。相互冲突的树不是错误;它们是美丽而不可磨灭的证据。

超越树:生命之网

“生命之树”的比喻很有力,但它意味着遗传总是垂直的,从亲代到子代,呈清晰分裂的分支。对于大部分生命,尤其是在微生物世界,这并非全部事实。细菌可以通过一种称为​​水平基因转移(HGT)​​的过程将基因“横向”传递给彼此。这意味着一个谱系可以从多个亲本(而不仅仅是一个)获取遗传物质。

当HGT普遍存在时,生命的历史开始看起来更像一个交织的​​网络​​或网,而不是一棵树。单一亲本谱系的基本假设被放宽,允许网状结构和合并的出现。重建这个“生命之网”是我们探求理解进化历史的下一个伟大前沿。它并未否定我们已构建的树,而是增加了一层新的丰富性和复杂性,向我们展示了生命的故事比我们想象的还要错综复杂和引人入胜。

应用与跨学科联系

现在我们已经探讨了构建进化树背后的原理和机制,一个奇妙的问题随之而来:它们有什么用?这仅仅是一种生物学上的集邮活动,一种整齐地将生命历史的尘封档案编目归类的方式吗?你可能会欣喜地发现,答案是一个响亮的“不”。重建生命之树并非对过去的回顾性凝视;它是一门动态的、具有预测性的科学,已经成为审视几乎所有生物学领域的不可或缺的透镜。它已从系统分类学家的工具,转变为生态学家、医生和流行病学家的统一框架。从非常真实的意义上说,它是一种进化侦探工具包。

重绘生命地图

在最基本的层面上,系统发育学彻底改变了我们对物种的定义。几个世纪以来,我们根据我们能看到的东西来对生命进行分类——翅膀的形状、花瓣的颜色、骨骼的结构。但进化是一个狡猾的工匠,外表可能具有欺骗性。考虑一种真菌,无论是在亚马逊、西伯利亚还是新西兰发现,它似乎都是同一个物种。它在任何地方看起来都一模一样,像一个单一的、全球分布的生物。然而,当我们解读它的遗传故事时,树揭示了一个不同的真相:这三个种群根本没有混合在一起。它们形成了三个截然不同、深度分化的分支,每个分支都由其自身独特的遗传创新所定义。在系统发育物种概念的光照下,这不是一个物种,而是三个。这棵树揭示了“隐存种”,即隐藏在形态相似性面纱后面的独特进化谱系。系统发育学为我们提供了更清晰的生命单位定义,基于它们实际的进化历史,而不仅仅是它们的外表。

这种从基因中识别物种的能力催生了一种强大的实用工具:DNA条形码。想象一下,一个法医生物学家在犯罪现场发现一根单一的、降解的毛发,或者一个食品检验员想知道鱼片是否真的是标签上声称的物种。通过对特定基因的一个标准化的短片段进行测序,我们可以为该生物体生成一个独特的遗传“条形码”。线粒体基因细胞色素c氧化酶I(COI)是动物中用于此目的的首选。为什么呢?首先,每个细胞有数百到数千个线粒体,这意味着该基因的拷贝数远多于任何核基因,从而大大增加了从微小或陈旧样本中获得信号的机会。其次,线粒体DNA的突变速度往往比核DNA快,从而在物种之间造成清晰的遗传差距。最后,它作为单个非重组单位由母体遗传,使其进化历史清晰且易于追溯。这个简单而深刻的应用将基因序列转化为明确的身份证明,用途遍及野生动物保护和执法等领域。

但是我们甚至无法看到的生命呢?地球上绝大多数的生物多样性是微生物,一个由细菌和古菌组成的无形世界。这些生物中有许多无法在实验室中培养,使它们成为生物学上的“暗物质”。系统基因组学为我们提供了一个强大的望远镜来探索这个隐藏的宇宙。通过采集土壤或海水样本,并对其中的所有DNA进行测序——一种称为鸟枪法宏基因组学的技术——我们可以通过计算将从未培养过的生物体的基因组拼凑起来。这涉及一个卓越的生物信息学工作流程:将短的DNA读段组装成长片段,将这些片段分类到代表不同“宏基因组组装基因组”(MAGs)的容器中,然后使用来自这些MAGs的一套保守基因来构建一棵系统发育树。通过这样做,我们可以将全新的、未培养的门类放置在生命之树上,发现我们从未怀疑其存在的生命分支。

进化侦探:追踪疾病与癌症

也许系统发育学最引人注目和最紧迫的应用是在公共卫生领域。当一种新病毒出现并开始传播时,它不仅仅是复制;它还在进化。每一次传播,都可能发生微小的、随机的复制错误——即突变。这些突变会传递给后续的感染,形成一条遗传的面包屑踪迹。一棵由从不同患者采集的病毒基因组构建的系统发育树,就成了疫情本身的地图。它揭示了传播链中谁与谁相关联。

这种方法的力量取决于我们遗传数据的分辨率。想象一下,试图追踪近期爆发的一种RNA病毒。如果我们只测序一个500碱基对的短基因,我们可能会发现相隔一个月采样的两名患者的序列是相同的。病毒根本没有足够的时间或基因组空间在那个小窗口内积累突变。传播联系是模糊的。但如果我们使用全基因组测序(WGS),我们就可以检视病毒基因组的全部30,000个碱基。现在,找到至少一个区分这两个病例的新突变的概率就非常高了。这种高分辨率的视角,一个被称为基因组流行病学的领域,使得公共卫生官员能够以惊人的精确度重建传播网络,识别超级传播事件,并实时监测干预措施的效果。

这个更广泛地称为系统动力学的领域,甚至更进一步。系统发育树本身的形状就讲述了关于流行病动态的故事。一棵在接近现代时有许多谱系迅速分支的树,表明了爆炸性的指数增长。一棵分支速率随时间减慢的树,可能表明封锁或疫苗接种等干预措施正在成功遏制传播。通过应用被称为溯祖模型的复杂数学框架(该框架描述了谱系如何随着时间回溯而合并),科学家可以推断病原体的历史“有效种群大小”。这一轨迹是流行病规模和速度的代表,所有这些信息都可从树的分支模式中读取。这不仅仅是理论;它已被用于实践中,以追踪像抗生素耐药性淋病这样的紧急威胁。通过对来自诊所的细菌基因组进行测序,构建树(同时仔细考虑重组等混淆过程),并将树与患者数据整合,公共卫生团队可以在应对患者隐私这一复杂伦理问题的同时,识别并靶向快速移动的传播集群。

进化追踪的逻辑甚至可以向内,转向我们身体内部的宇宙。一个癌性肿瘤并非一个单一的实体。它是一个不断进化的细胞群体。随着癌细胞的分裂,它们会积累突变。其中一些突变可能使细胞生长得更快或抵抗治疗,从而产生一个新的亚克隆,超越其邻居。通过对肿瘤不同部分甚至单个细胞的DNA进行测序,我们可以重建癌症本身的克隆系统发育。这棵树揭示了癌症的生命史:哪些突变最先出现,它如何分支形成转移灶,以及哪些谱系在化疗的攻击下幸存下来。这是最贴近个体的进化医学,利用达尔文进化论的原理来理解和对抗内在的敌人。

揭示进化的机制

除了其实际应用外,系统发育学也是一个用于探究进化如何运作等基本问题的工具。我们通常认为生命之树是一个整齐的分支结构,其中基因从亲代垂直传递给子代。然而,对微生物的系统发育分析揭示了一些惊人的事情。有时,单个基因的进化树与物种树完全矛盾。你可能会发现,一种细菌中的抗生素耐药性基因与一个完全遥远的物种中的该基因亲缘关系最近。最优雅的解释不是物种树是错误的,而是该基因在谱系之间横向跳跃,这一过程称为水平基因转移(HGT)。这就像莎士比亚戏剧的一页被发现装订在查尔斯·狄更斯的小说中一样。系统发育学使我们能够检测到这些事件,揭示了对于大部分生命而言,进化不仅仅是一棵树,而是一个复杂、相互连接的网。

系统发育学也为区分两个关键的进化模式提供了最终的仲裁:同源性(因共同祖先而产生的相似性)和趋同性(因趋同进化而产生的相似性)。考虑一下飞越喜马拉雅山的斑头雁和生活在安第斯山脉高处的骆马。两者都进化出了在稀薄空气中茁壮成长的非凡能力,这是一个趋同进化的经典案例。一棵系统发育树证实了雁和骆马位于脊椎动物树的非常遥远的分支上,因此它们的能力并非来自近期的共同祖先。但我们可以更深入地探究。它们的分子解决方案是否相同?通过将它们血红蛋白(携带氧气的蛋白质)的序列与它们低海拔亲属的序列进行比较,我们发现它们采取了不同的路径。斑头雁的适应涉及其α-珠蛋白链的一个关键突变,而骆马的适应则与β-珠蛋白链的一个不同变化有关。系统发育学使我们能够看到,进化在面临同样问题时,可以发明不同但同样有效的解决方案。

最后,理解系统发育学是什么,可以通过理解它不是什么来加深。例如,我们能否将这些工具应用于研究文化进化?想象一下,将政治家的投票记录编码成序列,并使用多序列比对程序来构建他们政治关系的“树”。我们当然可以生成一个分支图,将具有相似投票模式的政治家聚集在一起。但这会是系统发育吗?不。支撑一个真正系统发育的基本概念是同源性——即比对的性状共享一个共同的起源。当两位政治家投下相同的票时,这是对共同意识形态、党派压力或政治环境的相似反应;他们并非从共同的祖先那里继承了这一投票。将这个图称为系统发育将与该术语的基本定义相矛盾。这个思想实验并未削弱该方法;它通过定义其正确的领域来阐明其力量:生物学中独特的、历史性的、分支式的“源于共同祖先的演变”过程。

从定义物种到抗击大流行病,从探索未知世界到理解进化过程的本质,这棵看似普通的系统发育树已被证明是所有科学中最强大、最多功能的思想之一。它证明了在生物学中,正如伟大的进化生物学家Theodosius Dobzhansky所说:“若无进化之光,则生物学的一切都将变得毫无意义。”