
为什么生命之树的某些分支,如甲虫和兰科植物,物种极其繁多,而另一些分支则稀疏孤单?几个世纪以来,演化生物学家一直推测,某些“关键创新”——即解锁新可能性的独特性状——的演化是生物多样性差异背后的驱动力。然而,从引人入胜的叙述转向科学证明面临着一个重大挑战:我们如何严格检验一个数百万年前出现的单一性状,是否真的导致了一个谱系的多样化?这个问题标志着自然历史观察与统计推断相遇的前沿。
本文深入探讨为解决这一问题而开发的强大数学工具包。我们将探索状态依赖的多样化这一核心概念,这是一个将性状演化与物种的诞生和消亡进行量化联系的框架。在接下来的章节中,您将对该领域有全面的了解。“原理与机制”一章将详细阐释关键创新的定义,并介绍基础的 BiSSE 模型,同时探讨其关键局限性以及 HiSSE 模型提供的巧妙解决方案。随后,“应用与跨学科联系”一章将展示这些工具在实践中如何用于回答深刻的演化问题,从开花植物的爆发性辐射到捕食者与猎物之间复杂的军备竞赛。
为什么甲虫有超过40万种,而楔齿蜥却只有一种?为什么兰花会如万花筒般绽放出令人眼花缭乱的形态,而它们的近亲却依旧平凡稀少?生命的历史是一个充满不平等成功的故事。生命之树上的一些分支繁茂发展,物种极其丰富,而另一些则岌岌可危。数个世纪以来,自然学家一直怀疑,某些性状是这种成功的秘诀,是演化的“天才火花”。但我们如何检验如此宏大的想法?我们如何从引人入胜的故事走向科学事实?这需要我们深入探索如何为演化建模的核心,这段旅程既揭示了科学过程的本质,也揭示了生命本身的历史。
首先,我们需要精确定义我们所说的“天才的火花”是什么。在演化生物学中,我们称之为关键创新:一种新颖的、可遗传的性状,它开启了新的演化可能性。可以把它想象成一把钥匙,打开了一扇通往广阔、前所未及的景观的大门。这片新景观代表着生态机会——新的食物资源、新的栖息地,或新的躲避捕食者的方式。利用这些新机会的直接后果是净多样化速率的持续显著增加,即新物种产生的速度,这是新谱系诞生(物种形成)与旧谱系消亡(灭绝)之间的平衡。
我们必须谨慎用词,因为科学建立在精确之上。关键创新不同于关键适应。适应是一种使生物体更胜任其当前工作的性状——更高效地觅食,或更好地在寒冷中生存。它增强了适合度,但未必开启一种全新的生活方式或引爆新物种的爆发。同样,关键创新也不同于外适应,后者是为一种目的演化而来,后来被挪作他用的性状。例如,羽毛很可能最初是为了保暖而演化,后来才被外适应于飞行。而飞行,反过来可能成为鸟类的一项关键创新,但羽毛本身是一个外适应。
因此,关键创新的核心论断是里程碑式的:该性状的出现导致了谱系更快地多样化。为了衡量这一点,我们需要考察速率。对于一个具有两种状态的性状(例如,状态0代表“花无距”,状态1代表“花有距”),我们关心两个基本速率:物种形成速率 和灭绝速率 。净多样化速率就是它们的差值,。关键创新假说指出,具有该性状的谱系的速率 显著高于没有该性状的谱系的速率 。我们究竟如何才能测量这些在数百万年前起作用的速率呢?
要检验关键创新假说,我们需要一台能够窥探过去的数学显微镜。我们拥有的最强大的工具之一是二元状态物种形成与灭绝 (BiSSE) 模型。它使我们能够将性状的演化与生命之树的形状联系起来。
BiSSE 模型的构造非常简洁。它假设在任何无穷小的时间瞬间,一个谱系可以做几件事之一。想象树上的一个谱系。在下一个微小的时间间隔 内,会发生什么?
BiSSE 模型由这六个参数定义:两种性状状态各有一个物种形成和灭绝速率,以及它们之间相互转换的两个速率。输入数据是一个家族树(一个时间标定的系统发育树)和现存所有物种(树的“末端”)的性状状态。然后模型从现在向过去反向推演。利用一套优雅的微分方程,它计算出观察到今天的树和末端数据的概率,这个过程整合了过去所有可能发生的性状改变和分支事件的历史。这是一个复杂的簿记系统,回答了这样一个问题:“给定这组速率(),我们看到的世界有多大的可能性?”通过检验哪组参数使我们观察到的世界最有可能出现,我们就可以判断,一个 的模型是否比一个 的零模型更拟合数据。
BiSSE 模型是一个强大的工具,但像任何强大的工具一样,如果使用不当,它也可能产生误导。历史科学中最大的挑战之一是避免陷入伪相关的陷阱。如果一个谱系碰巧演化出一种性状,并且同时因为完全不相关的原因(例如,它殖民了一个新大陆,或者一个竞争对手灭绝了)经历了一次多样化爆发,BiSSE 模型可能会错误地将成功归因于该性状。
当所讨论的性状演化得非常罕见时,这个问题变得尤为严重。想象一下,在一个大型类群的历史中,一个性状只出现了一次。这一个单一事件在统计上与发生在该谱系身上的所有其他独特事件“混淆”在一起。我们无法分辨是该性状导致了它的成功,还是它仅仅是搭了便车。这是一个系统发育伪重复的问题。这就像因为你观察到一个成功的CEO碰巧戴着一顶滑稽的帽子,就断定戴滑稽帽子能让人成为成功的CEO。要提出一个稳健的论断,你需要观察许多戴和不戴滑稽帽子的CEO,看看是否存在一个一致的模式。在演化中,这些“多次观察”就是性状的独立起源。
这种归因错误可能会产生连锁反应。例如,它会严重偏倚我们对祖先状态的估计,这个过程称为祖先状态重建。如果一个性状与高多样化速率相关,我们今天会看到许多具有该性状的物种。一个忽略了这种多样化效应的简单模型会观察现今的情况,看到具有该性状的物种数量占压倒性优势,并得出结论认为该性状必定在该类群历史的非常早期就已出现,甚至可能存在于共同祖先中。这个错误,被称为“现世拉力”,之所以发生,是因为模型将多样化的结果(许多物种具有该性状)误解为该模式的原因(性状的早期起源)。
我们如何解决这个问题?我们如何判断一个性状是真正的关键创新,还是仅仅是另一个未测量因素驱动的成功的旁观者?答案是另一个建模天才的杰作:隐藏状态物种形成与灭绝 (HiSSE) 模型。
HiSSE 模型承认,“性状存在/性状缺失”的简单二元世界可能具有危险的误导性。它引入了“隐藏状态”——同样影响多样化的未观察到的因素。可以把这些隐藏状态(我们称之为A和B)看作代表不同的环境、地理区域,或者某个其他关键但未被测量的性状的存在。现在,一个谱系不仅仅处于状态0或1;它处于一个复合状态:0A、0B、1A或1B。
这种方法的巧妙之处在于,它使我们能够构建一个更合适的零模型。我们现在可以问:多样化速率是由观察到的性状决定的,还是实际上由隐藏状态决定的?具体来说,我们可以将一个完整模型(其中所有四种复合状态都可能有不同的速率)与一个关键的“性状无关”模型进行比较。在这个零模型中,多样化速率仅取决于隐藏状态(A vs. B),而与观察到的性状(0 vs. 1)无关。例如,我们可以设置物种形成速率,使得 并且 ,同时允许 。
如果这个性状无关模型解释我们的数据和那个观察到的性状起作用的模型一样好,甚至更好,那么警报就响了。这表明我们用更简单的 BiSSE 模型发现的关联很可能是一个幻象——一个由我们之前未考虑的隐藏因素造成的伪相关。通过允许这种隐藏的复杂性,HiSSE 模型帮助我们避免在成功真正源于CEO未被观察到的商业头脑时,却去赞美他那顶滑稽的帽子。
这种从 BiSSE 到 HiSSE 的分层方法是科学过程在实践中的一个绝佳范例。我们建立一个模型,发现它的局限,然后建立一个更好的模型。但即使是最复杂的统计模型也不足以证明因果关系。要为一个关键创新建立一个真正令人信服的案例,我们必须从多个独立的探究途径中汇集证据。
首先,我们需要机制合理性。这个性状是否确实做了某些可以合理地增加多样化的事情?一项关于植物花蜜距的研究,如果包含了证明这些距能让植物接触到一个新的、多样化的传粉者类群的生物力学实验,那么这项研究的说服力就会强得多。
其次,我们需要考虑混淆变量。多样化是在性状出现后增加的,还是恰好与一次重大的气候变化或陆桥的形成同时发生?先进的模型现在可以直接将这些外部变量纳入其中。
最后,我们必须批判性地审视我们的数据本身。我们的数据集是该类群的无偏代表,还是存在偏差?这就是确定性偏差问题。例如,在拟态研究中,研究人员可能更倾向于将显眼、色彩斑斓的拟态者纳入他们的系统发育树中。如果他们随后发现拟态与高多样化率相关,这个结果可能就是一个自我实现的预言[@problem_-id:2734489]。这就像只调查彩票中奖者,然后得出结论说买彩票是致富的可靠途径。幸运的是,我们可以对此进行校正。如果我们知道我们的取样存在偏见(例如,我们知道我们取样了90%的拟态者,但只有30%的非拟态者),我们可以将这一信息告知我们的统计模型,模型便能在计算中考虑到这种偏见。
探寻生物多样性引擎的征途是深刻的。它迫使我们将生物学与数学、叙事与统计严谨性结合起来。它告诉我们,每一种模式都有多种可能的解释,而我们作为科学家的工作,就是对我们自己最偏爱的想法进行最严厉的批判。通过构建更好的模型,寻找佐证,并诚实地面对我们数据中的偏见,我们可以缓慢但坚定地从看到相关性走向理解因果关系,并开始揭示地球上壮观生命多样性背后的秘密。
既然我们已经深入了解了状态依赖多样化的原理,现在是时候开始真正的乐趣了。就像一位刚刚组装完一种新型钟表的制表大师,我们的第一个问题不应该是“它能用吗?”,而应该是“我们现在能测量什么新东西?”。这些模型并非数学上的奇珍异品;它们是观察过去的强大放大镜,让我们能够正式检验演化生物学中一些最深刻、最持久的观点。它们将我们关于生命之树为何呈现如此形态——为何一些分支物种繁多而另一些则稀疏孤单——的宏大叙事,转化为具体、可检验的假说。让我们开启一段旅程,探索这些工具使我们能够提出的广阔问题。
这些模型最直观的应用或许就是寻找“关键创新”——那些被认为开启了新生态机会,从而推动多样化爆发的演化新颖性状。自然历史中充满了这样的故事。想想兰科植物惊人的多样性,这个科的物种比所有哺乳动物、鸟类和爬行动物的总和还要多。几个世纪以来,自然学家注意到许多物种最丰富的兰花类群是附生植物,即生长在其他植物上的物种。这种附生生活方式,按故事的说法,使它们能够摆脱森林地面上对光和土壤的竞争,征服了树冠上一个广阔的三维世界。
但一个好故事还不够。我们需要检验它。这就是状态依赖模型发挥作用的地方。一位演化生物学家可以采用一棵详细的兰科植物系统发育树,并将末端的每个物种标记为陆生(状态0)或附生(状态1)。然后,他们可以让两种相互竞争的“故事”或模型进行对决。第一个故事比较简单,认为多样化速率在整个类群中是恒定的;兰花的生活方式对其物种形成或灭绝的倾向没有影响。第二个更复杂的故事——一个 BiSSE 模型——则认为速率取决于状态。它允许物种形成率()和灭绝率()对陆生()和附生()谱系有不同的值。
然后,数据——树的分支模式和时间线——会“投票”决定哪个故事更可信。如果第二个故事能够为观察到的树形提供好得多的解释,即使在因其额外的复杂性而受到惩罚之后,我们也就获得了第一份严谨的证据。然而,关键不仅仅在于关注物种形成。一个创新可能会增加物种形成速率,但也可能增加灭绝速率!对长期成功至关重要的是净多样化速率,即出生率与死亡率之间简单而关键的差值,。就兰花而言,分析一致发现,附生谱系的净多样化速率远高于其陆生表亲,这为征服树冠确实是一项关键创新,帮助世界增添了如此耀眼的兰花物种阵列这一观点提供了有力支持。
当我们陶醉于自己的发现时,一个恼人的声音——一个优秀科学家的声音——开始低语:“但如果这只是一个巧合呢?”。如果附生兰花谱系也恰好生活在地理复杂性高的山区,而那才是物种形成的真正驱动力呢?如果我们测量的性状只是一个旁观者,与多样化的真正、隐藏的原因相关联呢?
这并非一个无关紧要的担忧。这些模型的早期应用有时会陷入这个陷阱,导致了该领域一段时期的严格审视和创新。其结果是一类更复杂、更具怀疑精神的模型,其中最著名的是隐藏状态物种形成与灭绝 (HiSSE) 框架。
HiSSE 的高明之处在于它正式承认了我们自身的无知。它假设,除了我们感兴趣的观察性状——比如说,有毒液传递系统(状态 )与否()——之外,还有一个“隐藏”或潜在的状态()。这个隐藏状态并非某种神秘的生物学特性;它是一个包罗万象的代理,代表所有其他可能影响多样化但未被测量的因素,如栖息地、食性或体型。
然后,该模型允许多样化速率依赖于这个隐藏状态。这就建立了一个终极的怀疑假说,称为性状无关多样化 (CID) 模型。CID 模型基本上是说:“是的,这棵树上确实存在两种不同的多样化速率(隐藏状态B中的快速率和隐藏状态A中的慢速率),但它们与谱系是否具有毒液完全无关。”在这种情景下,性状和多样化速率的转变只是擦肩而过的两艘船。如果数据告诉我们,这个 CID 故事和一个更复杂的、毒液有其自身直接影响的故事同样好,甚至更好,那么我们就必须保持谦逊。我们不能声称存在因果联系。我们看到的关联很可能是虚假的。这个过程——将我们自己的怀疑精神直接构建到模型中——代表了演化科学严谨性的深刻进步。这是一种不仅问数据“是否存在相关性?”而且问“这种相关性是真实的,还是你在欺骗我?”的方式。
装备了这些更稳健的工具,我们可以超越简单的“关键创新”假说,开始剖析更错综复杂、多部分的演化叙事。
一个强有力的应用是检验机制通路。例如,具有完全变态(holometaboly)的昆虫——如蝴蝶、甲虫和蜜蜂——的惊人成功,通常归因于其幼虫和成虫生命阶段的解耦。毛毛虫啃食叶子,而蝴蝶吸食花蜜;它们不为食物相互竞争。理论上,这允许了更强的生态特化并促进了多样化。利用 SSE 框架,我们可以直接检验这个优雅的假说。我们可以在昆虫系统发育树上编码两个性状:变态类型()和幼虫-成虫生态位解耦程度()。然后我们可以比较多样化依赖于的模型和依赖于的模型。如果生态位解耦性状比变态类型本身更能预测多样化速率(并且如果我们还证明了的演化与的演化紧密相关),我们就为完整的机制故事建立了一条证据链:完全变态通过促成生态位解耦来驱动多样化。这就像知道一个开关被按下了,和理解它所控制的电路布线之间的区别。
这些模型也足够灵活,可以探索成功的另一面:“演化死胡同”。一些演化路径,虽然可能提供短期优势,但可能导致长期衰落。无性生殖是一个经典例子。一个无性谱系可以无需寻找配偶的成本进行繁殖,但它牺牲了有性生殖提供的基因重组,这可能限制其适应变化环境的能力。我们可以将“死胡同”假说转化为对 SSE 模型的一组精确预测:无性谱系(状态1)的净多样化速率应低于有性谱系(状态0)(),并且——至关重要的是——向有性生殖的转变率应很罕见或不存在()。这是一条通往灭亡的单行道。通过拟合这些模型,我们不仅可以测量两种状态的相对成功,还可以测量它们之间转变的动态,从而提供该性状宏观演化后果的全貌。
这个框架的真正美妙之处在于其可扩展性。自然界很少是单一原因、单一效应的系统。我们的模型又何尝应该是呢?我们可以构建极其复杂但可检验的模型,以反映生物世界的现实。想象一下研究圣甲虫巨大犄角的演化。我们可能怀疑这些用于雄性间搏斗的武器驱动了多样化。但我们也知道体型和栖息地也起了作用。使用先进的 SSE 模型(如用于多状态的 MuHiSSE),我们可以构建一个包含所有这些因素的单一、统一的故事。我们可以让多样化速率同时成为武器存在(一个二元性状)、体型(一个连续性状)和生态(一个多状态分类性状)的函数,同时控制其他未测量的“隐藏”因素。其结果不再是对一个想法的简单检验,而是一幅多因果演化过程的丰富、量化的画像。
到目前为止,我们已经考察了单一类群内性状的演化。但没有哪个谱系是一座孤岛。一个类群的演化旅程与其他类群——它们的捕食者、猎物、寄生虫和伙伴——的旅程密不可分。这是共同演化的宏大舞台,而状态依赖模型给了我们一张入场券。
考虑一个经典的演化军备竞赛:一个植物分支演化出新的化学防御,而以其为食的植食动物分支则通过演化出解毒性状来应对。拥有解毒性状(状态1)的植食动物可以获取新的食物来源,并可能迅速多样化()。没有该性状(状态0)的植食动物则被困于旧食物,其多样化速率可能低得多()。整个植食动物分支的长期命运是什么?人们可能会天真地猜测总体速率是 和 的某种平均值。但真正的答案更微妙、更优美。整个分支的渐近多样化速率是整个系统的一个涌现属性——它取决于两种状态的“出生”和“死亡”速率,以及至关重要的它们之间的“转变”速率。通过求解模型的底层方程,我们发现长期增长率是系统速率矩阵的主特征值。这个单一的数字告诉我们,该分支的命运不仅取决于每种类型的植食动物表现如何,还取决于一个挣扎中的谱系能多快地演化出新性状并加入成功的群体。
这把我们带到了最后一个,也许是最壮观的应用:追踪演化在生命之树上传播的涟漪效应。这是“弥散性共同演化”的领域,一个类群的变化可以引发许多其他类群的连锁变化。想象一种植物演化出一种新颖的、深长的花蜜距。这对植物来说可能是一个关键创新,但它也为其传粉者——舌头或喙足够长以够到花蜜的昆虫或鸟类——创造了一个全新的生态机会。植物距的起源是否点燃了其传粉者群体随后多样化爆发的导火索?
这是一个深刻而困难的问题,但我们现在可以开始回答它了。分析设计是综合的杰作。首先,我们在植物系统发育树上使用 HiSSE 模型,以确认花蜜距确实是一个关键创新,增加了植物自身的多样化速率。然后,我们转向传粉者群体的系统发育树。使用时间依赖的出生-死亡模型,我们可以估计传粉者随时间的多样化速率。关键的检验是看在植物中距首次演化的时间点之后,传粉者的多样化速率是否存在统计上显著的上升。并且,为了做到真正的严谨,我们必须在考虑可能同时影响两个群体的其他混淆因素,如古代气候变化的同时进行。发现这样一种时间滞后的相关性——植物中的一次“爆发”之后,其伙伴中出现一个明显“回声”——是共同演化级联的有力证据,证明了所有生物之间深刻的相互联系。
从检验一个简单的关键创新,到探测跨越广阔、不相关分支的演化回声,状态依赖多样化模型开辟了一个全新的探究世界。它们不仅为我们提供了构思生命如何演化的故事的工具,还让我们能够将这些故事置于证据之光下,去完善它们,挑战它们,并最终更接近于理解创造了地球生命多样性的那个伟大而辉煌的过程。