
从线性的氨基酸序列预测蛋白质复杂的三维结构,是生物学最重大的挑战之一。这个过程至关重要,因为蛋白质的形状决定了其功能。尽管大自然能毫不费力地解决这个“蛋白质折叠问题”,但从第一性原理进行计算模拟仍然极其困难。这促使科学家们开发了强大的捷径,主要是基于模板的建模,它利用了海量已通过实验解析的结构库。然而,当目标蛋白质没有已知的结构亲属时,便会出现一个巨大的知识鸿沟,使得简单的序列比较变得无效。
本文旨在解决这个问题,深入探讨序列到结构的比对这一强大方法,该方法也被称为蛋白质穿线。在接下来的章节中,你将探索使该技术成为可能的核心概念。在“原理与机制”一章中,我们将揭示为什么结构比序列更保守,评分函数如何从统计力学中推导出来,以及创建有意义比对的细微之处。随后,在“应用与跨学科联系”中,我们将看到该方法如何成为一种多功能工具,推动进化生物学、病毒学甚至新型合成材料设计领域的发现。
想象一下,你拿到一长串珠子,每颗珠子是二十种不同颜色中的一种。有人告诉你,只要把这串珠子放在一桶水中摇晃,它就会自行折叠成一个复杂而特定的雕塑。此外,这个雕塑的功能——无论是作为微型马达、一把剪刀,还是结构梁——完全由其最终形状决定。这就是蛋白质折叠的魔力。这串珠子是氨基酸序列,即一级结构,而最终的雕塑是蛋白质具有活性的三维三级结构。
几十年来,这一直是生物学的宏大挑战之一。序列包含了形成最终结构所需的全部信息,这一原则被称为 Anfinsen 法则。但我们如何读取这些信息?我们如何从蓝图预测最终的建筑结构?
虽然我们可以尝试根据物理定律模拟每个原子的摆动和振动,但除了最小的蛋白质外,这种计算量是惊人的。因此,科学家们以其特有的聪明才智,开发出一条捷径:如果我们能找到一个已知的结构,它看起来像我们试图预测的那个结构,会怎么样?这就引出了基于模板的建模,它主要有两种形式。
第一种是同源建模,就像你从未见过某人,但因为他与他的兄弟姐妹惊人地相似而能认出他。如果我们的查询序列与一个结构已知的蛋白质序列非常相似,我们就可以确信它们会采用几乎相同的折叠。接下来的任务就是进行序列到序列的比对,在构建模型之前仔细匹配这两个高度相似的蓝图。
但是,当我们的蛋白质是一个“孤儿”,在结构数据库中没有明显的亲属时,会发生什么?这是一个更常见也更困难的问题。我们不能再依赖序列相似性。我们必须拿着我们的序列,尝试将其“拟合”到一堆已知折叠的库中,即使是那些来自完全不相关蛋白质的折叠,看看是否有任何一个是合理的归宿。这就是蛋白质穿线或折叠识别的精髓。它不是序列到序列的比较,而是序列到结构的比对:我们正在评估我们序列的特性与模板结构的环境景观的匹配程度。但这提出了一个深刻的问题:这为什么会奏效?为什么两个序列迥异的蛋白质会采用相同的折叠方式?
答案在于蛋白质科学中最优美和最基本的原则之一:结构远比序列保守。进化发现某些结构在功能上极其有用且稳定,并一再地重用它们。一个经典的例子是TIM桶,这是一种由八条β-折叠链在中心形成一个桶状结构,并被八条α-螺旋包围的折叠方式。它是自然界中最常见的折叠之一,被无数具有不同功能的酶所使用。
这里的悖论是:尽管它无处不在,但没有一个单一的、保守的序列“特征”表明“我是一个TIM桶!”如果你比对所有已知TIM桶的序列,你不会找到一个清晰、重复的氨基酸模式。结构如此保守,而序列却如此多变,这怎么可能呢?
解决方案是,折叠不依赖于大多数氨基酸的具体身份,而依赖于它们普遍的物理化学性质。其中最重要的是疏水效应。水是一种社交性分子,充满了极性氢键。油性的、非极性的(疏水性)分子会破坏这个网络,水分子会努力将它们“挤”开。对于蛋白质来说,这意味着疏水性氨基酸(如缬氨酸或亮氨酸)有强烈的趋势将自己埋藏在蛋白质的核心,远离周围的水。相反,极性或带电的(亲水性)氨基酸(如赖氨酸或天冬氨酸)则非常乐意待在表面,与水相互作用。
TIM桶折叠之所以稳定,是因为它完美地满足了这一原则。它的核心由疏水性残基构成,形成一个稳定、“油性”的中心。它的外部则装饰着亲水性残基。只要维持这种普遍的“疏水核心、亲水表面”的模式,氨基酸的具体身份就没那么重要了。你可以在核心使用亮氨酸、异亮氨酸或苯丙氨酸;只要是疏水性的,就行。这就是“多种序列,一种折叠”原则的体现。这就是为什么局部序列基序通常不决定全局折叠;折叠是整个链集体物理化学特性的涌现属性。正是这种鲁棒性使得穿线能够在共享折叠但没有可辨别序列相似性的蛋白质之间找到匹配。
那么,我们想测试我们的查询序列是否“适合”一个模板结构。我们如何为这种匹配打分?我们再次不求助于第一性原理物理学,而是转向统计学——我们从大自然的成品中学习。蛋白质数据库(PDB)是一个巨大的图书馆,包含了成千上万个通过实验确定的蛋白质结构。这个图书馆是一个信息宝库,告诉我们什么在折叠的蛋白质中是“有效的”。
穿线算法利用这个数据库构建一个基于知识的势能。这个想法非常简单。我们遍历整个数据库,统计每一种可能的氨基酸对(丙氨酸-丙氨酸,丙氨酸-半胱氨酸等)在空间中彼此靠近的频率。然后,我们将这个观察到的频率与我们期望的、如果氨基酸只是随机混合在一起时的频率进行比较。
如果某一对,比如说精氨酸和谷氨酸,被发现在近距离接触的频率远高于偶然,这意味着存在一个有利的相互作用(在这种情况下,是一个有吸引力的盐桥)。如果另一对在一起的频率远低于偶然,这意味着存在排斥或不利的相互作用。利用统计力学中一个著名的关系式,即逆玻尔兹曼定律,我们可以将这些概率比直接转换成一个“伪能量”分数。有利的配对得分低,不利的配对得分高。
这仅仅是个开始。我们可以为不仅仅是配对创建分数。我们可以评估一个氨基酸与特定结构环境的匹配程度。它是被埋藏还是暴露于溶剂?它是在α-螺旋中还是在β-折叠中?通过分析PDB,我们可以确定,比如说,在埋藏环境中与在暴露环境中找到一个色氨酸的概率。然后,我们通过对每个位置的这些对数奇数比分求和来为我们的比对打分。将一个氨基酸放置在给定环境中的分数本质上是在问:“我在这里看到这个残基的可能性比在其他任何地方高(或低)多少?”。一个比对的总分是所有这些单个位置和配对分数的总和,是对序列与模板结构兼容性的宏大评估。
将序列与结构进行比对并不总是一一对应的完美映射。查询序列可能比模板多几个残基,或少几个。在我们的比对中,这些表现为空位(插入或删除)。在比对中引入一个空位是有代价的,即空位罚分。但一个至关重要的见解是,空位的位置至关重要。
想象一下,我们的模板结构在其核心有一个刚性的、稳定的β-折叠链,由一排氢键固定在一起。现在,考虑在它的正中间插入一个三个残基的片段。这是一场结构性灾难。你实际上切断了折叠链,破坏了稳定的氢键,并可能暴露了一个本应深埋在蛋白质内部的油腻疏水残基。其能量代价是巨大的。
现在,考虑将同样的三残基空位放在蛋白质表面的一个灵活的环状区域。这个环已经暴露在水中,并且不属于刚性核心的一部分。在这里插入几个额外的残基可能会引起一些轻微的应变,但它不会破坏折叠的基本结构。相比之下,其代价是微不足道的。
一个复杂的穿线算法必须反映这一现实。它不能对所有空位使用统一的罚分。相反,它必须使用环境特异性空位罚分,对稳定二级结构元素(如螺旋和折叠链)中的空位施加比环状区域中的空位重得多的罚分。我们再次看到一个优美的原则:模板的现有结构决定了序列必须如何与之比对的规则。
在尝试将我们的查询序列与成百上千个不同的模板折叠进行穿线比对后,我们的算法返回一个高分的最佳匹配。我们怎么知道它是对的?一个原始分数本身毫无意义。这就像被告知一个学生考试得了“100”分,却不知道满分是100还是1000。
首先,我们需要评估统计显著性。一个好的匹配不仅分数要高,而且与其他所有模板折叠的分数相比,应该是一个极端的异常值。为了更加严谨,我们可以通过将我们查询序列的打乱、无意义的版本与模板进行穿线比对,来生成一个“零”分布。如果我们真实序列的分数远高于这个随机噪声,我们的信心就会大增。这通常用一个 Z-score 来量化,它衡量分数比噪声均值高出多少个标准差。
其次,一个好的科学家,就像一个好的侦探,总是寻找独立的、佐证的证据。
通过将具有统计显著性的分数与一致的正交证据相结合,我们可以从一个推测性的猜测转变为一个高可信度的预测。
尽管这些方法功能强大,我们必须记住它们依赖于一个关键的简化:“冻结近似”。我们将从PDB中获取的模板结构视为一个静态、刚性且完美的支架。但真实的蛋白质并非冻结的。它们是动态的实体,会呼吸和伸缩,其精确构象对pH和温度等环境条件很敏感。
如果我们的查询蛋白质在细胞的中性pH(7.4)下是稳定的,但我们拥有的最佳模板结构是在酸性pH 4.5下测定的,会发生什么?在pH 7.4时,一个特定的天冬氨酸和赖氨酸可能会形成一个强大的、稳定结构的盐桥。但在pH 4.5时,天冬氨酸很可能被质子化而呈中性,因此这个盐桥在实验中不会形成。“冻结”的模板因此缺少了一个关键的接触。当我们将序列穿线到它上面时,我们的评分函数将看不到这种有利的相互作用,正确折叠的分数将被不公平地降低,可能导致我们错过它——一个假阴性。
反之亦然。一个不相关的蛋白质,在某种奇异的、非生理条件下结晶,可能会呈现一种扭曲的形状。纯属巧合,这种扭曲的几何形状可能恰好提供了一个表面,看起来与我们查询序列的属性非常匹配,从而导致高分和一个自信但错误的预测——一个假阳性。
这并不意味着穿线是无用的;恰恰相反,它是结构生物信息学中最成功和应用最广泛的方法之一。但它提醒我们,我们的模型终究只是模型。它们是观察生物世界的强大透镜,但它们有其自身的扭曲和局限性。理解这些原则,从疏水效应的优雅到冻结近似的实际告诫,是在我们解读生命基本蓝图的旅程中明智使用这些工具的关键。
在上一章中,我们剖析了序列到结构比对的精妙机制。可以说,我们拆开了时钟的齿轮,观察动态规划和能量函数的齿轮如何将一维的字母串变成三维的雕塑。但是,一个工具的好坏取决于它能回答什么问题。现在,我们问:我们能用这种非凡的能力做什么?它开启了哪些新世界?
你会发现,其应用不仅仅是在真空中“预测一个结构”。相反,这项技术成为一种多功能的透镜,一个计算显微镜,让我们能够探究生物学及更广泛领域的一些最深层的问题。它是一座桥梁,连接着遗传密码的抽象领域与分子机器、进化历史乃至人造材料的实体世界。
想象一下,你正在尝试拼一个复杂的拼图,其中一些碎片晶莹剔透,但盒子只显示了一张模糊、低分辨率的最终图像。更糟糕的是,你还有一份单独的线索清单,告诉你“红色碎片的角靠近蓝色碎片的边缘”。这是结构生物学家每天面临的挑战。他们通常拥有一系列零散的数据:一个蛋白质组分的高分辨率X射线结构,一个显示较大复合物整体形状的模糊冷冻电子显微镜(cryo-EM)图谱,以及一份来自化学交联实验的邻近约束列表。
你如何将所有这些整合成一个单一、连贯的模型?这就是序列到结构比对作为“计算黏合剂”发挥关键作用的地方。如果复合物的某一部分结构未知,我们可以使用折叠识别为其生成一个合理的模型。然后,就像在房间里布置家具一样,一个计算程序可以接收已知的结构和我们的新模型,并将它们对接到模糊的冷冻电镜包络中。最终的排列不是任意的;它必须满足交联的“线索”,确保那些本应靠在一起的碎片确实如此。通过这种方式,计算将多样化、多分辨率的实验数据整合成一个单一、统一的结构假设,其意义远超各部分的总和。
一旦我们能够可靠地将一个序列与一个折叠联系起来,我们就可以开始像分子考古学家一样提出问题。思考一下著名的TIM桶折叠,这是一种优美而古老的蛋白质结构,遍布所有生命领域。现在,假设我们发现了一个新蛋白质,我们的穿线服务器自信地告诉我们它采用TIM桶折叠。但这里的转折是:它与两个不同的TIM桶蛋白质超家族显示出微弱的相似性,而这两个超家族被认为是独立进化的。
我们的新蛋白质是源自这两个家族之一的共同祖先(趋异进化,或同源),还是通过完全不同的进化路径偶然发现了同样优雅的折叠(趋同进化,或同功)?仅仅看整体结构相似性是不够的;两座建筑可以有相同的建筑风格,却不是由同一个人设计的。真正的线索在于机器的功能核心。通过检查序列到结构的比对,我们可以核对我们新蛋白质的关键催化残基——活性位点——是否在空间和化学特性上与其中一个已知超家族的残基对齐。功能机制上的匹配是共享祖先的“确凿证据”,而在相同支架上构建的完全不同的活性位点则强烈暗示这是一例显著的趋同进化案例。通过这种方式,穿线成为一种工具,用以揭示以蛋白质结构语言书写的宏大进化叙事。
生命很少是独角戏。蛋白质和人一样,通过与他人互动来完成工作。理解这些相互作用是理解生物学功能的关键。我们的方法能在这方面有所帮助吗?当然可以。穿线的原理可以巧妙地从单个蛋白质链扩展到整个分子复合物。
想象一下,你拥有两个已知形成搭档(一个异源二聚体)的蛋白质的序列。我们不再是将一个序列穿线到一个结构上,而是可以进行“二聚体穿线”。我们搜索一个已知的蛋白质-蛋白质复合物结构库,同时尝试将我们的两个查询序列拟合到每个模板复合物的两条链上。评分不再仅仅是关于每个序列与其自身折叠的匹配程度,还关乎两条链接触和交流的界面上氨基酸的兼容性。这种联合优化使我们能够识别整个相互作用最可能的三维蓝图,为这些分子伙伴如何相互识别和结合提供了宝贵的假设。
当序列到结构的比对成为更大规模调查流程的一部分时,它的威力真正得以显现,尤其是在像病毒学这样具有紧迫性的领域。当一种新病毒出现时,科学家们争分夺秒地去了解它。通常,他们所拥有的只是它的基因序列。你如何从一串字母到理解保护其基因组的病毒盔甲——衣壳?
折叠识别是这个侦探故事中的关键一步。通过获取主要衣壳蛋白的序列,我们可以将其与已知病毒蛋白折叠的文库进行穿线比对。这可能立即告诉我们,我们面对的是一种使用常见的双果冻卷折叠的病毒,还是某种更奇特的病毒。但这并未结束。这种折叠预测与其他强大的计算工具相结合。共进化分析寻找在相关病毒序列中协同突变的氨基酸对,可以为哪些残基构成蛋白质亚基之间的界面提供线索。通过将折叠预测与这些界面线索相结合,科学家们不仅可以建立蛋白质本身的模型,还可以建立它如何寡聚化成最终的衣壳粒(比如三聚体或五聚体),并最终形成整个病毒粒子。这种计算出的“威胁档案”为设计诊断、疫苗和抗病毒疗法提供了结构基础。
分子生物学的中心法则常常将蛋白质置于聚光灯下,但RNA的世界同样丰富且功能多样。许多RNA分子,如核糖开关,不仅是消极的信使,而且本身就是功能性机器,折叠成特定结构以结合代谢物并调节基因表达。在浩瀚的基因组数据海洋中发现这些隐藏的RNA机器是一项艰巨的任务。
在这里,序列到结构比对的原理再次证明了其价值,只不过是适用于RNA的语言。我们使用的不是蛋白质折叠库,而是一个已知的RNA结构基序库,由“协方差模型”表示,这些模型捕捉了序列和碱基配对模式。通过用这些模型扫描细菌基因组,我们可以寻找新的核糖开关。这种方法使我们能够找到在结构和功能上与已知类别相关的RNA元件,但其序列可能随时间发生了漂移。这就像即使建筑材料变了,也能认出建筑的风格一样,从而能够在眼皮底下发现全新类别的基因调控装置。
也许对一个科学原理最深刻的证明是它超越其原始背景的能力。线性序列和三维折叠之间的关系是生命分子所独有的吗?或者它是一种更普适的“语法”,支配着链状分子在空间中的折叠方式?
现在,通过将序列到结构预测方法应用于合成高分子和材料科学领域,人们正在探索这个问题。想象一下,试图预测一种新颖的人造高分子的折叠形状。我们没有数百万年的进化来为我们提供多序列比对;我们只有一个单体单元的序列。这迫使预测模型进行调整,以便能从单个序列出发,根据实验数据从头学习折叠的“物理规则”。在这一领域的成功将意味着我们可以通过首先设计其序列来设计具有所需性质的新材料——例如自组装纳米结构。这揭示了从一维字符串预测三维形状的基本挑战不仅仅是一个生物学问题,而是高分子物理学的核心原则。
到目前为止,我们讨论了使用我们的工具来解读和诠释大自然已经创造的结构。然而,最终的应用是将问题反过来:我们能否编写一个新的序列,使其折叠成我们自己选择的形状,也许是一个自然界中前所未见的形状?这就是从头蛋白质设计的宏大挑战。
序列到结构预测器的现代人工智能驱动后代正处于这场革命的核心。这个过程以“反向设计”循环的方式工作。一个计算机程序从一个目标形状开始,并尝试为其生成一个序列。然后,它使用序列到结构预测器来“折叠”其设计,看它是否与目标匹配。如果不匹配,它会调整序列并再次尝试,每秒数千次。然而,仅仅让预测器输出正确的形状是不够的。预测器不知道热力学稳定性——即设计的折叠是否真的是最低能量状态,或者蛋白质是否宁愿折叠成其他东西。因此,这个设计循环必须与基于物理的能量计算或其他方法相结合,以确保设计的蛋白质有一个大的“稳定性差距”,使得期望的折叠具有压倒性的优势。这种深度学习与物理原理的结合现在正让科学家们能够从头创造全新的蛋白质,为新型酶、疗法和智能生物材料打开了大门。
从解读过去到设计未来,从序列到结构的旅程是我们时代伟大的科学探险之一。起初只是一个计算上的好奇心,如今已成为观察、理解并最终创造我们周围世界分子机器不可或缺的工具。