蛋白质功能预测

玻尔百科

核心要点

蛋白质功能可以通过同源性推断，即相似的序列表明共同的祖先和功能，也可以通过鉴定保守的功能域来推断。
在整个进化过程中，蛋白质的三维结构通常比其特定功能更为保守，这使得即使在功能已经分化的情况下，结构预测仍然可行。
现代人工智能，如通过自监督学习训练的蛋白质语言模型，通过学习支配蛋白质折叠和功能的深层语法规则，实现了高准确性。
功能预测的应用范围广泛，从解析细胞蓝图到开发个性化癌症疫苗，再到检验进化生物学中的基本理论。

引言

基因组测序技术的爆炸式发展为我们提供了“生命之书”，但这本书的绝大部分内容仍未被“翻译”。我们拥有数百万个蛋白质序列，但对于其中许多序列而言，它们在细胞内的具体作用仍然是个谜。理解蛋白质的功能是破译生命、疾病和进化机制的基础。这造成了一个关键的知识鸿沟：我们如何系统地将一维的氨基酸串与其在生命体中复杂的三维功能联系起来？本文旨在回答这一问题，描绘了从基本原理到人工智能前沿的发展历程。

首先，在“原理与机制”部分，我们将深入探讨生物信息学的“侦探工作”，探索让科学家能够从序列推断功能的核心逻辑。我们将考察如何利用来自进化历史、模块化蛋白质结构以及蛋白质折叠语言本身的线索，来构建日益复杂的预测模型。接着，在“应用与跨学科联系”部分，我们将看到这些原理的实际应用，发现功能预测不仅仅是一项学术活动，更是一个推动医学、进化生物学以及我们对生命复杂分子网络基本理解取得进步的变革性工具。

原理与机制

要猜测一个新发现蛋白质的功能，就像开始一个侦探故事。我们面对的是一长串神秘的字母——氨基酸序列，任务是破译它在细胞这座宏伟而繁忙的城市中所扮演的角色。我们没有直接的目击者。蛋白质太小、太快，无法用肉眼追踪。因此，我们必须依赖一套原理，一种分子取证学，来拼凑进化留下的线索。这个从序列到功能的过程并非一步之遥的逻辑飞跃，而是一次优美的攀登，每一个新原理都建立在前一个的基础上，将我们带到更高、更复杂、更强大的理解高度。

来自过去的低语：同源性逻辑

生物信息学中所有思想里，最简单也最强大的莫过于家族相似性。如果两个蛋白质的氨基酸序列惊人地相似，那么它们极有可能共享一个共同的祖先。正如堂兄弟姐妹常有相似的体貌特征一样，这些被称为同源物（homologs）的分子“堂兄弟”也常常具有相似的功能。这就是基于同源性的推断（homology-based inference）原理。

假设我们发现一种新的细菌，比如 Metabolivorax rapidus，它具有一种奇特的能力，可以“吃掉”一种名为“隐糖”（cryptose）的合成糖。我们从中分离出一种我们怀疑参与此过程的蛋白质 PrtK。为了展开调查，我们会像任何优秀的侦探一样：查阅记录。我们使用像 BLAST（基础局部比对搜索工具）这样的工具，将 PrtK 的序列与一个几乎包含所有已发现蛋白质序列的全球数据库进行比较。

结果出来了，我们发现 PrtK 有近亲。它的最佳匹配项都是来自其他生物体的蛋白质，功能都是转运各种糖类。统计得分，即所谓的 $E$ 值，小到惊人（例如， $2 \times 10^{-85}$ ），这是该工具在告诉我们，这种相似性绝非巧合。这是来自共同进化历史的清晰低语。仅凭这一点，我们就能形成一个强有力的假说：PrtK 很有可能是一种转运蛋白，可能负责将隐糖带入细菌细胞内供其消耗。这一简单的逻辑是整个领域赖以建立的基石。

生命的架构：作为功能性构建模块的结构域

然而，蛋白质很少是一个单一、庞大的实体。它更像一台由一系列标准化、功能性部件组装而成的精密机器。在生物学中，这些部件被称为结构域（domains）。蛋白质结构域是蛋白质的一个片段，它可以独立折叠成一个稳定、紧凑的三维结构，并且通常执行特定的任务——比如与分子结合、充当铰链或催化反应。它们是分子世界中可重复使用的“乐高积木”。与结构域不同的是基序（motifs），它们是更小的、特定的氨基酸模式。基序本身无法折叠或发挥功能，但它可以是一个关键特征——就像乐高积木上的特定连接器——使结构域能够完成其工作。

回到我们的神秘蛋白质 PrtK，更深入的分析揭示了它包含一个著名的结构域，称为“主要促进者超家族（MFS）结构域”（Major Facilitator Superfamily (MFS) domain）。这是一个巨大的线索。MFS 结构域是自然界最常见的分子引擎之一的蓝图，这是一种在所有生命界中都能找到的转运蛋白。在 PrtK 中发现这个结构域，就像在一辆神秘的交通工具中发现一台 V8 引擎；它极大地缩小了这辆车的可能类型。我们的假说得到了完善：PrtK 不仅仅是一种转运蛋白，它是一种属于 MFS 家族的特定类型的转运蛋白。

生物信息学家们煞费苦心地在像 Pfam 这样的数据库中收录了数千个这类结构域。为了使搜索更加强大，像 InterPro 这样的资源充当了主聚合器，一次性整合了来自多个不同结构域数据库的知识。将一个序列提交给 InterPro，就像让一个专家团队来检查你的蛋白质，每个专家都拥有自己专门的部件库，从而为你提供最全面的注释。

最深的秘密：结构比功能更顽固

在这里，我们的故事发生了有趣的转折。我们已经确定，序列相似性意味着功能相似性。但是，当序列相似性极高，而功能却完全不相关时，会发生什么呢？

考虑两种蛋白质：ThermoZyme，一种来自生活在温泉中的细菌的酶，能分解糖类；以及 CryoFectin，一种来自北极鱼的蛋白质，能防止其血液结冰。一个是催化剂，另一个是抗冻剂。它们的工作截然不同。然而，它们的氨基酸序列却有 90% 的一致性。这怎么可能呢？

答案揭示了一个深刻而优美的进化原理：蛋白质的结构比其功能在进化中更为保守。蛋白质的整体三维形状，即其折叠构型（fold），就像汽车的底盘。它是一个坚固的支架，进化发现很难在不导致整个结构崩溃的情况下改变这种基本设计。保留底盘而只更换引擎或座椅要容易得多。进化会调整形成功能位点（结合口袋和催化中心）的少数氨基酸，赋予蛋白质新的用途，而维持核心折叠构型的大部分序列则保持不变。

这个原理是同源建模（homology modeling）——一种主要的结构预测技术——如此成功的原因。因为 ThermoZyme 的折叠构型几乎肯定与 CryoFectin 相同，所以我们可以利用已知的、通过实验确定的抗冻蛋白结构作为模板，构建一个非常精确的酶的三维模型。那 10% 不同的序列是功能魔法发生的地方，但那 90% 相同的部分为我们提供了完整的结构蓝图。

进化的合唱：多序列的力量

到目前为止，我们的侦探工作涉及的是一对一的比较。但现代生物信息学的真正突破来自于认识到，同时聆听整个家族的历史要强大得多。

想象一下，试图从单个序列预测蛋白质的结构。第一代方法试图通过观察氨基酸的短窗口，并根据统计数据猜测它们会形成螺旋还是折叠片, Method A) 来实现这一点。这就像试图通过分析一个句子中字母的频率来理解一部小说的情节。你可能会有所收获，但却错失了全局。

现在，想象你拥有那个句子，以及来自相关语言的一千个不同版本，所有版本都经过对齐，以便你可以逐词比较。这就是多序列比对（Multiple Sequence Alignment, MSA）为蛋白质所提供的。通过将我们的目标序列与来自不同物种的数百个同源物对齐，我们创建了一个丰富的概况，这是其进化历程的一个快照。

在每个位置上，我们不再只看到一个氨基酸，而是看到一个完整的合唱团。我们看到哪些位置是如此关键，以至于在十亿年的进化中从未改变；哪些位置是灵活的，允许存在多种氨基酸。这种保守与变异的模式比任何单个序列都包含更多信息, Method B)。现代预测方法的机器学习模型不仅仅看一个蛋白质；它们倾听整个进化的合唱。这一洞见——进化背景是关键——促成了预测准确性的巨大飞跃，将结构预测从一种奇技淫巧转变为一种真正有用的科学工具。

新的语法：人工智能如何学习蛋白质的语言

从海量数据集中学习的思想在当前正在改变科学的人工智能革命中得到了终极体现。但是，人工智能如何能从公共数据库中数百万个序列中学习蛋白质功能呢？这些序列大多从未被研究过，其功能或结构也未知。

答案在于一种名为自监督学习（self-supervised learning）的绝妙策略。这类似于教人一门语言，方法是给他们一个巨大的图书馆，其中 15% 的单词被随机涂黑。他们的任务不是翻译，而仅仅是填空。为了成功，他们必须做的不仅仅是背单词；他们必须学习语法、句法和上下文的潜在规则。

这正是现代蛋白质语言模型（protein language models）的训练方式。人工智能被输入数十亿个蛋白质序列，每个序列中的一些氨基酸被掩盖。通过反复预测缺失的残基，模型含蓄地学习了“生命语言”。它发现了进化所编写的深层语法规则——那些支配着氨基酸串如何折叠成功能性机器的微妙相关性和长程依赖性。

这种方法的影响令人惊叹。旧的结构预测方法通常依赖于片段组装，这就像试图通过从旧的、已知结构的废料场中搜寻零件来构建一个新的结构, Method X)。你从根本上受限于你在废料场中能找到的零件。相比之下，像 AlphaFold 这样的现代人工智能预测器利用从自监督学习中获得的深层知识，结合来自 MSA 的进化信息，从第一性原理推断氨基酸之间的关系, Method Y)。它们不仅仅是在重新组装旧零件；它们是根据对蛋白质折叠物理学和语法的学习理解来生成结构。这就是为什么它们能够以惊人的准确性预测全新的蛋白质折叠构型，解决了 50 年来生物学的一大挑战。

科学家的谦逊：知道你所不知道的

这种新发现的预测能力令人振奋，但它也带来了一项深刻的责任：不自欺欺人的责任。真正的科学进步不仅需要卓越的工具，还需要严谨的诚实和对其局限性的深刻理解。

首先，我们必须诚实地评估我们的预测器。如果你在一个包含一千个蛋白质的数据集上训练一个模型，然后在一个与其中之一几乎相同的近亲上测试其性能，你并没有真正测试它预测新事物的能力——你只是测试了它的记忆能力。这种来自同源序列的微妙信息泄漏是一个持续存在的陷阱。为了应对这个问题，科学家们开发了更严格的验证方案，如留一法同源组交叉验证（leave-one-homology-group-out cross-validation），以确保模型总是在一个它从未见过的蛋白质家族上进行测试。

其次，我们必须警惕过度预测（over-prediction）。一个自动化流程很容易根据薄弱的证据分配一个非常具体、听起来很厉害的功能。一个好的科学家，或一个好的科学工具，不仅仅是提出一个论断；它会报告其置信度。当今最复杂的注释系统会构建概率模型，权衡所有可用证据——从序列相似性到结构域内容——来估计给定功能分配正确的概率。它们被设计用来在证据太弱以支持论断的特异性时，将预测标记为“过度延伸”，为防止我们的数据库被听起来自信的噪音所污染提供了关键的护栏。

最后，我们必须记住，即使是我们最先进的人工智能工具也不是魔法。它们是复杂的数学系统，有其自身的怪癖和失效模式。例如，一些用于分析蛋白质结构的深度图神经网络可能会遇到一个称为过平滑（over-smoothing）的问题。如果网络层数太多，来自每个氨基酸的特定、独特信息会与邻居反复平均，直到图中所有节点看起来都一样——变成一团平淡无用的混合物。活性位点的关键、区分性特征被完全冲淡了。这并非人工智能思想的缺陷；它提醒我们，理解我们工具背后的原理是明智使用它们的唯一途径。理解蛋白质秘密的旅程，归根结底，是人类智慧的证明，但它必须始终以科学的谦逊为指导。

应用与跨学科联系

在探索了让一维氨基酸串折叠成三维工程奇迹的原理与机制之后，我们现在面临一个引人入胜的问题：那又怎样？我们能用这些知识做什么？如果说基因组是“生命之书”，是用我们直到最近才学会阅读的语言写成的，那么蛋白质功能预测就是我们成为文学评论家的宏大尝试，旨在理解文本背后的意义、情节和诗意。这不仅仅是一项学术活动；它是一门连接了最基本的进化问题与最实际的医学挑战的学科。这是一段从序列的抽象之美到活细胞具体现实的旅程。

基础：破译生命蓝图

确定蛋白质功能最直接的方法当然是去查阅资料！生物学家花费了数十年时间，一丝不苟地将无数蛋白质的作用分门别类。这些知识并非一堆随机事实的集合，而是被组织在庞大、交叉引用的数据库中。当一个计算模型预测，例如，某个蛋白质具有“激酶活性”时，我们的第一步是查阅像 UniProt 这样的精选资源。在那里，我们可以检查该蛋白质的官方文件，寻找来自基因本体论（Gene Ontology, GO）项目的注释——这是一个结构严谨的词汇表，充当着生物学的通用词典。在该蛋白质的 GO 注释中找到 protein tyrosine kinase activity 这一术语，就为我们的预测提供了直接、经专家验证的证据，表明我们的预测方向是正确的。

但是，对于一个从未被研究过的蛋白质该怎么办呢？第一个线索通常来自其序列。就像信件上带有地址一样，蛋白质序列通常包含特定的基序，作为内部指令。一个经典的例子是“信号肽”（signal peptide），这是一段通常位于蛋白质起始端的短的、疏水的氨基酸片段。当细胞的蛋白质合成机器遇到这个序列时，就像读到一个写着：“这个送往细胞膜，或分泌到细胞外”的运输标签。这个简单特征的存在，使我们能以极高的置信度预测该蛋白质不会是细胞质中的自由漂浮酶，而是作为膜的一部分发挥作用，或被完全输出到细胞外。

然而，功能并非静态属性；它是动态的，并受到精细的调控。细胞中最普遍的调控“开关”之一是磷酸化（phosphorylation）——即在特定氨基酸上添加一个磷酸基团。通过这种简单的修饰，蛋白质可以在瞬间被开启或关闭。为了理解一个蛋白质是如何被控制的，我们必须预测这些磷酸化事件可能发生的位置。为此，我们求助于专门的生物信息学工具。但这些工具是如何工作的呢？在底层，许多工具依赖于一种优雅而强大的统计模型，称为位置特异性打分矩阵（Position-Specific Scoring Matrix, PSSM）。想象一下，为磷酸基团的理想“着陆平台”创建一个模板，其中在目标位点周围的某些位置偏好某些氨基酸“形状”，而其他氨基酸则不被允许。PSSM 就是这个模板的数学形式化。通过将这个矩阵沿着查询蛋白质的序列滑动，我们可以计算每个潜在位点的得分。高分表示与已知模式高度匹配，使其成为磷酸化的高概率候选位点。这是生物信息学核心原则的一个完美例证：复杂的生物学特异性通常可以被惊人简单的概率模型捕捉和预测。

宏观图景：观其友，知其能

蛋白质很少单独行动。它的功能深受其与其他分子相互作用的影响。从这个角度看，细胞不是一袋酶，而是一个错综复杂的相互作用蛋白质“社交网络”。绘制和分析这个网络——相互作用组（interactome）——为功能预测开辟了全新的途径。

考虑基因复制事件的后果，该事件产生两个相同的基因拷贝，称为旁系同源物（paralogs）。随着进化时间的推移，它们的功能可能会分化。一个旁系同源物可能保留祖先功能，而另一个则演化出新功能（新功能化，neofunctionalization），或者它们可能将原始职责分摊（亚功能化，subfunctionalization）。仅凭序列相似性可能不足以区分它们。此时，网络背景变得至关重要。通过检查每个旁系同源物的相互作用伙伴，我们通常可以解决这种模糊性。那个保留了大部分祖先相互作用伙伴的蛋白质，最有可能保留了祖先功能。另一个可能失去了旧的联系并获得了新联系的蛋白质，则可能正走在一条新的进化道路上 [@problemid:2405918]。从这个角度看，功能不仅是一种内在属性，它还由蛋白质在更大社群中的位置所定义。

当我们面临现代生物学最大的挑战之一时，这种系统层面的观点是不可或缺的：通过大规模测序发现的大量“假设蛋白质”。想象一下探索一个深海热液喷口，一个充满未知微生物的奇异生态系统。宏基因组分析揭示了数千个基因，但其中很大一部分没有已知功能。我们该从何入手？答案在于将计算预测与生态背景相结合。我们可以首先识别出表达量最高的假设蛋白质——这是在这个独特环境中扮演关键角色的首要嫌疑对象。然后，使用灵敏的搜索算法，我们可能会发现它与一个已知的酶家族有微弱的结构相似性。根据喷口独特的地球化学特征（也许它富含硫），我们可以形成一个可检验的假说：也许这个蛋白质代谢含硫化合物。最后一步是从计算机走向实验台：克隆该基因，生产该蛋白质，并用含硫底物进行直接的生物化学测定。这段从未知数据的海洋到具体生物化学功能的激动人心的旅程，证明了整合计算、生态和实验方法的强大力量。

现代纪元：用人工智能学习生命语言

整合不同数据类型——序列、背景、表达——的任务已被人工智能彻底改变。现代深度学习模型能够以远超早期方法的方式学习权衡和组合这些不同的信息流。

一种最先进的蛋白质功能预测方法可能采用一种混合架构，结合了卷积神经网络（CNN）和图神经网络（GNN）。CNN充当“序列专家”，扫描蛋白质的氨基酸链以识别重要的基序和模式——即蛋白质语言的语法和词汇。它将这些信息提炼成一个丰富的数字指纹，或称嵌入（embedding）。这个嵌入随后成为该蛋白质在GNN中的初始身份，GNN则在蛋白质-蛋白质相互作用网络上运行。然后，GNN允许信息在相连的蛋白质之间传播，实质上是让每个蛋白质根据其邻居的身份来完善自己的功能身份。这是对“观其友，知其人”原则的数字重演。这种方法的真正威力在于整个系统是端到端训练的。序列读取器和网络分析器共同学习，相互适应，以找到组合各自信息的最佳方式，从而做出最准确的预测。

预测在行动：从医学到进化论

蛋白质功能预测的工具并不仅限于基础研究领域。它们正积极推动着一系列科学学科的创新。

在医学领域，这些工具是个性化肿瘤学的核心。许多癌症是由产生新蛋白质的突变驱动的。这些蛋白质的片段，称为新抗原（neoantigens），可以展示在癌细胞表面，充当提醒免疫系统的“红旗”。个性化癌症疫苗旨在训练患者的免疫系统来识别这些特定的标志。核心挑战是预测肿瘤中数百个突变中，哪些会真正产生能有效呈现在细胞表面的新抗原。这个难题的一个关键部分是“抗原供应”。利用RNA测序数据，我们可以测量每个突变基因的表达水平，通常以每百万转录本数（Transcripts Per Million, TPM）来量化。在稳态的合理假设下，更高的转录本丰度会导致更多的蛋白质产生，从而导致更多的肽流进入抗原呈递途径。通过将高置信度的表达数据与肽-MHC结合预测相结合，研究人员可以优先选择最有希望的新抗原候选物用于疫苗，这代表了基因组学、免疫学和计算生物学的卓越融合。

在进化生物学中，功能预测提供了一种检验关于生命历史基本假说的方法。思考一下线粒体，我们细胞的“发电厂”。它是一个在超过十亿年前进入另一个细胞内定居的细菌的后代。虽然它的大部分祖先基因已经迁移到宿主细胞的细胞核中，但仍有极少数基因保留在线粒体内部。为什么？两种主要观点相互竞争。“疏水性假说”（hydrophobicity hypothesis）认为，这些保留基因编码的蛋白质是如此极端的“油性”和疏水，以至于在合成后将其导入线粒体在物理上是不可能的；它们必须在现场制造。“共定位氧化还原调控”（co-location for redox regulation, CoRR）假说则认为，这些蛋白质是能量产生机制的核心组成部分，它们的表达必须直接、快速地与细胞的氧化还原状态耦合——如果基因位于遥远的细胞核中，这种局部控制的壮举就会丧失。计算预测是我们剖析这些假说的主要工具。我们可以计算所有线粒体蛋白的疏水性，并检查保留下来的那些是否确实是其中最极端的。我们可以模拟电子传递链，看看保留的基因是否编码了最接近氧化还原活动中心的蛋白质。这表明，预测不仅是一个工程目标，而且是探索我们最深层起源的科学方法的一个基本组成部分。

最后，随着我们生成自动化注释能力的增强，我们面临一个新的挑战：确保质量和可靠性。我们可以构建作为“策展助手”的计算系统，系统地评估自动化功能分配的证据。这样的系统可以提出一系列问题：该蛋白质的序列家族是否支持该注释？其结构域是否与之冲突？其预测的酶活性是否一致？通过将这些不同的证据线索整合到一个单一的、量化的“不一致性得分”中，该系统可以自动标记可疑的注释，供人类专家审查。这代表了我们预测工具的一种“元应用”——利用预测来确保科学知识库本身的完整性 [@problemid:2383758]。

从打分矩阵的简单优雅到神经网络内部信息错综复杂的舞蹈，我们看到了一个统一的追求：将基因的线性代码翻译成动态、三维的功能世界。这项努力将信息论最抽象的原理与新药的切实希望以及对生命宏大、展开的交响乐的更深刻理解联系在一起。