蛋白质语言模型

玻尔百科

定义

蛋白质语言模型是利用自监督学习技术来掌握蛋白质序列“语法”的计算模型，其核心机制是通过预测掩码氨基酸来学习序列规律。该模型生成的上下文嵌入能够捕捉氨基酸的生物物理特性与进化关系，为蛋白质工程和功能注释提供了统一的量化框架。通过迁移学习和生成式设计，这些模型能够加速新蛋白质的开发，并有效连接蛋白质的序列、结构、功能与进化历史。

核心要点

蛋白质语言模型利用自监督学习（例如预测被掩码的氨基酸）来学习蛋白质序列的“语法”，而无需明确的生物学标签。
这些模型创建丰富的上下文嵌入，捕捉序列中氨基酸之间的生物物理特性和进化关系。
通过迁移学习，预训练模型能够在小数据集上实现准确预测，极大地加速了蛋白质工程和功能注释。
生成式PLM，包括扩散模型和自回归模型，可以通过学习结构和稳定性的规则来从头设计全新的蛋白质。
PLM提供了一个统一的、定量的框架，将蛋白质的序列、结构、功能和进化历史联系起来，连接了生物学的不同领域。

引言

蛋白质语言模型（PLM）代表了生物学的一次范式转变，它利用人工智能的力量来解码复杂的蛋白质序列语言。几十年来，科学家们一直在努力解决一个极其复杂且重要的问题：如何从蛋白质的氨基酸线性链预测其错综复杂的三维结构和功能。传统的实验和计算方法虽然提供了关键的见解，但往往难以应对蛋白质宇宙的巨大规模和多样性。PLM通过将蛋白质序列视为一种语言，应用自然语言处理中的技术来学习支配蛋白质生物学的潜在语法和语义规则，从而弥补了这一差距。

本文全面概述了这一革命性领域，分为两个关键章节。在第一章“原理与机制”中，我们将探讨这些模型如何通过自监督学习来学习蛋白质的“语法”，并以丰富的上下文嵌入形式来表示其知识。我们将揭示这一过程如何使它们能够隐含地捕捉物理学和进化的规律。第二章“应用与跨学科联系”将展示这些模型的变革性力量。我们将探讨它们在解读蛋白质功能、智能设计新酶以及从头设计全新蛋白质方面的应用，展示PLM如何在生命科学的各个领域之间建立新的桥梁。

原理与机制

在认识了我们故事的主角——蛋白质语言模型之后，是时候深入其内部，看看它们究竟是如何工作的了。一台机器如何仅通过阅读海量的蛋白质序列文库，就能学会生命的秘密语言？其原理既出奇地简单，又蕴含着深刻的美感，揭示了信息、进化和物理学之间深度的统一。

无师自通地学习蛋白质语法

想象一下，你得到一个图书馆，里面有用一种未知语言写成的所有书籍，但你没有字典，也没有老师。你怎么可能学会这门语言呢？你可能会从一个游戏开始。拿一个句子，遮住其中一个词，然后试着猜它是什么。对于“猫坐在___上”，你的直觉，经由上下文磨练，会告诉你这个词很可能是“垫子”或“椅子”，但肯定不是“天空”或“唱歌”。

这就是自监督学习的核心思想，也是驱动蛋白质语言模型的范式。模型不会被给予像“这个蛋白质是酶”或“这个是结构组分”这样的明确标签。相反，序列数据本身提供了监督。我们取一个蛋白质序列，随机隐藏或掩码（mask）一部分氨基酸，然后给模型一个简单的任务：填空。

模型进行猜测，为每个被掩码的位置输出20种可能氨基酸中每一种的概率。然后我们揭示正确答案。如果模型为真实的氨基酸分配了高概率，它的误差就低。如果它对答案感到“惊讶”——意味着它分配了低概率——它的误差就高。这种“惊讶”程度由一个名为困惑度（perplexity）的指标来量化；一个好的模型是困惑度低的模型，一个很少感到惊讶的模型，因为它已经学会了语言的内在规则。通过在数百万个蛋白质序列上重复这个游戏数十亿次，模型调整其内部参数，从而逐步更好地理解蛋白质的“语法”。

意义的浮现：从词语到嵌入

但是，计算机“理解”一个氨基酸意味着什么呢？它不可能像化学家那样知道亮氨酸是疏水的。相反，模型学会将每个氨基酸表示为一列数字——一个在高维空间中的向量，称为嵌入（embedding）。

为了建立直观理解，可以考虑一个更简单的想法。在人类语言中，出现在相似上下文中的词通常有相关的含义。我们期望“狗”和“猎犬”会出现在相似的句子中，而“狗”和“对数”则不太可能。我们可以设计一个模型，为每个词学习一个向量，并将共享上下文的词的向量在这个嵌入空间中拉得更近。著名的例子是，“国王”的向量减去“男人”的向量再加上“女人”的向量，最终会非常接近“女王”的向量。嵌入空间中的空间关系捕捉了语义关系。

蛋白质语言模型做的事情与此类似，但层面要复杂得多。它们不只是为丙氨酸学习一个单一的、静态的嵌入。它们学会生成一个上下文嵌入。模型对位置50处丙氨酸的表示，取决于其周围的整个蛋白质序列。真正的魔力由此开始，因为在蛋白质的世界里，“上下文”的含义远比线性的文本字符串要深刻得多。

聆听进化的长程对话

蛋白质序列不是一个句子；它是一个复杂三维分子机器的配方。在线性链上相隔数百个位置的两个氨基酸，在最终折叠的结构中可能最终并排在一起，紧密地堆积。在亿万年的进化中，这些位置一直在进行对话。如果位置50的突变扰乱了结构，自然选择可能会偏好在位置250发生一个补偿性突变，以恢复稳定性或功能。这在序列的遥远位置之间创造了一种微妙的统计指纹——一种高的互信息 $I(X_i; X_j)$ 。

为了赢得“填空”游戏，模型必须学会聆听这些长程对话。一个自回归（autoregressive）模型，即从左到右逐个生成氨基酸序列，将会举步维艰。在决定残基 $i$ 时，它没有关于残基 $j \gt i$ 的任何信息，这使得它难以强制执行全局约束，如二硫键或β-折叠片。

但是，主导该领域的掩码语言模型（MLM）是非因果的；它们能同时看到整个被破坏的序列。为了准确预测一个被掩码的残基，模型被迫从所有其他可见的残基中（无论远近）收集线索。在这样做的时候，它隐含地学习了支配蛋白质结构的物理和进化规则。为了最小化其困惑度，它必须有效地学习一种物理学的基本形式——氨基酸如何堆积在一起，哪些配对相互吸引或排斥，以及哪些模式能导致稳定的折叠——所有这些都从未展示过一个三维结构，也未被教过任何一个物理方程。

因此，它产生的上下文嵌入变得异常丰富。一个氨基酸的向量不再仅仅表示“这是一个丙氨酸”；它表示“这是一个位于蛋白质表面、部分暴露于水、并扮演次要结构角色的丙氨酸”。嵌入空间的几何结构开始反映蛋白质世界的生物物理景观。

良好教育的力量：现实世界中的迁移学习

这种深刻的“教育”正是使蛋白质语言模型具有革命性的原因。大多数现实世界的生物学问题都受困于标记数据的稀缺性。想象一下，你想设计一种稳定性更高的酶，但你在实验室中只能负担得起测试 $n=80$ 个变体。试图仅用80个样本从头开始训练一个强大的深度学习模型是徒劳的；模型有数百万个参数，它只会记住数据，包括实验噪声，从而导致灾难性的过拟合。

这就是迁移学习发挥作用的地方。我们不必从头开始训练模型，而是可以利用我们受过高等教育的、预训练的语言模型。我们把我们的80个序列输入到冻结的预训练模型中。它不会给我们最终答案，但会以高维嵌入向量（例如在 $\mathbb{R}^{512}$ 中）的形式给出它对每个序列的“看法”。

我们的问题现在被转化了。我们不再试图在一小组原始序列中寻找复杂的模式，而只需在一个“智能的”新空间中寻找一个简单的模式（如线性关系）。在这些80个点上拟合一个线性探針（linear probe）——一个简单的线性模型——要容易得多，并且对过拟合的鲁棒性更强。用贝叶斯术语来说，预训练过程提供了一个关于在蛋白质世界中哪些函数是合理的、信息量极大的先验信念。这个先验极大地约束了可能解的空间，使我们能从非常少的数据中得出有效的结论。这种卓越的样本效率是它们实用力量的关键。

从阅读到写作：生成式设计的黎明

除了理解现有的蛋白质，这些模型现在也开始编写新的蛋白质。如果一个模型学会了蛋白质的语法，它能谱写一首新的十四行诗吗？

几种策略已经出现。同样的掩码语言模型可以被迭代使用：从一个随机序列开始，掩码一些位置，然后让模型“重新填充”空白。通过重复这个过程，就像雕塑家精雕细琢一块大理石一样，一个连贯且类似蛋白质的序列可以浮现出来。

功能更强大的是扩散模型。它们从纯粹的混沌开始——一团代表序列或三维坐标的随机数——并学会逐步地逆转这种混沌，直到一个完全成形、结构化的蛋白质显现出来。真正令人兴奋的是，这些迭代过程可以被引导。在每个去噪步骤中，我们可以将模型推向一个期望的结果——例如，通过对预测会折叠成特定形状或与特定靶分子结合的序列给予奖励。通过构建这些对物理定律（如旋转和平移不变性，即SE(3)等变性）具有内在尊重的模型，我们不仅可以生成合理的序列，还可以生成合理的三维结构，预示着计算蛋白质设计的新时代。

生命的通用语法：应用与跨学科桥梁

既然我们已经窥探了让计算机能够“阅读”蛋白质语言的原理，我们可能会问：“这有什么用？”这是一个合理的问题。一个科学思想的真正美妙之处不仅在于其优雅，更在于其力量。而蛋白质语言模型（PLM）的力量是惊人的。它们不仅仅是生物文本的被动翻译者；它们是一个多功能的工具包，一把万能钥匙，可以解锁生命科学广阔领域中的各种问题。通过学习连接蛋白质序列与功能的深层语法，这些模型为我们提供了一种全新的直觉形式，使我们能够在生命的语言中导航、编辑、甚至撰写新的故事。

让我们踏上旅程，浏览其中的一些应用，从直截了当到看似神奇，看看一个统一的概念如何辐射开来，触及现代生物学的几乎每一个角落。

解读词典：功能注释

PLM最直接的应用或许是充当生物学图书管理员，为一个未知的蛋白质指定功能。想象一下，你在一种不起眼的微生物中发现了一个新基因。你将其翻译成氨基酸序列，但它做什么呢？PLM能以惊人的速度提供答案。正如我们所知，模型可以将任何蛋白质序列转换成一个数值向量——一个嵌入。可以把这想象成给蛋白质分配坐标，将它放置在一张广阔的高维地图上。

神奇之处在于，模型通过对数百万种不同蛋白质的训练，已经按功能组织了这张地图。所有起作用的蛋白质，比如氧化还原酶，都聚集在地图的一个“大陆”上，而所有的转移酶则居住在另一个大陆。要弄清楚我们新蛋白质的功能，我们只需计算它的嵌入，看看它落在地图的哪个位置。如果它正好落在转移酶大陆的中心，我们就有一个非常强的假设，认为它是一种转移酶。这种几何方法将抽象的功能预测问题转化为在抽象空间中测量距离的具体问题。

这个“功能地图”不仅适用于单个蛋白质。我们可以用它来理解遗传事件的更广泛后果。例如，在许多生物体中，一个单一的基因可以通过一种称为可变剪接的过程产生多种不同的蛋白质，即不同的片段（外显子）被拼接在一起。包含一个小的、可变的外显子会显著改变蛋白质的功能，还是仅仅是微小的调整？通过计算蛋白质两个版本——一个有外显子，一个没有——的嵌入，我们可以测量它们在功能地图上的距离。大的距离意味着功能的显著“语义变化”，而小的距离则表明更微妙的修饰。这提供了一种定量的方式，将我们基因的蓝图直接与它们的功能输出联系起来，从而连接了基因组学和蛋白质组学的世界。

编辑叙事：蛋白质工程

知道一个蛋白质的功能是一回事，但如果我们想改进它呢？这就是蛋白质工程的领域，这个领域传统上是由缓慢的、迭代的随机突变和费力的筛选循环驱动的。PLM正在从根本上改变这个过程，把它变成一个有指导的、智能的搜索。

一个训练有素的PLM最令人惊奇的能力之一是“零样本（zero-shot）”预测。这意味着模型可以在从未明确接受过突变数据训练的情况下，预测突变的效果。怎么做到的？通过学习蛋白质语法的规则，模型对什么构成一个“合理的”蛋白质产生了隐含的理解。当我们引入一个突变时，我们可以问模型：“鉴于你所知道的关于天然蛋白质的一切，这个新序列的可能性有多大？”这通常被计算为突变体与原始序列之间的对数似然比。如果一个突变导致模型认为极不可能或“惊奇”的序列，这是一个很好的迹象，表明该突变具有破坏性，很可能损害蛋白质的功能。相反，一个模型认为合理的改变更有可能是良性的，甚至是有益的。这使得科学家们可以在计算机中（in silico）筛选成千上万个潜在的突变，将他们宝贵的实验室资源仅集中在最有希望的候选者上。

我们可以更进一步，在计算机和实验者之间建立真正的伙伴关系。这就是人工智能引导的定向进化背后的思想。想象一下，我们有一小组初步的、经过实验测试的50个酶变体。我们可以利用这些数据来“微调”一个通用的PLM，教给它我们酶适应度景观的具体细微差别。然后，微调后的模型不仅能预测新突变体的预期活性，还能预测它自己对该预测的不确定性。为了选择下一个要合成的突变体，我们不只是选择预测活性最高的那个（利用）。我们采用一种也重视高不确定性的策略（探索），因为那才是我们能学到最多的地方。一种常见的方法是置信上限（UCB）策略，它使用如下公式为候选突变体 $x$ 打分：

$UCB(x) = \mu(x) + \beta \sigma(x)$

这里， $\mu(x)$ 是模型预测的活性， $\sigma(x)$ 是其不确定性，而 $\beta$ 是平衡两者的参数。通过选择UCB得分最高的突变体，我们智能地在搜索空间中导航，迅速地逼近更好的蛋白质，同时有效地描绘出整个景观。这把定向进化从一种蛮力搜索变成了一场与生物学的战略性、数据驱动的对话。

撰写新篇章：从头设计

从阅读和编辑，我们现在飞跃到最终的创造性行为：从头开始编写全新的蛋白质。这就是从头蛋白质设计的领域，其目标是创造出具有自然界中从未见过的新颖功能或结构的蛋白质。

思考这种生成能力的一个简单方法是，将模型想象成一个文本自动补全器。给定一个序列的最初几个氨基酸（一个“N端片段”），一个生成式PLM可以预测最可能的下一个氨基酸，然后再下一个，依此类推，“补全”蛋白质，这是基于它从自然界中学到的统计模式。这种自回归生成，虽然基于一个简单的概率原理，却是一个极其强大思想的种子。

蛋白质设计中的巨大挑战通常是“反向折叠问题”：你在计算机上设计了一个你认为能执行特定功能的美丽三维骨架，但什么样的氨基酸序列会真正折叠成那个确切的形状？这不是一个简单的一对一映射；许多序列可以折叠成相似的结构，而更多的序列会完全无法折叠。PLM在这种创造性搜索中成为不可或缺的工具。我们可以使用搜索算法来提出候选序列，然后使用两种模型作为我们的向导。首先，一个结构预测模型（其本身通常包含类似PLM的组件）预测我们候选序列的结构。我们评估这个预测结构与我们目标设计的匹配程度。其次，我们使用一个PLM来评估候选序列本身的“蛋白质相似性”或“语法正确性”。于是，搜索过程变成了一个贝叶斯优化，我们寻找一个序列 $x$ ，它在给定我们目标结构 $Y^{\ast}$ 的情况下是可能的，这与给定序列的结构似然 $P(Y^{\ast} | x)$ 乘以序列的先验概率 $P(x)$ 成正比。结构预测器让我们能够处理似然，而PLM为我们提供了对先验的有力估计。通过结合这些，我们可以发现不仅在几何上合理，而且很可能在热力学上稳定并在细胞中“舒适”的序列。

连接生物学之树的各个分支

PLM的影响超出了分子尺度，为生物学的不同领域之间提供了新的桥梁。考虑一个经典的生物信息学问题：在一个新测序的基因组中找到一个基因的对应物（其同源物）。这可以比作机器翻译，比如我们从“人类”翻译到“果蝇”。蛋白质的核心功能单元，即其保守结构域，就像习语——其含义无法从单个词语中理解。一个稳健的“翻译”需要识别这些习语并保持它们的顺序和上下文。老方法可能会被点缀在真核基因中的长长的、非编码的内含子所迷惑。然而，现代方法可以直接将一个已知的蛋白质序列与整个基因组进行比对，智能地为内含子建立“间隙”模型，并使用基于HMM（PLM的概念祖先）的复杂评分模型来专门识别保守结构域，即“习语”。这使得即使面对杂乱、不完整的基因组数据，也能稳健地发现基因。

也许最深刻的是，在学习蛋白质语言的过程中，PLM无意中也学到了关于其历史的一些东西。一些模型可以在自监督的方式下被训练，以估计任意两个蛋白质之间的进化距离。通过比对两个序列并根据分子进化模型进行校正，可以计算出一个目标“距离”。然后可以训练一个PLM，使其直接从序列回归这个距离值。结果是一个模型，它可以观察两个蛋白质，并给出一个关于它们在生命之树上相隔多少个每个位点的替换数的校准估计。这显示了一种深刻的统一：决定蛋白质结构和功能的统计模式，与产生它们的进化过程密不可分。

一种新的生物学直觉

我们所见的这些应用仅仅是个开始。蛋白质语言模型不仅仅是一套新工具；它们代表了一种新的思维方式。它们让我们看到的蛋白质宇宙不再是一个个孤立、无关的分子的集合，而是一个连续、可导航的景观。它们为我们的生物学直觉提供了一个计算框架，将“功能”、“适应性”和“进化”等模糊概念转变为我们可以测量、预测和设计的量。通过学习生命基本分子的通用语法，我们正开始说自然本身的语言，在我们理解、改造和欣赏生命世界的探索中开启了新的篇章。