结合亲和力预测

玻尔百科

定义

结合亲和力预测是分子生物学中的一种计算方法，旨在通过长程静电和短程相互作用等物理力来确定分子间相互作用的强度。该领域通常包括对接预测三维构象和评分预测相互作用强度两个关键步骤，并需平衡结合焓与熵。现代方法利用机器学习模型识别复杂模式并量化不确定性，是理性药物设计和个性化医疗的重要基础。

核心要点

结合亲和力源于一个复杂的物理作用力交响乐，包括长程静电作用和短程相互作用，它们共同决定了分子相互作用的强度。
计算预测涉及两个关键步骤：对接（预测三维姿态）和打分（预测相互作用强度）。精确的打分需要在结合能（焓）和分子自由度损失（熵）之间取得艰难的平衡。
蛋白质柔性，即“诱导契合”，是一个关键因素，因为刚性模型常常会失败，它们没有考虑蛋白质为容纳配体而改变形状所消耗的能量。
现代机器学习模型，特别是那些能够量化自身不确定性的模型，正在通过从数据中学习复杂模式并将实验研究引向信息最丰富的领域来改变亲和力预测。
预测结合亲和力的能力是现代科学的基石，它使得合理的药物设计、个性化癌症疫苗成为可能，并加深了我们对从细胞信号传导到进化等基本过程的理解。

引言

预测两个分子间相互作用的强度——它们的结合亲和力——是现代生物学和医学中最根本的挑战之一。这种“分子握手”几乎掌管着每一个生物过程，从药物如何抑制一种酶，到我们的免疫系统如何识别一个威胁。从设计拯救生命的药物到理解遗传疾病的根本原因，我们预测这些相互作用的能力至关重要。然而，这种预测远非易事，它涉及物理作用力、分子柔性和环境因素之间复杂的舞蹈，这些长期以来一直挑战着科学家和计算模型。

本文将带领读者探索结合亲和力预测这一错综复杂的领域。我们将首先深入其核心的原理与机制，解析支配结合的力的交响乐、蛋白质的动态特性以及对接和打分的计算障碍。随后，在应用与跨学科联系部分，我们将见证这些预测如何彻底改变从个性化癌症治疗到进化生物学等领域，展示这一预测科学深远而广泛的影响。

原理与机制

想象一下，在一个拥挤的房间里，你试图预测两个陌生人之间握手的结果。你不会只看他们手的大小，还会考虑他们的性格、他们如何相互靠近、是否需要挤过人群，甚至他们对自己问候的信心。预测两个分子是否会“粘”在一起——这正是结合亲和力的本质——是一个惊人相似的挑战，是一场物理、化学和信息的美丽舞蹈。要为这场分子握手打造一个水晶球，我们必须首先理解这场舞蹈的规则。

宇宙之握：力的交响曲

结合的核心是一个关于力的故事。当一个药物分子遇到一个蛋白质时，它们并非像台球一样相互碰撞。它们通过一个微妙而复杂的电磁相互作用网络感知彼此的存在。物理学家们已经对这些非共价作用力进行了分类，形成了一个名副其实的“动物园”，每种力都有其自身的特性和“作用范围”。

让我们来思考一个受蛋白质结合口袋内相互作用启发的思想实验。想象一下药物上的带电离子和蛋白质上的极性基团之间的相互作用。这种离子-偶极相互作用就像在房间里远距离的呼喊。其势能 $V$ 随距离 $r$ 的衰减相对较慢，为 $V \propto r^{-2}$ 。现在，想象一个不同的场景：药物上的极性基团在蛋白质的非极性基团中诱导出一个临时偶极。这种偶极-诱导偶极相互作用就像一场密谋的耳语，只有当分子非常接近时才能听到。其势能衰减得非常快，为 $V \propto r^{-6}$ 。

力是该势能的梯度，本质上是能量“山丘”随距离变化的陡峭程度。一个有趣的结果是：即使在某一距离上，长程呼喊和短程耳语的能量相等，它们施加的力却不相等。短程耳语尽管作用范围有限，但在近距离内涉及的能量景观要陡峭得多。这意味着它能施加惊人强大的拉力，但仅在极小的距离内有效。最终的结合亲和力是这场力的交响乐的总和——呼喊与耳语、吸引与排斥——所有这些都在三维空间中上演。这场分子握手的总强度就是我们所说的结合亲和力。它通常用解离常数 $K_d$ 或其对数形式 $pK_d$ 来量化，告诉我们这两个分子更倾向于在一起还是在溶液中分开漂浮。

锁与钥匙的重新构想

一个多世纪以来，科学家们一直使用“锁与钥匙”的比喻：配体（钥匙）契合蛋白质结合位点（锁）的特定形状。这是一个强有力的起点，但现实远比这更优雅和动态。蛋白质不是一个被动的、刚性的锁；它是一个积极的参与者，一个有辨别力的守门人。

一个经典的例子存在于我们肌肉中储存氧气的普通肌红蛋白中。肌红蛋白的“业务端”是一个带有铁原子的血红素基团，该铁原子与氧气（ $O_2$ ）结合。然而，有毒的一氧化碳（ $\text{CO}$ ）与裸露的血红素基团的结合力比氧气强20000倍！如果这在我们的身体里也成立，那么即使在新鲜空气中我们也会立即窒息。肌红蛋白通过一个位置绝妙的氨基酸——远端组氨酸——解决了这个问题。这个组氨酸残基悬停在结合位点附近。当 $O_2$ 结合时，它以一个角度结合，远端组氨酸会与它形成一个稳定的氢键，就像一只欢迎的手。然而， $\text{CO}$ 更喜欢以直线方式结合。远端组氨酸会挡住它的路，对其产生空间位阻，迫使其处于一个不舒服、紧张的位置。

如果我们假设将这个组氨酸突变成一个微小的甘氨酸残基，我们就移除了这个守门人。 $O_2$ 的稳定氢键消失了，因此其亲和力降低。但 $\text{CO}$ 的空间位阻也消失了，所以其亲和力急剧增加。这种精妙的原子级调控正是生物学实现特异性的方式，确保正确的钥匙受到热烈欢迎，而错误的钥匙则被礼貌而坚决地拒之门外。

这种化学“个性匹配”甚至更深。软硬酸碱（HSAB）原则提供了另一个优美的经验法则。在化学中，“硬”酸碱体积小且不易变形（像弹珠），而“软”酸碱体积大且有弹性（像泡沫球）。规则很简单：硬者喜硬，软者喜软。锌离子（ $Zn^{2+}$ ）是一种“边界”酸，对许多酶至关重要。有毒的重金属汞离子（ $Hg^{2+}$ ）是一种非常“软”的酸。如果一种酶使用来自天冬氨酸残基的“硬”氧原子来固定其锌，那么软的汞就不会感到自在，会成为一个差的抑制剂。但如果该酶使用来自半胱氨酸残基的“软”硫原子，那么软的汞会找到一个不可抗拒的匹配，取代必需的锌，并关闭该酶。这就是为什么汞对特定类别的蛋白质毒性如此之大的原因——这是一个化学相容性出错的故事。

构建计算水晶球

理解这些原理是一回事，预测它们的结果是另一回事。这就是计算能力发挥作用的地方。从核心上讲，我们可以将其构建为一个机器学习任务：我们想建立一个模型，它以药物和蛋白质的表示为输入，并预测一个代表它们结合亲和力的连续数值。这是一个经典的回归问题。这项工作的核心在于两个相互关联的挑战：对接和打分。

对接是“姿态预测”问题：在锁中找到钥匙的正确三维方向。我们如何知道我们的对接程序是否优秀？一个基本的合理性检查称为再对接。我们取一个实验确定的蛋白质与其配体结合的结构，以数字方式移除配体，然后让我们的程序将其放回。如果程序成功，预测的姿态将与原始实验姿态几乎相同，我们用均方根偏差（RMSD）来衡量这种一致性。一个低的RMSD（通常低于2埃）让我们有信心，至少对于这个特定案例，我们的算法可以找到正确的握手方式。

打分是“亲和力预测”问题：一旦我们有了一个姿态，相互作用有多强？这要困难得多。让我们考虑一个简化的打分函数，它只计算有利接触的数量，如氢键和范德华相互作用。这样的函数在姿态预测方面可以出奇地有效。当比较同一个配体的不同姿态时，许多复杂的物理项往往会相互抵消，而具有最多“良好接触”的姿态通常是正确的。

然而，当我们试图用这个同样的简单分数来比较不同配体的亲和力时，它常常会惨败。一个大的、柔性的配体可能比一个小的、刚性的配体形成更多的接触，从而得到更高的分数。但实验现实可能恰恰相反。为什么？这个简单的分数缺少了物理学的一个关键部分：熵。熵，在某种意义上，是无序或自由度的度量。一个在溶液中自由游动的柔性配体具有很高的构象熵——它可以扭动和摇摆成无数种形状。为了与蛋白质结合，它必须被“冻结”成一个单一的、特定的姿态。这种自由度的损失带来了熵的代价。这就像告诉一个爱玩的孩子必须站得笔直不动；强制维持这种秩序需要能量。一个好的打分函数必须在形成接触的有利能量（焓）和失去自由度的不利代价（熵）之间取得平衡。这就是为什么一个简单的接触计数分数通常足以用于姿态排序，但对于亲和力排序却很糟糕。

蛋白质之舞：当锁改变形状时

我们的模型变得更加复杂，因为蛋白质不是静态的。它们是动态的、会呼吸的实体。有时，锁本身会改变形状以适应钥匙，这种现象被称为诱导契合。

想象一个对接实验，其中未结合的，即apo蛋白质的结合口袋被一个柔性环路所阻挡。一个标准的刚性受体对接程序，使用这个apo结构，注定会失败。它无法将配体放置在正确的位置，因为门是关着的。相反，它可能会在表面其他地方找到一个浅的、不正确的口袋。因为程序的打分函数没有意识到蛋白质为了移开环路付出了显著的能量代价（重组能），它可能会查看这个虚假口袋中的相互作用，并错误地预测一个非常高的结合亲和力。

这是药物发现中的一个经典失败模式，其教训是深刻的。要成功，我们的模型必须考虑蛋白质的柔性。这可以通过使用更先进的诱导契合对接算法来实现，这些算法允许蛋白质的某些部分移动，或者通过对不同蛋白质快照的系综进行对接，希望其中一个类似于“开门”状态。蛋白质不仅仅是一把锁，它是一个动态的舞伴。

前沿：从数据中学习并拥抱不确定性

平衡所有这些物理项——力、熵、去溶剂化、蛋白质重组——的复杂性是巨大的。这导致了一场范式转变。如果我们不试图从第一性原理写下所有的物理规则，而是让计算机从数据中学习它们呢？这就是机器学习打分函数（MLSFs）的前景。

这些模型在成千上万的结合亲和力实验测量数据上进行训练，学习将分子特征与其结合强度联系起来的微妙模式。然而，它们并非万能药。一个MLSF的智能程度取决于训练它的数据。一个专门在激酶抑制剂上训练的模型，在被要求评估一种蛋白酶的潜在药物时，很可能会失败。定义一个好的蛋白酶抑制剂的化学特征可能对该模型来说是完全陌生的。这就是适用域的概念。在我们信任一个预测之前，我们必须问模型：“这个分子和你以前见过的东西有任何相似之处吗？”我们甚至可以量化这种“新颖性”，如果新分子差异太大，我们就知道不要相信模型的预测。

这把我们带到了任何科学预测的最终目标：不仅要提供一个答案，还要量化我们对它的信心。当今最先进的模型，使用像证据深度学习这样的方法，正是这样做的。它们不是预测一个结合亲和力的单一数值，而是预测一个完整的概率分布。它们可以告诉我们它们有多不确定，更重要的是，它们可以告诉我们为什么。总不确定性可以分为两类。偶然不确定性是数据本身固有的随机性或噪声；任何模型，无论多么聪明，都无法消除它。另一方面，认知不确定性是模型自身的无知。当我们向模型询问其训练数据之外很远的东西时，它就会很高。

这种区别是革命性的。如果一个预测具有很高的偶然不确定性，我们知道对于那个系统，我们的预测能力存在一个根本的限制。但如果它具有很高的认知不确定性，这就是一个直接、可操作的指令：“去这里收集更多的数据！”它将预测模型转变为一个科学伙伴，引导像免疫肽组学这样的实验努力，走向分子世界中最具信息量和最未知的角落。我们终于不仅在学习如何建造一个水晶球，而且在学习理解它的污点和反射，将其从一个预言的工具转变为一个真正发现的工具。

应用与跨学科联系

现在我们已经探索了诱使分子短暂拥抱的物理作用力，让我们走出第一性原理的领域，看看这种理解将我们引向何方。我们会发现，结合亲和力的概念不仅仅是物理化学家的好奇心；它是一把万能钥匙，能打开生物学这座宏伟大厦中几乎所有房间的门。它的预测能力揭示了疾病的起因，指导着拯救生命的药物的创造，甚至揭示了支配进化本身的微妙规则。

现代医学的艺术与科学

从本质上讲，现代医学的很大一部分可以被看作是操纵结合亲和力的艺术。经典的药物作用“锁与钥匙”比喻，实质上就是一个关于亲和力的故事。但今天的科学远不止于寻找一把合适的钥匙。它关乎设计完美的钥匙，有时是为某个特定个体独有的锁而设计。

理性设计分子探针和药物就是一个很好的例证。想象一下，我们想通过阻断一种植物激素的作用来控制其生长。我们不是随机测试数千种化学物质，而是可以从激素的结构及其受体入手。如果我们知道激素上一个带负电的羧酸根基团在受体的结合口袋深处形成了一个关键的静电锚点，我们就可以做出一个理性的预测：如果我们中和那个电荷会怎样？通过将羧酸转化为甲酯，我们消除了关键的离子相互作用。正如基本原理所预测的那样，这个单一的、有针对性的化学改变极大地降低了结合亲和力，从而将一个天然的激动剂变成了一个强效的拮抗剂。同样的逻辑——识别并破坏关键相互作用——是贯穿所有生命领域的药物发现的基石。

这枚硬币的另一面是理解当大自然自身的设计出错时会发生什么。许多遗传病是由于突变破坏了一个至关重要的结合事件的直接结果。以HGPRT酶为例，它对于回收DNA的构建模块至关重要。它的功能取决于以适当的亲和力结合其底物，该亲和力由米氏常数 $K_m$ 描述，在某些条件下， $K_m$ 近似于解离常数 $K_d$ 。一个将结合口袋中带正电的赖氨酸替换为中性甲硫氨酸的单点突变可能是灾难性的。曾经固定底物带负电部分的强静电握手消失了。结果是 $K_m$ 值大幅增加，意味着酶对其底物的抓握力变得极其微弱。这种亲和力的丧失削弱了酶的效率，导致代谢废物堆积，并引发像Lesch-Nyhan综合征这样的毁灭性神经系统疾病。因此，预测突变对结合亲和力的影响等同于预测其致病的可能性。

在个性化癌症治疗这一前沿领域，亲和力预测的力量尤为引人注目。你的免疫系统旨在识别并摧毁那些表面展示外来蛋白质片段的细胞，这些片段由称为主要组织相容性复合体（MHC）的分子呈递。癌细胞源于你自身的细胞，但它们含有产生新蛋白质序列的突变——即新抗原。创建一个个性化癌症疫苗的巨大挑战是，要从患者肿瘤产生的数千种潜在新抗原肽中，识别出哪些能与该特定患者独特的MHC分子组强力结合。这是一个巨大的结合亲和力预测问题。解决方案涉及一个复杂的流程，从测序肿瘤的DNA开始，识别突变，然后通过计算预测每个突变肽与患者个人MHC变体的结合亲和力。只有最强的结合者才可能被呈递给免疫系统，并触发强有力的抗癌反应。

这种精妙的控制延伸到治疗性抗体的设计。抗体有两个主要工作：它的臂（Fab区）与目标结合，比如癌细胞上的蛋白质，而它的尾（Fc区）则作为旗帜，召唤免疫系统的“杀伤细胞”。但免疫系统也有“抑制性”受体，告诉它停止行动。通过巧妙地工程化抗体的Fc尾部，我们可以调节其对这些不同受体的亲和力。例如，通过对结合界面静电景观的理解，可以设计一个单一的氨基酸改变，以增加对杀伤细胞上激活型Fc受体的亲和力，同时降低对抑制性受体的亲和力。这一完全依赖于预测和调节 $\Delta G_{\text{bind}}$ 的分子工程壮举，有效地调高了“攻击”信号，调低了“冷静”信号，从而释放出更强大、更有针对性的治疗效果。

生命的编排

在临床之外，结合亲和力支配着协调生命本身的基本过程。它是细胞间交流的语言，是塑造发育中组织的力量，也是组织细胞质本身的原则。

在大脑中，每一个思想和行动都依赖于神经递质与其受体的精确结合。受体的功能有两个方面：其亲和力决定了它捕获神经递质的紧密程度，其效能描述了它在结合后传递信号的能力。这两者并非独立。例如，在甘氨酸受体中，结合口袋中的芳香族氨基酸形成一个“阳离子-π盒子”，将甘氨酸分子拥入怀中。如果我们将这些残基突变为更简单的脂肪族残基，我们就破坏了这一关键相互作用。结合自由能变得不那么有利，意味着亲和力显著下降。要获得相同的响应，需要更高浓度的甘氨酸。但更重要的是，因为这些相互作用有助于稳定受体的活性、通道开放状态，它们的缺失也降低了受体的最大效能。信号不仅更难启动，而且发生时也更弱。

这种可调相互作用的原则也塑造着发育中的胚胎。一个无形的细胞球如何知道如何长出头、尾和其间的一切？部分答案在于称为形态发生素的信号分子的梯度。但同样重要的是那些与它们结合并阻断其信号的拮抗剂。例如，Noggin蛋白通过隔离形态发生素BMP来帮助构建神经系统。这种构建的精确性是浓度和结合亲和力之间的微妙舞蹈。通过设计Noggin中的突变，理性地破坏其BMP结合位点——例如，通过反转其“夹子”结构域中的电荷——我们可以可预测地削弱其亲和力。一个注射了这种较弱Noggin的胚胎将需要更高剂量才能达到相同的发育效果，例如诱导第二体轴。这表明自然如何使用结合亲和力作为变阻器来控制构建身体的信息流。

甚至细胞的内部结构，曾经被认为是简单的酶袋，现在也被理解为一个高度组织化、动态的环境。最令人兴奋的组织原则之一是液-液相分离，其中蛋白质和其他生物分子自发地凝聚成无膜细胞器，就像水中的油滴。这个过程是由一个弱的、多价的相互作用网络驱动的。在神经元的突触中，像Shank和Homer这样的支架蛋白上布满了多个相互结合的“贴纸”。当这些蛋白质的浓度足够高时，就会达到一个临界点，形成一个逾渗网络，导致凝聚相的出现。这个临界浓度 $c^*$ 对贴纸的成对结合亲和力极其敏感。如果一个突变使贴纸间的相互作用减弱仅仅两倍，凝聚所需的临界浓度将大约增加一倍。需要更高的浓度来补偿更弱的“胶水”。因此，预测结合亲和力使我们能够预测活细胞的相图。

生物系统的深层逻辑

当我们进一步放大视野时，我们发现结合亲和力不仅仅是一种机制；它是在支配生物系统的抽象逻辑中扮演核心角色的参与者，从进化的动态到细胞信息的处理。

也许最深刻的例子之一来自进化生物学领域，关于“着丝粒驱动”的奇怪故事。在雌性减数分裂中，四组染色体中只有一组能进入卵细胞。你可能认为这是一场公平的抽签，但一些着丝粒DNA序列已经学会了作弊。它们进化到能招募更大的着丝粒动粒（将染色体拉开的蛋白质机器），从而有更好的机会被拉到“获胜”的一方。这造成了一种基因组内冲突——生物体自身基因组内部的军备竞赛。基因组如何反击？它进化出抑制蛋白。一个关键的着丝粒动粒蛋白CenH3可以进化出“扁平化”其结合景观的突变。抑制版本的CenH3不再是与“作弊”的着丝粒DNA非常紧密地结合而与其他DNA松散结合，而是进化到能更公平地与所有变体结合。通过减少着丝粒群体间结合亲和力的差异，它减少了着丝粒动粒大小的差异，并恢复了公平的减数分裂抽签。在这里，进化的解决方案不一定是更强的结合，而是更公平的结合。

亲和力作为可调参数的主题在细胞如何从模糊的模拟组件中做出尖锐、开关般的决策中也至关重要。一个过程可以被泛素连接酶标记以进行降解，但前提是它必须先被激酶“批准”。大自然的优雅解决方案是多位点磷酸化。当目标蛋白未磷酸化时，连接酶可能对其亲和力非常低。当有一个磷酸基团时，它可能只结合得稍好一些。但随着越来越多的磷酸基团被添加，其结合亲和力可以急剧且非线性地增加。磷酸基团数量与结合的连接酶比例之间的关系可以用一个陡峭的希尔函数来描述。这种安排，即高亲和力结合需要多个信号的汇合，创造了一个“超敏”开关。通过对系统建模，我们可以推导出一个有效的希尔系数来描述这个开关的陡峭程度——这个系数是磷酸化位点数量和结合相互作用协同性的直接函数。

新前沿：人工智能与预测生物学

几十年来，预测结合亲和力一直是基于物理的模拟的领域——功能强大但通常缓慢且计算要求高。今天，我们站在一个由人工智能驱动的新前沿。

从简单的单维氨基酸序列预测蛋白质结合的复杂三维舞蹈是一个巨大的挑战。新的范式是迁移学习。科学家现在可以在几乎所有已知蛋白质的序列上训练巨大的“蛋白质语言模型”。通过处理这个庞大的数据集，这些模型学习了蛋白质生物学的基本“语法”——决定折叠、功能和相互作用的微妙模式。然后，该模型可以将任何蛋白质序列转换为丰富的数值表示，即“嵌入”，它捕获了这些学到的知识。神奇之处在于，这个通用的、预训练的模型可以为一个高度特定的任务进行微调。仅需少数实验数据点，就可以在这些强大的嵌入之上训练一个简单的回归模型，以准确预测像新型抗体与病毒抗原的结合亲和力这样的属性。

从神经元的火花到基因组中的生存斗争，从胚胎的形状到抗癌药物的设计，结合亲和力的原则是一条普遍的线索。我们预测它的能力已经改变了生物学和医学。随着我们继续开发更强大的计算工具，我们对这种生命基本语言的熟练程度只会继续增长，开启我们刚刚开始想象的新的发现世界。