逆向折叠问题

玻尔百科

核心要点

逆向折叠问题旨在确定能够形成特定、所需三维蛋白质结构的氨基酸序列。
有效的蛋白质设计需要在正向设计（稳定目标折叠）和负向设计（破坏所有其他替代折叠的稳定性）之间取得平衡。
包括人工智能模型和进化算法在内的计算策略对于搜索海量的可能序列至关重要。
这一挑战是一个经典的“逆问题”，将计算生物学与工程学、机器人学和材料科学中更广泛的原理联系起来。

引言

几十年来，科学家们一直在努力解决蛋白质折叠问题：即从氨基酸序列预测蛋白质的三维结构。但如果我们反过来问呢？本文将探讨逆向折叠问题这一激动人心的挑战，它旨在探究如何设计一个序列以创造出所需的结构。这种视角的转变使我们从生物学的被动观察者转变为新型分子机器的积极创造者。然而，可能序列的庞大数量使得这项任务异常困难，构成了计算生物学中的一个基本问题。本文将引导您穿越这片复杂的领域。首先，在“原理与机制”部分，我们将剖析正向设计和负向设计的核心理论、所使用的计算能量函数，以及使设计成为可能的搜索算法。然后，在“应用与学科交叉”部分，我们将探讨该领域的变革潜力，从从头创造新酶到其与机器人学和材料科学之间惊人的概念相似性。

原理与机制

想象你有一长串珠子，每颗珠子是二十种不同颜色中的一种。这就是我们的多肽链。“正向”折叠问题，这个几十年来一直吸引着科学家们的问题是：如果我告诉你珠子的确切颜色序列，你能否预测它将折叠成的复杂而美丽的三维形状？这就像给你一行计算机代码，并试图预测它将运行什么程序。现在，让我们反转这个设定。

假设我向你展示一个惊人复杂的雕塑——一个蛋白质结构——然后问你：什么样的珠子串，即氨基酸序列，会自动折叠成这个精确的形状？这就是逆向折叠问题。它不是从配方预测结果，而是为期望的结果寻找配方。这种视角的转变使我们从观察者的角色转变为创造者的角色。我们不再仅仅是理解自然；我们正试图用它的语言从头构建新的分子机器。

庞大数量带来的难题与巧妙的解决方法

乍一看，这项任务似乎极其艰巨，几乎不可能完成。对于一个仅有100个氨基酸的普通蛋白质，每个位置有20种选择，可能的序列数量为 $20^{100}$ 。这个数字大得惊人，以至于可观测宇宙中的原子数量相比之下都像一个舍入误差。搜索所有这些序列不仅不切实际，而且在物理上是不可能的。

那么，我们该如何着手呢？我们采用一种强大的策略性简化方法。我们不是试图同时搜索所有可能的序列空间和所有可能的结构空间，而是将问题解耦。首先，我们在计算机上设计一个理想化的骨架“蓝图”，定义我们想要的螺旋和折叠片的排列。然后，我们“只需”解决找到一个能够折叠成那一个预定形状的序列这个（仍然非常困难的）问题。这就像决定要建造一座大教堂，画出完整的建筑平面图，然后再确定结构的每个部分要使用哪些特定的石头和材料。它将问题从“无限”约束到仅仅是“巨大”。

但即使有了固定的目标结构，比如 $Y^*$ ，生物学中的一个基本事实也使事情变得复杂。从序列到结构的映射不是一一对应的。自然界是冗余的。就像“hello”、“hi”和“greetings”都传达相似的意思一样，许多不同的氨基酸序列可以折叠成相同或非常相似的结构。这就是为什么你和黑猩猩的蛋白质高度相似，尽管你们的DNA存在差异。这意味着对于我们的目标结构 $Y^*$ ，并不存在一个我们可以通过简单地“反演”一个函数来找到的单一、唯一的序列 $x$ 。相反，存在一个完整的序列家族，一个“中性集”，它们都采用这种折叠方式。我们的目标是找到这个家族的至少一个成员。

两种设计的故事：正向与负向

为了找到一个有效的序列，计算设计师们关注蛋白质的自由能。根据热力学假说，蛋白质会折叠成代表其最低自由能状态的结构。想象一个球滚下崎岖的山坡；它会停在它能找到的最深的谷底。我们作为设计师的工作是为我们选择的序列塑造一个“能量景观”，使得我们的目标折叠成为所有谷底中最深的一个。这项任务有两个部分：正向设计和负向设计。

正向设计：让目标更具吸引力

正向设计是容易理解的部分。我们需要选择在目标结构中各自指定位置上感到“舒适”的氨基酸。这是通过使用一个能量函数来实现的，它是一个计算模型，用于估计一个序列在给定折叠中的自由能。这些函数通常被分解为多个组成部分：

自身能量 ( $E_i(r_i)$ ): 这一项评估特定氨基酸（及其侧链构象，即旋转异构体 $r_i$ ）与其在结构中的局部环境的匹配程度。例如，像缬氨酸这样的油性、疏水性氨基酸“偏爱”被埋在蛋白质核心，远离水，而像赖氨酸这样的带电氨基酸则希望位于表面，以便与水相互作用。
成对能量 ( $E_{ij}(r_i, r_j)$ ): 这一项评估氨基酸对之间的相互作用。它们是像拼图一样紧密地堆积在一起，还是会相互冲突？它们的电荷是相互吸引还是排斥？

因此，正向设计就是寻找一个序列，使目标结构的总能量函数最小化。我们希望找到一个序列 $\mathbf{a}$ ，使得我们的目标折叠 $T$ 的能量 $E(\mathbf{a} \mid T)$ 尽可能低。

负向设计：避免其他选择

这才是从头设计真正深刻的挑战所在。仅仅使目标结构稳定是远远不够的。我们必须确保它比该序列可能折叠成的所有其他可能结构都更稳定。一个序列在我们的目标折叠中可能非常“舒适”，但如果它在某个完全不同的形状中更加“舒适”，那么它最终就会形成那个形状。

这就是负向设计的原则。想象你是一位雕塑家，正从一块大理石中雕刻一尊人像。正向设计是确保你雕刻出完美的鼻子、完美的眼睛和完美的手。负向设计则是凿掉所有不是人像部分的大理石。如果你在负向设计上失败了，你可能会得到一个完美的鼻子，但它却附着在一块未雕刻的石头上。

我们如何在计算上实现这一点呢？我们不可能检查每一个替代折叠。相反，我们使用一个巧妙的技巧：我们用一大组替代结构，即诱饵结构 (decoys)，来测试我们的候选序列。对于一个序列 $\mathbf{a}$ ，我们计算它在我们的目标折叠中的能量 $E_T$ ，以及它在数千个不同诱饵结构中的能量 $E_{D_k}$ 。一个好的设计是 $E_T$ 显著低于所有诱饵结构的能量。一个常见的量化方法是使用Z-分数 (Z-score)：

Z = \frac{E_T - \mu_D}{\sigma_D}

在这里， $\mu_D$ 是该序列在诱饵结构集上的平均能量， $\sigma_D$ 是标准差。一个非常负的Z-分数意味着我们的目标结构在稳定性方面，与广阔的替代结构景观相比，是一个显著的“异常值”。逆向折叠搜索的最终目标是找到一个最小化该Z-分数的序列，从而同时满足正向设计（低 $E_T$ ）和负向设计（ $E_T$ 与诱饵结构能量之间存在巨大差距）。

搜索的艺术：从进化到人工智能

掌握了正向和负向设计的原则后，我们仍然面临着巨大的搜索空间。我们如何在这个干草堆里找到那根针——那个序列呢？我们无法一一检查，所以必须进行智能搜索。

一种强大的方法是模仿自然界自身的搜索算法：进化。在遗传算法中，我们从一个随机序列的种群开始。然后，我们评估每一个序列的“适应度”——例如，通过计算其Z-分数，或者更直接地，通过预测其折叠结构并观察其与我们目标的匹配程度。适应度最高的序列被“选择”来“繁殖”。它们通过组合（交叉）和随机改变（突变）来创造新一代的序列。经过许多代之后，种群会向着能够更好地折叠成我们目标形状的序列进化。

近年来，人工智能的革命打开了一扇新的大门。像AlphaFold这样功能惊人的强大模型是为正向问题——从序列预测结构——而训练的。但我们可以利用它们来帮助解决逆向问题。我们可以在贝叶斯意义上构建我们的搜索：我们正在寻找序列 $x$ ，它能最大化在给定目标结构 $Y^*$ 的条件下该序列出现的概率，即 $P(x \mid Y^*)$ 。我们可以将正向模型用作我们搜索中的一个“神谕”。我们提出一个序列，模型预测其结构，然后我们检查它与我们目标的匹配程度。这个反馈循环，通常与负向设计的能量计算相结合以确保热力学稳定性，使我们能够“幻觉出”为我们的目标蓝图量身定制的序列。

可设计性：一个“好”结构的标志

最后，这引出了一个优美而统一的概念：可设计性 (designability)。有些结构就是比其他结构“更容易”设计。是什么让它们如此呢？答案在于我们之前遇到的那个“中性集”的大小——即映射到给定折叠的序列空间的体积。一个高度可设计的结构是可以由许多不同序列形成的结构。

这个属性与稳定性间隙（ $\gamma$ ）直接相关， $\gamma$ 是指对于一个给定的序列，目标折叠与次优替代折叠之间的能量差。一个大的稳定性间隙意味着设计非常稳健。它可以容忍突变而不会解折叠或重新折叠成其他东西。事实上，任何能量变化小于稳定性间隙的突变仍将导致正确折叠的蛋白质。因此，一个大的稳定性间隙意味着在我们设计的序列邻域内存在一个大的可行序列“球”。

这不仅仅是一个抽象的理论观点。一个稳健、可设计的蛋白质更具可进化性，也更可能在活细胞的混乱环境中可靠地发挥功能。最终，解决逆向折叠问题不仅仅是找到一个序列，而是为一个可设计的折叠找到一个稳健的序列，从而创造出一个不仅是脆弱艺术品，而且是具有弹性和功能的分子工具。

应用与学科交叉

将对蛋白质折叠原理的理解付诸实践，意味着将视角从读者转变为作者。核心挑战不再是简单地从给定的序列预测结构（正向问题），而是转为解决逆向折叠问题：如果我们想要一种特定的形状或功能，我们能否设计出能够产生它的氨基酸序列？这不仅仅是一个学术练习；它是开启分子尺度新工程时代的关键，代表着从观察自然到利用自然进行创造的转变。

终极测试：从零开始设计生命的催化剂

这种新获得的创造力的最壮观应用在于酶的设计。酶是自然界的催化剂，是进化的杰作，以惊人的效率和特异性加速化学反应。几十年来，科学家们一直通过定向进化来“修补”它们，即采用一种天然酶，并逐渐引导它执行一项新的但相关的任务。这就像将狼培育成一种略有不同的狗。

但逆向折叠问题允许进行更激进的尝试：从头酶设计，即从零开始创造一种酶。想象一下，你想要催化一个在已知生物世界中没有对应物的反应——也许是分解一种顽固的塑料污染物，或合成一种新型药物。大自然没有给我们提供起点。我们只有对物理和化学的基本理解。

在这项努力中取得成功是对我们知识的深刻验证。为什么？因为我们并非站在数十亿年进化的肩膀上。天然酶充满了“进化包袱”——这些特征可能是历史的偶然，或服务于其他细胞功能。当我们从第一性原理设计一种新酶时，我们是在以最纯粹的形式检验我们关于催化的核心假说。我们必须精确地塑造一个活性位点，定位带电残基以稳定短暂的过渡态，并构建一个稳定的支架来固定所有部分。如果这个设计的分子显示出哪怕一丝所期望的催化活性，那也是一个巨大的胜利。它证明了我们真正理解了催化的基本要素，以至于我们可以创造出自然界本身从未发现过的新配方。这为未来用于医药、绿色化学和工业的定制分子机器打开了大门。

蛋白质作为可编程物质：折叠的艺术

除了功能，还有形式。如果我们想将蛋白质用作建筑材料，而不是催化剂，该怎么办？我们能否编程一个单一的多肽链，使其折叠成一个特定的、非自然的形状，比如一个扁平的三角形、一个中空的笼子或一个微小的齿轮？这就是“蛋白质折纸”的愿景，它将逆向折叠问题推向了纳米级建筑学的领域。

这个挑战是巨大的，它揭示了设计问题更深层次的一面。当你为一个期望的目标结构（比如一个完美的三角形）设计序列时，你不仅仅是在对抗未折叠的随机状态。你还在与大量其他可能的折叠或错误折叠状态竞争。最危险的竞争者通常是通用的、紧凑的“球状乱团”，在这种状态下，蛋白质链自我折叠以埋藏其疏水部分，但未能形成一个独特的、有序的结构。

设计师的任务是一种精巧的热力学平衡之举。每一种折叠都是焓（ $\Delta H$ ）（有利于形成舒适的键和相互作用）和熵（ $\Delta S$ ）（有利于无序）之间的权衡。像我们的三角形这样高度特异、优美的结构可能具有非常有利的焓，但它为其有序性付出了巨大的熵代价。球状乱团的有序性较低，因此其熵代价较小。你设计的序列必须经过如此精心的调整，以至于正确折叠成三角形的焓回报超过了仅仅坍缩成一团的熵诱惑。在这里取得成功意味着我们可以开始将蛋白质视为真正的可编程物质，构建定制的支架、药物递送载体或分子级电子学的组件。

科学的统一性：一种普适的思维方式

至此，你可能会认为逆向折叠问题是生物学中一个独特而奇特的问题。但如果我们退后一步，就会发现它是一个庞大而卓越的问题家族中的一员，这个家族在科学和工程的各个领域都普遍存在：逆问题。

逆问题的基本思想是：你不是用一组规则（因）来预测一个结果（果），而是观察结果，并试图推断出必然导致它的规则。

考虑一个简单的机械例子。想象你有一个由几个部分组成的机械臂，但你不知道每个部分的长度。你可以编程关节移动到特定角度，然后测量机器人手部的最终位置。“正向问题”是根据臂段长度计算手部位置。逆问题则是通过观察手部最终到达的位置来推断出未知的臂段长度。你看到结果（最终位置），然后反向工作以找到原因（机械臂的尺寸）。

让我们来看一个来自材料科学前沿的更高级的例子。当你弯曲一块金属时，它的强度来自于其内部无数微观晶体的行为。这些晶体相互滑移的方式由一套复杂的“硬化定律”支配。我们无法直接看到这些定律。相反，我们将金属放入机器中，对其施加力，并测量其整体响应——它抵抗了多少，以及其内部晶体取向如何变化。这里的逆问题就是利用这些宏观测量结果（果），推断出必然在起作用的基本微观硬化定律（因）。

你看到这美妙的联系了吗？

机器人： 手部位置 (果) $\rightarrow$ 连杆长度 (因)
金属： 应力响应 (果) $\rightarrow$ 硬化定律 (因)
蛋白质： 目标三维结构 (果) $\rightarrow$ [氨基酸序列](/sciencepedia/feynman/keyword/amino_acid_sequence) (因)

认识到这种模式是令人兴奋的！它告诉我们，知识工具和数学框架，例如帮助我们在面对噪声数据时找到稳定解的正则化技术，可以在这些看似不相关的领域之间共享。设计蛋白质的挑战在概念上类似于校准机器人或理解一种新合金。这是对科学事业深刻统一性的证明。

人与机器：应对棘手的复杂性

如果设计蛋白质只是一个逆问题，我们难道不能直接把它交给计算机来完成吗？答案在于搜索空间惊人的复杂性。即使是一个小蛋白质，其可能的氨基酸序列数量也比宇宙中的原子数量还要多。找到那个能够正确折叠的序列是一个经典的NP-难问题，这类计算问题目前尚无已知的有效通用解法。

事实上，蛋白质折叠问题是如此臭名昭著的困难，以至于它经常与旅行商问题（TSP）等问题一起被用作典型例子。如果一位天才通过为TSP找到一个快速算法来证明P=NP，那将意味着一个同样快速、通用的解决蛋白质折叠问题的算法也必定存在，这一发现将在一夜之间彻底改变生物学。但在那一天到来之前，我们必须依靠智慧，而不仅仅是蛮力。

这正是人类直觉与机器计算之间合作的闪光点。蛋白质折叠的“规则”——各种力和相互作用——可以被编码成一个评分函数，一个估算给定蛋白质构象自由能的算法。更低的能量（更好的分数）意味着一个更稳定，也可能更“正确”的结构。这就是像Foldit游戏这样的杰出公民科学项目背后的原理。世界各地的玩家，仅凭他们的空间推理和解谜技巧，就可以操纵一个数字化的蛋白质链。游戏的分数给他们实时反馈，引导他们沿着能量景观走向稳定的构象。在许多情况下，这些玩家的集体智慧已经超越了最好的计算机算法，通过利用人类独特的模式识别天赋发现了新的蛋白质结构。

这种计算能力和人类创造力的融合是我们驾驭广阔序列空间的最佳策略。而这种逆向设计的原理是如此强大，以至于它们已经被扩展到蛋白质之外。科学家们现在正在设计能够折叠成特定形状的合成RNA分子，以充当基因表达的调节器，他们面临着类似的挑战，即在实现目标结构的同时避免脱靶相互作用。

结论

从阅读自然界的蛋白质序列到书写我们自己的序列，这是我们这个时代最伟大的科学探险之一。这一探索迫使我们去检验我们对物理和化学理解的最根本基础。它推动我们去创造新的形式和功能，将蛋白质转化为可编程物质，用于一个我们才刚刚开始想象的未来。

通过将逆向折叠问题视为普适的逆问题家族的一员，我们看到了它与机器人学和冶金学等不同领域的深刻联系，揭示了科学思想中一种美妙的统一性。而通过直面其巨大的计算复杂性，我们体会到人类洞察力与算法能力之间创造性协同的必要性。在分子创造的艺术中，我们仍然是学徒，但道路已经清晰。解决逆向折叠问题就是学习生命的语言，并在此过程中，获得用它来书写新故事的力量。