基于配体的设计

玻尔百科

核心要点

基于配体的药物设计（LBDD）通过研究已知能与药物靶点结合的分子（配体），来推断该靶点的性质，从而在靶点三维结构未知的情况下实现药物发现。
它遵循“相似性原理”，即结构相似的分子具有相似的生物活性。但这一规律受到“活性悬崖”的挑战，即微小的结构改变会导致活性的急剧丧失。
LBDD的关键方法包括用于定义基本相互作用特征的药效团模型，以及在保持生物活性的同时创造新分子的骨架跃迁。
LBDD对于通过虚拟筛选寻找新候选药物至关重要，并且可以与机器学习和基于结构的数据相结合，以构建更强大的预测模型。
该方法可用于“靶点垂钓”，以预测分子的非预期靶点，从而帮助预见副作用并发现现有药物的新用途。

引言

在药物发现这个错综复杂的世界里，科学家们常常面临一个艰巨的挑战：设计一把新的分子钥匙（药物），却从未见过那把锁（生物蛋白靶点）。虽然依赖已知蛋白质结构的方法能提供清晰的蓝图，但现实是，许多靶点过于难以捉摸，无法以三维细节进行描绘。这造成了关键的知识鸿沟，并成为新药研发的重大瓶颈。当我们在黑暗中进行设计时，该如何继续？

本文将深入探讨一种巧妙的解决方案：基于配体的药物设计（Ligand-Based Drug Design, LBDD）。LBDD是一套强大的计算策略，它通过从钥匙本身——那些已知有效的的小分子或配体——中学习，来应对这种不确定性。通过研究这些活性化合物的共同特征，我们可以推断出成功的必要条件，并设计出全新的、有很高概率能匹配那把看不见的锁的分子。在接下来的章节中，我们将从基础理论走向实际应用。第一章“原理与机制”将阐释L-BDD之所以可行的核心思想，从直观的“相似性原理”到分子相互作用和模型构建的复杂现实。随后的“应用与跨学科联系”将展示这些原理如何被应用于解决药物化学中的实际问题，从规避专利陷阱到绘制庞大的药物-蛋白质相互作用网络。

原理与机制

在黑暗中设计

想象你是一位锁匠大师，接到一个不寻常的挑战。你必须为一把复杂的锁打造一把新钥匙，但有个条件：你不允许看到锁本身。你不能检查其内部的销钉，也不能测量其尺寸。你所拥有的只是一堆旧钥匙，其中一些已知可以打开这把锁，即使它们有时会卡住或需要一些晃动。你会怎么做？

你很可能会从研究那些你知道有效的钥匙开始。你会寻找共同的特征：一定数量的齿、特定的长度、特定的凹槽模式。通过比较成功的钥匙和不成功的钥匙，你可以推断出操作那个看不见的机制所必需的关键特征。你这是在从钥匙的属性推断锁的属性。

这正是基于配体的药物设计（LBDD）所面临的情景。在探索新药的过程中，科学家的目标是设计能够装入并调节生物靶点功能的小分子（“钥匙”或配体），这些靶点通常是大的蛋白质分子（“锁”）。有时，我们拥有通过X射线晶体学等技术解析出的蛋白质结合位点的高分辨率三维图谱。在这种情况下，我们可以使用基于结构的药物设计（SBDD），这就像能够看到锁的销钉并据此精确地加工一把钥匙。

但通常情况下，获取蛋白质的结构很困难甚至不可能。蛋白质可能过于灵活或不稳定，无法结晶。在这些情况下，我们就是在黑暗中进行设计。LBDD正是一套巧妙的策略，当我们对锁的结构一无所知时，仅依靠从已知能与其相互作用的其他配体中收集的信息来设计新钥匙。

相似性原理：一盏指路明灯

整个基于配体的设计体系建立在一个简单、直观且强大的理念之上：相似性原理。该原理指出，结构相似的分子往往表现出相似的生物特性。如果已知某个特定分子能与我们的靶蛋白结合，那么其他与它看起来非常相似的分子也很有可能有效。而一个结构迥异的分子则不太可能起作用。

我们可以通过想象一个广阔的、理论上的“构效关系景观”来将这一概念形象化。把它想象成一幅地图，上面每一个可能的点都对应一个独特的化学结构。地图上的“位置”由分子的特征——其大小、形状、电子性质等——决定。在每一个点上，“海拔”代表分子的生物活性，比如它与我们靶蛋白结合的紧密程度。高海拔意味着高活性。

相似性原理表明，这个景观在很大程度上是平滑的。它就像一个由连绵起伏的丘陵和缓坡构成的地理环境。如果你在这张地图上迈出一小步——也就是说，你对一个分子的结构做一个微小、细微的改变——你预期其海拔，即其活性，也只会发生微小的变化。这种局部平滑性的假设是我们的指路明灯。它让我们能够智能地探索这个景观。如果我们发现一个活性的“山丘”，我们可以相当有信心地认为其紧邻的区域也处于高海拔，我们可以在那里寻找更高的山峰。

坠落悬崖：当相似性失效时

当然，大自然很少如此简单和规矩。如果构效关系景观处处都完美平滑，药物发现就会容易得多。实际上，这个景观包含着一些危险而又极其迷人的地貌，被称为活性悬崖。

活性悬崖是景观中平滑性假设灾难性失效的区域。在这里，地图上无限小的一步——对分子结构一次微小到几乎微不足道的修改——会导致海拔的惊人骤降。想象一下，将一个碳原子变成一个氮原子，或者将一个甲基在一个环上的位置移动一位。突然之间，一个原本强效的结合分子变得完全没有活性。你就这样走下了悬崖。

是什么导致了如此戏剧性的效应？事后看来，物理原因往往非常清晰。那一个微小的结构变化可能引入了“空间位阻冲突”，使得钥匙大了那么一点点，无法装进锁里。或者，它可能移除了一个关键的氢键——这相当于锉掉了钥匙上抬起最后一个销钉的那一个关键的齿。

活性悬崖不仅是麻烦，它们还是深刻的老师。它们揭示了分子识别的精妙特异性，并精确地告诉我们配体的哪些特征对其功能是不可或缺的。最重要的是，它们教导我们，相似性原理是一个强大的启发式方法——一种统计上的经验法则——而不是一个根本的、不可打破的自然法则。它为我们的搜索提供了强有力的概率性指导，但我们必须时刻准备好，这个景观可能会给我们带来意外。

从原理到实践：打造水晶球

那么，我们如何将这个充满细微差别的原理转化为一个实用的、可预测的工具呢？第一步是以一种有意义的方式来表示我们的分子。

一个关键的洞见是，分子并非教科书中看到的僵硬、静态的球棍模型。它们是柔性的实体，围绕其化学键不断地摆动、振动和旋转。一个在溶液中自由漂浮的配体可能会采取一种紧凑的、低能量的形状。但当它与靶蛋白结合时，它可能会被迫形成一种不同的、能量更高的构象，以实现完美的互补匹配。这种特定的、结合状态下的排列被称为生物活性构象。依赖于孤立配体的单一最低能量结构可能会产生严重的误导。这就像试图通过观察一只伸展着身体睡觉的猫来预测它会如何扭曲身体钻进一个小盒子一样。一个更好的方法是生成一个构象系综——一个包含许多可能的、低能量形状的集合——以增加捕获接近真实生物活性构象的结构的几率。

在此基础上建立的最优雅的LBDD方法之一是药效团模型。药效团是分子的一个抽象表示，一个极简的示意图，它将其结构提炼为活性所必需的关键特征。它忽略了庞大的碳骨架，只关注关键的相互作用点：“这里必须有一个氢键受体”，“那里必须有一个油性的（疏水性）区域”，以及“这个位置必须有一个正电荷”，所有这些都由特定的几何排列来定义。

为了高保真地构建这样一个模型，我们可以求助于物理学的基本定律。利用量子力学，我们可以计算分子的分子静电势（MEP）。MEP是一张描绘分子周围电场的图，揭示了其富电子（负电势）和缺电子（正电势）的区域。负电势区域是氢键受体的首选位置，而正电势区域则突显了氢键供体。这使我们能够超越简单的结构规则，使用物理上严谨的基础来定义我们分子钥匙最重要的特征。

细节决定成败：数据整理与验证

在构建任何模型之前，我们必须面对实验数据的混乱现实。这就引出了一个出人意料地深刻的问题：两个分子“相同”到底意味着什么？在化学数据库中，一个单一的化合物可能有几十种表示方式：盐的形式、不同的质子化状态，或者几种快速相互转化的异构体（称为互变异构体）。对计算机来说，这些看起来都是不同的实体。如果没有细致的数据整理，将所有这些表示标准化为每种独特化合物的单一、规范形式，我们的模型将建立在一片混乱的基础上。这是使稳健的科学成为可能所必需的、尽管不那么光鲜的整理工作。

一旦我们的数据清理干净，模型也建立起来，我们如何知道我们的水晶球是否真的有效？我们如何避免自欺欺人，以为自己拥有一个强大的预测工具，而实际上只是一个能产生幸运猜测的生成器？这就是验证这门关键的科学。这个领域的一个大忌是数据泄露，即关于测试集的信息意外地污染了训练过程。这就像让一个学生在学习时偷看考题一样；他们最终得到的高分是毫无意义的。

一种远为诚实和严谨的方法是在模型从未见过的数据上进行测试。在药物发现中，这通常意味着按化学系列——围绕一个共同骨架构建的分子组——来划分我们的数据集。我们可能会用来自系列A、B和C的分子来训练我们的模型，然后测试它预测一个全新系列D的分子活性的能力。[@problem_-id:5257607] 这模拟了现实世界的挑战：我们的模型能否将其知识外推，以发明一类新的药物？

当我们进行如此严格的测试时，我们常常观察到一个令人谦卑且富有启发性的趋势：随着测试分子与训练分子的结构差异越来越大，模型的预测误差也随之增长。这是对我们基于相似性推理局限性的直接、定量的证明。我们离景观地图上熟悉的区域越远，我们的预测就变得越不可靠。

推理的局限：相关不等于因果

这就引出了所有问题中最深刻的一个：一个基于配体的模型到底能告诉我们什么？从本质上讲，LBDD是一个复杂的模式发现引擎。它揭示了结构特征和生物活性之间的相关性。但正如任何优秀的科学家所知，相关不等于因果。

假设我们的模型发现，含有特定化学基团的分子活性总是更高。它还注意到，这个相同的基团往往使分子更“油腻”（更具亲脂性）。那么，这个分子具有活性，是因为那个特定的基团与我们的蛋白质形成了关键的、靶向的相互作用吗？还是仅仅因为其增加的油腻性导致它非特异性地粘附在各种蛋白质上，这是早期药物发现中常见的假阳性来源？

没有靶点的结构背景，我们无法确定。观测到的数据是欠定的——多种合理的机理故事都可以解释同一种模式。[@problem-id:5257626] 一个LBDD模型本身无法告诉我们一个分子为什么有效。

这不是LBDD的失败，而是对其在科学流程中恰当角色的完美诠释。基于配体的模型是产生假设的机器。它们为我们的搜索指出有希望的方向，并建议接下来合成和测试哪些分子。要从相关性走向因果关系，我们必须整合其他形式的证据：进行额外的“反向筛选”实验以排除混杂效应，或者，作为最终的确认，最终获得靶点的三维结构，以最终亲眼看到钥匙究竟是如何装入锁中的。LBDD是在黑暗中航行的强大手电筒，但只有当它的光束与许多其他光源的光相结合时，才能实现真正的理解。

化学家的指南针：在分子设计的迷宫中导航

在我们之前的讨论中，我们阐明了基于配体的设计背后的原理。我们看到，通过研究少数已知能与生物靶点相互作用的分子，我们便可以推断出结合所需的秘密“握手信号”——即化学特征的特定三维排列，或称药效团。这个原理，即相似的分子往往具有相似的生物功能，是我们工作的基础。

但是，一个原理，无论多么优雅，都必须在现实世界中证明其价值。现在，我们从“是什么”转向“为什么”和“怎么样”。如果基于配体的设计是我们的指南针，它能将我们引向何方？我们就像站在一个近乎无限复杂的迷宫边缘的探险家：那片广阔、未知的“化学空间”领域，包含了所有可以想象的分子。我们的目标不仅仅是找到任何一条路，而是找到正确的路——那条通向安全有效药物的路。让我们踏上这段旅程，看看化学家的指南针如何不仅用于追踪小径，还用于开辟新路、绘制整个景观，甚至理解迷宫本身。

分子跃迁的艺术：逃离陷阱与躲避子弹

通常，第一个被发现能击中靶点的分子——我们的“先导”化合物——远非完美。它可能是一个出色的开拓者，但它的道路可能充满危险。也许它有毒，或者身体的代谢机制会迅速将其“咀嚼”并“吐出”。又或者，一个竞争对手的研究团队已经为化学迷宫的整个区域申请了专利。仅仅在原始分子上进行微小的化学修饰通常是不够的；我们需要大胆地跃迁到一个全新的化学空间区域。

这就是骨架跃迁的艺术。一个分子的“骨架”是其核心框架，其基本架构。骨架跃迁是一种大胆的行为，即用完全不同的东西替换这个核心，同时煞费苦心地保留关键的药效团——那个负责其活性的三维特征星座。想象一下你需要从家去办公室。你可以每天走同一条路线。但如果那条路因施工而封闭了呢？你会找到一套新的街道，仍然能把你带到同一个目的地。在化学中，我们做同样的事情。我们可能会用一个复杂的、三维的双环骨架来替换一个扁平的芳香族骨架。这两个分子在二维蓝图上可能看起来毫无关联，几乎没有结构相似性。然而，如果新骨架能够以同样精确的空间排列方式容纳关键的药效团特征——氢键供体、受体、带电基团——它仍然能配上靶蛋白的锁。

为什么要费这么大劲？回报是巨大的。考虑一个正面临现实世界问题的先导化合物。通过进行一次巧妙的骨架跃迁，药物化学家可以从第一性原理出发设计解决方案。

逃离专利陷阱：具有新颖骨架的新分子是一个独特的化学实体。它代表了新的知识产权（IP），使研究项目能够保护自己的发现。
躲避代谢子弹：一个常见的问题是，身体的酶，特别是细胞色素P450家族，会攻击某些化学基团，从而使药物失活。芳香环是常见的攻击目标。通过跃迁到一个饱和的、非芳香族的骨架，我们可以移除酶的“靶心”，使药物在体内的作用时间更长。
避免危险的副作用：许多副作用是由于药物意外地与错误的靶点结合而产生的。一个臭名昭著的例子是心脏中的hERG钾离子通道；阻断它可能导致致命的心律失常。这种脱靶结合通常是由高亲脂性（油腻性）和特定的电荷分布共同驱动的。骨架跃迁可以被设计用来降低亲脂性并改变分子的形状，使其远离hERG通道的“魔爪”，同时保持其对预期靶点的亲和力。

骨架跃迁不是随机游走；它是一次经过计算的、创造性的飞跃，由药效团这个指南针所指引。它是药物化学家武器库中最强大的策略之一，能将一个有问题的先导化合物转变为一个有前途的候选药物。

从“瞎子摸象”到智能搜索：虚拟筛选

找到第一个“命中”分子通常是最困难的部分。化学宇宙太过浩瀚，无法合成和测试每一种可能性。因此，我们筛选海量的、预先存在的数字化合物库，这些库可能包含数百万个虚拟化合物。这就是虚拟筛选，而基于配体的方法是使这种搜索变得易于处理的主要工具。

但如果我们的信息不完美呢？想象一个场景，我们有少数已知的活性配体，但我们对靶蛋白的唯一图像是来自低温电子显微镜的一张模糊、低分辨率的图谱。原子细节是模糊的，我们无法确定结合口袋的确切形状。我们应该相信我们模糊的图谱（基于结构的方法）还是已知活性物留下的踪迹（基于配体的方法）？在这里，不确定性原则指导着我们。预测模型的优劣取决于其所基于的数据。高分辨率的信息在于配体，而不是蛋白质结构。因此，使用已知活性物的3D形状和药效团作为模板的基于配体的筛选，成为更合理、更稳健的策略。它依赖于那些具有高置信度的已知信息。

现在，让我们反转一下场景。如果我们有一个精美的、高质量的靶蛋白图谱——也许来自一个同源模型——但我们没有任何已知的配体呢？线索断了。在这里，基于配体的设计展现了其奇妙的多功能性。我们可以直接从蛋白质的结合位点推导出一个基于结构的药效团。通过识别口袋内的关键氢键残基、疏水性斑块和带电区域，我们可以构建一个“幽灵”药效团——一个关于成功配体应该是什么样子的假说。

这个药效团模型随后可以作为一个极其快速和有效的过滤器。虽然它可能不完美，但它可以从数百万个化合物中筛选出一个具有正确几何和化学特征的小子集。这种方法的威力可以通过简单的概率定律来理解。在一个包含 $10^7$ 个分子的库中，可能只有 $10^{-4}$ （即万分之一）是真正的活性物。随机搜索是无望的。但是一个好的药效团过滤器，即使不完美，也能极大地提高筛选后集合中活性物的比例。这通过富集因子来衡量——即过滤后活性物比例与过滤前活性物比例的比值。通过使用一个具有高特异性（能正确拒绝大多数非活性物）的过滤器，我们可以实现10倍、50倍甚至更高的富集因子，从而显著增加我们后续更昂贵的实验产生真正“命中”的几率。这将搜索从大海捞针的问题转变为一个可管理且经济高效的努力。

知识的统一：编织数据世界

到目前为止，我们一直将基于配体的设计和基于结构的设计作为独立的工具来讨论。但最深刻的见解往往来自于结合不同来源的知识。现代药物发现是一个跨学科领域，这一点在其与数据科学和机器学习的融合中表现得最为明显。

假设我们有一组分子，既有基于配体的信息（如分子描述符），也有基于结构的信息（如对接分数）。我们该相信哪一个？答案是：我们可以学会智能地同时信任两者。我们可以构建模型来学习如何结合它们，而不是在两者之间做出选择。

其中一种技术是堆叠法（stacking）。想象一下，你有两位专家试图预测一个分子的活性。一位是“配体专家”，他只看分子自身的属性。另一位是“结构专家”，他只看它如何与蛋白质结合。你不是简单地平均他们的意见，而是雇佣一个“经理”——一个第二级的机器学习模型，或称元学习器。这位经理的工作是观察两位专家在验证数据集上的预测，并学习他们的偏见和长处。也许配体专家对小分子非常擅长，而结构专家对大分子表现出色。经理学会一个复杂的函数来组合他们的预测，从而产生一个比任何一位专家单独预测都更准确的最终预测。

另一个强大的想法是多任务学习。想象一下，你不仅想预测一个分子对一个靶点的活性，还想预测它对一整个相关靶点家族（如激酶）的活性。这些蛋白质具有相似的结构和结合机制。我们可以训练一个单一模型来同时预测所有这些靶点的活性，而不是为每个靶点建立独立的模型。通过学习这个更难、更复杂的任务，模型被迫去发现激酶结合的潜在通用原理。统计强度在靶点之间传递；来自一个研究充分的激酶的数据有助于改进对一个数据贫乏的激酶的预测。

这一切最终汇聚成化学基因组学QSAR的宏伟愿景。在这里，模型学习的不再是配体空间上的单个函数，而是配体与蛋白质的组合乘积空间上的函数。输入是一对：分子的表示和蛋白质的表示。这个统一的模型原则上可以预测任何配体和任何蛋白质之间的相互作用，从而能够对新分子（“冷门药物”）和新靶点（“冷门靶点”）进行预测。它代表了规模上的巨大转变，从单靶点建模转向绘制整个配体-蛋白质相互作用组的图谱。

调转望远镜：从发现药物到理解药物

到目前为止，我们的旅程一直在问这样一个问题：“对于我感兴趣的蛋白质，哪些分子会与它结合？”但基于配体的设计也让我们能够提出同样深刻的反向问题：“对于我感兴趣的分子，它会与哪些蛋白质结合？”这就是靶点垂钓领域。

这种需求植根于一个生物学的基本事实：很少有药物是完美的“魔弹”。大多数分子在某种程度上都存在多靶点药理学现象——它们会与多个靶点结合，而不仅仅是一个。这可能是产生不必要副作用的根源，但也可能正是药物起效的原因，特别是对于像癌症或抑郁症这样的复杂疾病，打击网络中的多个节点比只打击一个更有效。

我们如何预测这个相互作用之网？我们回到我们的指南针：相似性原理。我们可以在我们的查询分子周围构建一个“分子邻域”。通过在一个大型数据库中识别与我们查询分子结构相似的分子，然后检查它们已知的生物靶点，我们可以做出有根据的猜测。如果我们查询分子的许多邻居都已知能作用于多巴胺受体和血清素受体，那么这是一个强有力的假说，即我们的查询分子可能也会这样做。这可以通过为每个潜在靶点计算一个分数来形式化，通常是邻近分子活性的相似性加权平均值。一个已知活性邻居的相似性越高，它在最终分数中的“投票”权重就越大。

这种应用具有变革性。它让我们能够在开发的早期阶段预测潜在的副作用。它帮助我们从系统层面理解药物为什么会以某种方式起作用。它还为药物重定位——通过发现先前未知的靶点来为现有药物寻找新的治疗用途——打开了大门。

从对单一骨架的精确优化，到对整个人类相互作用组的全景描绘，基于配体的设计原则提供了一个强大而统一的框架。它是一种思维方式，一种推理方法，让我们能够从我们已知的分子中学习，去想象和创造我们需要的分子。它是化学家的指南针，一次又一次地揭示了连接分子结构与生命功能之间固有的美和逻辑。