try ai
科普
编辑
分享
反馈
  • 基于配体的筛选

基于配体的筛选

SciencePedia玻尔百科
核心要点
  • 基于配体的筛选通过识别已知活性分子的共同化学特征来发现新的候选药物,从而无需靶蛋白的结构。
  • 药效团概念创建了一个包含关键空间和电子特征的抽象三维模型,该模型随后被用于搜索庞大的化合物库。
  • 分级筛选策略将快速的基于配体的方法用于初步筛选,并结合较慢但更精确的基于结构的方法进行优化,从而提高效率。
  • 针对诱饵分子集进行严格的模型验证至关重要,以防止过拟合,并确认模型捕捉到了具有统计学意义的生物信号。
  • 该方法学可扩展至高级应用,如用于脱靶预测的反向筛选、用于知识产权创新的骨架跃迁以及为优化ADMET性质而进行的设计。

引言

在药物发现这个错综复杂的世界里,最终目标是找到一把能匹配特定生物锁——即靶蛋白——的钥匙,从而改变其功能并治疗疾病。通常,科学家们拥有这把锁的详细蓝图,从而可以进行细致的、基于结构的设计。但如果这把锁是一个黑匣子,其结构未知,情况会怎样呢?这是一个常见且重大的挑战,阻碍了许多药物发现项目。在对锁孔一无所知的情况下,我们如何找到钥匙呢?

本文探讨了解决这一问题的巧妙方案:​​基于配体的药物设计 (LBDD)​​。这种强大的方法就像一位侦探,在没有蓝图的情况下,通过研究一组已知可以开锁的钥匙来开展工作。通过识别它们的共同特征,侦探可以推断出锁的关键属性,并寻找具有相似特征的新钥匙。LBDD 将同样的逻辑应用于分子,利用从已知活性化合物(配体)中获得的知识来发现新的候选药物。

我们将对该方法学进行全面的探索。首先,在​​原理与机制​​部分,我们将深入探讨核心概念,从药效团的抽象概念到用于筛选数百万化合物的计算策略,以及模型验证的至关重要性。随后,在​​应用与跨学科联系​​部分,我们将看到这些原理的实际应用,考察基于配体的筛选如何被用于从骨架跃迁、药物重定位到确保新药安全性和有效性的方方面面,从而展示其在现代生物学和药理学中的重要作用。

原理与机制

侦探的类比:从钥匙而非锁进行推理

想象你是一名侦探,正试图打开一把神秘而复杂的锁。你有两个可能的出发点。如果幸运的话,你可能拥有锁本身的蓝图——其内部由销钉和弹子组成的复杂网络。有了这个,你就可以从头开始精心设计一把钥匙,计算出与每个机制啮合所需的精确形状。这就是​​基于结构的药物设计 (SBDD)​​ 的精髓,它依赖于了解靶蛋白详细的三维原子结构。

但如果你没有蓝图呢?如果这把锁是个黑匣子呢?一切都还没有结束。假设你找到了几把不同的钥匙,由于某种原因,它们都能打开这把锁。你不知道它们是如何工作的,但你知道它们确实有效。一个聪明的侦探不会放弃。相反,你会把这些钥匙摊在桌子上,然后问:“这些钥匙有什么共同点?”它们是否都在特定深度有某个凹槽?在顶端有特定的缺口?通过研究已知解决方案的共同特征,你可以推断出锁内部机制的关键属性。然后,你可以利用这些知识去寻找其他看起来像“好钥匙”的物体,甚至设计新的钥匙。

这就是​​基于配体的药物设计 (LBDD)​​ 美妙的核心思想。这是一种从已知活性分子——即​​配体​​——出发进行推理,以发现新分子的哲学,而全程都无需看到它们相互作用的生物靶点的原子细节。当一个研究团队成功结晶出一种新酶,但不知道哪些分子可能抑制它时,他们最好的选择是利用蛋白质的结构作为计算搜索的直接指导,这种方法称为分子对接。但如果该结构难以获得,而又已知一些活性化合物,那么侦探式的基于配体的筛选方法就成了首选策略。

解码信息:药效团概念

基于配体的侦探工具箱中的核心工具是​​药效团​​。药效团并非分子本身,而是其背后的抽象概念。它是“为确保与特定生物靶点实现最佳超分子相互作用所必需的空间和电子特征的集合”。可以把它想象成所有能开锁的钥匙所共有的、必不可少的“钥匙性”:这里一个凸起,那里一个凹槽,顶端一个带电点。这些特征可能是一个可以提供氢键的点(​​氢键供体​​)、一个可以接受氢键的点(​​氢键受体​​)、一个油性的疏水区域(​​疏水基团​​),或是一个正电荷或负电荷中心。药效团就是这些特征特定的三维排列方式。

要构建这样一个模型,我们需要在一组已知的活性分子中寻找共识。但这个过程建立在一个至关重要的假设之上:我们研究的所有活性分子都以相似的方式与靶点结合——它们共享一个共同的结合模式。如果我们在训练集中无意中包含了一把“坏钥匙”——一个确实有活性但以完全不同方向结合的分子——我们的模型就会被破坏。算法在试图寻找共识时,将被迫去迁就相互矛盾的信息。它可能会通过“扩大其容差范围”来模糊特征的位置,甚至可能断定某个特征并非必需而将其标记为可选。结果就是一个特异性较差、模糊的模型,它失去了预测能力,导致在筛选中出现更多的假阳性,最终性能更差。

分子生命中一个引人入胜的事实使这个过程变得复杂:分子不是僵硬的雕像。它们是柔性的,不断地摆动和改变形状。那么,哪种形状才是结合的“正确”形状呢?我们称之为​​生物活性构象​​。一个常见的误区是认为生物活性构象必须是分子在溶液中自由漂浮时最稳定、能量最低的形状。但情况往往并非如此。

配体在蛋白质结合口袋内采取的构象是使整个系统——蛋白质、配体和周围的水——自由能最小化的构象。一个配体可能会扭曲成一个能量更高、看似“不舒服”的形状,如果这种张力能够通过与蛋白质的一系列完美放置的强相互作用得到超额补偿的话。这就像一个人为了完美地坐进一把定制的椅子而保持一个略显别扭的瑜伽姿势。依赖配体的单一能量最小化结构可能会完全错过这种真实的生物活性形状。一个更为稳健的策略是使用​​构象系综​​,即许多可能的低能形状的集合。这个系综更有可能包含一个接近生物活性所需构象的形状,即使它不是绝对的最低能量状态。结合已知的结构约束,例如某个化学基团的刚性,可以进一步优化这个系综,防止模型变得过于宽泛而失去其特异性。

搜寻:从数百万到少数几个

一旦我们有了抽象的模型——一个药效团或一个参考形状——搜寻就开始了。我们筛选庞大的数字图书馆,其中有时包含数百万甚至数十亿的化合物,寻找与我们模板匹配的分子。

将形状作为特征

最直观的基于配体的方法之一是​​基于形状的筛选​​。其简单的想法是,具有相似三维形状的分子更有可能与同一靶点结合。但是,比较两个柔性的复杂三维物体的形状在计算上是困难的。对于数百万个化合物来说,逐个原子的暴力比对方法实在是太慢了。我们需要一个更优雅的解决方案。

​​3D Zernike 描述符​​的优美数学应运而生。这项技术使我们能够将一个三维物体分解成一系列系数,这些系数对应于一组标准的、基础的三维数学函数(Zernike 多项式)。其结果是一个数字向量——一个“指纹”——它唯一地描述了这个形状。该方法的奇妙之处在于,通过一些巧妙的数学处理,这个指纹可以变得​​旋转不变​​。这意味着无论分子在空间中如何定向,你都会得到相同的指纹!要比较两个分子,你不再需要进行耗时的比对;你只需计算它们指纹向量之间的数学距离(如欧几里得距离)。这是一种极其快速且强大的方法,可以根据粗略的形状相似性对巨大的化合物库进行预筛选,完美地展示了抽象数学如何解决生物学中一个非常实际的问题。

柔性的代价

为什么需要如此巧妙的捷径?穷举搜索的成本简直高得惊人。考虑一个典型的类药分子,它有 RRR 个可旋转的单键。为了探索其构象空间,我们可能需要对每个键仅在三个不同的扭转状态下进行采样。需要检查的构象总数将是 3×3×⋯×33 \times 3 \times \dots \times 33×3×⋯×3(RRR 次),即 3R3^R3R。对于一个只有 R=10R=10R=10 个可旋转键的简单分子,这已经是 310≈59,0003^{10} \approx 59,000310≈59,000 个构象了。许多筛选算法的计算复杂度随着这种柔性呈指数级增长,这是一个被称为“维度灾难”的可怕障碍。除此之外,复杂度还随着我们药效团模型中特征数量 NNN 的多项式增长。仔细分析表明,原始操作的总数可以按 N2(N−1)(N−2)3R6\frac{N^2(N-1)(N-2)3^R}{6}6N2(N−1)(N−2)3R​ 的比例增长,这严峻地提醒着我们必须攀登的计算高峰。

这种爆炸性的规模增长迫使我们做出务实的选择。例如,在筛选数据库时,我们是为每个分子预先计算并存储一组代表性构象,还是在每次新查询时动态生成它们?预计算就像出版一本巨大的电话簿:前期工作量巨大,但一旦完成,查找一个号码(或一个构象)就非常快。如果你计划用许多不同的药效团查询来筛选同一个数据库,这是非常高效的,因为初始成本被分摊了。另一方面,动态生成构象就像有一个私人助理,每次你问他都会帮你找到号码。对于每个单独的查询来说,这会慢一些,但你避免了巨大的前期工作,而且助理可以很聪明,利用你查询的几何形状来指导匹配构象的搜索。这种查询引导的方法有时可以找到一个在预计算集合中被遗漏的匹配形状,从而可能提高你筛选的​​召回率​​或灵敏度。

信任但要验证:模型验证的艺术

一个能完美描述其构建来源分子的模型是很容易创建的。而一个能够泛化并预测新活性分子的模型才是真正的宝藏。在建模中,尤其是在数据有限的情况下,最大的危险是​​过拟合​​——创建一个“记住”了训练数据(包括其随机噪声)的模型,结果在任何新数据上都表现不佳。

我们如何建立对药效团模型的信任?想象一下,你仅用三个已知的活性配体构建了一个模型。这个模型可能只是一个侥幸,一种特征的偶然关联,这种风险是巨大的。严格的验证不仅仅是好的实践;它是这个过程的科学灵魂。

一个稳健的验证策略包括用一个精心构建的测试集来筛选你的模型。这个测试集不仅应包含已知的活性分子,还应包含一系列​​诱饵分子​​——这些分子被特意选择,使其与活性分子具有相似的简单物理性质(如大小和电荷),但在拓扑结构上不同,并被假定为无活性。模型的任务就是区分活性分子和诱饵分子。我们可以使用诸如​​受试者工作特征 (ROC) 曲线​​之类的指标来量化这种能力,该曲线衡量了在找到真阳性与意外包含假阳性之间的权衡。

但最终的考验,尤其是在训练数据稀疏时,是将你的模型性能与随机机会进行比较。人们可以生成数百个随机模型,例如,通过打乱活性分子和诱饵分子的标签,然后看它们的表现如何。如果你真实模型的性能显著优于这些随机模型的分布,你就可以确信它捕捉到了一个真实的、具有统计学意义的信号,而不仅仅是噪声。这种计算上的严谨性,正是将一个预测工具与数字迷信区分开来的关键。

扩展语言:突破界限

药效团概念是一种强大而灵活的语言,用于描述分子间的相互作用。像任何语言一样,它可以通过增加新的词汇和语法来演变,以描述新的现象。

考虑一下​​卤键​​,这是一种微妙但重要的相互作用,其中像氯、溴或碘这样的卤素原子充当电子受体。这种相互作用具有高度的方向性,沿着与卤素相连的共价键轴线发生。它既不是疏水接触,也不是氢键。为了忠实地模拟它,我们不能仅仅重用旧的特征类型。我们必须扩展我们的词典,创建一个新的“卤键供体”特征类型,并附带严格的距离和角度约束,以捕捉其独特的几何形状。这表明药效团框架如何能够扩展以吸收新的化学知识。

一个更令人兴奋的扩展是在寻找​​共价抑制剂​​方面。这些分子超越了简单的可逆结合,与它们的靶点形成永久性的化学键。一个为描述非共价识别的“握手”而构建的标准药效团,对于化学反应的要求是盲目的。它可能找到一个能很好地装入结合口袋的分子,但其反应性“弹头”却指向错误的方向。为了找到真正的共价结合物,我们必须增强我们的模型。我们需要增加新的约束条件,以强制实现亲核试剂(如半胱氨酸的硫原子)与配体上的亲电试剂发生反应所需的精确几何形状——即攻击的距离和角度。为了构建一个更复杂的模型,我们甚至可以添加一个评分项来估计弹头本身的内在化学反应性,从而使我们能够区分一个位置完美但无反应性的分子和一个真正有前途的候选物。

宏大策略:强强联合

在真实的药物发现世界中,基于配体的筛选很少被孤立使用。它是一个更大战略谜题中的一个强大组成部分。最有效的方案往往是分层级的,结合不同方法的优势,同时尊重时间和预算的实际限制。

考虑一个项目,你手头有几个多样的活性配体,但你的蛋白质靶点结构未知或质量很差(例如,一个低分辨率的同源模型)。试图用一个包含数百万化合物的库去对接这样一个不可靠的结构,将是既有风险又计算成本高昂的。在这种情况下,基于配体的方法是完美的第一步。你可以从已知的活性分子构建一个药效团模型,并用它来对整个数百万化合物的库进行超快速筛选。这就像一个巨大的过滤器,将广阔的化学空间缩小到一个可管理的集合,比如几千个有希望的命中分子。

现在,有了这个经过富集且规模小得多的化合物集合,你就可以部署计算成本更高、更详细的方法了。你可以将这几千个命中分子灵活地对接到你的低质量蛋白质模型中。虽然该模型不完美,但它可以帮助优化构象并排除那些有明显空间冲突的化合物。这种优美而协同的策略——使用快速的、基于配体的方法进行广泛筛选,然后用较慢的、基于结构的方法进行精炼——最大限度地利用了所有可用数据,降低了风险,并智能地将计算资源集中在最有可能获得回报的地方。这证明了药物发现既是一门艺术,也是一门科学:一场演绎、创造和战略思维的旅程。

应用与跨学科联系

我们花了一些时间学习基于配体的筛选的原理和机制,探索了如何将分子功能的精髓提炼成一个抽象模型,即“药效团”。这就像学习国际象棋的规则——理解棋子的移动方式和游戏的目标。但是,学习规则是一回事,观摩一场大师的对局,欣赏其优雅的策略和惊人的战术,则完全是另一回事。现在,我们将看一些这样的大师级对局。我们将看到这些简单的规则如何在现实世界中被应用,以解决科学和工业界深刻、复杂且引人入胜的问题。这不仅仅是一项学术练习,更是一套用于发明的工具包。

搜寻的艺术:从模仿到创新

从本质上讲,基于配体的筛选就是一种搜寻。如果你有一个分子能做一些有趣的事情——比如说,味道是甜的——你可能想找到其他类似的分子。你该如何开始呢?当然,你可以寻找化学上非常相似的分子。但一个更聪明的方法是问:这个分子究竟是为什么会是甜的?也许是原子的一种特定几何排列,能够形成氢键,再结合一个油性的疏水区域,这两者共同作用,刺激了我们舌头上的甜味受体。

我们可以将这个“甜味配方”捕捉为一个药效团:一个简单的几何特征模板。一旦我们有了这个模板,我们的搜寻就变成了一个纯粹的几何问题。我们可以扫描一个包含数百万分子的数字库,不是问“这个分子看起来像阿斯巴甜吗?”,而是问“这个分子是否在正确的位置拥有正确的特征,以匹配我们的‘甜味’模板?”。这种视角的简单转变非常强大。它使我们摆脱了单一化学家族的束缚,让我们能够在意想不到的地方发现功能,找到实现相同目标的全新分子骨架。

但如果我们想找到一些真正新颖的东西,一些通过不同设计实现相同功能的东西呢?这是药物化学中的一个核心挑战,被称为​​骨架跃迁​​。想象一把能打开特定锁的钥匙。我们可能想设计一把全新的钥匙——由不同材料制成,有不同的手柄——但仍然能以同样的方式转动锁芯。在药物设计中,这对于创造新的知识产权或设计具有更好属性(如更高的安全性或更容易合成)的分子至关重要。

基于配体的方法为这种搜寻提供了一种优雅的形式化方式。我们可以在两个不同的“维度”上定义相似性。首先是三维(333D)形状和特征相似性,它告诉我们分子是否能与生物靶点——我们的锁——相匹配。其次是二维(222D)结构相似性,通常编码在二进制指纹中,它告诉我们底层的化学骨架——我们钥匙的手柄——是否相似。骨架跃迁的目标是找到那些与已知活性药物相比,具有高 333D 形状相似性但低 222D 结构相似性的分子。我们正在明确地寻找那些形式不同但功能相同的分子。这不再是简单的模仿,而是有指导的创新。

务实的科学家:构建高效智能的工作流程

药物发现的世界并非一个拥有无限资源的理想化场景。用最精确、计算要求最高的方法筛选十亿个化合物的库是根本不可行的。我们必须聪明,必须高效。正是在这一点上,基于配体的筛选大放异彩,它不仅是一个独立的工具,更是一个更大的、多阶段策略中的关键组成部分。

想象一下,在一片广阔的海滩上寻找一枚丢失的钻戒。你不会一开始就用一把小铲子挖遍整个海滩。一个更聪明的方法是,首先用一个快速但可能不太精确的金属探测器扫描整个区域。这次初步扫描会将你的搜索空间缩小到几个有希望的小块区域。只有到那时,你才会拿出铲子进行更仔细、更费力的搜寻。

这正是现代虚拟筛选活动通常的设计方式。一个快速、计算成本低的基于配体的方法——比如2D相似性搜索——充当了金属探测器。它可以迅速筛选数百万个化合物,并创建一个规模小得多的“聚焦”库,其中包含几千个有希望的候选物。这个聚焦库,现在已经富含了潜在的命中分子,然后可以接受更严格、计算成本更高的方法,比如基于结构的对接,也就是我们的铲子。该策略的成功由​​富集因子 (EF)​​ 来衡量,它告诉我们最终小集合中的命中率相比于原始庞大库提高了多少。一个高的EF意味着我们的初步筛选是有效的,节省了大量的时间和金钱。这种混合方法,结合了基于配体方法的速度和基于结构方法的准确性,是实用计算化学的基石。

筛选什么的选择与如何筛选同样具有战略性。我们的初始库应该是一个高度多样化的、由不同化学结构组成的集合,还是一个已经知道与特定靶点家族(如激酶)药物相似的化合物组成的“聚焦”库?这个选择涉及到一个在新颖性与命中率之间的根本权衡。一个聚焦库更有可能产生命中,但这些命中可能是已知主题的微小变体。一个多样化的库产生命中的概率较低,但如果真的有命中,那可能是一个突破性的发现,一个全新药物类别的开端。答案完全取决于项目的目标,这表明这些计算工具是嵌入在更大的科学和商业战略之中的。

超越显而易见:连接更广阔的生物学与医学世界

真正的奇迹从这里开始。基于配体的筛选思想是如此基础,以至于它几乎与现代生物学和医学的每一个方面都联系在一起,使我们能够提出并回答那些曾经无法想象的问题。

寻找隐藏的开关:变构调节

我们通常认为药物就像一把钥匙插入蛋白质的主要活性位点,也就是它的锁孔。但许多蛋白质有次要的“控制面板”,称为变构位点。一个分子与变构位点结合可以从远处调节蛋白质的功能,就像遥控器一样。找到这些隐藏的位点是药物发现的一个主要前沿领域。但是,当你甚至不知道一个位点在哪里时,你如何去寻找它呢?

在这里我们看到了思想的美妙融合。我们可以使用其他领域的方法来指导我们的搜寻。通过运行长时间的​​分子动力学 (MD) 模拟​​,我们可以观察蛋白质的摆动和振动,有时会揭示出在静态图像中不可见的瞬时“隐蔽口袋”。或者,通过比较不同物种间蛋白质的序列,​​共进化分析​​可以识别出与主活性位点动态或进化上耦合的残基网络。这些动态连接的区域是容纳变构控制面板的首选候选。一旦我们确定了一个有希望的远端口袋,我们就可以应用我们基于配体的思维:表征其特征以构建一个新的药效团,并开始寻找适合的分子。这是结构生物学、蛋白质动力学、进化生物信息学和计算化学的强大融合。

从嫌疑分子到靶点:反向筛选与药物安全性

通常,我们用许多分子筛选一个靶点。但如果我们把问题反过来呢?如果我们有一个分子——也许是一个新的候选药物——我们想知道它在人体内所有可能的靶点是什么?这就是​​反向虚拟筛选​​或“靶点垂钓”的思想。

我们可以将候选药物的药效团作为一张“通缉令”。然后,我们用这张通缉令去扫描一个包含所有已知蛋白质结构的巨大数据库,比如蛋白质数据库 (PDB)。搜索算法会寻找具有互补特征的蛋白质表面——在我们的药物有供体的地方,蛋白质有氢键受体;在我们的药物是油性的地方,蛋白质有疏水区域,等等。这项技术不可或缺,原因有二。首先,它通过识别我们的药物可能无意中结合的潜在“脱靶靶点”来帮助预测副作用。其次,它可以用于​​药物重定位​​:为一个旧药找到一个意想不到的新的有益靶点,可能使其作为一种治疗完全不同疾病的药物重获新生。

设计一款好药,而不仅仅是能结合的药

一个在试管中能与靶点紧密结合的分子不一定是一种好药。一种真正的药物必须能够驾驭人体的复杂环境。它需要被吸收,到达正确的位置,抵抗过快被分解,并且无毒。这些就是​​ADMET​​(吸收、分布、代谢、排泄和毒性)的原则。

奇妙的是,我们可以将这些药理学原则直接整合到我们基于配体的模型中。一个“生物利用度药效团”不仅仅指定了结合所需的特征。它还包括基于已知支配药物样性质的整分子属性的规则或过滤器。例如,在 Veber 氏法则等既定原则的指导下,我们可能会增加约束条件,即分子的极性表面积 (PSAPSAPSA) 必须低于某个阈值以使其能够穿过细胞膜,或者其可旋转键数 (NrotbN_{rotb}Nrotb​) 必须受限以避免过度的柔性,因为这对吸收不利。这将我们的搜索从寻找一个单纯的“结合物”转变为寻找一个可行的“候选药物”,从而弥合了计算化学与临床药理学之间的鸿沟。

这种概念的综合在临床前安全性评估中变得至关重要。想象一下,我们正在开发一种新的抗生素,它通过破坏细菌通讯(一个称为群体感应淬灭的过程)来起作用。一个主要的担忧是这个分子是否会意外地与人类受体相互作用。一个严格的风险评估将涉及我们已经讨论过的一系列思想。我们首先会基于结构相似性(反向筛选)来识别可能的人类脱靶靶点。然后,我们会考虑药物在体内的真实浓度——不是总量,而是游离的、未结合的部分,这才是唯一具有药理活性的部分。通过将这个游离浓度与药物对潜在脱靶靶点的结合亲和力 (KdK_dKd​) 进行比较,我们可以估计​​受体占有率​​。如果计算预测,在治疗剂量下,像 PPARγ 这样的人类受体的 30% 将被占据,那就代表着一个重大的安全警示,需要立即引起注意。这最后一个例子展示了最终的整合:基于配体的模型不仅用于发现,而且用于在通往新药的漫长道路上做出关键的、定量的“继续/终止”决策。

归根结底,基于配体的筛选远不止一种单一技术。它是一种哲学——一种抽象分子功能基本特征的方法,从而为化学空间的无限复杂性带来秩序。它是一种语言,让化学家、生物学家、数据科学家和药理学家能够合作、设计和发现。从寻找新口味到确保新药的安全,它都证明了一个简单而优美的思想的力量。