定量构效关系

玻尔百科

定义

定量构效关系是一种通过建立分子结构与生物活性之间的预测性数学模型，将定性化学直觉转化为定量数据的计算方法。该领域利用分子描述符和指纹将化学结构转换为数值信息，并通过严格的验证程序确保模型在特定适用范围内具有可靠的预测力。现代定量构效关系结合了人工智能技术，应用于多任务学习和化学基因组学，从而指导新型分子的从头设计。

核心要点

QSAR 将定性的化学直觉转化为预测性数学模型，将分子的结构与其生物活性联系起来。
分子描述符和指纹将化学结构转化为数值数据，但为了保证模型的准确性，它们必须能代表分子在生物学相关的状态。
严格的验证，包括数据分割、交叉验证和 Y-随机化，对于确保 QSAR 模型具有预测能力而非机遇性相关至关重要。
每个 QSAR 模型都有一个明确的适用范围（Domain of Applicability, AD），这意味着其预测仅对结构上与其训练集相似的分子可靠。
现代 QSAR 利用人工智能进行多任务学习和化学基因组学研究，从而实现对多个靶点的预测，并指导新分子的从头设计。

引言

在化学和医学领域，寻找具有特定生物效应的新分子的过程长期以来一直遵循一个核心直觉：相似的结构通常表现出相似的活性。这一概念被称为构效关系（Structure-Activity Relationship, SAR），在历史上一直是一种依赖于启发式方法和专家判断的艺术。然而，这种定性方法缺乏高效探索广阔化学空间所需的预测能力。关键的知识鸿沟在于如何从这种艺术过渡到一门能够预测分子在合成前效能的定量科学。

本文旨在通过全面概述定量构效关系（Quantitative Structure-Activity Relationship, QSAR）来填补这一鸿沟。它揭开了将化学结构转化为预测性数学模型过程的神秘面纱。通过阅读本文，您将深入理解 QSAR 的核心假说——生物活性是分子结构和性质的可预测函数。

我们的旅程始于基础的“原理与机制”部分，在这里我们将探讨如何使用描述符将分子转化为数字语言，如何构建模型，以及最重要的是，如何对模型进行严格验证以区分真实信号和统计噪声。随后，“应用与跨学科联系”一章将展示这些模型在现实世界中的应用，从设计更安全、更有效的药物到评估化学品对环境的影响，彰显 QSAR 在科学和工业领域的深远影响。

原理与机制

相似性原理：化学家直觉的量化

在探寻新药的核心，存在一个简单、有力且极富直觉的想法，这是每个化学家都深有体会的：相似的分子应该有相似的行为。如果你发现一个分子显示出一丝希望——也许它能减缓癌细胞的生长或阻断一种病毒酶——你的第一反应不会是去尝试一些完全随机的东西。相反，你会在这个有希望的分子上做一个小的、刻意的改动，然后观察结果。你可能会在这里加一个氯原子，那里加一个甲基，通过每一次修改，你建立起一套规则，一种化学上的经验之谈。这种传统的发现过程被称为建立构效关系（Structure-Activity Relationship, SAR）。它是定性的，通常用启发式语言表达：“这个位置上的大基团似乎会扼杀活性”，或者“这里有一个氢键供体是必不可少的。” 这有点像厨师完善一道菜谱，加一撮这个，撒一点那个，全凭经验和直觉。

但如果我们能将这门艺术变成一门科学呢？如果我们能超越“这个有点帮助”，而去问“它到底有多大帮助，我们能否建立一个数学理论来预测它？” 这就是从 SAR 到定量构效关系（Quantitative Structure-Activity Relationship, QSAR）的飞跃。QSAR 的基本假说认为，分子的生物活性并非某种神奇、不可捉摸的属性，而是其结构和理化性质的可预测函数。我们断言存在一个数学关系， $y = f(\text{structure})$ ，其中 $y$ 是我们关心的生物活性（例如抑制一种酶所需的浓度），而 $f$ 是我们想要发现的函数。

这一转变意义深远。一个定性的 SAR 是一些观察结果的集合。而一个 QSAR 模型则是一台预测机器。它不仅要求所研究的分子具有一致的作用机制，还需要一个严格的统计学框架来构建模型，以及更重要的——验证模型。一个好的 QSAR 模型不仅仅是你已经合成的化合物的总结；它是一个指导，告诉你下一步应该合成什么。这就像拥有一本旅行日记和拥有一张带 GPS 的可靠地图之间的区别。

分子的语言：描述符和指纹

为了建立我们的数学桥梁 $y = f(\text{structure})$ ，我们首先需要解决一个根本问题：你如何将一个“结构”代入方程？计算机无法理解化学家画出的优美图表。我们需要将分子结构的概念转化为数字的语言。这种转化是通过分子描述符和分子指纹来实现的。

想象一下描述一个人。你可以列出他们的物理属性：身高、体重、眼睛颜色。这些是他们的“描述符”。类似地，分子描述符是一个根据分子结构计算出的数值，代表了特定的理化性质。常见的例子包括：

分子量：就是分子有多重。
LogP：衡量分子疏水性的指标，即它偏爱油性环境还是水性环境。这对于判断药物能否穿过细胞膜至关重要。
拓扑极性表面积（TPSA）：分子中极性原子（通常是氧和氮）的表面积。这关系到分子形成氢键的能力，并且是预测其穿膜能力的一个良好指标。

另一方面，分子指纹更像一个特征清单。该分子是否包含苯环？（第1位 = ON）。它是否有羧酸基团？（第2位 = ON）。它是否有超过三个氮原子？（第3位 = OFF）。结果是一个由0和1组成的长字符串（一个比特串），其中每个位置代表某个特定结构片段的存在与否。这是一种快速、简便地捕捉分子基本结构特征的方法。

现在，这里有一个精妙之处，化学的重要性再次凸显。分子不是一个静态的物体；它是一个响应环境的动态实体。考虑一个带有羧酸基团的分子，比如醋酸。在你胃里的酸性环境中，它很可能以其中性形式 $\text{R-COOH}$ 存在。但在你肠道或血液的弱碱性环境（生理 pH 值约为 $7.4$ ）中，它会失去一个质子，变成带负电的阴离子 $\text{R-COO}^-$ 。这绝非微不足道的变化！正如对一个 $pK_a$ 为 4.8 的分子的简单计算所示，在 pH 值为 7.4 时，超过 99.7% 的分子将处于去质子化的带电形式。

这对 QSAR 为什么重要？因为我们的描述符会发生巨大变化。带电的 $\text{R-COO}^-$ 比中性的 $\text{R-COOH}$ 极性强得多，因此其 TPSA 会增加。它的电荷分布完全不同。它获得了一个强的氢键受体位点。如果我们为错误的形式——即与生物学不相关的形式——计算描述符，我们的模型将建立在谎言的基础上。它会失败。因此，智能的 QSAR 建模不仅仅是计算；它关乎理解基础化学，并为生物学相关的微观状态计算描述符。

搭建桥梁：从描述符到活性

一旦我们有了数字——代表“结构”（S）的描述符和代表“活性”（A）的实验测量值——我们终于可以构建“关系”（R）。目标是找到连接它们的数学函数 $f$ 。

最早也是最优雅的方法之一是Hansch 分析，由 Corwin Hansch 在 20 世纪 60 年代开创。他的工作是物理有机化学和生物学的 brilliant 融合，建立在线性自由能关系（Linear Free-Energy Relationships, LFERs）的概念之上。其核心思想是，药物与其靶点结合的能量变化可以分解为不同理化性质的加和贡献。

经典的 Hansch 方程大致如下： $\log\left(\frac{1}{C}\right) = k_1 \pi + k_2 \sigma + k_3 E_s + \text{constant}$ 让我们来解析一下。左边的项 $\log(1/C)$ 是我们衡量生物效能的指标（其中 $C$ 是达到特定效果所需的浓度，因此较小的 $C$ 意味着较高的效能）。右边的项是我们的描述符，每一项都乘以一个由模型决定的系数（ $k$ ）：

$\pi$ （疏水性）：这一项捕捉了分子“油腻”程度的影响。Hansch 在这里有一个关键发现：这种关系通常不是线性的。一点点的疏水性有助于药物穿过膜到达靶点，但过多的疏水性可能导致它被困在脂肪组织中，再也无法发挥作用。这就产生了一种抛物线关系——一种“金发姑娘效应”，即存在一个最佳的疏水性以获得最大活性。
$\sigma$ （电子效应）：这描述了取代基在分子内拉动或推动电子的方式，影响其与靶蛋白形成静电或氢键的能力。
$E_s$ （空间效应）：这考虑了取代基的大小和形状。它是否太大而无法装入结合口袋？这是“锁钥模型”的定量版本。

Hansch 模型是 QSAR 的一个优美范例。但其原理是通用的。QSAR 中的“A”始终指生物活性（Activity）——与生物系统的相互作用。如果我们转而模拟纯粹的物理化学性质（Property），如沸点或溶解度，该技术则被称为定量结构-性质关系（Quantitative Structure-Property Relationship, QSPR）。工具是相同的，但提出的问题不同。

自 Hansch 时代以来，该领域不断发展。现代方法如 3D-QSAR（例如 CoMFA、CoMSIA）更进一步。它们不再使用少数几个整体分子描述符，而是要求研究人员将一组分子在三维空间中对齐。然后，在分子周围放置一个网格，并计算成千上万个点的空间和静电相互作用场。这些场值就成为描述符。这就像从简单描述一辆汽车的总长度和重量，转变为对其整个车身进行详细的三维激光扫描，捕捉每一条曲线和轮廓。

真理的熔炉：我们如何判断一个模型的好坏？

这一切听起来很美妙，但也引出了一个可怕的问题。面对数百种可能的描述符和几十种统计方法，我们如何知道自己不是仅仅碰巧走运了？我们如何知道我们的模型捕捉到了一条真实的自然法则，而不仅仅是一个碰巧能拟合我们测试过的少数分子的精心编造的谎言？这就是区分相关性与因果关系的问题，也是 QSAR 中最重要的挑战。

答案在于严格、毫不妥协的验证。一个 QSAR 模型是一个假说，和任何科学假说一样，它必须经受旨在推翻它的检验。现代 QSAR 工作流程借鉴了机器学习的稳健原则。

首先，你必须遵守黄金法则：分割你的数据。在做任何其他事情之前，你先将你的全部分子集分割成一个训练集和一个测试集。训练集用于构建和调整你的模型。测试集则被锁在保险库里。你不能碰它。你不能偷看它。它只为一次最终的、单一的考试而保留。[@problem.id:5280033] [@problem.id:4985201]

在模型构建期间，你可以在训练集上使用诸如k-折交叉验证之类的技术。这涉及到反复将训练集本身分割成更小的训练和验证折，就像给你的模型进行一系列突击测验，看看它学得怎么样，并防止它仅仅“记忆”答案（这种现象称为过拟合）。

经过所有的训练、调优和突击测验，你得到了最终的、锁定的模型。现在，且仅在现在，你才能打开保险库，放出测试集。模型在这一组它从未见过的、完全独立的分子上的表现，是你对其在现实世界中表现的最佳估计。这就是外部验证。

但我们还必须进行最后一次合理性检查，这是一个特别聪明的方法：Y-随机化或Y-置乱。假设你的最终模型看起来不错。你得到了一个不错的交叉验证性能分数，比如 $Q^2 = 0.53$ 。你内心的怀疑论者仍然应该问：“我有没有可能仅凭运气就得到这么高的分数？” 为了回答这个问题，你进行一个计算实验。你使用原始数据集，保持分子描述符（ $X$ ）不变，但随机打乱生物活性（ $y$ ）。你故意地、彻底地破坏了任何可能存在的真实构效关系。

现在，你将你整个建模过程应用于这个被打乱的数据。如果你的过程是合理的，你得到的模型应该是垃圾。你重复这个打乱和重建的过程数百次，甚至数千次。你将生成一个纯粹由机缘巧合可以达到的 $Q^2$ 分数的分布。在一个典型案例中，你可能会发现，在 1000 个打乱的模型中，只有两个成功达到了 0.53 或更高的 $Q^2$ 分数。因此，你的结果由偶然产生的概率非常低（约 $0.2\%$ ）。现在，且只有现在，你才能确信你的模型捕捉到了一个真实的、统计上显著的信号，而不是你数据中的一个随机幻象。

知其所限：适用范围

即使通过了所有这些测试，我们也必须保持科学的谦卑。一个 QSAR 模型不是普适的自然法则。它是一个经验模型，由有限的样本构建而成。这意味着它有一个适用范围（Domain of Applicability, AD）。

把你的 QSAR 模型想象成一张详细的城市地图。如果你在城市范围内导航，这张地图非常可靠。但如果你试图用它来导航另一个国家的城市，它就完全没用了。该模型仅对在某种意义上与用于构建它的分子——即训练集——“相似”的分子有效。

当我们得到一个新分子需要预测时，我们必须首先问：“这个分子在我们的地图上吗？” 我们可以通过几种方式来检查：它的指纹是否与任何训练分子相似？它的描述符向量是否接近描述符空间中训练点的云团？或者它是一个“化学异常值”，远离模型所见过的任何东西？

对适用范围之外的分子进行预测是外推，这是危险的。从训练数据中学到的数学关系可能在这个新的、未探索的化学空间区域不再成立。一个在其领域内预测能力极佳的模型，在其领域外可能会给出荒谬的答案。定义并尊重适用范围，确保我们将强大的 QSAR 模型用作它们本应是的可靠科学工具，而不是水晶球。这是将化学家的直觉转变为一门预测性、定量和负责任的科学的最后、关键的一步。

应用与跨学科联系

在了解了定量构效关系（QSAR）的原理之后，我们现在来到了探索中最激动人心的部分：见证这些思想的实际应用。对于任何科学理论，其美妙之处不仅在于其优雅，更在于其解释世界的力量。对于 QSAR 而言，这种力量是惊人的。它将抽象的分子图谱世界与具体、往往事关生死的生物学和医学现实连接起来。它是将化学这门艺术转变为预测性科学的工具。我们将看到，“结构”和“活性”是极具灵活性的概念，让我们能够提出并回答各种各样的问题，从新药设计到环境保护。

化学家经验法则的量化

几个世纪以来，药物化学家们形成了一种直觉，一套关于什么使分子具有“类药性”的“经验法则”。他们知道，过于“油腻”的分子可能会滞留在脂肪组织中，而过于“极性”的分子可能无法穿过细胞油性的膜。QSAR 将这种直觉置于坚实的定量基础之上。

考虑一个简单的问题：如何让药物进入体内并到达其靶点。一个关键性质是分子穿过生物膜的能力。一个有用的描述符是拓扑极性表面积（TPSA）。从本质上讲，这是一种巧妙的方法，用于计算分子中极性原子（主要是氧和氮）的暴露表面积总和。通过为每种类型的极性片段——这里一个酰胺基，那里一个叔胺——分配一个特定的贡献值，我们可以非常容易地计算出总 TPSA。由此产生了一个强大的预测规则：TPSA 低于约 $90 \, \text{\AA}^2$ 的分子更有可能穿过血脑屏障，而低于 $140 \, \text{\AA}^2$ 的分子则倾向于有良好的口服生物利用度。这个源于对大量分子观察的简单加和模型，为化学家勾画新药候选物提供了即时、可操作的指导。

这种加和性的思想根植于物理化学的基本原理，将 QSAR 与之紧密相连。药物与其蛋白质靶点的结合受吉布斯自由能变化 $\Delta G^{\circ}$ 的控制。我们从热力学中知道，这与平衡解离常数 $K_d$ 通过著名方程 $\Delta G^{\circ} = R T \ln K_d$ 相关联。一个 QSAR 模型可以建立在线性自由能关系（LFER）的假设之上，该假设断言总的 $\Delta G^{\circ}$ 可以分解为来自不同分子特征的贡献之和。我们可以构建一个模型，其中进行突变后结合能的变化是疏水性、静电荷和空间位阻变化的线性总和。通过分析几个关键的变体，我们可以确定每个特征的系数，从而有效地为结合创建一个能量预算。这使我们能够预测新变体的亲和力，并以定量的方式理解驱动分子识别的作用力。

揭示生物学的复杂性

当我们从简单的性质转向复杂的生物现象如毒性时，QSAR 的威力才真正显现出来。一种物质可能因多种原因而具有毒性。毒理学中的一个经典方法是将毒性建模为“基线麻醉效应”和“额外毒性”的组合。基线麻醉效应是一种非特异性效应，由分子在细胞膜中累积的能力驱动，这一过程由其疏水性（用 $\log P$ 量化）决定。额外毒性则源于与重要生物分子的特定化学反应。

一个 QSAR 模型可以完美地剖析这些贡献。想象一下模拟一系列化合物的水生毒性。我们可以建立一个线性模型，其中毒性（比如 $pLC50$ ）是 $\log P$ 和一个化学反应性描述符（如通过量子力学计算的亲电指数 $E$ ）的函数。模型可能看起来像 $pLC50 = \beta_0 + \beta_1 (\log P) + \beta_2 E$ 。拟合出的系数 $\beta_1$ 和 $\beta_2$ 告诉我们，对于该化学类别，这两种机制的相对重要性。我们不再仅仅是预测毒性，我们开始理解它了。

在药物设计中，我们很少有只优化单一属性的奢侈。更多时候，我们面临着一种平衡。我们希望药物能强力结合其靶点，但对患者无毒。考虑一下像多粘菌素这样的抗生素的开发。它们的作用是结合细菌外膜上的脂多糖（LPS），但它们也可能对人体细胞产生细胞毒性。利用现代机器学习，我们可以构建一个单一的、多变量 QSAR 模型，该模型能同时从电荷和亲脂性等分子特征预测所需的 LPS 亲和力得分和不希望的细胞毒性得分。这样的模型，通常用岭回归等正则化技术来防止过拟合，成为在治疗窗口——即疗效与毒性之间的最佳点——中导航的宝贵工具。

数据的阴暗面：垃圾进，垃圾出

我们至今的旅程可能会让人觉得，构建 QSAR 模型不过是收集数据并将其输入计算机的简单过程。但自然是微妙的，我们的实验虽然巧妙，却非完美。QSAR 模型是一个从所给数据中学习的学生；如果数据具有误导性，模型就会学到错误的教训。这就是“垃圾进，垃圾出”的原则，它像一个幽灵，时刻笼罩在高通量筛选（HTS）的世界。

实验分析可能被欺骗。一些分子，被称为泛分析干扰化合物（PAINS），是化学恶作剧者，由于其固有的反应性或干扰检测方法的能力，在各种分析中都显得有活性。另一些是胶体聚集体；它们在溶液中形成微小的团块，非特异性地捕获并使蛋白质变性，造成靶向抑制的假象。还有一些则参与氧化还原循环，产生破坏靶蛋白的活性氧物种，或者通过自身的荧光干扰分析的光学系统。

一个负责任的科学家，在开始建模之前，必须先成为一名侦探，追查这些假象。最先进的数据整理方案是一个分层级的标记和确认过程。PAINS 亚结构被标记出来以供详查。聚集体通过其对洗涤剂的敏感性被嗅出。氧化还原循环体在还原剂存在下的行为会暴露其身份。而光学干扰物则通过在没有靶酶的情况下运行对照实验被捕获。至关重要的是，任何可疑的“命中”都必须在正交分析法中得到验证——即一个不易受相同假象影响的不同实验设置。只有通过严格清理数据，我们才能确保我们的 QSAR 模型学习的是真实的构效关系，而不是一个“假象模型”。

现代 QSAR 世界：人工智能、大数据与系统思维

QSAR 的原理是永恒的，但其实现方式正被人工智能和生物数据的爆炸式增长所革新。今天的 QSAR 远非简单的线性回归可比。

其中一个最强大的思想是多任务学习。想象一下，你想预测十几种不同的 ADMET（吸收、分布、代谢、排泄、毒性）属性。与其构建十二个独立的模型，你可以训练一个单一的深度学习模型来同时预测所有这些属性。该模型有一个共享的“编码器”来学习分子的丰富表示，以及为每个预测任务设置的独立“头部”。为什么这样更好？因为这些任务是相关的。主导溶解度的物理化学原理同样影响渗透性。通过学习同时预测两者，模型获得了对分子行为更深入、更具泛化性的“理解”。来自数据丰富任务的信息可以支持数据贫乏任务的学习，这种现象称为正向迁移。这类似于学习法语可以使学习西班牙语变得更容易，因为两者都源于拉丁语。

我们可以用化学基因组学 QSAR 将此更进一步。传统的 QSAR 模型是为单个蛋白质靶点构建的。化学基因组学通过构建一个跨越数百甚至数千个靶点的单一模型来打破这一限制。它学习一个函数，该函数将配体和蛋白质的表示作为输入，预测它们之间的相互作用。这是一个巨大的飞跃。这样的模型学习了化学物质和蛋白质之间普遍的“交战规则”。其巨大潜力在于能够对“冷靶点”——我们没有先前筛选数据的蛋白质——进行预测，或者在广阔的蛋白质组学景观中筛选“冷药物”——新颖的化学骨架。这需要复杂的验证，例如留出整个蛋白质家族或配体骨架来测试真正的泛化能力。

这种预测能力催生了另一个激动人心的前沿：生成式从头设计。QSAR 模型是判别式的——它回答“这个给定分子的活性是多少？”的问题，而生成模型则相反。它回答“给我一个具有高活性的新分子”的问题。这两个模型以一种美妙的协同方式工作。生成模型扮演着创意作曲家的角色，提出新的分子结构，而 QSAR 模型则扮演评论家的角色，评估这些结构并提供奖励信号，以引导生成器走向更好的设计。这形成了闭环，将药物发现从筛选现有化合物的过程转变为从零开始发明新化合物的过程。

从实验室到世界：法规、伦理与责任

QSAR 的应用远远超出了制药实验室的范畴。它们越来越多地被用于评估化学品的环境风险和确保消费品的安全。当一个模型的预测可能影响公共健康和环境政策时，其利害关系就变得异常重大。伴随这种力量而来的是巨大的责任。

为确保 QSAR 模型的安全可靠使用，像经济合作与发展组织（OECD）这样的国际机构已经建立了一套验证原则。这些是任何旨在用于法规目的的 QSAR 模型都必须遵守的准则。一个模型必须具备：

一个明确的终点：必须清楚地说明正在预测什么。
一个明确的算法：模型必须是透明和可复现的。
一个明确的适用范围（AD）：这或许是最关键的原则。AD 是一张地图，标示了模型经过训练和测试的化学空间。一个负责任的模型知道它所不知道的。它必须标记任何对超出其专业领域范围的分子的预测，标出“此处理应谨慎”的领域。
适当的性能衡量标准：模型的准确性、稳健性和预测能力必须经过严格且诚实的报告。
一个机理解释：在可能的情况下，模型应具有物理意义。

这些原则最终导向一种合乎伦理的部署策略。当使用 QSAR 预测关键安全风险，如心脏毒性（hERG 阻断）或致突变性时，透明度至关重要。模型的完整方法论、其性能及其局限性都必须被披露。对于法规提交，例如在 ICH M7 指南下关于致突变性杂质的规定，最佳实践通常要求使用两个互补的 QSAR 模型，任何不一致的结果都由人类专家裁决。

这引出了最后、至关重要的一点。一个 QSAR 模型，无论多么复杂，都只是一个工具。它是一个出色的助手，能够处理海量数据并识别出人类可能错过的微妙模式。但它不是神谕。解释其输出、做出决策以及为这些决策的后果承担责任的最终责任，在于科学家。QSAR 的历程证明了我们探求理解和预测分子与生命之间复杂舞蹈的努力，这段旅程不仅需要科学的独创性，也需要深刻的知识谦逊。