
设计一种新药的探索过程是化学家与生物系统之间的一场对话。构效关系(Structure-Activity Relationship, SAR)正是这场对话的语言,其核心原则断言:分子的化学结构决定其生物功能。几个世纪以来,医学依赖于在自然界中寻找活性物质,这是一个充满偶然和观察的过程。其中关键的知识鸿沟在于如何从发现走向理性的、有目的的设计。SAR 提供了弥合这一鸿沟的框架,将药物开发从一门经验艺术转变为一门预测性科学。
本文将深入探讨构效关系的世界。我们将首先探索其基本的 原理与机制,揭示化学家如何通过 DMTA 循环破译分子相互作用的语言,如何避开误导性相关的陷阱,以及如何使用 QSAR 等工具量化这些关系。随后,本文将转向 SAR 的实际影响,考察其 应用与跨学科联系。我们将看到这一原理如何彻底改变了药物发现,实现了强效和高选择性药物的理性设计,推动了分子整个生命周期的工程设计,并与前沿的计算和人工智能技术相整合。
从本质上讲,寻求一种新药的过程是与自然的一场对话。我们提出一个分子,一把微小而复杂的钥匙,然后我们询问一个生物系统——一座复杂而繁忙的细胞城市——这把钥匙是否适合某个特定的锁,比如一个引发疾病的异常蛋白质。蛋白质的反应,或缺乏反应,就是它的答案。构效关系,即 SAR,正是理解这场对话的艺术与科学。它是一项基本原理,即分子的三维结构及其化学性质直接支配其生物活性。它解释了药物起作用背后的“为什么”。
但我们如何学习这种语言呢?我们不能直接问蛋白质它想要什么。相反,我们采用一种探究循环,这正是为化学量身定制的科学方法的精髓:设计-合成-测试-分析(Design-Make-Test-Analyze, DMTA)循环。我们设计一把新钥匙,或许对上一把的形状稍作改变。我们的同事,合成化学家,接着将其合成出来。我们的合作伙伴,药理学家,对其进行测试。然后,我们所有人聚在一起分析结果。钥匙上这个新的凸起是否让它更匹配了?磨平那个边缘是否让效果变差了?这个迭代循环,一场假说与实验的舞蹈,正是我们缓慢而谨慎地描绘出结构与活性之间复杂关系的方式。
想象一下你正处于这个循环的“测试”阶段。你合成了一组相似的分子,并测量了它们的效果。一个漂亮的趋势出现了:那些“更油腻”、更像油的分子在你的细胞测定中始终表现更好。你很想宣布胜利,并得出结论:让分子更油腻是成功的关键。但在这里,我们必须像在犯罪现场的侦探一样谨慎,因为在 SAR 的世界里,相关性是因果关系的臭名昭著的伪装者。
让我们看一个现实的案例。一个团队正在测试一系列化合物,并在细胞测定中测量它们的效价(,即产生半数最大效应所需的浓度)。他们还计算了每种化合物的亲脂性,或“油腻度”(cLogP)。他们发现了一个近乎完美的相关性:随着 cLogP 的升高,细胞的反应更强。但他们还测量了另外两项指标:化合物在纯净、孤立的系统中与其靶蛋白的纯粹结合亲和力(),以及化合物穿透细胞膜的能力()。结果表明,增加亲脂性同时改善了内在结合和细胞通透性。
那么,细胞效价提高的真正原因是什么?是因为分子与其靶点结合得更紧密,还是仅仅因为更多的分子进入了靶点所在的细胞?仅凭细胞数据,我们无法断言。这个漂亮的趋势是至少两种不同效应的模糊混合。这是一个关键的教训:一个真正的 SAR 必须将结构与同靶点的直接相互作用联系起来,而不仅仅是与可能被吸收或代谢等其他因素所掩盖的下游效应联系起来。
这种欺骗性可能更为微妙。设想有一系列候选药物,它们都是碱性分子,意味着它们可以接受一个质子而带上正电荷。一个团队在生理 pH 值为 的缓冲细胞培养测定中测试它们。他们发现整个系列化合物的效价差异高达 200 倍,并开始构建关于哪些结构特征是造成这种差异的原因的理论。但他们忽略了一个简单的大一化学知识。一种碱接受质子的能力由其 来衡量。根据其 的不同,每种化合物在 pH 时会以不同比例的中性形式和带电形式混合存在。
如果靶蛋白只识别分子的中性形式呢?该系列中“最强效”的化合物恰好是在 pH 时主要呈中性的那个。而最弱效的则是几乎完全质子化并带电的那个,这使得它对靶点来说是“隐形”的。当科学家们计算每种药物中性形态的浓度时,他们发现它们对靶点的内在亲和力几乎完全相同!整个 200 倍的“SAR”原来是一种错觉。它不是构效关系,而是结构-碱度关系。这些分子在匹配锁孔方面的能力并没有变得更好或更差;而是它们以正确形式接触到锁孔的能力发生了变化。为了找到真正的 SAR,我们必须剥开这些复杂性的层次,测量最基本的相互作用:纯粹的结合亲和力。这就是为什么药理学家会仔细区分不同活性衡量标准的原因:
为了驾驭这个复杂的世界,药物化学家将所有可能的分子想象成一个广阔、多维的“化学空间”。我们的工作就是探索这个空间,以找到那些罕见的高活性山峰。SAR 为这次探索提供了地图和指南针。然而,我们已经了解到,这张地图并非处处相同;规则会根据你所在的位置而改变。
当我们在共享一个共同核心结构(一个同族系列)的单一分子家族内工作时,SAR 通常表现得很有规律。对分子外围进行微小改动,会带来微小且可预测的活性变化。这就是局部 SAR,它是先导化合物优化的核心工作,一个有前景但尚不完美的分子通过这种方式被精心微调。
但即使在这些局部邻域中,化学图景也可能出现戏剧性的特征。其中最惊人的是活性悬崖:一对几乎完全相同但效价差异巨大的分子。想象一下两个化合物,它们的结构相似度超过 90%,可能仅相差一个原子。一个是强效的候选药物,而另一个的效价则弱了三十倍。这个微小的结构变化导致了灾难性的活性损失。这就像走了一小步就掉下了悬崖。我们甚至可以用构效关系景观指数(SALI)来量化这个悬崖的陡峭程度,该指数比较了活性的变化与结构的变化。一个高的 SALI 值标志着 SAR 中的一个急剧不连续点,在这里我们关于渐变性的简单假设失效了。这些悬崖虽然令人沮丧,但也极具信息价值。它们聚焦于一个对生物相互作用产生不成比例巨大影响的单一结构特征。
当我们试图制定适用于不同分子家族的规则时——例如,试图预测某个化学基团无论附着在哪个核心骨架上都会产生的效果——我们就进入了全局 SAR 的领域。这是一个更难的游戏。一个经典的例子是 SAR 悖论,即同一个结构修饰在不同的情境下会产生完全不同,甚至相反的效果。
考虑一个常见的策略:将甲基()替换为三氟甲基()。在一个分子骨架上,这种改变可能会使效价提高 10 倍。化学家可能会忍不住宣布这是一条新“规则”。但当他们在另一个不同的骨架上进行完全相同的替换时,他们震惊地发现这导致了效价下降 3 倍。发生了什么?分子环境——周围骨架的形状和电子特性——完全改变了那个基团与靶蛋白相互作用的方式。没有普适的规则,只有依赖于情境的规则。这就是为什么药物化学家依赖于像匹配分子对分析(MMPA)这样的工具,该工具系统地分析单一化学变化在数千种不同情境下的影响,从而学习到的不是单一规则,而是一个可能结果的分布。
人类大脑擅长识别定性模式,但要使 SAR 真正具有预测性,我们需要使用数学的语言。这就引出了药效团的概念。药效团是一种抽象,是活性所必需的关键特征的极简蓝图。它超越了具体的原子,关注它们所扮演的角色。药效团模型不说“我们需要这个特定的胺和那个特定的酮”,而是说“我们需要在这里有一个氢键供体,在大约 远的地方有一个氢键受体,以及在那边有一个芳香环”。它是在三维空间中解锁生物反应所必需的相互作用的基本排布。
在此基础上,我们来到了定量构效关系(QSAR),这是一个由 Corwin Hansch 的卓越见解开创的领域。Hansch 提出,药物效价的变化与结合的热力学自由能()有关,而这种变化可以从数学上分解为几个关键物理化学性质的贡献。经典的 Hansch 方程大致如下:
让我们来解析这个优美的方程:
通过将实验数据拟合到这个方程中,化学家们终于可以量化 SAR。他们不仅能说一个更油腻的化合物更好,还能精确地说出好多少,并且可以预测它何时会变得过于油腻。QSAR 将药物设计从一门定性艺术转变为一门定量科学,提供了工具来合理化支配药物作用的复杂力量的相互作用,并使设计具有期望特性的新分子不再依靠偶然,而是依靠意图。
在探索了构效关系(SAR)的基本原理之后,我们现在来到了一个激动人心的终点:真实世界。这个优雅的概念,这门将分子结构与生物功能联系起来的艺术,实际上是如何体现的?你可能会感到惊讶。SAR 的原理并非局限于药物化学教科书的陈旧书页中;它们是现代药物发现的真正引擎,是解读前沿人工智能的透镜,也是改变了医学的科学革命的基石。让我们来探索这个广阔而迷人的领域。
在领会“如何做”之前,我们必须理解“为什么”。为什么 SAR 如此重要?几个世纪以来,医学在很大程度上是一门经验艺术。一位治疗师可能会发现某种树的树皮可以退烧,或者某种植物的叶子可以愈合伤口。这就是生药学——研究源自天然产物的药物。它很强大,但它是一个黑箱。其中的“活性成分”隐藏在复杂的化学混合物中,其身份和作用机制都是一个谜。
19 世纪和 20 世纪有机合成的出现,加上药理学的蓬勃发展,彻底打开了这个黑箱。化学家们第一次不仅能从树皮中分离出单一的活性分子,还能通过设计创造出全新的分子,即原始分子的“堂兄弟”和“亲兄弟”。这是一次范式转变。科学家们不再仅仅观察大自然的馈赠,而是可以提出“如果……会怎样?”的问题,然后创造出分子来检验他们的假说。SAR 正是这种新的、强大的提问方式的框架。一位科学家可以提出一个假说:“我相信这个氮原子对药物的活性至关重要。”然后他们可以合成一个类似物,其中那个氮被碳取代,然后观察活性是否消失。这个简单的、受控的实验——由合成技术实现并由药理学量化——标志着从被动观察到主动的、假说驱动的设计的转变。它将药物发现从一个在稻草堆中寻找幸运针的过程,转变为一个理性地工程化针本身的过程。
从本质上讲,药物发现是一场对优化的追求。我们寻求一种能以极高的效价和选择性与其靶点结合的分子。SAR 为这场追求提供了词汇和语法。
想象一个化学家团队找到了一个“命中化合物”——一种显示出某些期望活性但效果很弱的分子。他们如何使其变得更好?他们开始进行微小而审慎的改变。也许他们有一系列抑制剂,唯一的区别在于苯环上的一个取代基:一个氢被一个氟取代,然后又被一个更复杂的三氟甲基取代。他们测量每种化合物的抑制常数 。他们发现效价随着每次取代而显著增加。SAR 让我们能够将这一观察结果转化为热力学的基本语言。药物与靶点的结合是一个平衡过程,其强度由标准吉布斯结合自由能 来量化。它与抑制常数通过这个优美的方程联系起来: 通过计算两个类似物之间的结合能变化 ,化学家们可以为该结构变化的价值赋予一个数字。他们可以说:“用三氟甲基替换这个氢,使得结合稳定了 。”这不再是猜测,而是定量科学。
这引出了药物化学家工具箱中最强大的策略之一:生物电子等排替换。这是“智能替换”的艺术。生物电子等排体是一种官能团,它可以替换药物分子中的另一个官能团,同时保留关键的生物活性。有时这些替换是显而易见的,或称“经典的”,基于相似的价电子数;例如,用一个氮原子替换苯环中的一个 基团,形成一个吡啶环。两者都是芳香性的,大小相似,但氮原子巧妙地改变了电子性质并增加了一个氢键受体,从而让化学家能够微调分子的性质。其他的替换则更具创造性,或称“非经典的”。一个著名的例子是用一个四唑环替换一个羧酸基团。乍一看,它们看起来非常不同。但在生理 pH 值下,两者都是酸性的,并以阴离子的形式存在,其负电荷是散开的(离域的),这使得它们能够在靶蛋白的口袋中形成同样关键的盐桥和氢键相互作用。这种巧妙的模拟让化学家们能够在保留赋予效价的关键相互作用的同时,改变其他性质,如代谢稳定性或溶解度。
当我们知道靶蛋白的三维结构时,SAR 的真正威力便得以释放,这种做法被称为基于结构的药物设计(Structure-Based Drug Design, SBDD)。突然之间,结合位点不再是一个抽象概念,而是一个可触摸、可探索的空间,拥有特定的口袋、凹槽和相互作用点。SAR 变成了一个几何拼图。我们可以问:我们的氢键供体与蛋白质上的受体对齐得有多好?我们的疏水口袋是否足够大以填充这个非极性口袋,但又不会大到与蛋白质壁发生碰撞?我们甚至可以用向量来量化这些相互作用的几何形状,将氢键的角度与结合亲和力直接关联起来。
在为选择性进行设计时,这种三维理解最为关键。我们体内的许多蛋白质属于具有高度相似结构的家族。一个旨在阻断致癌蛋白的激酶抑制剂,可能不幸地也会阻断心脏中一个密切相关的激酶,导致危险的毒性。挑战在于教会我们的药物分子区分这两个几乎相同的靶点。SBDD 和 SAR 是关键。通过比较三维结构,化学家可以找到细微的差异——靶点中的一个小氨基酸在脱靶蛋白中可能是一个庞大的氨基酸,从而在目标蛋白中创造出一个独有的深口袋。然后,药物化学家可以利用 SAR 原理设计一个延伸到这个独有囗袋中的取代基,从而获得对靶点的亲和力,同时因空间位阻而被脱靶蛋白阻挡。又或者,靶点可能有一个带负电的天冬氨酸残基,而脱靶蛋白则没有。化学家便可以在他们的分子上增加一个带正电的基团,以形成一个仅在预期靶点中存在的稳定盐桥。通过组合几个这样的“选择性增强元件”,就有可能设计出对靶点的效价比脱靶蛋白高出数百甚至数千倍的分子,从而有效地从工程上消除毒性。
一个药物的旅程远比仅仅结合其靶点复杂得多。它必须被吸收到血液中,在体内穿行而不被过早破坏,到达其作用部位,然后被及时清除。这整个研究领域被称为 ADMET(吸收、分布、代谢、排泄和毒性)。在这里,SAR 同样是指导原则。
化学家们很快就认识到,对效价的短视关注可能是一个陷阱。人们可能创造出一个在试管中以惊人亲和力结合的分子(一个“效价驱动的”SAR),却发现它在活体系统中完全无用,因为它像砖头一样不溶于水,或者毒性极强。这引出了“性质驱动的”SAR 的概念,这是一种整体性方法,其目标是创造一个平衡的特性组合。目标不一定是最强效的分子,而是具有效价、溶解度、通透性和安全性最佳组合的分子。
这种思维一个特别优雅的应用是软药的设计。想象你有一种强效药物,但它在体内停留时间过长,引起副作用。传统方法可能是试图减缓其吸收或分布。软药的方法更为巧妙。这是一种“计划性报废”的策略。化学家们有意在分子中设计一个代谢弱点——“软点”。这通常是一个酯基或类似的基团,能被血液中普遍存在的酶迅速裂解。诀窍在于,分子被设计成在带有软点时是活性的,而在裂解后,它会降解为一个经过预先验证的、安全的、无活性的代谢物。这创造了一种能执行其功能然后迅速且可预测地自我销毁的药物,从而显著降低其全身暴露和毒性。
当然,从简单的实验室测定到复杂的活体生物,这一转变充满了挑战。在一个重组细胞系中建立的稳健 SAR,在原代人类细胞中可能看似失效。表观效价可能下降,化合物的效价排序甚至可能改变。为什么?这正是 SAR 与定量药理学深度联系的地方。这种差异可能是由于血浆蛋白结合,它降低了药物的游离浓度。也可能是由于细胞外排泵主动将药物排出。或者,原代细胞的受体密度可能低得多,减少了“受体储备”,使得系统对药物内在功效的微小变化更加敏感。剖析这些因素需要一套复杂的实验,例如测量未结合的细胞内药物浓度,或将数据拟合到复杂的激动作用操作模型中,以观察在考虑了这些系统性变量后,内在的 SAR 是否仍然成立 [@problem_-id:5064709]。
几十年来,SAR 是一个由直觉驱动的过程,依赖于药物化学家的经验和洞察力。但如果我们能将这种直觉编码化并大规模应用呢?这就是 SAR 与计算科学和人工智能相遇的地方。
现代制药公司通常拥有数百万种化合物的数据。匹配分子对分析(MMPA)是一种强大的计算技术,它在这些巨大的数据库中搜寻仅相差一个微小、明确定义的化学转化的分子对——例如,一个氢被一个氯取代。通过分析成千上万这样的分子对,计算机可以计算出该特定转化对活性、溶解度或任何其他测量属性的平均影响。这是通过暴力方法实现的 SAR,是对无数实验集体经验的统计学提炼。
我们可以通过整合三维信息走得更远。在三维定量构效关系(3D-QSAR)方法中,如 CoMSIA,我们将一系列分子对齐,并在它们周围计算代表其空间体积、静电荷和疏水性的数值场。然后,一个计算机程序会找到这些场中的数值与生物活性之间的统计相关性。这将生成一个三维图,直观地突出显示某些区域,例如,在这些区域增加正电荷会提高效价,或者在那些区域增加体积是有害的,从而为下一轮设计提供了数据驱动的指南 [@problem_-id:5240767]。
最新且最激动人心的前沿是深度学习的应用。图神经网络(GNNs)是一种非常适合分子结构的人工智能,它可以在海量数据集上进行训练,以预测分子的活性。这些模型可以隐式地“学习”SAR,而无需任何人为编程的规则。但它们仅仅是一个黑箱吗?不一定。利用像 Integrated Gradients 这样的技术,我们可以“询问”训练好的 GNN,它认为哪些原子或键对其预测最重要。我们可以生成一个“归因图”,突出显示模型的关注点。在一个引人注目的学科交叉融合中,我们可以将人工智能的归因图与人类药物化学家的直觉进行比较。当人类专家和人工智能模型都指向分子的同一部分,认为其对活性至关重要时,我们就会对我们正走在正确的轨道上产生强烈的信心。
从一个革命性的历史概念到现代医学的引擎,再到人工智能的合作伙伴,构效关系不仅仅是一个原理。它是一个动态、演进且统一的思想——证明了理性思维在理解和塑造分子世界以造福人类方面的强大力量。