try ai
科普
编辑
分享
反馈
  • 计算药物重定位:原理、方法与应用

计算药物重定位:原理、方法与应用

SciencePedia玻尔百科
核心要点
  • 计算药物重定位通过在多样化的生物数据中应用“关联推断”原则,为现有药物发现新的治疗用途。
  • 关键策略包括比较化学结构、寻找能够逆转疾病引起的基因表达变化的药物,以及分析生物网络中的邻近性。
  • 诸如图神经网络等先进人工智能模型和数据融合技术整合多个数据源,以做出更稳健、更准确的预测。
  • 一个计算预测仅仅是一个起点,需要通过药代动力学建模、安全性分析和基于真实世界数据的因果推断进行严格验证。

引言

一种药物从实验室到患者的旅程是出了名的漫长、昂贵且充满失败。然而,在我们现有的药典中,隐藏着巨大的未开发潜力:为一种疾病批准的药物可能有效治疗另一种疾病。药物重定位的挑战在于揭示这些隐藏的联系。虽然有些发现纯属偶然,但现代方法利用强大的计算能力,系统地筛选海量生物数据集,寻找已知药物与疾病之间的新关系。这种数据驱动的策略有望加速治疗方法的开发,降低成本,并更快地为患者带来新的治疗方案。

本文深入探讨计算药物重定位的世界,为其核心逻辑和实践执行提供指南。我们将探索驱动这些发现的基本策略,从简单的相似性比较到复杂的网络分析。以下章节将引导您完成这一过程。首先,在“原理与机制”中,我们将剖析基本的计算策略,研究我们如何用计算机能理解的语言来表示药物和疾病,以及用于预测新联系的逻辑。接下来,在“应用与跨学科联系”中,我们将看到这些原理的实际应用,探索它们如何通过先进的人工智能实现,如何与真实世界的临床数据整合,并如何在药代动力学和因果推理的指导下,将数字预测与可能拯救生命的疗法之间的鸿沟连接起来。

原理与机制

为一种旧药找到新用途,不是发明一个新分子,而是揭示一种新关系。药物已经存在,是一把特定形状的钥匙。疾病也已知晓,是一把卡住了生命机器的锁。药物重定位的宏大挑战在于发现我们拥有的一把钥匙,也许我们以为是用来开前门的,却恰好能完美地配上花园小屋那把卡住的锁。我们如何找到这些隐藏的联系?这场探索沿着三个主要途径展开,每一种都代表着一种不同的发现哲学。

发现之路

最经典的路径是​​机缘巧合​​,或者我们可以称之为​​观察优先​​的方法。一种药物因某种原因被给予患者,而医生或患者本人注意到了一种持续的、意想不到的效果。西地那非(sildenafil) 的情况正是如此。它最初被开发用于治疗心绞痛——一种因心脏血流减少引起的胸痛——研究人员在早期临床试验中注意到,男性参与者正在经历一种完全不相关且令人惊讶的副作用。这一临床观察是火花。它开启了一条全新的研究路线,后来通过一个清晰的生物学机制得到了解释:西地那非抑制的酶 ​​PDE5​​,不仅在心脏血管中丰富,在阴茎海绵体的平滑肌中也大量存在。偶然的发现先行一步;机制的解释紧随其后,验证了观察结果,并为历史上最著名的药物重定位故事之一铺平了道路。

第二条,更为审慎的路径是​​机制优先​​的方法。在这里,发现是由我们对生物学日益深入的知识驱动的。我们可能从实验室实验中得知,一种药物与特定的蛋白质靶点有很强的结合力。后来,独立的研究可能揭示,这个完全相同的蛋白质在一种完全不同的疾病中扮演着至关重要的角色。逻辑上的飞跃是即时的:如果药物能调节该蛋白质,而该蛋白质又与疾病有关,那么该药物可能就是治疗该疾病的方法。这是一个理性的、假设驱动的过程,就像知道一把特定的钥匙能打开某种类型的锁,然后出发去寻找所有这样的锁。

第三条,也是最现代的路径,是我们故事的焦点——​​计算优先​​的方法。在这里,我们授权计算机为我们进行搜索。通过向其输入海量多样化的生物学和临床数据,我们要求它从一个充满可能性的宇宙中筛选,并预测出任何人都可能从未怀疑过的新药物-疾病关系。这不是魔法;这是一项巨大的模式识别任务,植根于一些强大的原则。

分子的语言:数据作为我们的词典

在计算机能够找到模式之前,它必须首先学习生物学的语言。这种语言是用数据写成的,计算药物重"定位"借鉴了一套丰富多样的词汇,一部真正的多组学词典,描述了药物、疾病以及连接它们的规则。

  • ​​药物​​由其化学结构描述。我们可以将这种结构表示为​​化学指纹​​,这是一个二进制向量,其中每一位表示某个特定小亚结构的存在与否。这就像每个分子独一-无二的条形码。​​DrugBank​​ 是一个关于此类信息的权威资源,它是一个经过整理的药物数据百科全书。

  • ​​疾病​​在分子水平上是系统性功能障碍的状态。我们可以通过测量病变组织与健康组织中数千个基因的活性来捕捉这种功能障碍的快照。其结果是一个​​基因表达谱​​,这是一个数值向量,指示哪些基因被上调或下调。例如,​​LINCS (Library of Integrated Network-based Cellular Signatures)​​ 项目系统地生成了数千种药物如何影响人类细胞的此类表达谱。

  • ​​生物学的规则手册​​被编码在网络中。细胞不是一袋化学物质;它是一个错综复杂的相互作用网络。我们拥有这些相互作用的图谱,例如显示哪些蛋白质协同工作的​​蛋白质-蛋白质相互作用(PPI)网络​​,以及描绘细胞过程逐步逻辑的​​通路​​。像​​Reactome​​这样的资源提供了这些人类通路的、经过整理和同行评审的图谱。

  • ​​真实世界证据​​来自庞杂而宝贵的人类健康数据。这包括​​药物-靶点​​链接数据库、遗传病或​​表型​​目录(来自​​OMIM​​)、报告的​​不良事件​​集合(来自​​SIDER​​),以及来自数百万患者的​​电子健康记录(EHRs)​​宝库(例如​​MIMIC-III​​数据库)。

有了这本词典,计算机就可以开始阅读生命之书并撰写新的篇章。

“关联推断”原则:三种计算策略

大多数计算重定位的核心是一个简单直观的想法:“关联推断”(guilt by association),或者我们可以称之为相似性原则。这个逻辑有不同的形式,但核心思想是,如果一种药物在某种有意义的方式上与我们已知与该疾病相关的事物相似,那么它可能对该疾病有效。

策略1:化学上的“相似者”

这一原则最直接的应用是基于化学结构。其假设是:一种结构上与已知有效药物相似的药物,可能具有相似的生物活性。为了量化这一点,我们使用化学指纹。我们如何比较两个指纹,两个由1和0组成的条形码?一个极其简单而有效的方法是​​Tanimoto系数​​,它是Jaccard指数的一种形式。

想象两个购物者,Alice和Bob,以及他们的购物清单。比较他们清单的Tanimoto系数将是两个清单上都有的物品数量除以两个清单上所有不重复物品的总数。对于两个用特征集表示的药物指纹 AAA 和 BBB,公式为:

Tc(A,B)=∣A∩B∣∣A∪B∣=ca+b−cT_c(A,B) = \frac{|A \cap B|}{|A \cup B|} = \frac{c}{a + b - c}Tc​(A,B)=∣A∪B∣∣A∩B∣​=a+b−cc​

其中 aaa 是药物A的特征数量, bbb 是药物B的特征数量, ccc 是它们共有的特征数量。值为 111 表示它们完全相同;值为 000 表示它们毫无共同之处。通过计算所有药物对的这个值,我们可以构建一个庞大的化学相似性网络,将知识从被充分理解的药物传播到它们研究较少的邻居。

策略2:异性相吸假说

一种更复杂的策略超越了药物是什么,转而关注药物做什么。这里的目标不是找到一种看起来像另一种有益药物的药物,而是找到一种能直接抵消疾病影响的药物。这就是“异性相吸”原则,由Connectivity Map著名地将其操作化。

我们将疾病和药物的效果都表示为基因表达谱——长向量 d\mathbf{d}d 和 r\mathbf{r}r,其中每个分量对应一个基因的活性水平。一种疾病可能强烈上调基因X并下调基因Y。一种完美的治疗药物会做完全相反的事情:它会强烈下调基因X并上调基因Y。

在向量的语言中,这意味着我们正在寻找一个与疾病谱 d\mathbf{d}d 反平行的药物谱 r\mathbf{r}r。我们可以使用两个向量之间夹角的余弦来量化这种“对立性”。我们定义一个​​逆转分数​​:

s(d,r)=−cos⁡(d,r)=−d⋅r∥d∥ ∥r∥s(\mathbf{d}, \mathbf{r}) = -\cos(\mathbf{d}, \mathbf{r}) = -\frac{\mathbf{d} \cdot \mathbf{r}}{\|\mathbf{d}\| \, \|\mathbf{r}\|}s(d,r)=−cos(d,r)=−∥d∥∥r∥d⋅r​

分数为 +1+1+1 表示完美逆转(药物的效果与疾病完全相反),分数为 −1-1−1 表示药物模仿疾病(可能产生有害效果),分数为 000 表示没有关系。通过将一个药物谱库与一个疾病谱进行筛选,我们可以计算地对数千种化合物进行排序,以评估它们恢复细胞稳态的潜力。

策略3:在生命之网中导航

第三种策略采用最全面的视角,拥抱生物学连接图的全部复杂性。在这里,我们通过整合我们所有的数据来构建一个庞大的​​疾病-基因-药物网络​​:蛋白质与它们相互作用的其他蛋白质相连,基因与它们引起的疾病相连,药物与它们靶向的蛋白质相连。

这就创建了一张丰富的、异构的地图。在这张地图中,与特定疾病相关的基因倾向于聚集在一起,形成一个“疾病模块”——网络中的一个特定邻域。​​网络邻近性​​的指导性假设是:一种有效的药物,其靶点位于疾病模块的“附近”。这并不意味着药物的靶点本身必须是已知的疾病基因;它可能只是在相互作用网络中相隔一两步之遥,能够从很短的距离影响疾病邻域。“邻近度”是通过药物靶点与疾病基因之间的最短路径长度来衡量的。统计上显著的邻近性表明存在潜在的治疗联系,提供了一个源于生命机器拓扑结构本身的假说。

从预测到患者:现实的严峻考验

一个计算预测,无论多么优雅,都仅仅是一个有前景的假设。从计算机屏幕上的高分到帮助患者的药物,这段旅程是一系列严峻的现实检验,我们必须反复追问:“这是真的吗?它重要吗?”

现实检验1:它能结合吗?

药物必须与其靶点结合才能产生效果。计算模型可以预测这种相互作用的强度,通常表示为​​标准结合吉布斯自由能​​ ΔG∘\Delta G^{\circ}ΔG∘。这个值代表了药物与其靶点结合的热力学“意愿”。然而,在实验室中,实验人员测量的是​​解离常数​​ KdK_dKd​,即在平衡状态下占据50%靶点所需的药物浓度。这两个概念通过热力学的基本方程完美地联系在一起:

ΔG∘=RTln⁡(Kdc∘)\Delta G^{\circ} = RT \ln\left(\frac{K_d}{c^{\circ}}\right)ΔG∘=RTln(c∘Kd​​)

其中 RRR 是气体常数, TTT 是温度, c∘c^{\circ}c∘ 是标准浓度(通常为 1 M1\,\mathrm{M}1M)。这个方程是理论与实验之间的桥梁。模型预测的一个强的、负的 ΔG∘\Delta G^{\circ}ΔG∘ 会转化为一个非常小的 KdK_dKd​,表明这是一种强效的、紧密结合的药物。

现实检验2:它能到达那里吗?

一种在试管中结合紧密的药物,如果它不能在人体内以足够的浓度到达其靶点,那就是无用的。这是​​靶点结合​​(target engagement)的关键问题。药物结合靶点的比例,即其​​占据率​​(occupancy)(θ\thetaθ),取决于药物的亲和力(KdK_dKd​)和其在靶点部位的游离、未结合浓度(CfreeC_{free}Cfree​):

θ=CfreeKd+Cfree\theta = \frac{C_{free}}{K_d + C_{free}}θ=Kd​+Cfree​Cfree​​

这个简单而深刻的关系告诉我们,要占据50%的靶点,游离药物浓度必须等于其 KdK_dKd​。为什么是“游离”浓度?因为许多药物一旦进入血液,就会立即被白蛋白等血浆蛋白结合。一种血浆蛋白结合率为99%的药物,其总浓度中只有1%是游离的,可以去寻找其靶点。如果药物原始适应症的批准剂量不能产生足够高的 CfreeC_{free}Cfree​ 来结合新的靶点,即使结合亲和力非常好,重定位假说也可能在此失败。

现实检验3:我们能相信数据吗?

当我们的假设来自真实世界的观察数据,如EHRs或不良事件数据库时,我们必须格外小心。这些数据不是为了干净的实验而收集的,其中充满了隐藏的偏倚。一个经典而微妙的陷阱是​​对撞偏倚​​(collider bias)。想象一下,一种药物和一种疾病都独立地增加了某人报告不良事件的可能性。如果我们只分析不良事件报告的数据库,我们就“以对撞因子(事件报告)为条件进行了分析”。在这个被选中的群体内部,可能会出现一种虚假的关联。如果在我们的数据库中找到一个患有该疾病的人,那么他们同时服用该药物的可能性就变小了,因为单是疾病本身就可以“解释”为什么他们会出现在我们的数据集中。这可能会产生一个错误的信号,暗示该药物对该疾病有保护作用。

为了应对这种不确定性,我们可以使用像​​E值​​(E-value)这样的统计工具。如果我们观察到一个关联(例如,风险比为1.68),E值回答了这样一个问题:“一个与药物和疾病都相关的未测量混杂因素需要有多强,才能完全解释掉我的结果?”对于1.68的风险比,E值约为2.75。这意味着一个未测量的因素需要将药物使用和疾病的风险都增加至少2.75倍,才能使我们的发现变得虚假。通过将这个值与已知的混杂因素进行比较,我们可以衡量我们结论的稳健性。

最后,即使在纯粹的计算环境中,我们也必须问我们的模型有多可信。通过使用​​交叉验证​​等技术,我们可以估计模型的性能。在不同数据切片上的性能差异为我们提供了一种衡量​​认知不确定性​​(epistemic uncertainty)的方法——这是由于我们数据有限而产生的不确定性。一个在不同数据子集上给出截然不同结果的模型是不稳定且不那么可信的。

从计算的线索到临床的现实,道路是漫长的,但它是由这些原则铺就的。通过将化学相似性、生物学对立性、网络逻辑和健康的怀疑精神交织在一起,计算药物重定位为寻找能够引领未来药物的隐藏联系提供了一种强大的新方法。

应用与跨学科联系

在走过计算药物重定位的基本原理之旅后,我们现在来到了探索中最激动人心的部分:见证这些思想的实际应用。这些原理不仅仅是抽象的理论;它们是一台强大发现引擎的齿轮和杠杆,这台引擎将不同领域的科学和医学在一个美丽、统一的探索中连接起来。这段旅程将带领我们从纯计算的数字领域,在那里我们从堆积如山的数据中筛选有希望的线索,一直到复杂、混乱但最终关乎人类的临床实践和患者福祉的世界。

数字搜索:在草堆中寻找绣花针

从本质上讲,药物重定位始于一场宏大的搜索。草堆是现有药物的庞大药典;绣花针是一种新的、未被发现的治疗用途。我们的计算工具是我们用来找到它的强力磁铁。但这些“磁铁”在寻找什么?它们寻找模式,寻找在不同类型数据中回响的生物学机制的共鸣。

聆听基因的交响乐

想象一下,你能听到一个细胞的音乐。一个健康的细胞演奏着和谐的交响乐,但一个患病的细胞则奏出刺耳的杂音,一些乐器(基因)声音过响(上调),而另一些则被静音(下调)。这种不和谐的模式是疾病的“基因表达谱”。现在,如果一种药物创造出的表达谱恰好是疾病表达谱的反面呢?它使响亮的基因安静下来,并放大安静的基因。这个简单而优雅的想法,被称为连通性图谱(connectivity mapping),是现代药物重定位的基石。

当然,现实并非如此简单。从原始实验数据中提取一个干净、可靠的表达谱本身就是一项艰巨的挑战。来自像Gene Expression Omnibus这样的公共储存库的数据既嘈杂又庞大。要创建一个表达谱,必须首先进行一场统计的芭蕾:映射基因标识符,将原始统计结果(如 ppp-值和倍数变化)转换为统一的分数(如z-score),以及最关键的,应对“多重性诅咒”。当你一次性测试 10,00010,00010,000 个基因时,纯粹靠运气你注定会发现数千个“显著”的结果。解决方案不是使用一个过于严格的阈值,那样会把婴儿和洗澡水一起倒掉,而是使用像Benjamini-Hochberg程序这样聪明的统计方法。这种方法不承诺消除所有假阳性,但它对假发现的预期比例提供了保证,这对于探索性科学来说是一种更实用、更强大的方法。正是这种统计的严谨性,将一个嘈杂的数据集转变为我们能够真正解读的交响乐。

锁与钥匙的重访:虚拟筛选

另一条发现之路在于分子的物理世界。药物作用的古老“锁与钥匙”比喻——药物(钥匙)装入蛋白质靶点(锁)——可以在计算机内以惊人的保真度进行模拟。这个过程,称为分子对接(molecular docking),试图预测药物与目标蛋白质结合的强度。

这种结合的“强度”受热力学定律支配,特别是吉布斯自由能的变化 ΔGbind\Delta G_{\mathrm{bind}}ΔGbind​。一次成功的对接模拟必须通过计算所有细微作用力的总和来近似这个值:范德华力(van der Waals forces)的温和拉力,静电力(electrostatics)的强大推拉,氢键(hydrogen bonds)的特定和定向抓取,以及水分子被推开的复杂舞蹈(一个称为去溶剂化(desolvation)的过程)。一个对接“评分函数”是一个精湛但非完美的数学配方,它将所有这些物理项结合起来,通常权重是根据实验数据训练得出的,最终产生一个单一的数字来估计结合亲和力。

至关重要的是要认识到这种方法的力量和风险。这些评分函数是近似值。它们通常将蛋白质视为刚性,忽略单个水分子明确的芭蕾舞,并且难以完美捕捉将一个柔性药物冻结成单一构象的熵成本。因此,它们对结合能的预测并非金科玉律;每摩尔几千卡的误差是典型的。然而,它们的巨大成功不在于预测单一药物的精确亲和力,而在于对数千或数百万个化合物的库进行排序,极大地丰富了列表顶部的有希望的候选者,并使化学家能够将他们宝贵的实验室时间集中在最有可能成功的药物上。

绘制细胞的社交网络

没有蛋白质是一座孤岛。在细胞这个熙熙攘攘的城市里,蛋白质在不断地相互作用,形成一个巨大而复杂的“社交网络”,即蛋白质-蛋白质相互作用组(PPI)。我们可以将这个网络视为细胞的功能地图。如果一种药物的靶点在这里,而与疾病有关的蛋白质在那边,那么它们在这张地图上的“距离”是多少?

这是基于网络的重定位的核心问题。“距离”不是以纳米为单位衡量的,而是从一个药物靶点到一个疾病蛋白质需要经过的相互作用步骤数。指导原则,或“邻近性假说”,很简单:如果一种药物的靶点位于疾病蛋白质的直接功能邻域内,那么它更可能有效[@problem_d:4549826]。这个想法非常强大。通过将所有已知的蛋白质相互作用表示为一个图,我们可以使用算法来计算从药物的一组靶点到疾病的一组相关蛋白质的最短路径。我们甚至可以通过使用来自像Reactome这样的通路数据库的信息,为属于一个已确立的生物过程的相互作用分配更短的“长度”,来使我们的地图更智能,反映出更强的功能联系。

智能网络的兴起

如果我们能教会一台机器为我们阅读这张细胞地图呢?这正是图神经网络(GNNs)的前景,这是一种尖端的人工智能技术,正在革新网络生物学。我们不仅可以包含药物和蛋白质,还可以构建一个更丰富、“异构”的网络,包括疾病、通路,甚至副作用,所有这些都由不同类型的关系连接起来。

为了在这个复杂的网络中导航,我们可以定义“元路径”——代表一个合乎逻辑的生物学故事的连接链。对于药物重定位,最直观的元路径是药物 →\rightarrow→ 靶点 →\rightarrow→ 疾病。GNN可以被训练来专门沿着这些有意义的路径传递信息,学习权衡和组合来自药物在网络中邻居的信息,以预测其治疗疾病的可能性。在这个过程中,绝对关键的是要避免“标签泄漏”——即,在训练期间意外地让模型使用它本应预测的药物-疾病联系。这凸显了复杂的人工智能架构与严谨、有原则的生物学推理之间的深度协同作用。

从多个信号到一个决策:数据融合的艺术

我们很少能有幸拥有一条单一、完美的证据。更多时候,我们拥有一系列来自不同来源的诱人但不完整的线索:一个基因表达谱,一个化学结构相似性,一个与已知疗法共享的副作用特征。我们如何将这些多样化的数据模态合成为一个单一、连贯的预测?

这是数据科学中的一个经典问题,没有一刀切的答案。最佳策略取决于数据的具体特征。如果数据集完整且相对干净,人们可能会使用​​早期融合​​,简单地将所有特征连接成一个长向量,并训练一个单一模型。然而,在生物学中,数据通常是杂乱的。对于许多药物,一种模态可能缺失,而另一种可能特别嘈杂。例如,临床副作用数据可能遭受“非随机缺失”(MNAR)偏倚,即数据点的存在本身就与我们试图预测的结果相关联。

在这种情况下,需要更复杂的策略。​​晚期融合​​,即我们为每种数据类型训练一个单独的模型,然后智能地平均它们的预测,是一种强大的替代方案。通过根据每个模型的可靠性及其误差与其他模型误差的独立程度来加权每个模型的“投票”,我们通常可以获得比任何单一模型都更稳健的结果。另一种先进的方法是​​协同训练​​(co-training),这是一种半监督方法,当我们有少量标记数据和大量未标记数据时尤其有用。它允许数据的两种不同“视角”(例如,化学结构和基因表达)相互教学,利用一个模型的高置信度预测为另一个模型生成新的训练标签。选择正确的融合策略需要深入理解数据的统计特性,包括噪声分布、误差相关性和缺失机制。

从虚拟到生命:弥合通往临床的鸿沟

一个杰出的计算假说仅仅是故事的开始。要成为一种药物,一个候选药物必须通过现实世界生物学和临床医学的无情考验。我们的计算工具包可以帮助我们预测和导航这场考验。

药物能到达那里吗?道路规则

一种药物仅仅在试管中结合靶点是不够的。它必须在正确的组织中,以足够的浓度,并持续足够长的时间,才能产生治疗效果——同时又不能在其他地方积累到毒性水平。这是药代动力学(PK)的领域。

我们可以构建包含PK原理的复杂计算过滤器。为了使药物起作用,其在病变组织中的未结合浓度必须足够高,以占据其靶点受体的显著部分。使用可测量的参数,如药物的最低血浆浓度(Cmin⁡C_{\min}Cmin​)、其血浆蛋白结合率(fu,pf_{u,p}fu,p​)和其组织-血浆分配系数(Kp,uuK_{p,uu}Kp,uu​),我们可以估算这个未结合的组织浓度,并将其与药物的结合亲和力(KdK_dKd​)进行比较。这使我们能够制定一个关键规则:只保留那些预测能在我们想要治疗的组织中达到期望靶点结合水平(例如,占据率分数 θ\thetaθ)的候选药物,同时确保它们在靶点可能表达的其他组织中不会超过安全阈值。这是一个关于如何通过定量的、基于物理的建模来指导从假设性相互作用到合理疗法的转变的美妙例子。

首先,不造成伤害:倾听安全信号

医学史上充满了有效但过于危险的药物。尽早并经常地整合安全性评估是至关重要的。FDA的不良事件报告系统(FAERS)是一个关于上市后安全性的海量真实世界数据存储库。通过挖掘这个数据库,我们可以寻找“不成比例报告”的信号——即某个特定的不良事件在我们的候选药物上的报告频率高于其他药物。

诸如报告比例比(PRR)之类的统计指标使我们能够量化这些信号。但一个原始的比率可能会产生误导,特别是如果它基于极少数的报告。一个更稳健的方法是考虑统计不确定性并计算PRR的置信下限。这使我们能够创建一个惩罚项,只有在存在可信的伤害信号时才应用,该项随着信号的大小而增长,但随着统计不精确性的增加而缩小。然后,我们可以将这个安全性惩罚与我们的主要疗效评分结合起来,为每个候选药物生成一个单一的、经过风险调整的评分,确保安全性是决策的一个组成部分,而不是事后的想法。

虚拟试验:在杂乱数据中寻找真相

最终,这种药物对人有效吗?回答这个问题的黄金标准是随机对照试验(RCT)。但RCT缓慢且昂贵。我们能否利用电子健康记录(EHRs)中的海量数据来提前一窥究竟?答案是有限的“是”,但这需要因果推断的复杂工具。

EHR数据的问题在于,接受某种药物的患者通常与未接受该药物的患者在系统上有所不同——他们可能病情更重,或年龄更大,或有不同的合并症。这就是​​混杂​​(confounding)问题。为了克服这个问题,我们使用潜在结果框架,它提出了一个强大的反事实问题:如果接受了药物的患者没有接受药物,会发生什么?反之亦然?要从观察数据中回答这个问题,我们依赖于三个关键假设:一致性(治疗定义明确),正值性(每个人都有一定的机会接受任一治疗),以及最重要的一点,​​可交换性​​(我们已经测量了所有治疗和结果的共同原因)。

在这些假设下,我们可以使用像​​逆概率加权(IPW)​​这样的统计方法来创建一个“伪人群”,在这个人群中,混杂因素已经被平衡掉。每个患者根据他们实际接受治疗的概率的倒数进行加权,这个概率被称为倾向性评分。这具有神奇的效果,使得治疗组和未治疗组看起来具有可比性,就好像治疗是通过抛硬币分配的一样。通过比较这个重新加权后的伪人群中的结果,我们可以估计平均处理效应(ATE),并对药物的真实因果效应获得一个更清晰、偏差更小的图像。临床数据与因果统计的这种结合是现代医学最激动人心的前沿之一。

更广阔的视角:发现与监管的逻辑

最后,让我们退后一步,从逻辑和决策理论的角度审视整个事业。一种重定位药物从计算假说到监管批准的旅程,从根本上说是一个积累证据和更新我们信念的过程。

我们可以使用贝叶斯定理来形式化这个过程。我们对一种药物对某种疾病有效的信心可以表示为后验几率,它是两个关键因素的乘积:​​先验几率​​和​​贝叶斯因子​​。先验几率反映了我们在看到新的临床数据之前的初始信念或机制上的合理性——这个信念在很大程度上是由我们讨论过的计算方法所决定的。贝叶斯因子衡量了新证据本身的强度。当这些后验几率超过监管机构设定的某个阈值时,药物就会被批准。

这个框架为为什么药物重定位对于罕见病来说是一种特别有前景的策略提供了深刻的见解。虽然我们能为一种罕见病收集到的证据可能较弱(贝叶斯因子 Λr\Lambda_rΛr​ 较小),因为患者数量有限,但这可以被另外两个因素所克服。首先,许多罕见病有清晰、被充分理解的遗传基础,这导致针对性药物的先验合理性(πr\pi_rπr​)高得多。其次,监管机构通常有快速通道,并且愿意为具有高度未满足需求的疾病接受较低的证据标准(批准阈值 TrT_rTr​ 较低)。最终的决定取决于所有这些效应的乘积。为罕见病进行重定位更有可能成功,如果更高的先验合理性和更低的监管阈值所带来的综合优势足以克服证据较弱的劣势。

于是,我们的旅程回到了起点。计算药物重定位远不止是数据挖掘的练习。它是一门深度跨学科的科学,将基因组学、结构生物学、网络理论、人工智能、药理学、统计学,甚至监管政策的线索编织在一起。它证明了人类的聪明才智能够发现新的模式,以新的方式看待旧事物,并将过去积累的知识转化为未来拯救生命的药物。