
将一种新药带给患者的过程漫长、昂贵且充满失败,这是众所周知的事。传统的de novo药物发现过程从零开始,可能需要十多年时间,成功率不到10%。这种高风险的现实推动了人们寻找一种更智能、更高效的范式:药物重定位。这种创新策略旨在为已批准用于其他疾病的药物寻找新的治疗用途,利用其已知的安全性特征,从而显著缩短开发时间并降低成本。本文旨在解决一个核心问题:我们如何在浩瀚的现有药物宇宙中系统地揭示这些隐藏的治疗机会。
读者将踏上一段探索现代药物重定位科学的旅程。第一章原理与机制揭示了核心概念的神秘面纱,从比较疾病和药物分子“声音”的基于特征的匹配,到描绘我们细胞“社交网络”的网络医学的强大理念。随后的应用与跨学科联系一章将通过真实世界的例子来阐释这些原理,展示来自化学、遗传学和大数据等领域的线索是如何交织在一起的。该章将探讨人工智能的革命性作用,以及统计严谨性和监管框架在将计算预测转化为拯救生命的疗法过程中的关键重要性。
要真正领会药物重定位的精妙之处,我们必须首先理解它不是什么。想象一下一种新药的传统旅程,这个过程我们称之为_de novo_药物发现。它始于黑暗之中,化学家们凭空创造出成千上万个全新的分子,希望其中有一个,仅仅一个,能对某种疾病产生预期的效果。这个完全未知的分子随后必须踏上长达十年、充满艰险的征途,通过实验室测试和临床试验来证明其既安全又有效。这是一项耗资惊人、淘汰率极高的事业,超过90%的候选药物都会失败。
相比之下,药物重定位始于一个已知的分子。这是为现有药物寻找第二舞台的实践。更正式地说,如果我们把所有已批准药物的集合看作 ,所有疾病的集合看作 ,那么一种药物 有一个标签 列出了它的批准用途。药物重定位就是系统性地寻找一个目前不在该药物标签上的新疾病适应症 ,即 。
这与简单的标签扩展不同,例如将一种已批准的高血压药物批准用于儿童和成人。重定位是为药物找到一个全新的工作,通常是在一个完全不同的疾病领域。最典型的例子是Sildenafil。它最初是为治疗心绞痛而开发的,但其奇特的副作用使其华丽转身,成为治疗勃起功能障碍的药物Viagra。
这种方法的深远优势在于它提供的先发优势。一种被批准用于任何用途的药物都已经通过了广泛的人体安全性测试。艰巨且昂贵的临床前()和I期临床()阶段——这些阶段旨在确定药物的基本安全性和身体如何处理它——大部分已经完成。这意味着一个被重定位的候选药物通常可以跳过这些初始阶段,直接进入规模更小、更专注的“桥接”研究和II期试验,以测试其在新疾病中的疗效。这并非一张免费通行证——疗效必须始终得到证明——但它确实从开发时间表中削减了数年时间和数亿美元的成本。这种战略优势甚至得到了美国食品药品监督管理局(U.S. Food and Drug Administration)等监管机构的认可,通过诸如505(b)(2)申请等途径,该途径正式允许新药申请依赖于先前已批准产品的安全数据。
我们甚至可以更精确地使用我们的术语。药物重定位(Drug repurposing)通常指为一种完全批准的药物寻找新用途。一个相关的策略是药物再定位(drug repositioning),即为一种通过了初步人体安全测试但被搁置的药物寻找新用途,这可能是因为它未能显示出对其最初预期疾病的疗效。最后是药物挽救(drug rescue),这是一项高风险的努力,旨在复活因毒性而失败的药物,通常通过重新设计其递送方法或找到能够耐受它的特定患者亚群来实现。每种策略都带有不同程度的风险和回报,但都遵循相同的原则:利用我们已知的信息来减少药物发现的不确定性。
那么,我们如何扮演侦探的角色呢?我们如何从成千上万的药物和疾病中筛选出有希望的匹配?测试每一种药物对抗每一种疾病的暴力破解方法是不可能的。取而代之的是,科学家们开发了巧妙的计算策略来寻找最有希望的线索。这些策略通常分为三个哲学阵营。
第一种是以靶点为中心(target-centric)。分子生物学的“中心法则”告诉我们,疾病通常源于行为不当的蛋白质,而这些蛋白质是由我们的基因编码的。如果我们知道某种疾病是由蛋白质X引起的,并且我们知道药物Y可以结合并抑制蛋白质X,那么我们就有一个清晰的、基于机制的假设。这是一个强大的想法,但它依赖于我们对疾病原因有非常清晰的理解,而情况往往并非如此。
第二种是以疾病为中心(disease-centric)。这种方法基于一个简单的类比:如果两种疾病看起来相似,也许它们可以用相似的方法治疗。科学家可能会观察到疾病A和疾病B有相似的症状、患者人口统计学特征或共现病症(合并症)。如果一种药物对疾病A有效,那么它可能也对疾病B有效的假设是合理的。这是一种临床模式匹配的形式。
第三种,也许对现代而言最具革命性的是以特征为中心(signature-centric)。这种方法不需要知道疾病的确切原因。相反,它只是问:在细胞内,这种疾病在分子水平上看起来像什么?我们能否找到一种药物,让细胞看起来恢复“正常”?
策略的选择并非品味问题,而是由手头的证据决定的。对于一种遗传联系较弱、临床数据稀少,但我们可以从患者组织中获得清晰可重复的分子数据的罕见病,以特征为中心的方法可能是我们最强大的工具。
让我们更深入地探讨以特征为中心的方法,因为它是系统思维的一个美丽例证。想象一下,你可以聆听一个细胞的“音乐”。一个健康的细胞发出平衡、和谐的声音。一个患病的细胞则是不和谐的;一些乐器(基因)演奏得太大声(上调),而另一些则太安静(下调)。这种不和谐的模式——一个表示每个基因活性变化的数值向量——就是疾病的基因表达特征。
现在,如果我们能找到一种像指挥家一样的药物,让喧闹的乐器安静下来,让安静的乐器声音放大呢?这种药物将具有一种“抗病”特征,有效地恢复细胞的和谐。这就是基于特征的重定位的核心思想。
考虑一个只有五个基因的简单例子。假设在疾病B中,以对数倍数变化测量的基因表达特征是: 这意味着第一个基因被强烈上调,第二个基因被下调,依此类推。现在,我们用一种名为“Repurposide”的药物处理细胞,并测量其特征: 仔细观察。在疾病特征为正的地方,药物特征为负。在疾病特征为负的地方,药物特征为正。它们几乎是完美的对立面。我们可以通过计算两个向量之间的皮尔逊相关性再乘以-1来量化这种“对立性”。对于这两个特征,得到的重定位分数(Repurposing Score)是惊人的 。一个接近+1的分数代表了强烈的反向关系和一个非常有希望的治疗假设。
这不仅仅是一个理论游戏。像基于网络的综合细胞特征库(Library of Integrated Network-based Cellular Signatures, LINCS)这样的大型公共数据库,收录了数百万个来自用数千种不同药物处理过的人类细胞的基因表达特征,为与疾病特征进行匹配提供了一个巨大的库。
寻找线索并不仅限于基因表达。科学家们还发现了其他,有时是反直觉的“关联推断”来源,用以将药物与新适应症联系起来。
最具创意的想法之一是副作用相似性。乍听之下,这很奇怪。我们为什么要关注药物的不良反应呢?其洞见在于,药物的主要作用来自其击中预期靶点,但其副作用通常来自无意中击中其他“脱靶”蛋白。如果两种不同的药物共享一套相似而奇特的副作用,这是一个强有力的暗示,表明它们可能击中了一组相似的脱靶蛋白。这种由不良事件揭示的共同机制,可能对一种完全不同的疾病具有治疗益处。这种相似性通常用一个简单的基于集合的度量来量化,比如杰卡德相似性(Jaccard similarity):
一个更强大的范式来自网络医学(network medicine),它将人类生物学视为一个巨大的、相互连接的网络。要理解这一点,我们必须区分两种关键类型的网络。蛋白质-蛋白质相互作用(PPI)网络就像我们细胞中所有蛋白质的社交网络;两个蛋白质之间的边意味着它们物理上相互作用。这张图揭示了生命的机制。相比之下,药物-靶点网络是一个二分图,它将一组节点(药物)连接到另一组节点(它们靶向的蛋白质)。
基于网络的重定位的核心假设是“邻近原则”:如果一种药物的靶点在PPI网络的广阔地图中“靠近”与疾病相关的蛋白质,那么这种药物很可能有效。想象一下,疾病蛋白是一簇着火的房屋。药物的靶点是消防站的位置。如果消防站就位于燃烧的社区旁边,那么这种药物很有可能起作用。我们可以通过计算从药物靶点到最近的疾病蛋白的平均最短路径距离来测量这种网络邻近性。
但在这里,一个奇妙的微妙之处出现了。一些蛋白质是网络中的巨大“枢纽”,与数百种其他蛋白质相互作用。任何击中枢纽的药物都会显得与所有东西都“近”,这仅仅是偶然!为了不被愚弄,我们必须求助于统计学。我们计算观察到的邻近性,然后问:“这与随机偶然情况下我们预期的结果相比如何?”我们通过重复选取与我们真实的药物靶点和疾病蛋白具有相同“流行度”(度)的随机蛋白质集合,并计算它们的邻近性,来创建一个零模型。这给了我们一个背景分布。然后,我们将观察到的邻近性转换为一个z-score,它告诉我们我们的药物偏离随机平均值多少个标准差。一个大的负z-score意味着药物的靶点比随机预期的要显著地更接近疾病模块——这是重定位的一个强大的、统计上稳健的线索。
我们已经看到了来自基因特征、副作用和网络邻近性的线索。每一个都提供了审视这个问题的不同视角。最终的目标,该领域的前沿,是将所有这些视角融合成一个单一、统一的愿景。这就是生物医学知识图谱的希望所在。
想象一个巨大的、多层次的网络,它不仅包含蛋白质,还包含药物、疾病、基因,甚至副作用(也称为药物不良反应或ADRs)的节点。这些连接不仅仅是简单的线条,而是有类型、有方向的关系:一种药物结合一个靶点,一个靶点与一种疾病相关,一种药物治疗一种疾病,一种药物引起一种ADR。这个丰富、结构化的织锦就是一个知识图谱。它由来自数十个专业数据库的数据供给:用于药物-靶点链接的DrugBank,用于基因-疾病关联的OMIM,用于不良事件的SIDER等等。
这个图谱不仅仅是一部静态的百科全书。它是一个动态的结构,人工智能可以在其上学习和推理。通过分析图谱中数十亿条现有路径,多关系学习算法可以开始理解药理学的“规则”。例如,它们可能会学到,如果一种药物结合的靶点是已知与某种疾病相关的通路的一部分,那么这种药物很可能可以治疗该疾病。算法不是从手工编码的规则中学习这些模式,而是通过统计识别图谱中反复出现的基序来学习。
然后,目标是利用这个学习到的模型来预测缺失的链接。它可以提出一个旧药和新疾病之间新的治疗链接(药物重定位)。它可以假设一种药物和一种先前未知的副作用之间新的引起链接(不良事件预测)。或者它可以提出一个新的结合链接,揭示药物隐藏的作用机制(多靶点药理学)。从本质上讲,我们正在构建一个科学直觉的计算模型,一台能够审视我们全部生物医学知识并为我们指出最有希望的新发现的机器。正是在这里,在这个数据、网络科学和人工智能的宏大综合中,药物重定位的全部力量和美感才得以真正释放。
在探索了药物重定位的核心原理之后,我们现在来到了旅程中最激动人心的部分:看这些想法如何付诸实践。理论如何与现实结合?我们如何从网络和数据的抽象概念,走向为一种可能拯救生命的旧药找到新用途?您将会看到,这个领域是一个奇妙的十字路口,许多不同的科学分支——甚至包括法律和经济学——在此相遇并共舞。这是一个用分子、基因和数据的语言写成的侦探故事。
从本质上讲,药物重定位是一种科学配对。我们有一份“符合条件”的药物名单,它们都具有已知的属性和安全性。我们的任务是为其中一种药物找到一个新的伴侣——一种它可以有效治疗的疾病。这个搜索不是随机的,而是由线索引导的,我们的第一站是学习如何解读这些线索。
最直观的线索之一是简单的相似性。如果两个人长得像,我们可能会猜测他们有亲缘关系。在化学中,这就是“关联推断”的原则。其思想是,结构相似的分子可能以相似的方式与身体相互作用。但我们如何定义“相似”?我们不能只凭肉眼观察。相反,我们为每个分子创建一个“指纹”,这是一个列出其组成子结构的数字表示。通过比较这些指纹,我们可以计算出一个相似性得分,比如Tanimoto系数,它本质上是衡量两个分子结构之间重叠程度的指标。
但是,找到一两个相似的分子是不够的。真正的力量来自于集成方法。想象一下,你有一种新药,你想知道它有什么作用。你不是将它与仅仅另一种药物比较,而是将它与已知能结合特定生物靶点的整个药物库进行比较。如果你的新药与该靶点的所有已知配体都显示出统计上显著的相似性水平,你就可以建立一个强有力的论据,证明你的药物很可能也击中同一个靶点。这就是像相似性集成方法(Similarity Ensemble Approach, SEA)这类方法背后的逻辑,它将一个简单的相似性概念转化为一个强大的、定量的工具,用以生成关于药物隐藏才能的假设。
然而,知道一种药物的靶点只是故事的一半。关键问题是:为什么影响那个靶点会对特定疾病有益?这要求我们从分子转向生命的机器——控制我们细胞一切活动的复杂信号通路。在这里,侦探工作变成了一个美丽的逻辑推理练习,将来自庞大生物数据库的零散信息连接起来。
以常见的糖尿病药物metformin为例。它的主要工作是激活一种名为AMP激活的蛋白激酶(AMPK)的蛋白质,这是细胞能量的主调节器。现在,我们来看一种特定类型的肺癌。从基因组数据库中,我们了解到这些癌细胞通常有一种突变,破坏了一个名为TSC的蛋白质复合物,该复合物通常作为细胞生长的制动器。刹车失灵后,另一种蛋白质mTOR进入过度活跃状态,指令细胞不受控制地生长和增殖。这就是线索连接的地方。通路数据库告诉我们,被metformin激活的蛋白质AMPK可以通过两种方式抑制mTOR。一种方式是通过修复TSC制动器——但这在我们的癌细胞中行不通,因为TSC已经坏了。但奇妙的是,AMPK还有一条秘密的替代路线!它可以直接抑制mTOR,完全绕过损坏的TSC复合物。突然间,一个假设具体化了:也许糖尿病药物metformin可以被重定位,通过利用这种内置的生物旁路来治疗这种特定类型的肺癌。这就是重定位的精妙之处:通过仔细阅读生命的蓝图,找到一把钥匙,来开启一把你甚至不知道自己正在寻找的锁。
metformin的通路图是一个简洁、线性的故事。但细胞的现实远比这更混乱、更美丽。它不太像一条流水线,而更像一个繁华的城市,一个由相互作用的蛋白质组成的巨大而复杂的社交网络。要在这个复杂的网络中找到药物靶点,我们需要来自另一个学科的工具:图论。我们可以将这个细胞城市建模为一个蛋白质-蛋白质相互作用(PPI)网络,其中蛋白质是居民,它们之间的连接是它们的关系。
在任何社交网络中,有些个体比其他人更有影响力。有认识所有人的“枢纽”,也有连接不同、原本分离的社区的关键“桥梁”。如果你想传播(或阻止)一个信息,你会瞄准这些桥梁。在我们的细胞网络中,这些桥梁是那些一旦被移除就会破坏不同生物过程之间信息流的蛋白质。我们可以用一个名为介数中心性(betweenness centrality)的度量来量化这种“桥接”作用。通过为连接两种疾病状态的网络中的每个蛋白质计算这个值,我们可以识别出最关键的参与者——那些位于最多通信路径上的蛋白质。这些高中心性的蛋白质通常是药物靶点的首选,因为扰乱它们可以对整个系统产生强大的影响。
这是一个静态视图,就像城市结构的快照。但我们也可以采取更动态的视角。想象我们已经知道一些与某种疾病相关的蛋白质。它们在我们的细胞城市中形成了一个小“社区”。我们如何找到它们的朋友、伙伴和其他功能相关的蛋白质?我们可以使用一种名为带重启的随机游走(Random Walk with Restart, RWR)的算法。想象一个人沿着连接在网络中从一个蛋白质随机游走到另一个蛋白质。每隔一段时间,以一定的概率 ,我们神奇地将这位游走者传送回最初的某个疾病蛋白质。一段时间后,被这位游走者最频繁访问的蛋白质,就是那些在深层结构意义上“靠近”起始疾病社区的蛋白质。它们不仅仅是直接的邻居,而是在网络拓扑中紧密相连。通过调整重启概率 ,我们可以调整我们的搜索:高 使搜索非常局限于已知的疾病蛋白质,而低 则允许游走者探索更远但可能有趣的区域。这个优雅的算法使我们能够将信息从少数已知的种子传播到整个网络,从而为新的研究候选对象排定优先级列表。
到目前为止我们讨论的方法都依赖于一定程度的人工指导逻辑。但是,如果我们能构建一个“神谕”,它能筛选海量数据并为我们找到模式呢?这就是机器学习的承诺,它已经彻底改变了药物重定位。
最强大的数据来源之一来自转录组学——对基因表达的研究。细胞的每一种状态,无论是健康、患病还是用药处理,都伴随着一种独特的基因活动“交响乐”。我们可以将这首交响乐的快照捕获为基因表达特征。“连接图谱”(connectivity mapping)的核心思想简单而深刻:如果一种药物产生的基因表达特征与一种疾病的特征相反,那么这种药物可能就是治疗该疾病的疗法。要系统地做到这一点,我们需要处理大量的公共数据,例如来自基因表达综合数据库(Gene Expression Omnibus, GEO)的数据。这涉及到将原始实验结果转换为成千上万个基因的标准化、带符号的z-score。但基因如此之多,一场统计风暴正在酝酿。如果你测试10000个基因,你必然会发现许多纯粹由于偶然性而显得显著的基因。这就是为什么统计严谨性至关重要。我们必须使用像Benjamini-Hochberg程序这样的方法来控制假发现率,确保我们列出的“显著”基因不是统计幻影的列表。
随着我们数据集的增长,我们不仅可以结合基因表达,还可以将我们所知的一切——药物结构、蛋白质靶点、疾病遗传学、临床副作用——整合到一个单一、庞大、异构的知识图谱中。这个图谱是一个由不同类型的节点(药物、疾病、基因)通过不同类型的关系(治疗、结合、导致)连接而成的丰富织锦。机器如何能从这样一个复杂的对象中学习?答案位于人工智能的前沿:图神经网络(GNNs)。GNN是一种特殊的学习机器,它可以在这个图上“行走”,在节点之间传递信息,并学习不同实体是如何关联的。与那些为每个特定药物或疾病学习一个身份的旧方法(一种直推式方法)不同,GNN学习一个可以泛化到它从未见过的新节点的函数(一种归纳式方法)。这非常强大。这意味着我们可以根据一种全新药物的化学特征及其在网络中的位置来预测其行为。此外,这些先进模型必须能够处理数据的多样性,智能地“融合”来自化学结构、生物活性和临床结果的信息,以做出整体性预测。
一个出色的预测如果错了就毫无用处,即使是正确的预测,如果系统不鼓励其开发,也可能永远无法惠及患者。我们旅程的最后一部分着眼于游戏规则——支配现实世界的严谨性和监管原则。
首先,我们必须警惕在数据中看到海市蜃楼。预测建模中最常见的陷阱之一是“数据泄露”,即我们的模型在训练期间无意中窥探到了答案。在生物医学这样一个知识随时间演变的领域,这是一个尤其严重的危险。我们不能用2018年的数据来“预测”2016年发生的事件!为了建立一个值得信赖的模型,我们必须进行一次模拟真实前瞻性预测的回顾性验证。这意味着设定一个严格的历史截止时间,比如说2014年底。我们只使用截至该时间点可用的特征和标签来训练我们的模型。然后,我们使用该训练好的模型进行预测,并在仅在2014年之后才被发现的新药物-疾病链接上测试其性能。这种时间上的分离是诚实评估我们的模型是否具有真正预测能力,还是仅仅是一个优秀历史学家的唯一方法。
另一个微妙的陷阱在于我们选择分析的数据本身。想象一下,你正在研究一个患者报告的不良事件数据库,以寻找新的药物效应。你注意到,在报告此事件的患者中,某种药物似乎与某种疾病呈负相关。你可能会认为这种药物具有保护作用!但你可能已经陷入了对撞机偏倚(collider bias)的陷阱。如果药物和疾病都独立地增加了某人报告不良事件(从而进入你的数据库)的概率,那么在该数据库内部,药物和疾病之间可能会产生虚假的关联。知道患者服用了药物“解释掉”了不良事件,使得他们患有该疾病的可能性看起来更小,反之亦然。将你的分析条件限制在“对撞机”(不良事件报告)上,会产生一种统计幻觉。这是一个美丽但危险的例子,说明了相关性不等于因果关系,并突显了计算生物学与流行病学和因果推断原则之间的深刻联系。
最后,即使有一个出色的、经过严格验证的假设,制药公司为什么要投资去测试一种老的、专利过期的药物用于一种新的、罕见的疾病呢?经济激励往往是缺失的。这就是科学与法律和公共政策相遇的地方。认识到这种“市场失灵”,美国通过了《孤儿药法案》(Orphan Drug Act)。该法律提供了一个强大的激励措施:如果一个赞助商让一种现有药物获批用于一种罕见病(影响少于20万人),它将获得七年的市场独占期,专用于该特定用途。这意味着FDA在七年内不能批准另一家公司生产的相同药物用于该相同的孤儿病适应症。这种独占性提供了一个关键的盈利窗口,使得投资变得值得。它不阻止该药物原始的、常见适应症的仿制药,也不阻止医生“标签外”使用那些仿制药。但它创造了必要的“胡萝卜”,以激励进行昂贵的临床试验,从而正式地将一种重定位的疗法带给急需它的小部分患者群体。
在我们结束这次旅程之际,我希望您不仅仅将药物重定位看作一种节省成本的技巧,而是一种全新的、深刻的科学研究方式。它是知识统一性的证明。一条逻辑线索可以从化学家的指纹开始,穿过生物学家的通路,跨越计算机科学家的网络,经过统计学家的仔细审视,最终由立法者的公共政策引导至患者。这是一个在好奇心、创造力以及发现隐藏在显而易见之处的联系的能力上蓬勃发展的领域。它代表了从发现新分子到发现新知识的转变——而在这些知识中,蕴藏着一个尚未开发的治愈宇宙。