临床前测试

玻尔百科

核心要点

临床前测试源于thalidomide等历史悲剧，是一个关键的安全性评估阶段，旨在确保药物在进行人体试验前，其潜在危害得到严格评估。
它区分了危害（内在的潜在伤害）和风险（特定剂量下发生伤害的可能性），并利用NOAEL等概念来建立定量的安全边际。
安全性评估采用双重策略：一般毒理学用于发现器官的结构性损伤，安全药理学用于检测重要系统的急性功能衰竭。
测试方法根据具体治療模式量身定制，从适用于小分子的经典蓝图，调整为适用于抗体、细胞疗法和基因疗法的专门方案。

引言

一种新药从实验室概念到患者治疗的历程是一个漫长而精心策划的过程，建立在安全的基础之上。临床前测试正是这一基础——它是在一个有前景的分子与首次引入人体志愿者之間起关键把关作用的守门人。这是一项科学和伦理上的必要措施，旨在系统性地识别潜在危害，防患于未然，这也是从重塑现代医学的历史悲剧中汲取的教训。本文将阐明临床前测试的世界，为理解我们如何建立对新疗法安全性的信心提供一个全面的概述。

接下来的章节将引导您穿越这一复杂的领域。首先，“原则与机制”部分将揭示安全性评估的理念和核心方法学，解释科学家如何区分危害与风险，用于检测结构性损伤和功能性问题的策略，以及确保数据完整性的监管标准，如Good Laboratory Practice (GLP)。接下来，“应用与跨学科联系”一章将展示这些基本原则并非一成不变的清单，而是一个动态、适应性强的框架，应用于从传统药物到革命性的基因和细胞疗法等各种现代药物，形成一个保护公众健康的持续学习系统。

原则与机制

要理解临床前测试，我们必须首先认识到它并非一套刻板的程序清单，而是一种理念。它是一项源于悲剧、充满人性的事业，以科学怀疑主义原则为指导，通过生物学、化学和统计学之间错综复杂的配合来执行。这是一门艺术，即在我们要求任何人类志愿者吞下一种潜在的新药之前，用我们能想象到的每一种方式质问它：“你可能会如何造成伤害？”

实验室中的幽灵：悲剧写就的教训

在科学史上，我们认识上的巨大飞跃往往来自最深刻的失败。在20世纪50年代末和60年代初，全世界从一种名为thalidomide的药物中吸取了慘痛的教訓。它作为一种看似无害的镇静剂上市，用于缓解孕妇的晨吐。结果是一场灾难：成千上万的婴儿出生时带有严重缺陷，最典型的就是四肢畸形或缺失。

这一切是如何发生的？该药物最初的安全性文件中包含了在啮齿动物中进行的研究，这些研究未显示任何导致出生缺陷的迹象。乍一看，数据表明是安全的。但正是在这里，我们必须像一个真正的科学家那样思考。关键问题不是“测试是否显示了危害？”而是“如果危害存在，该测试是否有能力显示出来？”正如我们现在所知，那些早期的动物研究存在严重缺陷。它们是在对thalidomide效应不敏感的动物物种上进行的，而且通常给药时间错过了肢体形成的关键窗口期——即早期妊娠阶段。这个阴性结果并非没有危害的证据（evidence of absence）；而是缺乏证据（absence of evidence）。这两者之间有天壤之别。

thalidomide悲剧成了一个永远萦绕在药理学殿堂的幽灵。它通过迫使范式转变，从根本上重塑了药物开发。在这场危机之后，现代临床前测试框架应运而生，它建立在两个不容商榷的支柱之上。首先，一种药物必须有充分的证据证明它确实有效（efficacy），这些证据需基于良好对照的研究，而不仅仅是坊间传闻。其次，其潜在危害必须在进入公众视野之前得到系统和严格的调查。这项进行严谨、周密安全性测试的强制要求，是整个临床前事业的道德和科学核心。这是我们对每一位未来患者的承诺：我们将铭记过去，并竭尽全力保护您。

这一保护之旅漫長而又分阶段精心安排。一种新药的生命始于实验室中筛选的可能多达一百万个分子中的一个。在初步发现之后，最有希望的候选药物进入临床前阶段——即本章的主题。在这里，它们将接受广泛的实验室和动物测试。只有通过了这一高标准，药物才能被考虑用于人体测试，而人体测试本身也经过精心分期：Phase I（在健康志愿者中进行的小规模研究，以检验安全性和剂量）、Phase II（在患者中进行的中等规模研究，以观察药物是否有效）和Phase III（在数千名患者中进行的大规模、确定性试验）。最终，经过这长达十年的旅程，所有数据都将提交给像U.S. Food and Drug Administration (FDA)这样的监管机构以供审批。临床前测试是在实验室的一个巧妙构思与首次人体给药之间至关重要的关口。

智慧忧虑的艺术：危害与风险

临床前毒理学的核心在于一个优美而有力的区别：危害（hazard）与风险（risk）之间的差异。这与我们日常生活中的逻辑相同。大白鲨是一种危害；它具有造成严重伤害的内在能力。然而，如果你在堪萨斯州的游泳池里，你被那条鲨魚伤害的风险基本上为零。

在毒理学中，危害识别（hazard identification）是找出一种药物不论剂量大小能够引起何种麻烦的过程。它是否有潜力损害肝脏？它会干扰心脏节律吗？这是一个定性问题：“什么会出错？”我们通过给动物使用药物（通常剂量非常高）并寻找任何麻烦的迹象来回答这个问题。

但识别危害只是故事的一半。许多物质在某种程度上都是有害的——即使是水，如果喝得足够多。真正的问题在于风险表征（risk characterization）。这是我们进行定量分析的地方。风险是在特定使用条件下，该危害实际发生的可能性。我们将危害信息与药物剂量、其在体内的停留时间（即药代动力学）以及其如何被消除的知识相结合。

许多临床前研究的核心目标是找到未观察到有害作用的剂量水平（No-Observed-Adverse-Effect Level, NOAEL）。这是在研究中给予的、在试验动物身上未產生任何可检测到伤害的最高剂量。然后，我们可以将动物在NOAEL水平下血液中的药物暴露量（通过峰浓度 $C_{\max}$ 或总暴露量 $AUC$ 等指标衡量）与人类服用治疗剂量时的预期暴露量进行比较。这两者之间的比率称为安全边际（safety margin）。如果在NOAEL水平下，大鼠的暴露量比人类预期暴露量高100倍，我们就拥有100的安全边际，这让我们有信心该药物不太可能对患者造成那种特定的伤害。这个精妙的过程将模糊的担忧转变为经过计算的安全性评估。

双管齐下：寻找损伤 vs. 观察引擎

那么，我们究竟如何着手寻找麻烦呢？临床前安全性评估采用了两种根本不同但互补的策略：一般毒理学和安全药理学。你可以把它想象成检查汽车是否有锈蚀和应力性骨折，与启动引擎并倾听以确保其平稳运行之间的区别。

一般毒理学（General toxicology）旨在寻找结构性损伤。在这些可能持续数天到数月的研究中，动物会接受药物的重复给药。然后，科学家会进行全面的调查，就像侦探在犯罪现场一样。他们监测动物的体重和行为，采集血样以检查器官损伤的化学迹象（临床病理学），并在研究结束后对每个器官进行细致的检查，包括肉眼观察和显微镜检查（组织病理学）。通过这种方式，我们能发现药物是否正在缓慢地造成累积性损伤——肝脏的“裂缝”、肾脏的“锈蚀”或任何其他形式的细胞损伤。

另一方面，安全药理学（Safety pharmacology）则是关于观察引擎运行。它研究药物在身体最关键系统中引起急性、危及生命的功能性问题的潜力。这组被称为核心组合试验（core battery）的研究，侧重于三个其不间断功能对于维持生命至关重要的系统：中枢神经系统（CNS）、心血管系统和呼吸系统。

为什么是这三个系统？答案在于生命最基本的需求：向我们的组织输送氧气 ( $D_{\text{O}_2}$ )。呼吸系统将氧气带入体内。心血管系统在心脏泵血作用 ( $CO$ ) 的驱动下，输送含氧血液。而中枢神经系统（CNS）作为总控制器，协调整个过程。这些系统中任何一个发生灾难性故障——如药物导致呼吸停止、血压骤降或心脏陷入致命性心律失常——都可能在几分钟内导致不可逆的损伤或死亡。由于风险极高且时间尺度极短，这些系统会接受专门的功能性测试，通常在清醒的动物身上使用先进的遥测植入物实时监测其生理状况。一般毒理学寻找缓慢燃烧的火灾；安全药理学则警惕突发的爆炸。

人的因素：当我们与大鼠和狗不同时

在研究中使用动物是基于其生物学特性是我们自身合理模型这一理念。对于许多基本功能而言，确实如此。但有时，差异才是最重要的。现代毒理学中最引人入胜的挑战之一是人类特有代谢物（human-unique metabolites）的问题。

当你服用一种药物时，你体内的酶会开始工作，通过一个称为新陈代谢的过程来修饰其化学结构。形成的新分子被称为代谢物（metabolites）。通常，这个过程有助于解毒和清除药物。但有时它会起反作用，将一种无害的母体药物转化为有毒的代谢物。

问题在于不同物种拥有不同的酶系。一种药物在大鼠和狗体内可能完全安全，因为它们通过良性途径将其代谢。但在人类中，某种在我们物种中高度活跃但在啮齿动物中活性迟缓的酶——例如Aldehyde Oxidase (AOX)——可能会将同样的药物转化为一种在动物研究中从未出现过的有毒化学物质。

我们如何解开这个谜题？我们不能简单地放弃动物测试。相反，现代临床前科学已经变成了一项复杂的侦探工作。我们在培养皿中（in vitro）使用人类肝细胞和其他源自人体的组织来观察会形成哪些代谢物。如果我们发现一种在标准动物模型中未见的主要人类代谢物，警钟就会敲响。然后我们必须专门测试该代谢物的安全性。这可能涉及在实验室合成该代谢物并直接给予动物，或者寻找一个恰好与人类共享该代谢途径的不同动物物种（如猴子）。这个由称为药物代谢产物安全性测试（Metabolites in Safety Testing, MIST）的法规指导的细致过程，展示了临床前评估如何从简单的动物给药演变为一门综合科学，它将来自人体细胞、动物模型和先进化学分析的线索拼凑起来，以构建更完整的人类风险图景。

预测的局限：可预见的问题与完全的意外

尽管临床前安全网功能强大且精良，但它并非完美无缺。理解它能做什么和不能做什么至关重要。药物不良反应（Adverse Drug Reactions, ADRs）大致分为两种主要类型，这种分类清楚地揭示了我们预测未来能力的内在局限性。

A型（“增强型”）反应是可预测的。它们仅仅是药物已知药理作用的夸大表现，并且通常具有剂量依赖性。例如，降压药使血压降得过低，或镇静剂引起过度嗜睡。临床前测试使用超治疗剂量的高剂量，因此在识别潜在的A型反应方面极其出色。动物研究中观察到的剂量依赖性QTc延长是经典的A型效应[@problem id:4527665]。

B型（“奇异型”）反应是真正的未知因素。这些是特异质反应，无法从药物的主要作用中预测，通常不具剂量依赖性，且仅发生在极小部分人群中。它们通常是由药物与个体特定免疫系统之间的独特相互作用引起的，并常常与其基因构成（如其特定的Human Leukocyte Antigen, or HLA, 型）相关。由于实验动物没有人类的免疫系统，因此临床前测试在预测B型反应方面向来表现不佳。这是我们必须接受的一个局限性。

此外，由于这些反应很罕见——可能每10000人中发生1例——即使是大型临床试验也可能不够大，无法检测到它们。一个简单的概率计算表明，一个测试3000名患者的临床项目，发现一个发生率为万分之一的事件的几率竟然很低（低于30%）。这就是为什么药物测试的第四阶段，即药物获批并被数百万人使用后的上市后监测，仍然是安全监控的关键最后一环。临床前测试可以消除可预测的危害，但无法预见每一种可能的人类特异质反应。

信任的基石：药品非临床研究质量管理规范的规则

在加利福尼亚进行的一项安全性研究必须能被日本的监管者理解和信任。这怎么可能？答案在于一个名为药品非临床研究质量管理规范（Good Laboratory Practice, GLP）的质量与诚信框架。

GLP关乎的不是做什么科学研究，而是如何记录你所做的科学研究。它是一套法规，确保非临床研究的数据高质量、可追溯且可重现。可以把它看作是“展示你的工作过程”的终极要求。根据GLP，每项研究都必须预先制定详细的方案（protocol）。由一位研究负责人（Study Director）负总责。一个独立的质量保证部门（Quality Assurance Unit, QAU）在研究进行过程中对其进行审核，以确保方案得到遵守。最重要的是，所有原始原始数据（raw data）——每一个笔记本记录、每一份仪器打印输出、每一张组织切片——都必须被一丝不苟地存档多年。这使得监管机构能在研究完成后很长时间，仍能从头到尾重建整个研究过程。

GLP是“良好规范”（GxP）系列法规的一部分。它管理临床前的实验室工作。药品生产质量管理规范（Good Manufacturing Practice, GMP）确保药品本身的质量和一致性。药物临床试验质量管理规范（Good Clinical Practice, GCP）保护临床试验中人类受试者的权利和安全，并确保临床数据的完整性。它们共同构成了一个支撑整个药物开发过程的信任之网。

全球握手：通过互信减少动物使用

或许这个系统最美好、最具凝聚力的一方面是它如何促进了全球合作。过去，一家公司可能不得不在美国、欧洲和日本重复进行同样一套昂贵而漫长的动物研究，以满足各国监管机构的要求。这不僅浪费资源，而且由于重复使用动物而在伦理上也令人不安。

为了解决这个问题，经济合作与发展组织（Organization for Economic Co-operation and Development, OECD）建立了一个数据互认（Mutual Acceptance of Data, MAD）体系。根据这项杰出的国际协议，在一个成员国根据OECD的GLP原则进行的任何非临床安全性研究，必须被所有其他成员国的监管当局接受。

这次全球握手不仅仅是为了方便。它代表了对单一、高标准的科学质量的共同承诺。它确保了关键的安全性数据可以一次生成、全球共享，从而加速新药的开发，同时显著减少研究中使用的动物数量。这证明了科学作为一种通用语言的力量，它建立了一个信任的基础，最终保护了患者，尊重了动物福利，并推动了全世界人类的健康发展。

应用与跨学科联系

当我们初次想到科学时，脑海中浮现的往往是孤独的天才、灵光一闪的顿悟或优雅的方程式。但一种新药从实验室构想到应用于人类生命的旅程却有所不同。它不是一次发现的短跑冲刺，而是一座协同构建的建筑杰作，一座精心构建的信心之桥。临床前测试就是这座桥梁的无形蓝图。它不是勾选方框的官僚程序，而是一种深刻的科学想象行为，一个我们必须尝试描绘出一个新分子在人体这个错综复杂、动态变化的景观中可能创造的所有未来——無論好坏——的学科。这项事业将生物学、化学和物理学最基本的原理与人类健康最实际、最伦理的问题联系起来。

经典蓝图：为新分子规划航程

让我们从最传统的挑战开始：一种新的小分子药物。想象一下，我们设计了一把微小而优雅的钥匙，旨在适配体内庞大细胞机器中的一把特定锁，以治疗一种疾病。在我们敢于在人身上尝试这把钥匙之前，我们必须提出一系列基本问题。这个初始的安全性评估方案构成了一个探究的三脚架，是所有未来人体研究赖以建立的稳定基础。

首先，我们问：“我们的钥匙是否会意外地晃动生命最关键系统的锁？”这是安全药理学的范畴。我们必须确保即使在低剂量下，药物也不会干扰中枢神经系统、呼吸系统，或者最关键的心血管系统。此处任何意想不到的效应都可能是灾难性的。我们会一丝不苟地检查诸如扰亂心脏节律的潛在风险，这一风险如此重要，以至于有其专门的检测方法，例如human Ether-à-go-go-Related Gene (hERG) 测试，该测试检查药物如何影响控制心脏电周期的关键离子通道。

其次，我们问：“如果我们将钥匙留在锁里，或在其附近一段时间会发生什么？”这就是一般毒理学研究的目的。我们向至少两种不同的哺乳动物物种——通常一种啮齿动物（如大鼠）和一种非啮齿动物（如狗或小型猪）——重复给药。为什么要两种？因为没有单一的动物模型是人类的完美复制品。通过使用两种不同的物种，我们撒下了一张更广的网，增加了发现可能与我们相关的潜在毒性的机会。这些在名为Good Laboratory Practice (GLP)的严格质量体系下进行的研究，旨在确定哪些器官可能受到影响以及在何种暴露水平下受影响，从而建立一个关键基准：未观察到有害作用的剂量水平（No-Observed-Adverse-Effect Level, NOAEL）。

第三，我们必须问一个最深刻的问题：“我们的钥匙会损坏生命本身的蓝图吗？”这是遗传毒性（genotoxicity）的领域。我们必须检查我们的分子是否会导致突变或损害染色体。一套从细菌开始，然后转移到哺乳动物细胞的标准组合测试，为我们提供了初步的观察。我们DNA的完整性至关重要，我们不能在未首先调查这种可能性的情况下，就让人类暴露于潜在的诱变剂之下。

这个过程不是静态的一次性事务。它是临床前开发和临床开发之间的一場动态舞蹈。我们的动物毒理学研究的持续时间必须始终达到或超过我们计划的人体试验持续时间。如果我们计划在人类中进行为期28天的研究，我们必须拥有至少28天的两种动物物种的毒理学数据来支持它。随着临床计划推进到更长的试验，比如12周，我们就必须回头进行更长的13周毒理学研究。这是实验室与临床之间一场持续的、前瞻性的对话。

超越蓝图：驾驭细微之处

当然，现实世界远比这一经典蓝图所描绘的要复杂有趣得多。旅程中常常充满意想不到的谜题，需要巧妙、细致的调查。

考虑一下生产过程。它是一曲复杂的化学交响乐，有时不僅产生我们期望的分子，还会产生微量的其他相关分子——即杂质。如果这些“不速之客”之一的化学结构表明它可能是潜在的诱变剂，我们该怎么办？放弃这种药物吗？不一定。在这里，我们看到了一个优美的分层策略在起作用。我们从计算机模型（QSARs）开始预测风险。如果模型结果不一致或看起来令人担忧，我们就升级到一种高度敏感的细菌突变试验（Ames试验）以获得明确的答案。如果杂质确实是诱变剂，我们必须确保其含量被控制在一个极低的水平，通常低于每天1.5微克的“毒理学关注阈值”——这是我们对安全承诺的证明。这种分层方法，仅在必要时才从*计算机模拟（in silico）升级到体外（in vitro）再到体内（in vivo）*测试，也体现了现代研究的一个核心伦理原则：动物使用的“3R”原则（替代、减少和优化，即Replacement, Reduction, and Refinement）。

另一个有趣的谜题源于身体自身的活动。当一种药物进入我们的系统时，我们的肝脏和其他器官常常会修饰它，将原始分子转化为称为代谢物的新分子。有时，在我们的动物模型中是次要的代谢物，在人类中却成为主要的。这被称为“不成比例的人类代谢物”，它带来一个问题：我们是否已充分测试其安全性？解决方案在于药理学中最优雅的原则之一：未结合浓度假说。对于一个分子的活性——或毒性——而言，重要的不是其在血液中的总浓度，而是游离或未与血浆蛋白结合的部分。一个被紧密结合的分子就像一个在拥挤派对上被困于交谈中的人；它不能四处游荡惹麻烦。通过仔细测量动物和人类体内代谢物的未结合浓度，我们可以进行更明智的比较。通常情况是，即使动物体内代谢物的总量较低，但较高的未结合分数意味着其细胞实际上比人类细胞暴露于更多的“活性”分子。在这种情况下，原始的毒理学研究就足够了，我们可以避免进行昂贵而漫长的新动物研究，这是一个深刻的物理化学原理如何指导实际、伦理决策的绝佳例子。

更广阔的药物世界：因地制宜

医药世界不再仅仅是关于小而简单的钥匙。我们现在正在设计种类繁多、复杂无比的疗法，而临床前测试的艺术在于针对每一种新模式的独特性来量身定制安全地图。

小分子与单克隆抗体之间的对比就是对此的完美说明。抗体不像一把简单的钥匙，更像一副高度特异、设计精巧的生物手铐，专为某个特定的分子靶点而设。这种高度特异性改变了一切。我们不再需要两种动物物种；我们需要一个药理学相关的物种，即除人类外，（如果存在的话）拥有相同分子靶点的那个物种。对许多抗体而言，这意味着唯一相关的物种是非人灵长类动物。此外，由于这些大蛋白分子预计不会直接与DNA相互作用，因此不需要进行标准的遗传毒性组合测试。对心脏或大脑的脱靶效应风险也较低，因此安全药理学评估通常直接整合到一般毒理学研究中，而不是作为独立的实验。

随着生物类似药（biosimilars）的发展，这种基于风险的理念被进一步推进。生物类似药是已批准抗体疗法的复制品。如果制造商能通过一系列复杂的分析测试证明其产品在结构和功能上与原研药高度相似，那么进行广泛、重复性动物测试的需求便不复存在。动物研究仅保留用于识别出特定风险的情况——例如，抗体结构的细微差异可能导致更强的免疫相互作用，或者发现了新的杂质。这代表了监管科学的一次重大演变：从常规测试转向“证据总体性”方法，分析科学常常可以取代动物研究的需求。

临床前测试的原则也远远超出了注射药物的范畴，延伸到了医疗器械（medical devices）领域。想象一个新型的心脏神经调节系统，一个用于调节心律的可植入设备。你如何测试其安全性？核心问题相同，但具体细节不同。我们需要一个心脏在解剖学和生理学上与人类相似的动物模型——例如猪，而不是大鼠。我们测量的终点必须与该设备直接相关。我们不僅要评估其预期性能（它是否能正确调节神经信号？），还要评估所有潜在的设备相关风险：植入过程是否会造成损伤？设备是否会导致血凝块（血栓，thrombus）？身体的长期反应是否会导致设备周围形成瘢痕组织（纤维化，fibrosis），从而妨碍其功能？一个严格的器械临床前项目是工程学、外科学、生理学和病理学的完美结合。

今天，我们正处于更具革命性疗法的门槛上。对于细胞疗法（cell therapies），例如由支架上的活细胞制成的工程化粘膜贴片，临床前的问题变得更加复杂和具有未来感。这不再是一个惰性分子，而是一个活的、功能性的构建体。这意味着我们必须应对全新的风险类别，最引人注目的是致瘤性（tumorigenicity）：用于创建组织貼片的pluripotent干细胞是否会意外地生长成肿瘤？这需要专门的*体内（in vivo）*研究来确保最终产品没有这种风险。

对于基因疗法（gene therapies），即我们将遗传密码传递到患者细胞中，风险概况再次扩大。安全性评估不仅要考虑治疗基因本身，还要考虑用于递送它的载体。非病毒性质粒（本质上是裸露的DNA环）与病毒载体（如adeno-associated virus (AAV)）所携带的风险不同。对于病毒载体，我们必须进行一系列对质粒而言无关紧要的额外测试：我们必须证明载体不能自我复制，并且必须研究“shedding”（病毒脱落）以了解患者是否可能将病毒传播给他人或环境。临床前项目必须与特定技术精妙匹配。

宏大的循环：借鉴历史，构建更安全的未来

整个现代临床前测试事业并非一蹴而就。它是在悲剧的熔炉中锻造出来的。20世纪60年代初的thalidomide灾难，一种看似安全的晨吐药物导致了灾难性的出生缺陷，揭示了安全性测试不足所带来的可怕代价。这一事件是催化剂，它将药物监管从一个简单的上市准入检查站转变为一个动态的、贯穿整个生命周期的安全承诺。

其结果就是我们所谓的学习型健康系统（learning health system），这一概念代表了该领域应用的巅峰。它不是从实验室到临床再到市场的直线。它是一个宏大、持续的循环。稳健的临床前研究为安全临床试验的设计提供信息。来自这些试验的数据，以及后来数百万患者的上市后经验（一个称为药物警戒的领域），被收集和分析以寻找新的安全信号。这些真实世界的证据随后向后流动，形成闭环。它为新的监管政策和指南提供信息。它触发新的、有针对性的临床前研究，以理解意外副作用背后的机制。它改变了我们设计下一代临床试验的方式。

这是最终的跨学科联系。它是一个将实验室的分子生物学家、毒理学家、床边的临床医生、研究人口数据的流行病学家以及制定政策的监管者联系成一个单一的、自我修正的有机体的系统。它谦逊地承认我们的知识永远不会完备，并坚定地致力于学习和改进的迭代过程。它是一个历史教训的活遗产，一个旨在确保从一个想法到一名患者之间的桥梁，在人类的智慧和勤奋所能及的范围内尽可能安全的系统。