try ai
科普
编辑
分享
反馈
  • 恒定性假设

恒定性假设

SciencePedia玻尔百科
核心要点
  • 恒定性假设是一项关键信念,即在历史试验中测得的活性对照治疗相对于安慰剂的效应,在当前的非劣效性试验中保持不变。
  • 由于患者人群或标准护理的变化导致该假设被违背,可能会导致无效甚至有害的新疗法被错误批准。
  • 科学家通过使用保守的统计界值和设计包含安慰剂组的三臂试验来直接检验该假设,从而降低这一风险。
  • 假设均一性的核心思想超越了医学领域,作为一项基本原则出现在植物学、地球物理学和人工智能等领域,它既是一个赋能工具,也是一个潜在的误差来源。

引言

在追求知识的过程中,科学常常依赖假设来搭建桥梁,跨越我们理解上的鸿沟。其中影响最为深远的假设之一是恒定性假设——一种认为过去真实的情况在今天依然真实的信念。这一概念是现代研究的基石,尤其是在那些因伦理或实践原因而无法进行直接、理想比较的领域。它让我们得以站在历史数据的肩膀上,但也迫使我们进行一次信念的飞跃,而如果脚下的基础已经发生变化,这次飞跃将带来深远的风险。

本文剖析了这一关键思想。我们将探讨,当目标并非追求优越、而仅仅是“足够好”时,我们应如何评估新的创新,以及这个问题如何迫使我们依赖过去。读者将了解到为什么这种依赖既是必要的也是危险的,以及科学家们如何应对他们自身假设的脆弱性。

首先,我们将以高风险的医学非劣效性试验为主要案例,深入探讨恒定性假设的​​原理与机制​​。然后,在​​应用与跨学科联系​​部分,我们将超越医学领域,去发现这同一个基本逻辑如何支撑着地球物理学、植物学和人工智能等不同领域的研究,从而揭示它在科学探求真理过程中的一个普遍主题。

原理与机制

在我们认识世界的征途中,科学常常会问:“这个更好吗?”。我们寻求能更有效治愈疾病的新药,更坚固的新材料,更清洁的新能源。其逻辑是追求优越性。但如果问题有所不同呢?如果我们有一种新药,它不一定更强效,但或许可以每天只服用一次而不是三次,副作用更少,或者生产成本更低。在这种情况下,我们并非寻求压倒性的胜利。我们问的是一个更微妙的问题:“这个新事物不至于差到不可接受吗?”。

这就是​​非劣效性试验​​的世界,它是现代医学科学中思想上最精妙、最具挑战性的领域之一。

一种不同的胜利:追求“非劣效性”

假设我们正在测试一种新的抗生素,称之为 TTT,并将其与当前的标准治疗抗生素 CCC 进行比较。我们关心的结果是患者的死亡概率,我们称之为 ppp。自然,概率越低越好。在传统的优效性试验中,我们会试图证明 pTpCp_T p_CpT​pC​。

但在非劣效性试验中,我们的目标是证明 TTT 最多只比 CCC 略差一点。我们必须首先定义“略差一点”的含义。我们设定一个​​非劣效性界值​​,这是一个预先指定的小数值,用希腊字母 delta(Δ\DeltaΔ)表示。这是我们为了换取新药的其他益处而愿意容忍的最大疗效损失。例如,我们可能决定死亡风险增加 1%1\%1%(Δ=0.01\Delta = 0.01Δ=0.01)是可以接受的最大权衡。

这样,试验的逻辑就被颠覆了。“零假设” (H0H_0H0​)——即我们旨在推翻的现状——是新药确实较差,意味着风险差异 pT−pCp_T - p_CpT​−pC​ 大于或等于我们的界值 Δ\DeltaΔ。我们的目标是收集足够的证据来拒绝这一悲观观点,并得出“备择假设” (H1H_1H1​),即新药是非劣效的 (pT−pCΔp_T - p_C \DeltapT​−pC​Δ)。为了宣告胜利,我们必须确信真实的差异不在“差到不可接受”的区域内。

这看起来足够直接。但一个深刻而危险的陷阱隐藏在这一逻辑之中。

机器中的幽灵

让我们继续讨论药物 TTT 对比药物 CCC 的试验。假设试验结束,我们发现死亡率几乎相同:pT≈pCp_T \approx p_CpT​≈pC​。我们胜利地宣布我们新的、更易于服用的药物是“非劣效的”。

但如果,在我们的试验期间,发生了一些意想不到的事情呢?如果一种新的耐药菌株出现,使得两种药物都失效了呢?或者如果试验管理不善,患者没有正确服药呢?在那种情况下,两种药物都会表现出相似的效果,因为它们都无效。我们关于非劣效性的结论将是一个灾难性的幻觉,可能导致一种毫无价值的药物被批准。

这就引出了一个基本概念:​​试验区分能力(assay sensitivity)​​。如果一项试验能够区分有效治疗和无效治疗,那么它就具有试验区分能力。在我们的例子中,噩梦般的情景就是试验缺乏试验区分能力。确保我们试验具备此属性的唯一方法是看到活性对照药物 CCC 确实起作用。而看到它起作用的唯一方法是将其与……什么都不做,即安慰剂进行比较。

但在许多现代试验中,特别是在治疗严重疾病(如危及生命的感染或癌症)时,当已知存在有效治疗方法时给患者安慰剂是不道德的。因此,安慰剂组常常缺失。我们有我们的两种活性药物 TTT 和 CCC,但唯一能让我们对结果充满信心的东西——即证明 CCC 在本次试验中确实有效的证据——却不存在。它是我们实验这部机器中的幽灵。

跨越时间的信念飞跃

我们如何解开这个谜题?我们求助于过去。活性对照药物 CCC 之所以是一种标准治疗,正是因为它曾在历史上的安慰剂对照试验中被证明是有效的。现代非劣效性试验的整个逻辑都建立在一个大胆而关键的“信念飞跃”之上,即​​恒定性假设​​。

恒定性假设假定,在历史试验中测得的活性对照药物(CCC)相对于安慰剂(PPP)的效应,在我们的当前试验中得以保持并且相同。如果历史试验表明药物 CCC 与安慰剂相比,将事件风险降低了 10%10\%10%,我们就假设,如果在我们今天的试验中也设有一个安慰剂组,我们会看到同样的 10%10\%10% 的风险降低。

这个假设是连接我们当前试验与历史证据的概念桥梁,它让我们相信我们的试验具有试验区分能力。对照药物的历史效应是我们衡量新药的标尺。恒定性假设让我们能够从过去借用这把标尺。但如果这把标尺已经改变了呢?

当世界改变,桥梁坍塌时

假设世界一成不变是一场危险的游戏。进行历史试验时的条件可能与今天的条件大相径庭。这就是我们的概念桥梁可能坍塌的地方。许多现实世界的变化都可能威胁或推翻恒定性假设:

  • ​​标准护理的进步:​​ 假设十年前,某种心脏病的安慰剂组事件率为 20%20\%20%。如今,随着更好的生活方式指导、他汀类药物和普遍护理的进步,“安慰剂”组(即除了活性药物外的一切)的事件率可能只有 11%11\%11%。这种背景护理的改善大大减少了活性对照药物显示其益处的空间。其效应量缩小了。

  • ​​患者人群的变化:​​ 早期的试验可能会招募病情严重的患者,在这些患者中药物可以产生很大的效应。后来的试验可能包括病情较轻的患者,在这些患者中药物的效应自然较小。

  • ​​“敌人”的演变:​​ 对于传染病而言,这是一场持续的战斗。药物旨在对抗的细菌或病毒可能会产生耐药性,使得曾经强大的活性对照药物变得弱得多。

  • ​​试验实施的差异:​​ 即使是终点定义、药物依从性监测方式或“补救”疗法使用上的微小变化,也可能改变药物的表观效应。

让我们通过一个基于假设情景的具体警示故事,来看看这有多么具有毁灭性。假设一项历史试验显示,活性对照药物 CCC 将事件率从 20%20\%20%(安慰剂)降低到 10%10\%10%(对照组),这是一个强大的 10%10\%10% 的绝对风险降低。基于此,我们将非劣效性界值 Δ\DeltaΔ 设定为 5%5\%5%,这意味着如果新药 TTT 不比 CCC 差超过 5%5\%5%,我们就可以接受它。

现在,在我们现代的试验中,我们观察到药物 CCC 的事件率为 10%10\%10%,而我们的新药 TTT 的事件率为 12%12\%12%。差异仅为 2%2\%2%,这完全在我们 5%5\%5% 的舒适界值内。从统计学上看,试验是成功的!我们得出非劣效性的结论。

但这里有一个我们不知道的秘密:由于背景护理的巨大进步,我们现代试验中真正的安慰剂组事件率本应是 11%11\%11%。“强大”的药物 CCC 实际上只将事件率从 11%11\%11% 降低到 10%10\%10%,效应微不足道,仅为 1%1\%1%。它的威力几乎消失了。我们的新药 TTT 事件率为 12%12\%12%,实际上比什么都不做更差。然而,因为我们依赖了一个过时的历史标尺,我们被愚弄了,宣布一种无效——甚至有害——的药物取得了成功。这就是违背恒定性假设所带来的危险陷阱。

建造一座更安全的桥梁:设定界值的艺术

科学家们并非天真;他们敏锐地意识到了这种危险。因此,他们不仅仅是盲目地进行信念的飞跃,而是试图建造一座通往过去的更安全、更坚固的桥梁。这涉及几种巧妙的策略。

首先是​​设定界值​​的艺术。界值 Δ\DeltaΔ 并非凭空捏造,而是经过深思熟虑的保守计算得出的。一种常见的方法包括两个步骤:

  1. 获取对照药物效应的历史数据。不使用平均效应,而是使用最悲观、统计上合理的数值——其置信区间的下限。这已经为不确定性建立了一个缓冲。
  2. 保留该效应的一部分。我们不会将界值设为等于这个历史效应。相反,我们要求我们的新药保留其相当大的一部分,比如说 50%50\%50%。然后将界值 Δ\DeltaΔ 设定为我们愿意损失的那部分效应。这确保了即使在最坏的合理情况下,新药仍能保留有意义的临床益处。

其次是​​语言​​的选择,或者说效应尺度。有时,当以相对而非绝对术语衡量时,效应在不同人群中更为稳定。例如,一种药物可能无论基线安慰剂风险是高(30%30\%30%)还是低(10%10\%10%),都能稳定地将事件风险降低 60%60\%60%(风险比为 0.400.400.40)。在第一种情况下,绝对风险降低为 18%18\%18%,而在第二种情况下仅为 6%6\%6%。如果我们认为其潜在的生物学机制是乘法性的,那么在相对尺度(风险比)上定义我们的界值,比使用固定的绝对差异更能抵抗基线风险的变化。

邀请幽灵重返派对

然而,最强大的策略是不完全依赖过去。验证试验区分能力的最终方法是获得对对照药物效应的直接、当代的测量。这促成了​​三臂非劣效性试验​​的设计,其中包括新药(TTT)、活性对照药物(CCC)和一个经过伦理管理的、小规模的安慰剂组(PPP)。

加入一个安慰剂组,哪怕是一个小规模的安慰剂组,也是一个深刻的转变。它让我们能够直接观察到 CCC 相对于 PPP 在此时此地的效应,将恒定性假设从一次信念的飞跃转变为一个可检验的假说。通过审慎的伦理保障——例如限制患者使用安慰剂的时间,并制定明确的规则以便立即用有效疗法进行补救——这种设计提供了两条关键信息。

首先,它验证了整个试验的前提。我们可以采用一种​​门控策略​​:第一个“门”是证明在我们的试验中 CCC 确实优于 PPP。只有通过了那个门,打开第二个门来检验 TTT 是否非劣于 CCC 才变得有意义。如果活性对照药物未能胜过安慰剂,那么非劣效性的问题就变得毫无意义;该试验未能显示出试验区分能力。

其次,安慰剂组为我们提供了一个实时的校准,用于衡量所有参与试验的非特异性效应——背景护理、患者的期望、疾病的自然病程。它使我们能够将我们的解释锚定在当下的现实中,而非过去的记忆里。通过邀请安慰剂这个幽灵重返派对,我们可以清楚地看到什么是真实的,什么是幻觉,从而确保当我们宣布一种新疗法“同样好”时,我们能确信“好”仍然意味着某些东西。

应用与跨学科联系

在掌握了我们核心思想的原理与机制之后,我们现在踏上一段旅程,去观察它在实践中的应用。就像一把万能钥匙,恒定性假设在那些初看起来相去甚远的领域中打开了一扇扇大门。一个思想的真正力量和美感,正是在其应用中得以展现。我们将看到,这同一个概念如何成为医学领域生死抉择中的沉默伙伴,如何成为我们测量生命世界时细微误差的来源,如何成为我们窥探地球深处的基础原则,以及如何成为我们构建智能机器征途中的指路明灯。这并非一堆互不相关的例子;它展示了科学思想深刻的统一性。

高风险的医学世界:新药“足够好”吗?

想象一下,一种针对严重心脏病的新药被开发出来。几十年来,标准治疗药物(我们称之为药物 AAA)一直在拯救生命。现在,我们有了一个新的竞争者,药物 TTT。从伦理上讲,当存在像 AAA 这样的救命疗法时,我们不能给病人安慰剂。因此,唯一的前进道路是将新药 TTT 直接与旧药 AAA 进行比较。

我们的目标不一定是证明 TTT 比 AAA 更好;也许它只是更安全、更便宜或更易于服用。我们只需要确保它不至于差到不可接受。这就是非劣效性试验的世界。但“不至于差到不可接受”是什么意思呢?我们的故事就从这里开始。要定义这个可接受的界值,我们必须回顾过去。我们翻出那些曾经符合伦理地将药物 AAA 与安慰剂 PPP 进行比较的旧临床试验报告。这些历史试验告诉我们药物 AAA 到底提供了多少益处——它相对于什么都不做的效果。假设历史告诉我们,与安慰剂相比,药物 AAA 在每100人中能预防10次心脏病发作。

现在,伟大的信念飞跃来了。在我们比较 TTT 和 AAA 的新试验中,我们做出了一个关键的、无法检验的假设:​​恒定性假设​​。我们假设药物 AAA 相对于安慰剂的益处在今天与在那些历史试验中是相同的。基于这个假定的“恒定”益处,我们可以宣称,如果我们的新药 TTT 能够保留药物 AAA 历史效力的一大部分——比如至少一半——那么它就是“不至于差到不可接受”的。

但这个假设安全吗?当然不!世界已经变了。今天的患者可能不同,背景医疗护理已经改善,疾病本身也可能已经演变。例如,在传染病领域,随着细菌产生耐药性,一种抗生素的“恒定”效应可能会消失。我们假设的根基是摇摇欲坠的。

因为风险如此之高,监管科学建立了一套复杂的保障体系。我们不使用药物 AAA 的历史平均效应;我们保守地使用其置信区间的下限——它可能具有的最小合理效应。然后我们坚持新药必须保留这一最小效应的相当大一部分。此外,试验设计者必须不懈努力,通过细致地将新试验的条件——患者人群、终点定义、给药方案——与历史试验相匹配,并以极高的严谨性进行试验以确保其质量或“试验区分能力”,从而使该假设变得合理。

恒定性假设失效的危险不仅仅是学术上的。考虑一个疫苗试验。一种历史上的疫苗 VCV_CVC​ 被证明能将感染风险从 12%12\%12% 降低到 3%3\%3%——绝对风险降低了 9%9\%9%。现在,由于群体免疫,未接种疫苗人群的背景感染风险已骤降至仅 4%4\%4%。如果我们天真地假设 VCV_CVC​ 的绝对效应是恒定的,我们可能会将我们的非劣效性界值设定在,比如说,疗效损失 5%5\%5%。这听起来很合理。但仔细看。在这个新的低风险世界里,旧疫苗的效应,如果在相对尺度上是恒定的(例如,75%75\%75% 的效力),只会将风险从 4%4\%4% 降低到 1%1\%1%。总益处现在只有 3%3\%3%。5%5\%5% 的界值比我们试图保留的全部效应还要大!在这个被打破的假设下,一种无效甚至有害的新疫苗可能被宣布为“非劣效的”。这个有力的例子告诉我们,恒定性假设不仅关乎一个效应是否恒定,还关乎它如何恒定——即它在哪个数学尺度(绝对或相对)上保持稳定。

同样的思想,无处不在:揭示隐藏的均一性假设

一旦你心中有了这个模式,你就会开始在各处看到它。科学不断地依赖于均一性或恒定性的假设,常常不假思索。

想一个简单的问题:你一生中患上急性阑尾炎的风险是多少?一个快速估算的方法是用年发病率——一个很小的数字,比如 0.1%0.1\%0.1%——乘以平均寿命。这个计算隐含地假设了你生命中每年的风险都是恒定的。但我们知道这不是真的。阑尾炎的风险在幼儿中很低,在青少年和二十多岁时达到顶峰,在老年时再次下降。“随时间恒定”的假设提供了一个简单的答案,但它掩盖了风险的真实动态特性。

或者考虑一位植物学家测量植物如何“呼吸”。一片叶子上覆盖着数千个称为气孔的微小孔隙,它们通过开合来调节气体交换。标准设备将整片叶子包裹起来,测量二氧化碳和水蒸气的总流量,这隐含地假设了所有气孔的行为都完全相同——一个“空间上恒定”的假设。但是当植物处于胁迫状态时,它可能表现出“气孔斑块性”,即叶子的某些区域气孔开放,而其他区域则关闭。这种空间均一性的违背会导致对光合作用和水分利用效率的估计产生偏差,因为气体流量和光合作用之间的关系是非线性的。对一个非均一的系统进行平均会得到错误的答案。

当我们从太空看地球时,同样的问题也困扰着我们。一颗对地观测卫星测量一片森林反射的光。一个天真的机器学习模型可能会假设森林的“颜色”或光谱特征是森林本身的恒定属性。但事实并非如此。测得的辐射强度极大地取决于几何结构:太阳的角度和卫星的角度。这是由于双向反射分布函数(BRDF)造成的,它描述了反射率如何随角度变化。对于几乎任何真实世界的表面,“视角上恒定”的假设都是错误的。一个用太阳高悬空中时拍摄的图像训练的模型,在处理黎明或黄昏附近拍摄的图像时可能会完全失效。

然而,有时这个假设是我们最强大的盟友。在地球物理学领域,科学家通过监听电离层中电流产生的自然电磁波来探测地壳结构。这些源电流巨大且远在数千公里之外。在局部勘测的尺度上(几公里),入射波基本上是平面波,其性质是“横向恒定”的。在这里,均一性假设不是一次冒险的信念飞跃,而是一个稳健且赋能的原则,构成了大地电磁法的根本基础。

机器中的幽灵:恒定性、因果关系与人工智能

恒定性假设在因果关系和人工智能领域达到了其最抽象和现代的形式。当我们分析数据时,我们常常试图超越纯粹的相关性,去理解因果关系。为此,我们必须采纳一个“忠实性”或“稳定性”的假设。这是一种信念,即如果我们数据中的两个变量在统计上是独立的,那是因为没有因果路径连接它们。我们假设这不是由于一个奇异的巧合,例如,一条路径上的正向因果效应被另一条路径上的负向效应完美地、精确地抵消了。从本质上讲,忠实性是一个假设,即系统中的因果关系是“恒定”的,而不是隐藏在奇迹般的抵消背后。

这种对不变关系的追求是构建稳健可信的人工智能的核心。想象一个用A医院的数据训练的AI模型来预测患者死亡率。我们希望这个模型在B医院同样有效。B医院可能有不同的患者人口统计特征、更新的设备或不同的记录习惯。这些因素造成了“域漂移”——即数据统计分布的变化。一个天真的模型可能会学到A医院特有的虚假相关性(例如,“在X机器上测量的患者预后更差”,而实际上X机器只是用于病情最重的患者)。

现代域泛化的目标是训练一个只学习不变关系的模型——即在所有医院中都“恒定”的潜在生物学机制——同时忽略那些虚假的、特定于环境的相关性。患者的理想表示 ϕ(X)\phi(X)ϕ(X),应该是其与结果的关系 P(Y∣ϕ(X))P(Y \mid \phi(X))P(Y∣ϕ(X)) 是稳定且可以从一家医院迁移到另一家医院的。恒定性假设不再仅仅是统计推断中一个必要的恶;它已成为我们寻求可泛化知识的明确目标。

从批准新药的务实需求到从效应推断原因的哲学挑战,恒定性假设是贯穿科学织物的一条线索。它是一个让我们在复杂世界中建立模型的工具,但它也带来了一项深远的责任:去质疑我们的假设,去理解它们的脆弱性,并去领悟真正的洞见往往并非来自假设事物恒定不变,而是来自确切地理解它们如何以及为何改变。