
在追求进步的过程中,我们力求在医药、技术和日常生活中实现绝对安全。然而,现实是零风险只是一种幻觉。在任何复杂系统中,我们能够减少危险,但永远无法完全消除它。在我们尽最大努力采取缓解措施后,那小部分顽固存在的风险,就是所谓的残余风险。理解这个概念并非为了助长恐惧,而是为了用一个清晰、有力的框架取代“安全”这一模糊概念,从而做出明智的决策和负责任的创新。本文旨在解决人们对绝对安全的渴望与管理遗留风险的实际必要性之间的关键认知差距。
为了引导您了解这一重要主题,本文分为两部分。首先,在“原则与机制”部分,我们将解构残余风险的核心,探讨如何定义、量化和评估它。您将学习用于衡量危险的语言,以及决定多大风险是可接受的伦理艺术。接下来,“应用与跨学科联系”一章将揭示残余风险的普遍相关性,展示其在医学、遗传学、人工智能和法律等领域的深远影响。通过探索这些真实世界的例子,您将看到这一个概念如何构成了几乎所有人类活动领域中负责任进步的支柱。
您是否曾停下来想过,某样东西真正“安全”意味着什么?我们一直在使用这个词。我们想要安全的汽车、安全的药物、安全的工作场所。但如果我告诉您,从最严格的意义上说,没有什么是绝对安全的,您会怎么想?
这不是一句愤世嫉俗的话;这是对宇宙本质的深刻观察。当您过马路时,即使是在人行横道上且绿灯亮起,也存在着极小的、非零的事故概率。当您服用一种药物时,即使是经过严格试验批准的药物,也存在微小的、不可预见的副作用可能性。在任何复杂系统中,从人体到航天飞机,我们永远无法消除每一种失败的可能性。
然而,我们可以不懈地努力减少危险。我们设计带有安全气囊和自动刹车系统的汽车。我们设计具有复杂遏制规程的实验室。我们在药物上市前在成千上,上万的人身上进行测试。在所有这些工作之后——在我们识别了危险、建立了防御、检查了我们的工作之后——总会有一些东西被遗留下来。那小部分顽固的、无法再减少的危险,就是我们所说的残余风险。它是在我们尽了最大努力之后仍然存在的风险。
理解残余风险不是向恐惧屈服,恰恰相反。它是用一种清晰、量化且有力的方式来思考世界,以取代模糊、无益的“安全”概念。它让我们能够做出明智的决策,负责任地创新,并真正理解我们每天都在做出的权衡。
要驯服一头野兽,你必须首先了解它的名字和本性。要管理风险,我们需要一种语言来描述它。科学和工程界,特别是在像医学这样的安全关键领域,为此发展了一套精确的词汇,并优雅地编入如 ISO 14971 等标准中。
让我们来分解一下。这个过程始于识别危险(源),它仅仅是伤害的潜在来源。湿滑的地板是一个危险(源)。带电的电线是一个危险(源)。医疗设备中不正确的算法也是一个危险(源)。
危险(源)本身不会造成伤害。当一系列事件导致危险情况,使人暴露于危险(源)之中时,伤害才会发生。只有当有人在湿滑的地板上行走时,它才成为问题。只有当有人触摸带电的电线时,它才变得危险。
关键步骤是量化与每个危险情况相关的风险。在其最优雅和最简单的形式中,风险是两个量的乘积:
在这里, 是伤害实际发生的概率, 是伤害发生后的严重性。这个简单的方程式功能极其强大。它告诉我们,一个后果微不足道但很可能发生的事件(比如被纸割伤)可能比一个后果灾难性但非常罕见的事件(比如核反应堆熔毁)所代表的风险要小。它为我们提供了一个通用尺度,用以衡量和比较各种不同的危险。
一旦我们估算了初始风险,我们就会实施风险控制措施。这些是我们为提高安全性而采取的措施。这些控制措施有一个天然的层级结构。最有效的控制措施是通过设计实现本质安全来完全消除危险(源)。如果你能设计一台没有任何锋利边缘的机器,你就消除了切割的危险(源)。如果这不可能,你可以增加防护措施,比如在锋利的边缘上加装护罩。效果最差但仍有必要的控制措施是提供安全信息——一个写着“小心:边缘锋利”的警示牌。
在我们应用了控制措施之后——在我们重新设计了系统、增加了护罩、并竖起了警示牌之后——我们剩下的就是残余风险。伤害的概率可能降低了,在某些情况下,严重性也可能减轻了,但风险很少为零。新的、较低的概率与严重性的乘积就是我们的残余风险。
所以,风险是被降低了,而不是被消除了。但是,这些遗留的风险从何而来?为什么我们不能把它压缩到零呢?原因既引人入胜又至关重要,揭示了我们知识和技术的局限。
最有力的例证之一来自遗传学领域。想象一对夫妇正在接受筛查,看他们是否是某种常染色体隐性遗传病的携带者。一个“阴性”结果感觉是确定的,像是安全的保证。但事实并非如此。筛查测试,无论多么先进,可能不会检测导致该疾病的每一种可能的基因突变。这是等位基因覆盖率的限制。此外,测试本身的化学过程也并非完美;它可能会漏掉一个它本应检测到的突变。这是分析灵敏度的限制。这些不完美之处,无论多么微小,都为风险的潜入留下了一个小小的窗口。“阴性”结果并不意味着你不是携带者;它意味着你是携带者的概率现在大大降低了。那个较低的概率,乘以疾病的严重性,就是一个源于不完美工具的典型残余风险例子。
残余风险的另一个微妙来源是复杂系统“顾此失彼”的特性。有时,我们控制风险的尝试本身就可能引入新的、未预见的风险。考虑一个旨在帮助糖尿病患者的人工智能胰岛素泵。假设其开发者发现了两个可能导致过量或不足给药的缺陷。他们发布了一个软件更新来修复这两个问题,成功地将这两个事件的概率减半。这无疑是安全上的一大胜利,对吗?但如果这个更新在修复旧问题的同时,引入了一个新的、微妙的错误,可能导致设备暂时失灵呢?这个新错误有其自身的概率和严重性。该设备的总体残余风险不仅仅是旧问题风险的降低部分;它是降低的旧风险加上“修复”所引入的新风险的总和。真正的风险管理要求评估整个系统,而不仅仅是你试图改进的部分。
如果我们必须与残余风险共存,那么多少才算太多?这个问题让我们从计算风险的科学转向了接受风险的艺术。这并非猜测,它本身就是一门学科,建立在背景、比较和伦理的基础之上。
首先,一个组织必须在评估特定风险之前定义其风险接受标准。这是一条铁律,以避免以后改变标准的诱惑。例如,在临床实验室中,一条规则可能是,对于任何高影响的危险(源)(如错误识别患者样本),最终的残余风险评分必须低于某个阈值,比如100。而且至关重要的是,这条规则必须单独适用于每一个高影响的危险(源)。你不能将它们平均化,因为一个不可接受的高风险不能被几个低风险抵消。一根链条的强度取决于其最薄弱的一环。
但是,“100”这个阈值是如何选择的?是随意的吗?这就引出了风险接受中最重要的概念:获益-风险平衡。我们接受风险,不是因为我们喜欢风险,而是因为它们是我们为相应获益付出的代价。如果没有治愈的可能,没有人会接受手术的风险。
考虑一个旨在自主筛查糖尿病视网膜病变的AI系统,这种疾病可导致失明。这个AI并不完美;它会有假阴性(漏诊)和假阳性(不必要的转诊)。我们可以用一个单位,比如每位患者损失的“质量调整生命年”(QALYs),来量化这些错误带来的预期伤害。假设我们计算出该AI的残余风险为每位患者损失 QALYs。这可以接受吗?要回答这个问题,我们必须将其与替代方案进行比较。目前的标准诊疗是什么?假设使用人类专家的标准诊疗,其残余风险为损失 QALYs。我们的AI在这个指标上略逊一筹。然而,它可能也达到了临床指南推荐的最低性能,并且可以提供给数百万目前无法获得任何筛查的人。现在,接受AI风险的决定变成了一场复杂但透明的讨论:其巨大的获益(扩大可及性)是否证明其风险状况是合理的,尽管其风险状况与现有标准相比虽具可比性但并未更优,而现有标准仅适用于更小的人群。
这种规模的概念引出了最后一个深刻的伦理问题。当一个微小的风险乘以一个非常大的数字时会发生什么?想象一个流行的智能手机应用程序,帮助人们对皮肤状况进行分类。每次使用,都有一个微小的概率()出现假阳性,导致一些焦虑和一次不必要的医生就诊。对每个人的伤害是微不足道的。但是当五百万人每年使用该应用四次时会发生什么?这个微小的个人风险会演变成一个巨大的社会负担:两千万次不必要的转诊和巨大的集体焦虑。一个在个体层面可接受的风险,在规模化后可能成为伦理上不可接受的累积残余风险。管理风险的责任随着部署规模的扩大而呈指数级增长。
最大的错误之一是认为残余风险是一个静态的数字,计算一次便可归档。世界是一个实验室,它不断为我们提供新的数据。真正的风险管理是一个活生生的、不断学习经验的过程。
贝叶斯思维方式为此提供了一个优美的框架。想象一下我们的AI胰岛素泵已经上市。在上市前,基于实验室数据,我们对其故障率有一个先验信念——比如说,我们估计每千万个设备-日中会发生一次灾难性故障。这是我们对残余风险的初始估计。现在,设备已投入使用。我们跟踪了它在两百万个设备-日中的表现,不幸的是,确认了三次灾难性故障。
这个新证据是一个安全信号。我们不能忽视它,也不能恐慌。我们用它来更新我们的信念。利用贝叶斯推断的正式规则,我们将先验信念与新数据结合,产生一个后验信念。我们对故障率的新的、更新的估计将高于我们的初始估计。我们可以计算出故障率的一个新的“95%可信区间”,看看它是否已经超过了预定义的行动阈值。也许风险仍在我们的“可接受”范围内,但它无疑已经增加了。这个更新的理解必须被记录下来,并可能触发诸如加强监控或开发新的风险控制措施等行动。残余风险不是一个固定的真理;它是我们当前最佳的估计,并且总会随着新证据的出现而修正。
我们已经探讨了残余风险的技术、统计和伦理维度。但还有最后一块至关重要的拼图:沟通。在所有计算完成后,我们如何向那些实际暴露于风险中的人解释剩余的风险——接受植入物的患者、在实验室工作的研究员、应用程序的用户?
这是许多风险管理项目失败的地方。人们倾向于简化、安抚、宣布某物“安全”。这不仅不诚实,而且无效。人们不是傻瓜;他们是复杂(尽管有时是直觉的)的风险评估者。
考虑一下在一个高防护等级的BSL-3设施中,沟通实验室获得性感染风险的挑战。实际概率极小,可能在每百万工作小时中发生一次的量级。你如何传达这一点?
一个糟糕的方法是使用伪精确性,比如声称风险是“每小时”,然后宣布实验室“安全”。这会疏远并误导听众。数据的确定性不足以支持这种精确度,“安全”这个词是一个绝对化的表述,会侵蚀信任。
一个更好的、基于风险感知科学的方法是诚实和透明。不要使用抽象的概率,而是使用易于理解的频率:“根据我们的数据,这类事件可能以每百万工作小时发生几次的量级出现。”承认不确定性:“我们的估计有一个范围,因为我们仍在学习,并且人为因素总是存在的。”使用“风险阶梯”,将其与更熟悉的风险进行比较,从而将其置于背景中。最重要的是,进行双向对话。首先,了解听众自己对风险的心智模型,然后在解释后,使用像“回授法”这样的技巧来确保信息被真正理解。
归根结底,管理残余风险是一个发现、衡量、判断和沟通的循环。它谦卑地承认我们永远无法达到完美,同时又以不懈和严谨的态度追求将事情做到尽可能好。这正是负责任进步的精髓所在。
在科学中有一个奇妙而深刻的理念,却常常被忽视。它存在于我们最伟大胜利的阴影之下。这个理念就是残余风险。当我们发明一种强效抗生素时,我们庆祝其95%的治愈率。但那5%未治愈的呢?当我们开发出一种准确率高达99%的卓越筛查测试时,另外那1%的情况又会怎样?这不是一个关于失败的故事,而是一个更深刻、更有趣的故事,关乎确定性、安全性和进步的本质。这是一门关于遗留物的科学,是我们辉煌成就中的幽灵。一旦你学会看到它,你就会发现它无处不在,将医学的艺术与计算机代码的逻辑联系起来,将法律的伦理与生物学的前沿联系起来。
让我们从最个人化的场景开始:我们自己身体内部的世界。想象一位医生正在治疗一位患有梅毒的孕妇,这种疾病可能对她未出生的孩子造成毁灭性后果。医生给予青霉素治疗,这是现代医学的真正奇迹。我们可能从严谨的研究中得知,这种治疗在预防胎儿传播方面的有效率为95%。于是,人们很想就此了结,宣布胜利。但残余风险的概念迫使我们提出一个更困难的问题。如果基线传播风险是70%,那么在这次高效治疗之后的风险是多少?它不是零。剩余的风险是原始风险乘以治疗未能阻止的部分——在这种情况下是5%。因此,残余风险是,即,或3.5%的几率。这个小小的数字就是整个世界。它是 reassurance(放心)和持续警惕需求之间的区别,是医生注意义务的数学体现。
这一原则从单个患者延伸到整个社会的健康。思考我们血液供应的安全性,这是公共卫生领域一项伟大的、鲜为人知的胜利。我们开发了极其灵敏的测试,称为核酸检测(NAT),用于筛查捐献血液中的HIV、HCV和HBV等病毒。然而,没有测试是瞬时起效的。存在一个“窗口期”——即献血者被感染后的一小段时间,此时病毒具有传染性,但其遗传物质仍然过于稀疏而无法被检测到。这个不可避免的间隙创造了残余风险。通过了解献血人群中的新感染率(发病率)和这个窗口期的长度,流行病学家可以精确计算出带有传染性的血液单位溜过我们防线的概率。这是一个极小的数字,也许是几百万分之一,但它不是零。理解这一点让我们能够正确看待风险。例如,一项详细分析揭示了一个惊人的事实:在某些血液成分(如血小板)中,危及生命的细菌污染的残余风险可能远高于那些众所周知的病毒所带来的风险。这个教训是深刻的:我们对风险的感知与残余风险的现实可能是两回事。
也许医学中残余风险最微妙的应用来自遗传筛查领域。想象一位女性接受了针对21三体综合征等疾病的无创产前检测(NIPT)。她被告知该测试的灵敏度为99%,并且她的结果是阴性。那么她生下患病孩子的剩余几率是多少?不是1%。答案取决于一个被称为贝叶斯定理的优美逻辑。她的残余风险不仅取决于测试的局限性(它漏掉的1%病例),还取决于她在测试之前最初的、与年龄相关的风险。对于一个初始风险较低的女性来说,阴性结果极具说服力,将残余风险降至一个非常小的数字,也许是1/25000。它不是零,但这是一个显著的降低。
然而,当我们将目光投向隐性遗传病的携带者筛查时,同样的逻辑揭示了深层次的公平问题。一个人携带像囊性纤维化这样的疾病基因的几率因其祖源而异。历史上,筛查测试是基于欧洲人群中最常见的遗传变异而开发的。对于一个混合或非欧洲祖源的人来说,这种“靶向”测试的检出率可能较低,因此,阴性结果会使他们作为携带者的残余风险更高。另一种方法,即泛族裔扩展性携带者筛查,利用现代测序技术一次性检测大量变异,为所有人提供更统一且更高的检出率。对于一对混合祖源的夫妇来说,这种更公平的方法比旧的、基于祖源的方法能更有效地降低他们生下患病孩子的残余风险。突然之间,简单的残余风险计算变成了支持医学领域正义与平等的有力论据,迫使我们正视使用像种族这样的社会类别作为人类遗传复杂织锦的替代指标的局限性。
残余风险的理念是如此根本,以至于它超越了生物学这个模糊、不确定的世界,同样适用于我们能想象到的最复杂的系统。想象一个2型糖尿病患者,通过勤奋努力和现代药物,已经完美控制了“两大”风险因素:低密度脂蛋白胆固醇和血糖。然而,令他们和医生沮丧的是,他们的心血管疾病仍在进展。为什么?这就是残余风险,但以一种新的视角呈现。它不是一个统计概率,而是所有其他仍在悄悄造成伤害的病理生理过程的总和:持续的低度炎症、脂蛋白(a)等颗粒的破坏性影响,以及广泛的内皮功能障碍。最初的问题“解决”了,但身体这个复杂系统另有打算。在这种情况下,管理残余风险意味着将焦点从单一目标转移到整个系统的健康上。
我们在医学的最前沿——异种移植,即利用动物器官进行人体移植的努力中,也看到了同样的情景。科学家们取得了惊人的基因工程壮举,敲除了猪的基因,这些基因产生的碳水化合物抗原会导致人类发生即刻的超急性排斥反应。这就像控制了系统的低密度脂蛋白胆固醇。但剩下的是什么?是排斥的残余风险,由一系列其他更微妙的“非Gal”碳水化合物抗原和蛋白质差异驱动,我们的免疫系统仍然可以识别并随时间推移进行攻击。我们每剥离一层风险,就会揭示出下面更微妙的一层。对抗排斥的战斗变成了与残余风险的对话,一步步与生物复杂性进行协商。
现在,让我们进行一次飞跃。一个分析医学图像的精密医疗AI,一个软件,真的与一个生物系统有那么大区别吗?从风险的角度看,答案是否定的。我们无法构建一个绝对安全的软件,就像我们无法构建一个绝对健康的身体一样。想象一个旨在对肿瘤患者进行分类的软件。恶意行为者可能会试图篡改其模型或向其提供对抗性输入。我们,作为工程师,实施了控制措施:加密代码签名、多因素认证、网络监控。每一种控制措施都像一种药物,降低了攻击成功的可能性。但剩下的是什么?是残余网络安全风险。我们可以通过将每种威胁的残余可能性乘以其潜在伤害的严重性来计算它。我们使用的逻辑与梅毒或血液安全的例子完全相同,但我们的“患者”现在是一段代码,而“病原体”是数字威胁。这种思想上的美妙统一揭示了风险管理的原则是普适的。
这把我们带到了残余风险的最后一个,也许也是最重要的维度:它在我们社会中的角色。一旦我们尽最大努力制造了一个安全的医疗设备——无论是物理仪器还是软件——并计算了仍然存在的风险,我们该怎么办?我们不能希望它们消失。答案在于诚实的沟通。任何医疗产品附带的冗长的警告、限制和禁忌症列表,无非是对残余风险的正式、法律强制的披露。这是创造者与使用者之间的一份契约,声明:“我们已尽力使其安全,但这里是它仍然可能失败的方式、未经测试的情况以及仍然存在的不确定性。”这种披露行为使我们能够负责任地使用强大的技术。
这种将残余风险视为社会契约的观念,在数据保护和隐私法领域达到了其现代顶峰。考虑一家医院想要使用AI工具来帮助急诊室分诊病人。这样一个强大的工具带来了巨大的好处,但也给患者的权利和自由带来了风险:如果算法对某个特定人群存在偏见怎么办?如果发生数据泄露怎么办?像欧洲的GDPR这样的法规要求医院进行数据保护影响评估(DPIA)。这只是全面风险分析的另一个名称。医院必须识别所有潜在的伤害,应用缓解控制措施(如强大的加密和确保有意义的人工监督),然后评估对个人权利的残余风险。如果该残余风险仍被视为“高”,则未经政府监管机构的咨询,他们不得继续进行。在这里,残余风险的概念已成为数字治理的基石,一个社会用以决定一项新技术的益处是否超过其不可避免的剩余风险的正式流程。
从单个患者到全球数字生态系统,模式是相同的。残余风险的概念不是一个悲观的注脚;它是负责任创新的引擎。它是承认我们无法完全控制的谦逊,也是衡量我们无法消除之物的智慧。它是一种安静但至关重要的演算,让我们能够推动科学和技术的边界,不是凭着盲目的信念,而是睁大双眼,充分意识到一切事物那美丽、必要且可管理的不完美性。