可信人工智能

玻尔百科

定义

可信人工智能是计算机科学与伦理领域的一个框架，旨在将不透明的黑箱系统转化为针对不同用户提供分层解释的透明系统。该领域通过工程化的审计追踪确保开发人员与机构承担决策责任，并在算法中嵌入公正原则以抵消数据偏向并防止不公平的结果。实现可信人工智能需要建立深度的人机协作伙伴关系，在尊重患者自主权的同时将人类价值整合到系统之中。

核心要点

可信人工智能要求从不透明的“黑箱”转向透明系统，通过提供针对患者、临床医生和监管者等不同用户的分层解释来实现。
人工智能决策的问责主体完全是人类；责任分布于开发者、机构和临床医生之间，且必须由设计构建的审计追踪提供支持。
在人工智能中实现公平性，重点不在于平均准确率，而在于有意识地将伦理正义原则嵌入算法中，以对抗数据偏见并防止不公平的结果。
有效的人机协作是一种尊重患者自主权并整合人类价值观的深度伙伴关系，超越了简单的“人在环路中”审批模式。

引言

随着人工智能日益融入医疗等关键领域，确保这些系统值得我们信赖的需求变得前所未有的紧迫。单凭高性能是不足够的；我们必须要求人工智能是安全、透明、公平和可问责的。然而，许多强大的人工智能系统以“黑箱”方式运行，这为信任建立了根本障碍，并引发了关于责任和偏见的复杂问题。本文通过提供一个构建可信人工智能的全面框架来应对这一挑战。第一章“原则与机制”确立了可信人工智能的基本支柱，解构了可解释性、问责制、安全性和公平性等概念。随后，“应用与跨学科联系”展示了这些抽象原则如何应用于解决医疗领域中复杂、真实的难题，将人工智能从一个神秘的工具转变为可靠的人类伙伴。

原则与机制

想象一下，有人请你信任一座新桥。你不仅想知道大多数汽车都能成功过桥，你还想看到设计蓝图，了解材料经过了测试，明白承重限制，并确定有明确的检查和维护程序。你想知道如果桥梁倒塌，谁应承担责任。构建一个值得我们信赖的人工智能系统，尤其是在医疗等高风险领域，并无不同。这不仅仅要求在平均表现上令人印象深刻，更要求对安全性、透明度、问责制和公平性有深刻的、根本性的承诺。这并非是给一个神秘的“黑箱”添加一些令人安心的功能，而是一种设计哲学，一门严谨的工程学科，以及一种人与机器之间的新型伙伴关系。

从黑箱到玻璃箱：对可解释性的追求

当今许多最强大的人工智能系统都以“黑箱”方式运行。我们给它们输入数据，它们产生一个答案，但从输入到输出的复杂计算网络如同一个迷宫，即使对其创造者来说也是不透明的。这种不透明性是信任的根本障碍。如果一个人工智能无法解释其推理过程，医生如何能信任它的建议？如果我们不知道人工智能为什么会犯错，我们如何能修复它？对于一个我们无法理解的决定，我们又如何能让任何人承担责任？

通往可信人工智能的旅程始于拆解这些黑箱，或者至少在上面安装窗户。这就是可解释性的范畴，但至关重要的是要理解，“一个解释”并非单一事物。我们需要什么样的解释完全取决于谁在问，以及为什么问。

考虑一个旨在帮助医生选择正确抗生素的人工智能。该系统旨在平衡个体患者的需求与抗生素耐药性的公共卫生危机。患者和医生在共同对话中可能会问：“为什么人工智能推荐抗生素A，而不是我通常服用的抗生素B？”他们需要一个对比性解释，即一个能够阐明具体权衡的解释。例如：“系统选择抗生素A，是因为尽管预测其对您个人的疗效稍差 ( $E(a,x)$ )，但它导致群体层面耐药性 ( $R(a)$ ) 的风险要低得多，这是医院政策优先考虑的权衡。”这种解释阐明了系统中嵌入的价值观，使其可见并可供讨论。

医生可能会有不同的问题，源于临床好奇心和提前规划的愿望：“我的患者病情需要发生什么变化，人工智能才会推荐抗生素B？”这需要一个反事实解释。答案可能是：“如果患者测得的肾功能 $c_{\mathrm{cr}}$ 降至特定阈值以下，系统会将其推荐切换为抗生素B。”这揭示了模型对特定临床数据的敏感性，突出了需要密切关注的参数，并将人工智能从一个黑箱神谕转变为一个互动的思维工具。

最后，负责验证人工智能的监管者和科学家会有一个更深层次的问题：“人工智能的内部逻辑是否与已建立的医学科学相符？”他们需要一个机制性解释，例如，该解释需表明模型的药物疗效计算是基于药代动力学的现实世界原则，并且其耐药性风险模型与已知的进化动力学相符。

这种分层解释方法是真正透明度的核心。它并非要求彻底公开源代码或专有数据，因为这可能损害知识产权和患者隐私。它的核心在于向正确的受众提供恰当深度的洞察，从而实现有意义的理解和安全、有效的使用。

责任链：算法时代的问责制

如果人工智能卷入医疗差错，谁应受责备？是人工智能吗？是听从其建议的医生？是购买它的医院？还是构建它的开发者？这个问责问题不是一个哲学上的清谈游戏；它是任何可信系统的关键支柱。

让我们通过一个困难但现实的场景来探讨这个问题：在一个姑息治疗病房，一个人工智能工具建议为一名患有难治性疼痛的患者实施适度的姑息镇静。主治临床医生审查了这一建议，与患者讨论后，以符合指南的方式执行了该决定。之后，家属要求知道谁应为此负责。

这里最深刻的洞见是，人工智能本身永远无法承担责任。人工智能是一个工具——尽管是一个极其复杂的工具，但终究只是一个工具。它没有道德主体性，没有意图，也没有能力“承担责任”。因此，问责完全属于人类范畴，分布于系统中的各个参与者之间。为了理清这一点，我们必须精确用语：

可应答性 (Answerability) 是提供理由和解释的义务。人工智能的开发者对其工具的技术设计和安全保证负有应答责任。临床医生对患者及其家属负有应答责任，需解释其临床判断和最终决定背后的理由。
问责 (Accountability) 是一个更广泛的、基于角色的义务，要求治理系统并对结果负责。临床医生对临床决策保留主要问责责任，因为他们是必须行使独立判断的执业专业人员。机构（医院）对人工智能系统的负责任采购、部署和监控负有问责责任。
法律责任 (Liability) 是一个法律概念，指如果违反注意义务并造成损害，将面临制裁的风险。法律责任只会附属于人类参与者之一——临床医生、机构或开发者——前提是能够证明存在疏忽或缺陷。仅仅有人工智能的推荐并不自动产生或转移法律责任。

这个框架表明，人工智能并没有消除责任，而是折射了责任。为了管理这一点，我们必须构建使这条责任链清晰可追溯的系统。一个真正可问责的系统包括一个强大的审计追踪，它不仅记录人工智能的最终建议，还记录其使用的关键输入特征、其置信度、临床医生是否推翻了建议，以及至关重要的，临床医生自己对其最终决定的理由。问责不是一个抽象的理想；它是一个必须从一开始就设计到系统中的工程特性。

为安全而设计：从预防错误到构建韧性

俗话说，“人非圣贤，孰能无过”。但在工程学中，尤其是在人工智能领域，我们必须补充一句：“算法亦会出错”。算法和人一样，不可避免地会遇到它们未经训练处理的情况或犯下错误。一个可信的系统不是一个永不失败的系统，而是一个其失败能被理解、被限制并被安全管理的系统。最稳健的安全方法不是简单地期望最好的结果，而是主动地为韧性而工程设计。

这门学科在航空和土木工程等领域早已实践，它提供了一个强大的控制层级，我们可以直接应用于人工智能。让我们考虑一个实际例子：一个用于家庭的AI驱动的血压袖带和智能手机应用。一个关键风险是用户可能错误地佩戴袖带（例如，在手臂上过低的位置），导致读数错误地偏低，从而使人工智能错过了高血压危象，可能导致中风等伤害。我们如何控制这种风险？

本质安全设计： 这是最强大的安全形式。不要只是警告用户问题所在，而是通过设计将问题消除。我们可以重新设计袖带，加入触觉提示，使其能够直观地正确佩戴。更好的是，配套应用可以利用手机摄像头分析用户的手臂位置，并在袖带正确放置前拒绝进行测量。这可以从根本上防止错误发生。
防护措施： 如果无法消除危害，就建立一个防护盾。应用的软件可以分析血压信号本身的质量。如果信号嘈杂或具有袖带错位的特征，软件联锁可以阻止人工智能发出令人安心的“一切正常”消息，而是提示用户重新测量。即使初始错误发生，这个防护层也能控制住损害。
安全信息： 这是最后一道防线。它包括清晰的说明、屏幕上的警告和弹出提醒，告诉用户将袖带保持在心脏水平。虽然这是必要的，但这是最弱的方法，因为它依赖于用户总是看到、记住并遵守指示。

这种系统化、分层级的方法是工程安全的精髓。它使我们从被动地“打地鼠”式修复错误，转向主动的风险管理文化，正如ISO 14971和IEC 62304等正式标准所规定的那样。信任并非建立在对人工智能完美的信念之上，而是建立在一个严谨而系统的安全流程的证据之上。

公平性议题：超越平均准确率

在创建可信人工智能的过程中，最微妙和深刻的挑战或许在于公平性这一概念。一个人工智能对于总人口的平均准确率可能很高，但却可能系统性地、危险地对特定的、通常是弱势的子群体产生偏见。一个对某一人口群体表现出色但在另一群体上失败的诊断工具，不仅仅是一个技术缺陷；它是一个制造不平等的引擎。

迈向公平人工智能的第一步是认识到“公平性”并非单一、简单的数学属性。它是一个充满争议的伦理概念，不同的正义哲学导致我们人工智能系统的设计也不同。想象一个旨在帮助在大规模伤亡事件中对患者进行分诊的人工智能，此时一种维持生命的资源稀缺。它应该如何排定优先级？

一个平等主义框架，寻求减少不公正的不平等，可能会要求当临床因素相同时，人工智能必须确保获取资源的机会不受患者结构性劣势的影响。它甚至可能使用抽签来决定临床相似患者的先后，确保每个人都有平等的机会。
一个优先主义框架会给予最差境遇者所获得的益处额外的权重。一个以此原则设计的人工智能可能会给来自有显著社会剥夺背景的患者的优先级分数一个“提升”，其原则是，给予他们的益处在伦理上更有价值。
一个充足主义框架旨在确保尽可能多的人达到一个“足够好”的结果。使用这种逻辑的人工智能可能会优先考虑那些低于生存关键阈值但该资源有很高机会将他们提升到阈值之上的患者。

这里没有唯一的“正确”答案。选择将哪种正义原则嵌入人工智能是一个社会和伦理的决定，而非纯粹的技术决定。但一旦选定了原则，我们就可以将其编码到算法本身。考虑一个联邦学习系统，其中一个人工智能在一个诊所网络中进行训练，其中一些诊所规模大、资源充足，而另一些则是服务少数族裔的小型诊所。一个简单的平均会让大诊所主导最终的模型。但我们可以设计一个“公平性正则化的聚合器”。通过给予那些训练信号更稳定、更可靠的诊所（在此情景下是服务少数族裔的诊所）的更新更大的权重，我们可以在数学上放大它们的声音。这确保了最终模型对它们所服务的群体表现公平。这就是设计伦理，将抽象的正义原则转化为具体的代码行。

系统中的人：从环路到伙伴关系

最后，通往可信人工智能的道路将我们带回起点：它旨在服务的人类。尽管人工智能系统功能强大，但它们从根本上是有限的。在电子健康记录上训练的模型可能能够以很高的准确性预测临床结果，但它们对构成人类生活的丰富关系背景仍然视而不见。患者的价值观、他们的家庭支持系统、他们的恐惧和希望、他们对自己病情的理解——这些因素在数据中往往是不可见的，但对于良好的护理却至关重要。

这种根本性的盲点揭示了简单的“人在环路中”模型的不足，在该模型中，临床医生仅仅是签署人工智能的建议。我们需要更深层次的整合，一种真正的伙伴关系。这就是参与式治理背后的理念。那些受人工智能决策影响最大的人——患者、家属和社区成员——必须作为合作伙伴被纳入人工智能的整个生命周期。他们是唯一能提供缺失背景的人。他们是唯一能告诉我们，当人工智能经过优化的、数据驱动的目标开始偏离真正的人类价值观时。通过创建提升患者叙事并提供易于理解的解释的机制，我们可以对抗认知不公——即一个系统的逻辑可能会忽略或贬低一个人关于自己经历的证词的风险。

因此，构建可信人工智能并非是追求构建一个完美的、自主的智能体。这是一个将技术编织到人类关系和社会价值观结构中的过程。它要求我们的系统不仅是可解释、可问责和安全的，而且是公正的，并深深尊重它们所服务的人。通往可信人工智能的旅程，归根结底，就是让我们的技术变得更全面、更美好地人性化的旅程。

应用与跨学科联系

在我们之前的讨论中，我们探讨了可信人工智能的基础原则——安全性、问责制、公平性和透明度这些抽象的支柱。这些原则就像物理定律，为描述一个系统应如何行为提供了一套普适语法。但正如物理学真正的激动人心之处在于看到这些定律如何在星系的旋转或量子粒子的奇异舞蹈中显现，可信人工智能的真正意义也只有当我们在它应对现实世界中那些复杂、高风险且极具人性的问题时才能揭示。

现在，我们将踏上那段旅程。我们将从抽象走向具体，探索这些原则如何在复杂的医疗生态系统中得到应用。在这里，人工智能不仅仅是一串代码，而是临床医生手中的一种新仪器——一种有潜力看到前所未见之物，但也要求使用者具备新的智慧和责任水平的仪器。

诊断助手：增强之眼，人类之判断

人工智能在医学中最直接的承诺之一是成为一个不知疲倦的诊断助手，一个能够扫描数千张图像或数据点，标记出可能逃过人眼的微妙模式的伙伴。想象一个人工智能，旨在帮助眼部肿瘤学家对眼底的色素性病变进行分诊，寻找罕见但致命的葡萄膜黑色素瘤。人们可能梦想一个永不犯错的完美人工智能。但现实更为微妙，也远为有趣。

即使是一个非常精确的人工智能——一个能正确识别绝大多数癌性和良性病变的人工智能——也难免会犯错。由于该疾病罕见，一个简单的统计学事实便显现出来：人工智能发出的大多数警报最终都会是假阳性。如果临床医生不加质疑地对每一个人工智能警报采取行动，他们将让许多健康的患者承受不必要的焦虑和侵入性的后续检查。反之，过度依赖人工智能的“一切正常”信号，可能导致在少数模型遗漏的案例（假阴性）中，灾难性地未能诊断出真正的癌症。

在这里，我们看到了可信人工智能在实践中的第一个优美原则：解决方案不是一个完美的算法，而是一个完美的伙伴关系。人工智能不是神谕；它是一个强大但会犯错的初级伙伴。它的角色是进行初步的、详尽的筛选。人类专家的角色——永远无法被自动化取代——是提供最终的判断，用他们全部的经验和背景理解来审查人工智能的所有发现，无论是阳性还是阴性。人工智能标记可能性；人类确定现实。真正的安全源于这个无缝的、人在环路中的系统，其中机器的优势与心智的长处被编织在一起。

这种人机团队的概念不仅仅是一个哲学理想；它必须被精心设计到临床工作流程中。考虑一个针对心力衰竭的远程患者监护项目，其中人工智能筛选来自可穿戴设备的数据，一个护士团队对警报进行分诊，而一名医生负最终责任。谁做什么？谁负责对警报采取行动？如果遗漏了什么，谁应被问责？答案不能靠运气。它需要一个深思熟虑的编排，一个精确的角色映射，例如一个责任-问责-咨询-知情（RACI）矩阵。这种社会技术设计确保每个任务都有一个明确的负责人，并且人工智能的角色是支持，而非取代，那些承担最终注意义务的执业专业人员。信任不仅仅是编码到人工智能中；它被设计到团队的结构本身。

公平性的挑战：看透数据之影

人工智能从我们给它的数据中学习世界。但数据并非现实本身；它只是现实投下的影子，和任何影子一样，它可能被扭曲。一个天真地信任这些影子的人工智能将对世界形成扭曲的看法，其方式往往会固化甚至放大现有的人类偏见。这就是公平性的挑战。

想象一个人工智能系统，旨在为患者分配稀缺的护理管理资源。该模型基于历史医疗保健使用数据进行训练，这似乎是一个合乎逻辑的需求代表。它很快发现一个模式：经历住房和食品无保障的患者历史上的医疗成本很低。一个天真的人工智能，为了优化成本预测，会得出结论，认为这个群体健康且风险低，从而拒绝向他们提供他们迫切需要的资源。数据的影子是一个谎言。现实是，这些人有很高的需求，但面临巨大的获取障碍，这就是为什么他们的使用率很低。

一个可信的人工智能必须足够聪明，能够识别其数据何时具有误导性。这里的优雅解决方案不是丢弃数据，而是从根本上重构问题。我们不再要求人工智能预测“成本”，而是要求它预测“未满足的需求”或“可避免的伤害”。这需要一种更深层次的思维模式，一种整合世界知识——在这种情况下是健康的社会决定因素——来纠正数据内在偏见的模式。

同样，如果不加制约，人工智能驱动的个性化逻辑在其他领域也可能导致严重的不公平结果。例如，用于健康保险的人工智能可能成为一个完美的歧视引擎。它可能学会以如此精确的方式计算个人的健康风险，以至于给那些最病弱的人分配高得令人难以承受的保费，从而完全瓦解了作为保险概念基石的风险共担原则。在这种背景下，可信度要求我们将社会价值观直接强加于算法。我们可以内置明确的公平性约束，例如设置上限和下限，限制个人保费偏离社区平均水平的程度。这是一个有意识的决定，将团结的伦理原则置于纯粹、无约束的优化之上。这是一个强有力的例子，说明我们如何利用人工智能的架构来强制执行公平性，并建立一个更公正的世界。

维护自主权：算法中的患者之声

医学中或许最神圣的原则是尊重患者的自主权——他们决定自己道路的权利。一个可信的人工智能必须被设计为一种赋权的工具，而非控制的工具，它应能放大患者的声音并尊重他们的价值观。

思考一下姑息治疗这个困难且情感丰富的领域。一位88岁的晚期痴呆症患者，患有多种疾病，发展为危及生命的败血症。一个基于数百万病例训练并体现了“拯救败血症运动”最新证据的人工智能，推荐了一套积极的治疗方案：使用升压药、转入ICU等等。从纯粹的统计学角度看，这是最大化生存率的“正确”行动。但是这位患者，当他尚有决定能力时，已经通过“不进行心肺复苏”（DNR）指令和其他明确的治疗限制表明了他的意愿。他明确的目标是舒适，而不是不惜任何代价地生存。

这里蕴含着一个深刻的教训。一个可信的人工智能不是那个知道最多的，而是那个知道自己位置的。它的设计必须在人类价值观设定的硬性约束内运行。人工智能的推荐算法必须服从于患者记录在案的意愿，过滤掉任何会违反其指令的行动。这里的美妙之处在于系统的谦逊——它能够认识到数学上的最优路径并不总是人性上的正确路径。

这一原则远远超出了临终关怀的范畴。在为残障人士设计人工智能时，我们可以借鉴“能力方法”的强大思想，该方法主张一个公正社会的目标是扩展人们真正能够成为和做到的事情。在这种观点下，一个可信的人工智能不仅仅是满足一份可访问性功能清单的工具。它是一个真正增强个人能动性和社会参与度的工具——增强他们以自己的方式沟通、导航环境、做出知情决定和控制自己隐私的能力。它成为他们蓬勃发展的伙伴。

对这种自主权承诺的最终考验出现在处理最弱势群体时。想象一个人工智能，它筛选青少年的公开社交媒体帖子，以预测即将来临的自残风险。其拯救生命的潜力是巨大的。然而，冷酷地审视统计数据会揭示一个 sobering 的真相：由于真正的危机很少见，绝大多数警报都将是假警报。由算法触发的自动干预可能会对大量年轻人造成巨大的伤害、创伤和污名。在这种脆弱的背景下，信任不能单独寄托于算法。它必须由一个多层次的、以人为中心的保障措施编织而成：一个需要父母许可和青少年本人同意的明确选择加入流程；使用先进的隐私保护技术；以及最关键的，在进行任何接触之前，必须有一名人类临床医生作为富有同情心、深思熟虑的守门人，这是不可协商的要求。

搭建支架：新前沿，新规则

可信人工智能不是单个算法的属性；它是其运行所在的整个社会技术系统的一个涌现属性。在我们开发这些强大的新工具的同时，我们必须同步构建能够支持它们的制度和法律支架。

我们正处于革命性应用的边缘，例如计算机模拟临床试验，其中新药可以在招募任何人类受试者之前，在大量的“数字孪生”队列上进行测试。为了使这成为一种可信的证据形式，我们必须为这些虚拟试验注入其现实世界对应物的所有科学严谨性：一个预先设定的方案、具有临床意义的终点，以及通过为每个数字孪生模拟反事实结果来创建的恰当对照组。

建立信任还意味着我们的职业准则和机构必须与时俱进 [@problem-id:4843273]。几个世纪以来指导医学的永恒伦理原则仍然是我们的北极星，但我们需要新的地图来导航人工智能和大数据的新领域。这意味着要为模型治理、确保数据溯源、为人工智能的输出提供有意义的解释以及合乎道德地共享数据制定稳健的标准。

最后，我们到达了科幻小说与临床现实交汇的前沿。当一个数字孪生，一个关于我的计算模型，在我无法再为自己发声时，它能代表我说话吗？。这个问题挑战了我们关于自我、意愿甚至生命本身的法律定义的边界。明智的前进道路不是授予这些人工智能构造物法律人格，而是 painstaking 地构建一个适合21世纪的新法律工具：“数字预立医嘱”。这将是一个框架，一个人在具有完全行为能力和法律形式的情况下，可以指定其自己经过验证和审计的数字模型作为表达其意愿的方式。这样一个与医疗设备同等严肃监管的系统，代表了可信设计的顶峰——一个旨在即使面对我们最先进的技术也能尊重人类自主权的密码学、法律、伦理和计算机科学的融合。

通往可信人工智能的旅程不仅仅是技术之旅。它是一次内省之旅，是定义我们的价值观并将其嵌入我们机器逻辑的旅程。这是一种认识，即最终目标不是构建一个更智能的AI，而是在我们用它构建世界的过程中变得更明智。