try ai
科普
编辑
分享
反馈
  • 人机交互

人机交互

SciencePedia玻尔百科
核心要点
  • 有效的人机交互需要设计整个社会技术系统,包括硬件、软件、人员和工作流程,而不仅仅是用户界面。
  • 像希克-海曼定律这样的认知原则被用来精确设计界面,以最大限度地减少决策时间和认知负荷,从而提高效率并减少错误。
  • 在人与AI的协作中,目标是实现“校准的信任”——即与AI真实能力相匹配的信心水平——以避免过度依赖和利用不足。
  • 设计人与AI之间的交互涉及调整自主性和否决能力等“旋钮”,以创建一个表现优于任何一方单独表现的团队。
  • 在医学等关键领域部署人机交互系统,需要严谨的评估框架,以确保所有用户的来源可追溯性、安全性和公平可及性。

引言

当我们想到人机交互(HMI)时,我们常常会想象屏幕和按钮的表层设计。然而,这种看法仅仅触及了一个深刻而复杂的学科的皮毛。真正的挑战不在于打磨界面,而在于协调整个社会技术系统——一个由人、流程、软件和组织规则构成的交响乐——使其完美和谐地运作。这些系统中的失败很少是单个用户或单个错误的过错;它们是技术与其运行所在的人类环境之间深层错位的症状。

本文深入探讨了成功人机交互的核心原则,从高层次的系统设计,到单击背后所蕴含的认知科学。它旨在弥合创造一项功能性技术与将其安全有效地融入我们生活之间的关键知识鸿沟。在接下来的章节中,您将全面了解人机交互的科学。“原理与机制”一节将解构社会技术系统的各个层面,介绍指导界面设计的基本认知心理学定律,并探讨在人与AI伙伴关系中信任的关键动态。随后,“应用与跨学科联系”一节将展示这些原则如何在现实世界中应用,从设计拯救生命的临床警报到确保AI的伦理部署,揭示人机交互是连接技术力量与人类福祉的必要桥梁。

原理与机制

当我们思考人与机器之间的关系时,我们的思绪常常会跳到交互中最可见的部分:屏幕。我们想象着按钮、菜单和色彩鲜艳的图形。我们可能会认为“人机交互”设计师的工作仅仅是让这个屏幕看起来整洁、感觉直观。这是一个自然的起点,但这就像通过指挥家的指挥棒来评判一场交响乐。真正的音乐,交互的真正实质,来自于一个更深层、更复杂的相互关联部分的系统。要真正理解人机交互,就需要超越屏幕的玻璃,看到整个乐团在演奏。

屏幕之外:社会技术系统的交响乐

想象一下一家现代医院,一个充满技术的嗡嗡作响的地方。一位医生使用电脑为病人开药。点击几下,确认一下,订单就发送出去了。这看起来很简单。但有一天,发生了一次“近失”事件:一个病人差点被给予一种强效药物的危险高剂量。哪里出错了?是“人为失误”吗?是医生点错了按钮吗?

如果我们仔细观察,故事要复杂得多。软件中的默认剂量已经过时,因为医院的药房清单最近发生了变化。剂量的单位以极小的字体显示,很容易看错。医生在匆忙中,忽略了一个剂量范围警告——一个已经变得如此普遍以至于经常被忽视的警报。药房人手不足,导致核实延迟。在护士交接班时,一条关于病人肾功能的关键信息被遗漏了。最重要的是,医院网络很卡,使得整个过程慢得令人沮丧。

这次单一的近失事件并非由一个人或一个软件单独造成的。它是由整个乐团——我们称之为​​社会技术系统​​——演奏出的一个不和谐音符所导致。这个系统是多个维度复杂相互作用的结果,所有这些维度都必须和谐共存,才能产生安全有效的结果。我们可以把它们看作是乐团的不同声部:

  • ​​硬件和软件:​​ 物理计算机、网络和代码本身——即乐器。
  • ​​人机界面:​​ 屏幕的设计、信息的布局、字体的大小——即呈现给演奏者的乐谱。
  • ​​临床内容:​​ 嵌入系统中的医学知识,如默认剂量和警报规则。这些内容准确且最新吗?
  • ​​人员:​​ 用户——医生、护士、药剂师——他们有独特的技能、知识、偏见和疲劳程度。他们是音乐家。
  • ​​工作流程与沟通:​​ 任务的顺序以及人与人之间的交接。医嘱如何从医生传到药剂师再到护士?他们如何相互交谈?这是表演的编排。
  • ​​内部政策:​​ 医院自己的规则和程序。谁负责更新临床内容?药房的人员配置政策是什么?
  • ​​外部规则:​​ 来自政府或认证机构的法律法规,如电子处方的要求。
  • ​​测量与监控:​​ 反馈循环。我们是否在跟踪警报被忽略的频率?我们是否在利用这些数据来改进系统?

失败不在于任何单一的部分,而在于它们之间的连接——即错位。一个政策失误(没有更新内容)导致了内容失误(错误的默认剂量),这个失误通过一个糟糕的界面,呈现给一个匆忙的人,他在缓慢的硬件上,在一个紧张的工作流程中工作。有效的人机交互是设计和调整这整个交响乐的艺术和科学,而不仅仅是打磨一件乐器。

设计的两种尺度:宏观与微观

如果人机交互是关于设计整个系统,我们从哪里开始呢?事实证明,我们可以从两种不同的尺度来处理这个问题,我们可以称之为​​宏观工效学​​和​​微观工效学​​。

​​宏观工效学​​是自上而下的、“交响乐指挥家”式的方法。它专注于设计整体工作系统——组织、工作流程、文化。想象一个影像中心,那里的技术人员正遭受肩部和背部损伤。一个宏观工效学的解决方案不会从重新设计设备手柄开始。它会问一些更大的问题:为什么技术人员要进行如此多的高重复性动作?答案可能是病人预约集中在一起,造成了疯狂的活动高峰。解决方案?平滑预约时间表。为什么他们不使用现有的机械升降设备?也许是文化不鼓励花额外的时间。解决方案?改变政策,建立一种优先考虑安全的文化。宏观工效学是关于设计工作发生的环境。

另一方面,​​微观工效学​​是自下而上的、“乐器制造者”式的方法。它专注于优化人与机器之间的直接界面。这就是我们重新设计手推车手柄以更好地贴合手部,或调整工作站高度的地方。这也是我们可以应用一些极其精确的认知心理学定律的地方。

其中最优雅的定律之一是​​希克-海曼定律​​。它为一个简单的问题提供了数学答案:拥有更多选择如何影响我们的决策时间?该定律指出,我们的反应时间 RTRTRT 随选择数量 nnn 的对数增加而增加。我们可以这样写:

RT=a+blog⁡2(n+1)RT = a + b \log_{2}(n+1)RT=a+blog2​(n+1)

在这里,aaa 是感知和反应的固定时间,与选择数量无关,bbb 是一个经验确定的常数,代表处理一“比特”信息所需的时间。“+1+1+1”考虑了不选择任何选项的可能性。对数是关键。它告诉我们,从 222 个选择增加到 444 个选择对我们时间的影响比从 121212 个增加到 141414 个要大。选项越多,每个新增选项对我们减慢的速度就越小。

但这种影响是真实存在的。考虑一个计算机化医嘱录入(CPOE)系统,其中一个药物列表从 888 个选择扩展到 242424 个。使用 aaa 和 bbb 的典型值,希克-海曼定律预测医生的响应时间每次下单都会有微小但可测量的增加。在繁忙的医院里,这些零点几秒的时间累积起来,会增加认知负荷和出错的可能性。

微观工效学的解决方案是什么?不要一次性呈现所有 242424 个选项。相反,使用​​分层分类​​。将药物分组,比如说,分成四个逻辑治疗类别。医生首先在四个类别中做一个简单的选择,然后在该类别中的六种药物中做第二个简单的选择。这个设计原则,通常被称为“分块”,之所以有效,是因为它减少了每一步的选择数量(nnn),从而最大限度地减少了希克定律预测的认知负荷。这是一个美丽的例子,说明了人类心智的基本定律如何直接为用户界面的实际设计提供信息。

机器中的幽灵:信任、信念与偏见

到目前为止,我们一直将人类视为一个或多或少可预测的组件,其认知极限可以用定律来建模。但人类要复杂得多。当我们与智能机器,特别是AI互动时,我们不仅仅是处理它的输出。我们与它形成一种关系。而任何关系的基石都是​​信任​​。

在人机交互中,区分三个相关但又截然不同的概念至关重要:

  • ​​信任:​​ 这是一种内在信念或态度。它是操作员对机器在特定情况下正确可靠地完成其工作的能力的主观信心。
  • ​​遵从:​​ 这是一种行为。它是遵循机器直接建议的行为。例如,“AI将此图像标记为高风险,所以我将下令进行活检。”
  • ​​依赖:​​ 这也是一种行为。它是将任务委托给机器并让其自主操作的行为。例如,“我将让AI管理常规的温度调节。”

信任是影响遵从和依赖行为的信念。但这里的关键见解是:信任并非越多越好。目标不是最大化信任,而是实现​​校准的信任​​——一种与机器真实能力精确匹配的信任水平。如果一个AI只有80%的可靠性,你应该信任它大约80%,而不是100%。对有缺陷系统的过度信任会导致​​自动化偏见​​——即使我们自己的判断可能表明并非如此,我们仍倾向于接受机器的输出。我们屈从于“更聪明”的机器,错误就可能随之而来。相反,对一个高度可靠的系统信任不足意味着我们无法获得它的好处。

因此,设计一个智能系统不仅仅是让算法准确。它还关乎设计一个界面,帮助用户建立一个关于机器能力、其优点和缺点的良好校准模型。人类不是信息的被动接收者;他们是积极的、寻求意义的伙伴,拥有使我们成为人类的所有卓越直觉和令人沮ziong的偏见。

设计这场舞蹈:交互与自主的层级

如果人与机器之间的关系是一场精巧的舞蹈,那么人机交互设计师就是编舞。我们有一套可以调节的“旋钮”,用以定义伙伴关系的性质,并优化人-AI组合团队的表现。

考虑一个使用AI帮助发现黑色素瘤的远程皮肤病学服务。AI模型并不完美,人类皮肤科医生也不完美。AI更敏感(更擅长捕捉真正的黑色素瘤),但特异性较低(更多假警报)。人类则相反。他们应该如何合作?我们可以设计不同层次的交互:

  • ​​层级1:仅建议。​​ AI提供其意见,人类做出最终决定。
  • ​​层级2:受限决策。​​ AI提出建议,人类必须提供理由才能否决它,从而增加遵从度。
  • ​​层级3:半自动化。​​ AI自动上报所有高风险病例,但将所有低风险病例发送给人类进行二次审阅。
  • ​​层级4:全自动化。​​ AI独自做出所有决策。

哪种最好?我们可以通过一些推理和简单的数学来回答这个问题。在医学中,漏诊一个黑色素瘤(假阴性)远比一次不必要的活检(假阳性)糟糕得多。我们可以为每种错误分配一个成本,比如说,漏诊的成本为 CFN=100C_{FN}=100CFN​=100,假警报的成本为 CFP=1C_{FP}=1CFP​=1。我们的目标是选择能够最小化总预期伤害的系统设计。

数学计算表明,层级3是明显的赢家。这种“半人马”方法结合了两者的优点。它使用AI作为高灵敏度过滤器——其工作是确保没有任何东西被遗漏。然后,它使用高特异性的人类来剔除AI“低风险”堆中的假警报。由此产生的团队比单独的AI更敏感,比单独的人类更具特异性。这是一个为安全失败而设计的系统,完美地适应了问题的不对称成本。

这个例子揭示了人机交互设计的关键“旋钮”:

  • ​​自主性:​​ 谁拥有最终决定权?AI是顾问、助手还是老板?
  • ​​临床医生否决权:​​ 人类伙伴如何以及何时可以干预或表示不同意?
  • ​​呈现格式:​​ 信息如何显示?它是否传达了不确定性?它是否解释了其推理过程?这又回到了微观工效学和认知负荷的问题。
  • ​​工作流程时机:​​ AI的建议是在真正有用的时候到达,还是在人类已经做出决定之后才出现?

通过仔细调整这些参数,我们可以编排出一场不仅高效,而且有效、安全、稳健的交互。

确保可信性:来源、评估与可及性

一个设计精美的系统如果不可信,那就毫无价值。随着时间的推移,建立和维护这种信任需要最后一组原则,重点关注问责制、严格评估和包容性设计。

首先是​​来源可追溯性与审计追踪​​。当在AI的帮助下做出决定时,尤其是在像医学这样的高风险领域,我们必须能够绝对肯定地回答以下问题:谁在何时,基于什么信息,做了什么?这要求为每一个决策记录一条证据链。这包括​​数据来源​​(哪个具体的数据点,比如哪张X光片,进入了模型?)、​​模型来源​​(当时运行的是哪个确切版本的算法?),以及详细的​​审计追踪​​(模型产生了什么输出?用户在屏幕上看到了什么?他们采取了什么行动?)。这不仅仅是官僚主义的勾选框;它是问责制、安全调查和可复现性的根本基础。没有它,我们就是在盲目飞行。

其次是​​严格的评估​​。AI系统,特别是那些随着时间学习和演变的系统,是一个移动的目标。在实验室验证的模型 ftrainf_{\text{train}}ftrain​,在实际应用中可能会表现不同,即 fdeployf_{\text{deploy}}fdeploy​,因为患者人群不同(​​数据集漂移​​)。此外,模型本身可能会每月更新,从而产生一系列不同的干预措施(f1,f2,f3,…f_1, f_2, f_3, \dotsf1​,f2​,f3​,…)。我们再也不能把干预看作是一种简单、固定的药丸。干预是整个不断演变的社会技术系统。这需要新的临床试验方法,并以​​SPIRIT-AI​​和​​CONSORT-AI​​等框架为指导,这些框架要求预先指定人-AI交互方式,并持续监控模型和人类的表现。

最后,也是最根本的,一个可信的系统必须是一个公正的系统。这就引出了​​可及性​​原则。仅仅设计一个对“普通”用户有效的系统是不够的。我们有一项植根于​​公正​​和​​不歧视​​原则的伦理责任,以确保所有人的平等使用权。这意味着要主动设计以克服可预见的障碍:

  • ​​感知障碍:​​ 对于有视力或听力障碍的用户,需要屏幕阅读器兼容性和字幕等功能。
  • ​​运动障碍:​​ 对于有震颤或灵活性受限的用户,需要大的触摸目标和键盘可导航性等功能。
  • ​​认知障碍:​​ 对于有记忆、读写或执行功能方面挑战的用户,需要简单的语言、简洁的布局和一致的导航。
  • ​​语言障碍:​​ 对于首选语言不是默认语言的用户,需要多语言界面和口译员的接入。

真正的可及性不是为每个人提供相同的界面(平等)。它是为每个人提供通往相同结果的路径(公平)。这是一种主动的承诺,以确保技术的好处不会不成比例地流向年轻、健康和精通技术的人,而将最脆弱的人群抛在后面。

从医院工作流程的宏大布局到由希克定律支配的毫秒级认知处理,人机交互的原则告诉我们,技术从来不仅仅是技术。它是伙伴关系的一半。要设计好这种伙伴关系,我们需要成为工程师、心理学家、艺术家和伦理学家。这是一个致力于确保随着我们的机器变得更强大,它们也成为在构建一个更安全、更有效、更公正的世界这一深刻人类事业中更好伙伴的学科。

应用与跨学科联系

在遍历了人机交互的基本原理之后,我们现在到达了一个激动人心的目的地:现实世界。我们所探讨的概念并非局限于实验室的抽象奇谈;它们是我们现代生活中的无形架构。它们是造成工具令人沮ziong或赋予人力量、警报被忽视或拯救生命之间的区别。正是在这里,人机交互(HCI)的科学真正焕发生机,将自身编织进医学、工程、伦理和我们日常生活的肌理之中。这是一个建立在对人类心智和身体复杂性深刻尊重之上的领域,旨在设计一个我们与技术互动无缝、有效,且最重要的是安全的世界。

交互的基石:为人类心智与身体而设计

让我们从一个像移动应用程序一样普通的东西开始。想象一个预防医学团队正在为高血压患者设计一个简单的提醒应用,以提醒他们每天服药。你如何设计弹出的通知?这似乎很简单,但要做好它,正是一次应用核心HCI原则的完美实践。为了最大限度地减少摸索并确保完成操作,“我已服用”按钮必须大且易于点击。这并非美学问题,而是菲兹定律的直接结果,该基本原则将获取目标的时间与其大小和距离联系起来。智能手机屏幕上一个又小又难按的按钮可能会成为挫败感的来源,导致应用被弃用——并可能带来严重的健康后果。

但是还应该有哪些其他按钮呢?“稍后提醒”?“跳过”?“更改时间”?设计师的诱惑是为用户提供丰富的选项。然而,另一个基本原则,希克-海曼定律,教给我们一个关键的教训:做出决策所需的时间随选择数量的增加而增加。对于像确认服药这样简单、重复的任务,呈现单一、主要的操作要优越得多。通过在关键时刻最小化选择,我们减少了认知负荷,使依从变得毫无摩擦。

在医院的重症监护室(ICU)中,这种在选择与效率之间的权衡成为生死攸关的问题。考虑一个临床决策支持系统,它帮助医生为危重病人选择复杂的医嘱套餐。如果系统更新后,选项数量从(比如说)四个增加到十六个,希克-海曼定律使我们能够以惊人的准确性预测决策时间的成本。即使每个决策增加几百毫秒,在高压环境中乘以无数次操作,也代表了切实的负担和潜在的错误来源。因此,好的设计艺术不仅在于增加功能,还在于知道该减去什么的智慧。

信号的交响:在警报世界中管理注意力

现代生活是通知的洪流。我们的手机、汽车和电脑都在争夺我们的注意力。HCI努力解决一个核心问题:如何让一个信号在噪音中脱颖而出?信号检测理论提供了框架。一次成功的交互是一次“击中”——一个真实、重要的信号被正确识别并采取行动。一次失败则是一次“错失”。

这在临床AI系统中尤为关键。想象一个旨在提醒临床医生注意某种危及生命状况早期迹象的AI。如果系统每小时产生二十个警报,但其阳性预测值(PPV)很低——比如说,每十个警报中只有一个是真正需要采取行动的——这就造成了一种灾难性的局面。临床医生被迫花费大量时间来分类警报,而其中大部分是假的。这不仅效率低下,而且是危险的。持续不断的“噪音”流导致一种被称为​​警报疲劳​​或警觉性衰减的现象。大脑为自我保护,开始将信号视为噪音,从而增加了真正关键的警报被错过的可能性。

因此,一个设计良好的系统必须是审慎的大师。我们前面讨论的药物提醒应用必须尊重用户的生活,利用昼夜节律生物学的知识来避免在半夜发送通知。它必须保守,限制“稍后提醒”和升级提醒的次数,以避免成为一种滋扰。目标是建立信任,确保当系统确实发声时,人类会倾听。

人机二重奏:为协作而非替代而设计

人工智能的兴起为人机交互开辟了一个新前沿:设计人类与机器智能之间的伙伴关系。天真的观点是替代,但更复杂的理解揭示了一个协作的未来。人类和AI都具有独特的优势和劣势。人类专家拥有深厚的背景知识、常识和适应性。AI可以处理海量数据并检测人眼无法察觉的模式。挑战在于设计一个能够利用两者之长的工作流程。

考虑一个微生物学实验室,AI辅助技术人员解读革兰氏染色玻片。AI在染色良好的玻片上可能极其准确,但在染色强度低的玻片上其性能可能会显著下降。而人类技术人员对这种变化则更具鲁棒性。此外,如果人类在做出自己的判断之前就看到了AI的建议,他们很容易受到像​​锚定效应​​这样的强大认知偏见的影响——即初始信息会严重影响后续判断。

一个源自HCI原则的绝妙解决方案是设计一个“人类优先”的工作流程。专家技术人员在对AI输出不知情的情况下做出判断。然后AI分析玻片。如果他们意见一致,结果就被确认。如果他们意见不一,该案例将被上报进行审查。该协议维护了人类专家的独立性,减轻了认知偏见,并包含了一个质量控制步骤,以便在AI已知较弱的情况下将其排除。这是一个为真正的团队而设计,其中每个成员的易错性都由另一方的优势来缓冲。

这种对人类能动性的深思熟虑也延伸到了伦理领域。数字界面的设计并非伦理中立。当一个远程皮肤病学平台使用一份冗长、充满行话、字体很小的文件来征求同意,并且预先勾选了二次数据使用的复选框,还有一个催促用户同意的倒计时器时,它并非在促进知情同意。它是在使用操纵性的“暗黑模式”来颠覆知情同意。自愿性和理解力这两个基本的生物伦理学原则,正被交互设计的本身所破坏。因此,HCI领域直接与生物伦理学和法律相连,提醒我们用户点击“我同意”只有在导致它的过程是公平、透明并尊重其自主性的情况下才有意义。

确保安全与信任:严谨的部署科学

当人机系统部署在像医学这样的高风险环境中时,直觉和良好意图是远远不够的。我们需要一门严谨、跨学科的评估与安全科学。你如何测试一个用于诊断分娩期间胎儿窘迫的新AI?你不能简单地“打开它”然后期望最好的结果。

像DECIDE-AI这样的框架指导研究人员进行早期的、以人为中心的评估。在考虑患者结局之前,必须首先研究人和流程因素。可能会进行一次“静默模式”试验,其中AI在后台进行预测,对临床医生不可见。这使得研究人员能够衡量AI的独立性能,并通过模拟评估其对临床医生认知负荷(使用像NASA-TLX这样的验证工具)、情境意识和整体工作流程的潜在影响。至关重要的是,这个阶段包括一个严格的安全监控计划,使用像CUSUM图这样的统计方法来检测与历史基线相比即使是微小的不良事件增加。

如果一个系统准备好进行全面的随机对照试验,那么通过像CONSORT-AI这样的报告指南,全新的一层HCI原则就会发挥作用。这些指南可能看起来像是官僚程序,但它们对于试验的​​内部有效性​​——即能够自信地将结果归因于干预措施的能力——至关重要。要知道一个AI是否“有效”,我们必须精确定义干预措施是什么。这包括AI模型的版本(以确保其保持稳定)、人机交互的确切性质(警报如何呈现,存在哪些否决策略)、系统如何处理混乱的现实世界数据,以及如何监控其错误。没有这种程度的细节,我们无法将算法的效果与其所嵌入的工作流程的效果区分开来。

这种严谨的方法还要求预先指定培训用户的计划,并衡量他们对协议的遵守情况。仅仅给临床医生一个新工具是不够的;他们必须接受培训,评估其能力,并且必须衡量他们后续的交互。我们必须区分​​保真度​​(AI系统及其工作流程是否按预期交付?)和​​依从性​​(用户是否遵循了协议化的步骤?)。透明地报告这些指标是了解试验结果——无论是阳性还是阴性——是干预价值的真实反映,还是仅仅是实施不善的产物的唯一方法。

最后,实时试验期间的安全监控必须全面。数据安全监察委员会需要一个远超临床结果的仪表板。它必须跟踪临床医生否决的频率,记录每一次技术故障,区分算法错误和用户交互错误,并记录避免了伤害的“近失”事件。这些指标中的每一个都讲述了人机系统在现实世界中如何运作的关键部分,从而能够早期发现意外伤害。

量化风险:从医学到机器

人机交互建模的原则并不仅限于医院。它们是普适的。工程师们应用同样的思维方式来评估自动驾驶汽车、无人机或工业机器人带来的风险,这种思维方式也用于确保临床AI的安全性。在信息物理系统领域,工程师们构建了深受人类可靠性分析启发的定量风险模型。

想象一个自主系统,其中交互危害随时间随机发生,建模为一个泊松过程。每个危害都有一个潜在的严重性。系统的安全性取决于一场与时间的赛跑:危害升级到不可逆转伤害的时间与人类监督者发现问题并执行缓解措施的能力之间的赛跑。升级时间和检测时间都可以被建模为随机变量,通常服从指数分布。通过结合这些概率——危害发生的概率,人类成功干预的概率——工程师可以推导出每次任务预期伤害的闭式数学表达式。这使他们能够量化人类监督的价值,并做出可证明能降低风险的设计决策。

这种思想的美妙融合——从认知心理学到临床医学,再到概率工程学——揭示了人机交互的深刻统一性。这是一个由一个单一而强大的 imperatives 驱动的领域:设计一个未来,在这个未来里,我们技术日益增长的力量与我们对自身日益加深的理解相匹配。这是一门不仅构建工具,而且构建伙伴的科学。