AI 公平性

玻尔百科

定义

AI 公平性是机器学习与伦理领域中的一个重要概念，旨在识别并减少因算法偏见导致的系统性错误以及对不同群体的公平性差异。该领域通过应用均等化赔率和预测一致性等数学准则，解决由测量、标签或代表性偏差引发的数据问题。实现 AI 公平性需要采取综合方法，包括对子群体进行深入分析、持续监控算法表现，并为高风险决策建立完善的纠偏机制。

核心要点

算法偏见是一种导致不公平结果的系统性错误模式，其衡量标准是它对不同群体的现实世界影响，而非程序员的意图。
存在如均等化赔率和预测均等等不同的公平性标准，但它们之间往往存在数学上的权衡，需要根据具体情境做出伦理选择。
偏见源于有缺陷的数据（测量偏见、标签偏见、表征偏见），并被算法放大，因此有必要进行子群体分析，以避免掩盖对少数群体的伤害。
构建公平的 AI 需要一个超越模型本身的整体性方法，包括持续监控、适用于高风险决策的公平流程，以及健全的补救机制。

引言

随着人工智能日益成为医学和法律等领域关键决策中不可或缺的一部分，确保其公平性已不再是学术探讨，而是一项社会责任。然而，“偏见”在人工智能中的概念常常被误解，导致技术上的统计定义与算法行为在现实世界中的歧视性后果之间产生混淆。本文旨在弥合这一差距，为理解和解决算法不公问题提供一个清晰的框架。它超越了在代码中寻找恶意的范畴，转而专注于衡量和减轻对人类生活的差异性影响。在接下来的章节中，您将首先深入探讨 AI 公平性的核心“原则与机制”，学习识别和量化偏见所需的统计学语言，并探索不同公平性标准之间的伦理权衡。随后，“应用与跨学科联系”一章将把这些理论置于现实世界的例子中，审视从数据到部署的偏见来源，并勾勒出构建真正公正的 AI 所需的社会技术系统。

原则与机制

要探讨人工智能的公平性，我们必须首先踏上一段澄清概念的旅程。“偏见”这个词本身就是一个难以捉摸的词，是无尽困惑的根源。在日常语言中，它暗示着个人偏见或恶意。在统计学中，它指代估计量的一种形式属性，是衡量其长期平均误差的技术指标。但是，当我们谈论算法偏见时，尤其是在像医学这样的高风险领域，我们指的是一些不同且更为深刻的东西。它关乎的不是程序员的意图或算法的内部数学原理，而是其后果。

究竟什么是算法“偏见”？

算法偏见是一种系统性且可重复的错误模式，它会造成不公平的结果，使某些人群受益，同时使另一些人群处于不利地位。它关乎一个系统在现实世界中部署时其决策所产生的差异性影响。想象一个旨在为患者标记出需接受拯救生命治疗的 AI。如果该系统持续地无法标记出来自某个特定人口群体的合格患者，却能成功识别出另一群体中的合格患者，那么它就是有偏见的。无论系统创建者是否出于善意，这一点都成立，并且这与模型的内部参数是否是某个理论量的统计上“无偏”估计量是两个不同的问题。

核心问题是伤害的差异。一个算法不需要有思想就能产生歧视性效果；它只需要在反映一个充满现有不平等的世界的数据上进行训练，并应用一些规则，无论这些规则的表述多么中立，最终都会不公正地分配利益和负担。这是我们调查的起点：不是在代码中寻找“恶人”，而是衡量系统对人们生活的影响。

伤害的剖析：从数字中看偏见

为了衡量影响，我们需要一种语言——一种剖析算法性能并量化其伤害的方法。让我们来看一个具体但假设的场景：一个临床 AI 分析患者数据，以预测 24 小时内发生败血症（一种危及生命的病症）的风险。如果 AI 的风险评分超过某个阈值，它会触发警报，促使立即的医疗关注。

对于任何患者，都有四种可能的结果：

真正例 (TP)： 患者确实正在发展为败血症，AI 正确地发出了警报。这是一次拯救生命的成功。
假阴性 (FN)： 患者确实正在发展为败血症，但 AI 未能发出警报。这是一次灾难性的失败，错失了拯救生命的机会。
假阳性 (FP)： 患者是健康的，但 AI 仍然发出了警报。这会导致不必要的压力、昂贵的干预，并加剧临床医生的“警报疲劳”。
真阴性 (TN)： 患者是健康的，AI 正确地保持沉默。

从这四个基本计数中，我们可以推导出两个关于模型性能的极具洞察力的视角。

第一个是真阳性率 (TPR)，也称为灵敏度。它回答了这样一个问题：在所有真正生病的人中，系统正确识别了多少比例？ $\text{TPR} = \frac{\text{TP}}{\text{TP} + \text{FN}}$ 这是衡量系统赋予利益（即及时检测的利益）能力的一个指标。

第二个是假阳性率 (FPR)。它回答了这样一个问题：在所有完全健康的人中，系统让多少比例的人遭受了错误警报？ $\text{FPR} = \frac{\text{FP}}{\text{FP} + \text{TN}}$ 这是衡量系统施加负担（即不必要干预的负担）倾向的一个指标。

现在，让我们想象一下，我们的败血症 AI 在两个患者群体（A 组和 B 组）上进行评估。收集数据后，我们发现以下情况：

对于 A 组：AI 达到的 TPR 为 $\frac{36}{42} \approx 0.86$ ，FPR 为 $\frac{24}{58} \approx 0.41$ 。
对于 B 组：AI 达到的 TPR 为 $\frac{24}{32} = 0.75$ ，FPR 为 $\frac{56}{68} \approx 0.82$ 。

请仔细看这些数字。它们讲述了一个深刻不公的故事。一个来自 B 组正在发展为败血症的患者被 AI 拯救的可能性低于 A 组患者（ $0.75$ vs $0.86$ ）。同时，一个健康的 B 组患者遭受错误警报的可能性远高于健康的 A 组患者（ $0.82$ vs $0.41$ ）。B 组在两方面都得到了最坏的结果：更少的利益和更多的负担。这就是算法偏见的可视化体现。

公正的词汇：公平的多重面孔

我们刚刚发现的这种差异——即 TPR 和 FPR 在不同群体之间都存在差异——违反了一个强有力的公平性标准，即均等化赔率。该原则将分配正义的一个核心信条操作化：临床上相似的人应该得到相似的对待。它要求在患病者中，所有群体的受益率 (TPR) 均等；在健康者中，所有群体的负担率 (FPR) 均等。

但这并非思考公平的唯一方式。正义的概念是多元的，不同的情况可能需要不同的优先事项。这催生了一整套公平性标准，每一种都捕捉了一种不同的伦理直觉。

机会均等： 这是均等化赔率的一个稍微宽松的版本。它只要求真阳性率在各群体间相等（ $TPR_A = TPR_B$ ）。其核心思想是，每个真正需要帮助的人都应该有平等的机会得到帮助，即使错误警报率不同。在我们的败血症例子中，这个标准也被违反了。
预测均等： 这个标准要求所有群体的阳性预测值 (PPV) 相同。PPV 回答的是：在所有收到警报的人中，有多少比例是真正生病的？ 确保预测均等意味着医生对警报的信心是相同的，无论患者属于哪个群体。对 A 组的警报与对 B 组的警报意味着同样的事情。
人口均等： 该标准规定，无论各群体潜在的疾病患病率如何，其总体的警报率应该相同。这在医学中通常是一个糟糕的选择，因为它可能迫使模型为了匹配高患病率群体的警报率而对低患病率群体中的健康人发出警报。

没有一个单一的“最佳”公平性指标。选择本身就是一种伦理选择，涉及权衡。例如，在一个疾病患病率在不同群体间存在差异的世界里，一个非完美的分类器在数学上不可能同时满足均等化赔率和预测均等。我们被迫选择，对于当前任务而言，哪种平等更重要。这不仅仅是一个技术难题，更是一个价值观问题。

平均值的暴政与交叉群体的风险

算法偏见最隐蔽的藏身方式之一，就是躲在一个单一且令人印象深刻的数字背后：“总体”性能。一个 AI 可以拥有出色的总体准确率或灵敏度，但对一个微小、脆弱的子群体却可能造成灾难性的伤害。

让我们回到数字。想象一个在 10000 名患者身上测试的 AI 系统。绝大多数（9000 人）属于 $G_1$ 组，而一小部分（1000 人）属于一个交叉子群体 $G_2$ （或许由种族和性别的交叉点定义）。 $G_1$ 组的患病人数为 1800 人， $G_2$ 组为 200 人。AI 的表现如下：

在 $G_1$ 组中，它找到了 1800 名患病患者中的 1710 名。灵敏度为 $\frac{1710}{1800} = 0.95$ 。非常出色。
在 $G_2$ 组中，它只找到了 200 名患病患者中的 110 名。灵敏度为 $\frac{110}{200} = 0.55$ 。极其糟糕。

现在，总体灵敏度是多少？找到的总患者数是 $1710 + 110 = 1820$ 。总患病人数是 $1800 + 200 = 2000$ 。总体灵敏度是 $\frac{1820}{2000} = 0.91$ 。

91% 的总体灵敏度听起来非常棒！但这个总计数字是一种因疏漏而产生的谎言。它是一个加权平均数，庞大的多数群体（ $G_1$ ）的出色表现完全淹没和掩盖了在少数群体（ $G_2$ ）上的灾难性失败。这就是平均值的暴政。它表明了为什么子群体分析和交叉公平性不是可有可无的附加项；它们是对任何 AI 系统进行有意义的伦理审计的基本要求。我们必须不仅关注种族或性别等宽泛类别的表现，还要关注它们的交叉点，因为脆弱性往往在这些交叉点上被加剧。

机器中的幽灵：偏见从何而来？

如果偏见（通常）不是被有意编程进去的，那它从何而来？答案是，AI 是一个学习机器，它从我们给它的数据中学习。如果我们的数据是一面反映着有缺陷世界的破裂镜子，AI 就会学习这些缺陷并常常将其放大。偏见是我们自己世界的幽灵，萦绕在机器之中。这种萦绕主要有三个来源。

测量偏见： 我们用来收集数据的工具本身就可能存在偏见。一个有据可查的真实例子是脉搏血氧仪，一种测量血氧水平的设备。研究表明，这些设备更有可能高估肤色较深患者的血氧水平。如果一个 AI 使用这种血氧仪数据作为输入，它将被系统性地误导。对于肤色较深的患者，AI 会看到一个比实际情况更健康的血氧水平，并可能低估其风险，导致致命的假阴性。在 AI 看到数据之前，数据就已经在“说谎”了。
标签偏见（或代理偏见）： 通常，我们无法直接测量我们关心的事物，所以我们使用一个代理指标。想象一下，我们想构建一个 AI 来预测哪些患者患有败血症。但对于训练数据，我们没有一个完美的“败血症”标签。相反，我们使用“是否被收入 ICU”作为代理标签。现在，假设由于保险状况或医生的内隐偏见等结构性因素，某个少数群体的患者即使病情同样严重，被收入 ICU 的可能性也较小。AI 为了追求“准确”，将不会学会预测败血症。它将学会预测 ICU 的入院情况，并连带学习了融入该过程的所有社会偏见。它学习了世界现存的不公。
表征偏见： 这是“平均值的暴政”的源头。如果一个训练数据集由 90% 的多数群体患者和 10% 的少数群体患者组成，算法自然会为多数群体优化其性能。它有更多的数据可以学习，并且在其优化函数中，正确处理更大数据群体的回报也更大。少数群体成为次要考虑，其独特的模式可能被忽略或错误描述，从而导致较差的性能。

从个体到制度：更广阔的公平视野

到目前为止，我们的讨论主要集中在群体公平性上——比较不同人群之间的统计比率。但还有另一个互补的观点：个体公平性。这是一个简单、直观的想法，即相似的个体应该被相似地对待。如果两名患者，无论其人口群体如何，具有几乎相同的临床特征，一个公平的 AI 应该给他们几乎相同的风险评分。虽然这一原则很有说服力，但其巨大挑战在于如何以一种既具有临床相关性又符合伦理的方式来定义“相似”。

最后，我们必须认识到，AI 公平性不仅仅是一个可以用巧妙算法解决的技术问题。它深深植根于法律、伦理和组织结构之中。

数据与同意： 如果我们使用的数据本身就是倾斜的，因为某些群体不太愿意或无法同意其使用，该怎么办？这可能造成一个恶性循环，即代表性不足的群体仍然代表性不足，导致为他们设计的模型更差。
可解释性与性能： 在构建最“准确”的模型（可能是一个复杂、不透明的“黑箱”）与一个可解释模型（医生可以理解和信任其推理过程）之间可能存在紧张关系。AI 安全的一个核心原则是，我们不应该为了性能的微小提升而牺牲可解释性，特别是当一个更简单、更透明的模型可以通过精心设计（例如使用特定群体的决策阈值）来变得公平时。
法律框架：像欧洲的 GDPR 这样的法规引入了一个悖论。数据最小化原则建议我们不应收集像种族这样的敏感数据。但没有这些数据，我们又如何可能审计我们的系统是否存在种族偏见？原则性的解决方案是正式承认公平性审计是处理数据的必要且合法的目的，从而在严格的保障措施下为其使用提供正当性，以确保患者安全和公平 [@problem-id:4440100]。

归根结底，构建公平的 AI 并非是找到一把能解开技术难题的数学钥匙。它是一个持续不断的观察、衡量和纠正的过程。它迫使我们直面我们数据中、我们制度中以及我们自身的偏见。它是一个全新的、强大的镜头，通过它，我们不仅可以构建更好的技术，或许，还能开始构建一个更公正的世界。

应用与跨学科联系

在上一章中，我们探讨了算法公平性的基本原则和机制。我们几乎把它当作数学的一个分支，一套形式化的定义和统计属性。但算法并不生活在抽象的数学世界里，它们生活在我们的世界中。它们被编织进我们的医院、法庭和经济的结构中。正是在这里，在代码与后果的混乱交汇处，AI 公平性的真实故事得以展开。现在，我们的任务是离开理论的无尘室，进入实践领域，看看这些原则在行动中如何体现。一个数据集里简单的统计失衡是如何演变成生死攸关的决定的？当“公平”的概念本身就可能相互矛盾时，我们如何衡量公平？最重要的是，我们如何从仅仅诊断不公平，转向设计真正公正的系统？

算法不公的剖析

要理解一种弊病，医生必须首先了解其根源。对于算法偏见也是如此。它不是一个单一、庞大的疾病，而是一种复杂的病理，可能在从数据收集到部署的整个流程中由多种来源引起。

想象一下，我们正在构建一个 AI 来帮助皮肤科医生发现某种皮肤病。这无疑是一个崇高的目标。但我们的 AI，就像一个孩子，从我们给它看的例子中学习。如果我们用一本患者相册来训练它，而这本相册恰好包含的肤色较浅者的照片远多于肤色较深者，我们就引入了抽样偏见。该模型在一个群体上成为专家，而在另一个群体上则成为新手。这正是在开发用于在不同肤色中分类梅毒疹等疾病的 AI 时所面临的挑战；在一个不具代表性的数据集上训练的系统，对于代表性不足的群体来说，其可靠性将不可避免地降低。同样的原则远远超出了医学范畴。当主要使用欧洲血统个体的基因数据来开发疾病的多基因风险评分时，这些评分在应用于非洲、亚洲或原住民血统的人群时准确性会降低，甚至可能产生误导。这不是遗传学的失败，而是抽样的失败；我们向算法展示了人性中带有偏见的一部分，而它完美地学会了这种偏见。

但问题比我们拍摄谁更深。我们如何拍摄他们也很重要。假设用于肤色较深患者的相机和照明质量较低，使得 rashes 的特征性红色更难看清。由此产生的图像是对现实的扭曲看法。这就是测量偏见。数据本身就以一种系统性的方式针对某个群体被破坏了。当我们使用医疗保险账单代码来标记患者是否患有某种疾病时，也出现了同样阴险的模式。获得医疗服务和诊断资源的机会在社会中并非均等。因此，使用账单代码作为“真相”的代理指标，是在社会不平等的基础上构建模型，从而产生了标签偏见，即疾病在弱势群体中被系统性地诊断不足，从而导致标签不足。

即使拥有完美的数据，我们在算法本身中所做的选择也可能造成不公。想象一个 AI 正在接受训练，以识别来自两家不同医院扫描仪供应商的 CT 扫描中的肿瘤。假设 90% 的训练数据来自供应商 A，只有 10% 来自供应商 B。算法的目标是最小化其总体误差。一种懒惰但有效的策略是成为解读供应商 A 扫描的专家，而基本上放弃供应商 B 的扫描。平均分数可能看起来很棒，但模型为了多数群体而牺牲了少数群体。这是一种由优化过程本身引起的算法偏见，其中未加权的经验风险最小化（ERM）目标鼓励模型忽略在较小子群体上的糟糕表现。

最后，想象我们在实验室里构建了一个看似不错的模型。但真实世界不是实验室。当一个在某种情境下（比如，一个疾病患病率低的富裕学术医院）训练的模型被部署在另一种情境下（比如，一个疾病患病率高得多的服务欠缺社区的移动诊所）时，其性能可能会急剧下降。统计景观已经改变。这就是部署偏见。这个工具被用在了它并非为其设计的环境中，就像用一把钥匙去开另一把锁。这些来源——抽样、测量、算法选择和部署环境——就是机器中的幽灵，是我们世界的不平等被我们的技术继承和放大的途径。

衡量阴影：一个公平性工具箱

如果偏见是疾病，我们就需要诊断工具来检测它。这些工具就是我们讨论过的公平性指标，但它们不像简单的温度计那样给出一个单一、客观的读数。它们更像是不同的透镜，每个都揭示一种不同类型的阴影，一种不同类型的不公。

考虑一个旨在预测自杀风险或原住民社区中糖尿病足溃疡可能性的模型。我们可以问：在所有将真正遭受此结果的人中，我们的模型是否给予每个人被标记以获得帮助的平等机会？这就是机会均等的原则，它要求真阳性率（ $TPR$ ）在所有群体中都相同。一个违反此原则的模型，正在系统性地无法像在另一群体中那样清晰地看到某个群体中的风险，导致了干预不足和忽视所造成的伤害。

或者，我们可以问一个不同的问题：当模型确实发出警报时，这个警报对每个群体来说是否同样值得信赖？这就是预测均等的原则，它要求平等的阳性预测值（ $PPV$ ）。如果对一个群体的警报比对另一个群体的警报更有可能是“错误警报”，这就会导致过度干预的伤害——不必要的压力、污名化和资源浪费。

在这里，我们遇到了 AI 公平性中最深刻、最不便的真理之一。对于一个非完美的分类器来说，要同时满足机会均等和预测均等，在数学上通常是不可能的，特别是当结果的潜在患病率（“基础率”）在不同群体之间存在差异时。在自杀风险的场景中，一个模型可能达到完美的预测均等（ $PPV_A = PPV_B$ ），但对于少数群体的真阳性率却显著较低（ $TPR_A \lt TPR_B$ ）。这里没有“bug”可以修复。这是一个根本性的权衡。它迫使我们提出一个艰难的伦理问题：在这个具体情境中，哪种伤害更严重？是错过需要帮助的人所造成的伤害，还是标记一个不需要帮助的人所造成的伤害？没有普遍的答案。指标的选择就是价值观的选择。

伤害本身也比初看起来更复杂。当一个有偏见的分类模型给一个跨性别患者分配了比临床上相似的顺性别患者更低的紧急评分时，它剥夺了他们一种有形的资源：及时的医疗服务。这是一种分配性伤害。但是，当医院的电子健康记录系统以其僵化、预设的提示反复地错误称呼该患者的性别时，它造成了另一种伤害。这是对他们尊严的伤害，是对他们身份的否定。这是一种代表性伤害。一个真正公平的系统必须同时关注资源的分配和对人性的承认。

构建公正的系统：从检测到补救

看到偏见这种疾病是一回事；治愈它则是另一回事。治愈方法不是一个简单的补丁或某个单一的“公平”算法。治愈方法是超越模型本身去思考，去设计整个公平、负责、公正的社会技术系统。

首先，我们必须认识到，公平不是部署前的一次性检查。它是贯穿设备整个生命周期的持续承诺。对于一个自适应 AI 医疗设备，这意味着要有一个健全的治理计划。它涉及到在部署后主动并系统地收集真实世界的性能数据（上市后监督），并按相关子群体进行分层分析。它要求预先指定什么是不可接受的安全性能下降或不可接受的公平性差距的阈值。并且它意味着要有一个清晰的流程来管理模型更新，知道何时一个变化足够重大以至于需要监管审查。这不仅仅是良好的伦理规范；它也是像欧盟医疗器械法规等法规下的法律要求。

其次，对于最高风险的决策，我们不仅要设计一个公平的模型，还要设计一个公平的流程。考虑一下在疫情期间分配稀缺的 ICU 呼吸机的痛苦困境。AI 或许可以帮助预测谁最有可能受益，但原始的功利主义计算是不够的。一个尊重人格和程序公平的公正流程会包含更多内容。它可能包括一个“伤害调整边界”，认识到从一个病人身上撤走呼吸机给另一个病人会造成其自身独特的伤害。它会要求稳定性，确保决策不是基于嘈杂的、瞬息万变的波动。最重要的是，它将是透明和可问责的，提供正当程序：清晰公开的规则、快速申诉的权利以及独立的监督。这是构建一个既能拯救最多生命又能维护每个个体患者权利的系统的精髓。

最后，我们必须面对这样一个现实：我们的系统有时会失败。当一个 AI 系统，无论设计得多好，伤害了一位患者——例如，通过错误分类一个盲人并延误其治疗——接下来会发生什么？一个公正的系统必须提供一条通向补救的路径。这意味着建立一个健全且易于使用的申诉和投诉机制。这样的机制必须对残障人士无障碍。它必须采取预防措施，在存在严重伤害的可信风险时提供即时的临时救济。它必须保证公正的审查。并且它必须建立在可审计性原则之上，这意味着一旦有申诉，所有相关数据——模型版本、输入、输出、审计日志——都将被保存并可供调查。没有补救机制，“公平”的声明就是一句空洞的承诺。

我们的旅程从一张皮肤图像的像素，走到了整个医疗保健系统的治理。我们已经看到，AI 公平性不是一个寻找巧妙算法解决方案的技术问题。它是一个深刻的人类挑战，要求综合统计学、伦理学、法律和社会正义。它呼吁我们不要将我们的判断力让渡给机器，而是要比以往任何时候都更明智地运用它——清晰地定义我们的价值观，有意识地将它们嵌入我们的系统中，并以谦逊之心建立能够监控其影响、以正直之德修正其路线的制度。