机器学习中的公平性

玻尔百科

定义

机器学习中的公平性是研究如何确保算法决策在不同个体和群体之间保持公正的领域。该领域通过群体公平性和个体公平性等视角定义公平，并在数据预处理、模型训练中处理或输出后处理阶段减少算法偏差。在模型中强制执行公平性通常涉及与预测准确性之间的权衡，并可以通过因果推理和帕累托前沿进行深入分析。

核心要点

机器学习中的公平性并非单一概念，而是可以通过不同视角来定义，例如群体公平性（各群体间的统计均等）和个体公平性（相似个体获得相似对待）。
算法偏见可以在三个不同阶段得到缓解：对数据进行预处理、在模型训练过程中进行处理，或对模型输出进行后处理。
在模型中强制执行公平性几乎总是需要在其整体预测准确性上做出权衡，这种关系可以使用帕累托前沿进行映射和分析。
更深层次的公平性问题需要从统计均等转向因果推理，这有助于分析从敏感属性到结果的哪些因果路径在伦理上是可接受的。

引言

随着机器学习模型成为影响人类生活决策（从贷款批准到医疗诊断）不可或缺的一部分，其公平性问题已从学术上的好奇心转变为紧迫的社会关切。仅仅给算法贴上“有偏见”的标签是不够的；为了建立更公正、更平等的系统，我们需要超越直觉，转向严谨的技术框架。本文旨在解决操作化公平性所面临的挑战，弥合我们伦理期望与模型开发数学现实之间的差距。

在接下来的章节中，您将开启一段关于算法公平性的全面旅程。首先，在“原则与机制”中，我们将把公平性的概念解构成精确的数学定义，如群体公平性和个体公平性，并探讨用于减轻偏见的干预工具包——预处理、处理中和后处理。我们还将直面公平性与准确性之间的根本性权衡。随后，“应用与跨学科联系”将把这些理论置于金融、医疗和社交媒体等领域的真实场景中，揭示这些技术选择的深远影响，并将该领域与伦理学、法学乃至政治学中更广泛的讨论联系起来。这次探索将使您掌握必要的语言和概念，以便批判性地参与现代技术中最重要的挑战之一。

原则与机制

谈论算法“有偏见”或“不公平”很容易，但这些词到底意味着什么？如果我们想构建更公平的系统，就不能依赖模糊的感觉。像科学中的任何概念一样，我们需要能够定义它、度量它，然后，有望控制它。这正是旅程变得有趣的地方，因为事实证明，“公平性”并非一个单一、简单的概念。它是由数学和哲学概念织成的丰富织锦，每一个都捕捉了“公正”含义的不同侧面。

我们所说的“公平”是什么意思？群体与个体视角

让我们从一个具体场景开始。想象一家银行试图决定谁能获得贷款。几十年来，这项工作由人类信贷员完成。如今，它可能由机器学习模型来完成。无论是人还是机器，本质上都是算法：它们接收申请人的信息并输出一个决策。那么，我们如何检查它们是否“公平”呢？

一种方法是看它们犯的错误。在贷款决策中，有两种重要的出错方式。你可能拒绝了一个本可以偿还贷款的人——如果我们把“阳性”案例定义为违约，这便是一个假阳性。这伤害了一个有资格的申请人。或者，你可能批准了一个最终违约的人的贷款——一个假阴性。这损害了银行的利益。

假设我们观察对两个不同人口群体——群体 $X$ 和群体 $Y$ ——做出的决策。我们可能会发现，人类信贷员对群体 $X$ 的假阳性率为 $15\%$ ，但对群体 $Y$ 的假阳性率为 $35\%$ 。这意味着来自群体 $Y$ 的合格申请人被拒绝的比率是来自群体 $X$ 的两倍以上。同时，人类信贷员对群体 $X$ 的假阴性率可能为 $30\%$ ，但对群体 $Y$ 仅为 $20\%$ 。错误并非平等分布。我们可以将这些差异捆绑成一个“偏见指数”，以获得一个量化算法对待两个群体方式差异的单一数值。当我们对一个机器学习模型进行相同的计算时，我们可能会发现它有自己的一套不同的差异。这揭示了一个关键的首要原则：群体公平性关乎统计均等。它要求，一个模型的平均结果或错误率在不同人口群体之间应该是可比的。

但这并非思考公平性的唯一方式。考虑另一个场景。你申请贷款被拒。出于好奇，你再次填写申请，只改变了一个微不足道的、“非决定性的”细节——也许是你填写的爱好或中间名首字母。令你震惊的是，第二次申请竟然被批准了。这感觉公平吗？

当然不。这指向一个完全不同但同样有力的概念：个体公平性。这里的原则简单而直观：相似的个体应被相似地对待。如果对一个人数据的微小、不相关的改动不会颠覆决策结果，那么一个算法在这个意义上是公平的。这不关乎比较大群体之间的平均值；它关乎对单个个体决策的稳定性和合理性。

这两种视角——群体公平性和个体公平性——是我们讨论的基石。它们并不相同，有时甚至可能相互冲突。一个模型可能在各群体间拥有完美平衡的错误率（满足群体公平性），但对于这些群体内的个体来说，其决策可能极不稳定。在特定情境下，理解我们关心哪种公平性概念，是第一步，或许也是最重要的一步。

公平性工具包：在训练前、训练中和训练后进行干预

一旦我们有了想要实现的公平性的数学定义，我们如何实际构建一个满足该定义的模型呢？可以把构建机器学习模型想象成一个三阶段的流水线：首先你准备原材料（数据），然后你构建机器（训练模型），最后你可能会检查和调整输出。我们可以在这三个阶段中的任何一个进行干预。

1. 训练前（预处理）：一切始于数据

通常，偏见并非产生于算法，而是继承自数据。在准备数据时做出的看似中立的技术决策，可能会产生深远的公平性后果。想象一下，我们正在处理的数据包含申请人的家庭住址，这是一个有数千种可能性的分类特征。一种常用技术是特征哈希，它使用哈希函数将这数千个类别压缩到一个更小的、固定数量的槽位中，比如1024个。

现在，如果一个人口群体在历史上居住的地点种类比另一个群体更广泛怎么办？这个群体将拥有更多不同的位置类别，当我们对它们进行哈希处理时，它们将遭受更多的冲突——即两个不同的位置被映射到同一个槽位，使它们对模型来说无法区分。这种信息损失并非均匀分布；它对某个群体的影响比另一个更糟，从而在算法开始工作之前就造成了表示偏差。类似地，如果一个群体的数据缺失更频繁，我们处理缺失值的方式——例如，通过将所有缺失值插补为一个特殊的“缺失”类别——可能会无意中创建一个新特征，该特征本身充当了敏感群体的代理。

一种更主动的方法是数据增强。如果一个模型在人脸识别中对肤色敏感，我们可以用数百万张我们刻意且随机改变了亮度和色彩平衡的图像来训练它。这教会模型肤色对于该任务而言不是一个可靠的特征，迫使它学习更深层、更有意义的模式，并减少其对这些表面变化的敏感性。

2. 训练中（处理中）：改变游戏规则

模型训练的核心是优化。算法在玩一个游戏：其目标是找到一组参数，以最小化一个损失函数，这只是衡量其在训练数据上总错误的数学方式。使训练过程“具备公平性意识”的最简单方法是改变这个游戏的规则。

我们可以添加一个硬约束。我们告诉算法：“你的主要目标仍然是最小化错误。但是，你被禁止产生一个群体A和群体B批准率差异超过（比如说） $\varepsilon = 0.01$ 的解决方案。”这种方法被称为约束优化，直接强制执行像人口统计均等这样的公平性度量，该度量要求各群体间的批准率相等。

或者，我们可以使用软惩罚。我们不设严格的规则，而是修改损失函数本身。我们告诉模型：“最小化你的错误，但我正在添加一个惩罚项。你每在群体之间制造一点差异，你的损失分数就会变得更糟。”例如，我们可以添加一个与各群体平均批准概率比值的平方对数成正比的惩罚。差异越大，惩罚就越大，从而给模型一个强烈的激励，去寻找一个既准确又公平的解决方案[@problem-id:2407496]。

第三种非常直观的技术是重加权。如果模型持续在某个群体上犯更多错误，我们可以简单地让那些错误变得更“昂贵”。在训练期间，我们可以动态增加当前经历更高错误率的群体中个体的权重。这迫使优化器更加关注在该群体上做对，就像一个学生专注于他们觉得最难的科目一样。

3. 训练后（后处理）：最后的修正

有时我们得到的是一个已经训练好的“黑箱”模型，我们无法改变其内部工作机制。但并非无计可施。我们仍然可以在事后调整其决策。

假设一个模型输出一个从0到1的分数，规则是批准任何分数高于 $0.7$ 的人。这个单一的阈值可能会导致不同群体的批准率不同。一个简单的后处理步骤是应用不同的阈值：也许我们批准分数高于 $0.7$ 的群体A，但批准分数高于 $0.65$ 的群体B。通过仔细选择这些阈值，我们可以强制实现期望的统计均等。我们甚至可以引入有针对性的随机性——例如，对于“临界”分数范围内的部分人群，我们可能以一定的概率批准他们——以完美匹配群体的批准率。

不可避免的权衡：绘制公平的代价图

物理学中没有免费的午餐，公平性领域也是如此。强制执行公平性几乎总是以牺牲其他东西为代价，通常是模型的整体准确性。这不是失败；这是这些系统的基本属性。

我们可以在图表上将这种关系可视化。在一个轴上，我们绘制模型准确性（越高越好）。在另一个轴上，我们绘制公平性差距（越低越好）。我们能构建的每个可能的模型都是这个图表上的一个点。如果我们观察所有可能的模型，我们会发现一个边界，一条被称为帕累托前沿的曲线。位于这条前沿上的模型是特殊的：对于前沿上的任何一点，不存在任何其他模型既比它更准确又比它更公平。你已经达到了最优折衷的极限。你可以沿着前沿移动以获得一个更公平的模型，但你将不得不牺牲一些准确性。或者你可以得到一个更准确的模型，但它会更不公平。数据科学家和政策制定者的角色是选择这条前沿上的哪一点代表了对社会最好的权衡。

这种“公平的代价”的概念可以变得更加精确和优美。当我们将公平性表述为一个约束优化问题（例如，“最小化错误，同时公平性差距为零”）时，优化数学提供了一个神奇的工具，称为拉格朗日乘子，通常用 $\lambda$ 表示。在这种情况下， $\lambda$ 有一个惊人具体的解释：它是公平性约束的边际成本。它确切地告诉你，如果你将公平性约束收紧一点点，模型的最小可实现损失将增加多少。如果 $\lambda^* = 0.05$ ，这意味着强制公平性差距再缩小一个很小的量，比如 $0.01$ ，将使你在模型错误增加方面付出大约 $0.05 \times 0.01$ 的代价。拉格朗日乘子为公平性打上了精确的价格标签，将一场哲学辩论转变为一场量化辩论。

超越均等：更深层次的因果问题

到目前为止，我们主要从统计均等的角度讨论公平性——确保像错误率或批准率这样的数字在不同群体之间保持一致。但这就是故事的全部吗？该领域正越来越多地转向因果性的语言来提出更深层次的问题。

考虑均等化赔率的概念，这是一个公平性标准，它要求决策独立于敏感属性，以真实结果为条件。这意味着，在所有能够偿还贷款的人（“真实结果”）中，所有人口群体的批准率都应该相同。对于所有会违约的人也应如此。这是一个强有力的想法，因为它确保了预测的“质量”对每个人都是相同的。

因果视角让我们能够看到这到底实现了什么。通过强制执行均等化赔率，我们实际上是阻断了任何从敏感属性（例如，种族）到最终决策的、不经过真实结果（例如，信誉度）的直接因果路径。它防止模型直接惩罚某个群体。然而，它并没有解决可能根植于真实结果本身的任何不公。如果历史偏见使得敏感属性在因果上影响了个体的实际信誉度，那条路径（ $A \to L \to D$ ）仍然存在。均等化赔率本身无法判断该路径是否合法。

这将我们推向一个更深层次的探究。它迫使我们超越简单地匹配统计数据，开始绘制我们认为世界如何运作的图表。我们必须明确决定哪些因果路径是可接受的——特征通过合法、与任务相关的渠道对结果产生影响——哪些是不可接受的。这不再仅仅是一个数学练习；它是与伦理、政策以及我们社会结构本身的深度互动。事实证明，探索算法公平性的旅程，是一场理解我们自身的旅程。

应用与跨学科联系

我们花了一些时间探讨公平性的原则，剖析了其各种定义和衡量机制。但这些不仅仅是抽象的数学游戏。它们是塑造人类生活的工具的蓝图。现在，我们将踏上一段旅程，离开纯粹的理论世界，进入现实世界那杂乱、复杂而又迷人的景观。我们将看到我们学到的原则如何成为决定谁能获得贷款、我们在网上看到什么内容、甚至我们接受何种医疗服务的系统中的工作部件。这是理论与实践相结合之处，一行代码可能成为伸张正义的工具，也可能成为历史偏见的延续者。

代码中的公平性：从原则到实践

我们到底如何构建一个公平的算法？事实证明，没有单一的方法；相反，我们有一整套策略工具包，每种策略都适用于机器学习生命周期的不同时刻。我们可以在开始时、学习过程中或在最后阶段进行干预。

想象一下，你正在构建一个系统来帮助银行决定贷款申请。目标是预测谁将成功偿还贷款，但你理所当然地担心该系统可能会不公平地拒绝某个特定人口群体的贷款，而不考虑他们的个人信誉。你可以将公平性目标直接融入模型的训练中。这就像在任何人开始游戏之前就设定好游戏规则。我们可以将我们的目标定义为不仅仅是“最小化预测错误”，而是“最小化预测错误并同时确保给予所有群体申请人的平均分数大致相同”。后一个条件，作为人口统计均等的替代指标，成为优化问题的一个数学约束。利用凸优化的强大工具，我们可以从一开始就找到尊重这一公平规则的最佳分类器。

但如果模型已经训练好了怎么办？也许它是一个复杂的深度学习模型，难以重新训练。我们仍然可以在决策阶段进行干预。考虑一个社交媒体平台使用算法来标记有害内容。该模型为每个帖子分配一个“有害性得分”。我们不必使用一个通用的阈值（例如，标记所有得分高于 $0.8$ 的内容），而是可以进行仔细的审计。我们可以分别分析模型在来自不同社区的内容上的表现，并发现单一阈值会导致截然不同的错误率。对于一个群体，它可能有太多的假阳性（标记良性内容），而对于另一个群体，它有太多的假阴性（错过真正有害的内容）。解决方案是应用后处理：我们可以为每个群体设置不同的决策阈值，这些阈值经过精心选择，以平衡错误率并满足如“均等化赔率”之类的标准，该标准要求所有群体的真阳性率和假阳性率都相同。这是一种强有力的平衡行为，通过调整最终判断来实现更公平的结果。

有时，问题根源更深，存在于我们用来教导模型的数据本身。例如，语言模型可以从它们阅读的大量文本中学习到有毒的关联。它们可能会学到包含身份术语（例如，“我是一名黑人女性”）的句子与毒性有虚假的关联，仅仅因为这些术语出现在激烈的在线讨论中。通过经验风险最小化（ERM）训练的标准模型会乐于学习这种有害的捷径。这里一个有效的策略是在训练过程中进行干预。我们可以使用一种群体重加权方法，告诉算法更多地关注代表性不足或被错误分类的群体。通过增加虚假关联不成立的示例的权重（例如，包含身份术语的无毒文本），我们可以迫使模型学习毒性的真实信号，而不是依赖于懒惰、有偏见的模式。

不可避免的权衡：公平的代价

正如我们刚才所见，我们有一套丰富的工具来强制执行公平性。这可能会让人问：我们为什么不把它们应用到所有地方呢？答案引出了该领域最深刻、最诚实的见解之一：公平性很少是免费的。在许多情况下，强制执行公平性约束是以牺牲一些整体预测准确性为代价的。这不是失败；这是我们必须面对的一个根本性权衡。

我们可以将这个抽象的想法变得非常具体。想象一下画一个图。在一个轴上，我们有模型的错误率（我们希望它低）。在另一个轴上，我们有一个不公平的度量，比如两个群体之间假阳性率的差异（我们也希望它低）。我们不能随意组合我们想要的任何结果。有一个边界，一条曲线，代表了我们能构建的所有可能的“最佳”模型的集合。这通常被称为帕累托前沿。这条曲线上的每个点都代表了一个不同的权衡：一个错误率非常低但差异很高的模型，一个差异非常低但错误率较高的模型，以及介于两者之间的各种选择。

使用像 $\varepsilon$ -约束方法这样的技术，我们可以描绘出这整个前沿。我们基本上告诉我们的优化算法，“在不公平性不超过 $\varepsilon$ 的前提下，找到可能的最准确的模型。”通过从零开始向上改变 $\varepsilon$ ，我们就可以画出这条曲线。这条曲线就像是社会的选择菜单。它使我们能够提出并回答诸如“为了将公平性差距减半，我们必须牺牲多少准确性？”这样的问题。通常，这些曲线有一个“拐点”——一个最佳点，在那里我们可以用极小的错误增加换取不公平性的大幅降低。识别这个拐点为我们提供了一种有原则的方法来选择一个能达到合理平衡的模型，将哲学辩论转变为可量化的决策。

超越实验室：在变化世界中的公平性

我们可以建立一个模型，分析其权衡，并在我们精心策划的数据集上证明其“公平”。但真实世界不是一个静态的数据集。它是一个动态的、不断变化的环境。在实验室中做出的公平性保证，在接触现实时可能会破碎。

这在精准医疗领域是一个尤其严峻的危险。想象一个模型被训练来根据患者的遗传标记和临床数据预测其对新药的反应。在开发它的诊所的验证数据上，该模型可能完美满足均等化赔率，意味着其准确性对于不同遗传血统的患者是相同的。现在，我们将这个模型部署到第二个诊所。这里的患者群体不同；遗传标记的分布 $P(X \mid A)$ 发生了变化。即使潜在的生物学机制 $P(Y \mid X, A)$ 保持不变，公平性保证也可能被打破。在第一个诊所中产生相等真阳性率和假阳性率的精妙统计平衡，被新的人口数据所扰乱，模型可能突然变得不公平。公平性不是一个永久的印记；它是一种平衡状态，在变化的世界面前必须被积极监控和维护。

忽视这些动态的后果不仅是统计上的——它们是深刻伦理上的。考虑一个旨在预测遗传病风险的深度学习模型。这类模型通常在大型生物银行上训练。但如果该生物银行绝大多数由欧洲血统的人的数据组成（例如85%），而非洲血统的人的数据稀少（5%）呢？一个在这种数据上训练的模型自然会对多数群体表现更好。更糟的是，如果疾病的基础发病率在不同人群中不同，一个单一的“全局校准”模型将对少数群体系统性地校准不准。它可能持续低估非洲血统群体（其基础发病率较高）的风险，并高估东亚群体（其基础发病率较低）的风险。

现在，想象一家医院应用一个单一的决策阈值：任何预测风险高于1%的人都会接受一种有不可忽略副作用的预防性治疗。对于风险被低估的群体，有风险的个体将被错过并被剥夺医疗服务（高假阴性）。对于风险被高估的群体，健康的个体将接受不必要的治疗（高假阳性）。这不仅仅是一个技术故障；它是一个加剧健康差距的引擎。此外，不向患者披露这些局限性侵犯了他们的自主权。如果一个人被告知的风险评分来自一个已知对其所属人群可靠性较低的工具，那么他无法做出真正的知情同意。

拓宽视野：“公平”还能意味着什么？

我们到目前为止的讨论主要集中在分类任务中的公平结果。但是，公平性的视角可以应用于更广泛的问题，从而在令人惊讶的地方揭示出洞见。

过程中的公平性：等待的游戏。 一个自动化招聘系统公平吗？我们可能首先想到检查它是否以相等的比率推荐来自不同群体的候选人。但如果过程本身不公平呢？考虑一个对候选人申请进行优先排序的系统。我们可以问：不同人口群体的从申请到获得工作机会的时间是否存在差异？这不再是一个简单的分类问题；这是一个关于事件发生时间的问题。为了正确分析它，我们必须借鉴其他领域的工具，比如生物统计学和生存分析中的对数秩检验。这个检验旨在比较生存曲线——或者，在这种情况下，“获得工作机会的时间”曲线——即使某些数据是“删失”的（例如，仍在流程中或退出的候选人）。通过应用这个检验，我们可以统计上检查过程本身的动态公平性，而不仅仅是其最终结果。

数据中的公平性：谁能发声？ 我们可以将公平性的概念推向机器学习流程中更“上游”的环节——数据收集过程本身。在主动学习中，算法试图通过智能地请求为信息量最大的未标记数据点提供标签来提升自己。但什么是“信息量大”的点？一个标准算法可能会将其所有注意力集中在它最不确定的数据空间区域，可能完全忽略少数群体。我们可以设计公平的查询策略，以平衡这种对信息的追求与在各群体间公平抽样的要求[@problem-id:3098387]。例如，一个策略可以按群体的不确定性比例进行抽样，或者反过来，以确保即使是不确定性低的群体也能获得一些标记预算。这确保了最终模型不仅对其决定关注的某个群体是准确的，而且对所有群体都是稳健公平的。

协作中的公平性：保护最薄弱的环节。 在一个去中心化的世界里，公平性意味着什么？考虑联邦学习，多个医院合作训练一个单一的医疗模型，而从不共享他们敏感的患者数据。每个医院在其本地数据上训练模型，并向中央服务器发送更新，服务器将它们聚合起来。标准方法FedAvg只是简单地对这些更新进行加权平均，权重是数据集的大小。但这可能对较小的医院或那些拥有更具挑战性患者群体的医院不公平，因为它们的模型可能表现不佳。一个更稳健的公平性概念，受到哲学家John Rawls的启发，是优化最坏情况下的性能。这导向一个“最小-最大”目标： $\min_{w} \max_{i} \mathcal{L}_i(w)$ ，其中我们寻求找到模型参数 $w$ ，以最小化处境最差的客户端 $i$ 的损失 $\mathcal{L}_i$ 。通过拉格朗日对偶性的优雅数学，这个高层原则转化为一个具体的聚合规则：服务器应该给予当前表现不佳的客户端的更新更多的权重。我们不只是提升平均水平，而是积极地努力提升底线。

结论：对公平的古老追求

当我们努力应对这些复杂的现代挑战时，认识到我们并非第一批走在这条路上的人，既令人谦卑又富有启发。设计公平、基于规则的系统以做出集体决策的追求是古老的。几个世纪以来，政治学家和经济学家一直在研究投票系统的属性，他们的工作为我们自己的工作提供了深刻的类比。

当我们分析像波达计数法这样的投票系统时——候选人根据他们在每张选票上击败其他人的数量获得分数——我们可以将其视为一个算法。然后我们可以问它是否满足诸如“单调性”（如果你将一个获胜者排得更高，他们仍应获胜）或“无关备选方案的独立性”（群体在A和B之间的偏好不应仅仅因为有人改变了对C的看法而翻转）等属性。这些正是我们要求我们的机器学习模型所具备的同类逻辑和伦理属性。Kenneth Arrow在1951年提出的著名的“不可能定理”表明，没有任何投票系统能够同时满足一小组看似显而易见的公平性标准。这是一个里程碑式的发现，证明了正如在机器学习中一样，固有的权衡是不可避免的。

没有一个简单的“公平”按钮可以按。前进的道路不是去寻找一个单一、完美的公平定义，而是去建立对不同定义、实现它们的工具、它们所带来的权衡以及它们发挥作用的领域的丰富理解。这是一段连接计算机科学与伦理学、法学、统计学和社会科学的旅程。通过拥抱这场跨学科的探索，我们可以超越仅仅构建能用的算法，迈向构建有助于一个更公正、更平等、更值得我们信任的世界的算法。