try ai
科普
编辑
分享
反馈
  • 公平机器学习

公平机器学习

SciencePedia玻尔百科
核心要点
  • 机器学习中的公平性并非单一概念,而是一系列数学定义的集合,如人口统计学平等和均等化赔率,每种定义都具有独特的伦理含义。
  • 实现公平性通常涉及与模型准确性的内在权衡,这种关系可以使用帕累托前沿进行可视化和管理。
  • 为解决有偏见的缺失数据等复杂问题,并区分纠正统计失衡与解决不平等的根本原因,先进的统计和因果方法是必要的。
  • 构建公平人工智能的挑战具有深度跨学科性,它借鉴了优化理论、生物统计学和法学等领域的概念,以解决医学和金融等领域的问题。

引言

强大的机器学习模型正日益在从金融到医疗等领域做出关键决策。尽管这些算法可以达到超人的准确性,但它们也可能在不知不觉中继承并放大社会偏见,导致对某些人口群体产生系统性的不公平结果。这带来了一个紧迫的挑战:我们如何确保我们为改善生活而构建的工具,不会固化我们试图纠正的不平等现象?问题的核心在于将“公平”这一微妙的人类概念,转化为算法能够理解和优化的精确数学语言。

本文全面概述了公平机器学习领域,引导您了解其基本概念和深远影响。您将学习到定义公平性的不同数学方法,以及如何将这些方法嵌入到模型的学习过程中。以下各节旨在帮助您从头开始建立理解:

第一章,​​原理与机制​​,揭示了公平性的核心数学定义,探讨了准确性与公平性之间不可避免的权衡,并深入研究了缺失数据和新兴的因果公平性前沿等高级统计挑战。随后的​​应用与跨学科联系​​一章,阐释了这些原理如何应用于医学和金融等高风险领域,揭示了公平机器学习与优化理论、生物统计学和法学等领域之间的深刻联系。

原理与机制

想象一下,您构建了一台神奇的机器,一个旨在做出重要决策的算法——谁能获得贷款,谁能被录用,谁被推荐参加挽救生命的医学试验。它以惊人的准确性工作,超越了人类专家。但随后,一个令人不安的模式出现了。这台机器似乎系统性地偏爱某一群人,而非另一群人。您的工程奇迹出现了一个缺陷,不是在代码中,而是在其灵魂中。它带有偏见。欢迎来到公平机器学习这个既令人困惑又至关重要的世界。

挑战并不仅仅是对着机器大喊“要公平!”。公平,如同正义,是一个微妙的概念。对于计算机而言,它必须是一条命令,一个它可以理解和优化的数学目标。因此,我们的首要任务,是将我们的伦理直觉转化为冷冰冰的数学语言。

我们所说的“公平”是什么意思?定义游戏规则

事实证明,并不存在一个普适的公平性定义。相反,我们有一份选项菜单,每个选项都捕捉了一种不同的伦理直觉。让我们来探讨几个最重要的定义。

最简单的想法:人口统计学平等

也许最直接的想法是,算法的决策不应依赖于个人的所属人口群体。如果一家银行总体上批准了30%的贷款申请,那么它应该为男性批准30%,为女性批准30%,为每个种族群体批准30%,以此类推。这被称为​​人口统计学平等​​或​​统计均等​​。它坚持要求所有群体获得积极结果的比率是相同的。

在数学上,如果 Y^=1\hat{Y}=1Y^=1 代表一个积极结果(如获得贷款),而 AAA 是一个敏感属性(如群体成员身份),那么人口统计学平等要求:

P(Y^=1∣A=group 1)=P(Y^=1∣A=group 2)\mathbb{P}(\hat{Y}=1 \mid A=\text{group 1}) = \mathbb{P}(\hat{Y}=1 \mid A=\text{group 2})P(Y^=1∣A=group 1)=P(Y^=1∣A=group 2)

我们如何将这一点教给机器?我们可以将其直接构建到学习过程中。想象一下,我们正在训练一个模型以最小化其预测误差,我们称之为 loss。我们可以添加一条规则:“最小化你的损失,但要满足一个约束条件,即各群体间批准率的差异必须小于一个极小的数 ϵ\epsilonϵ。”这是一个约束优化问题,是使模型变得公平的核心技术。这个问题大致如下:

min⁡modelLoss(model)subject to∣ApprovalRateG1−ApprovalRateG2∣≤ϵ\min_{\text{model}} \text{Loss}(\text{model}) \quad \text{subject to} \quad |\text{ApprovalRate}_{G1} - \text{ApprovalRate}_{G2}| \le \epsilonmodelmin​Loss(model)subject to∣ApprovalRateG1​−ApprovalRateG2​∣≤ϵ

另一种更温和的方法是在损失函数中添加一个惩罚项。我们不设置硬性规则,而是告诉模型:“你每造成一点差异,我就会在你的分数上增加一个惩罚。”这鼓励模型在准确性和公平性之间找到一个最佳平衡点。惩罚的大小,通常用一个希腊字母如 λ\lambdaλ 表示,控制着我们对公平性与准确性的关心程度。

更细致的视角:均等化赔率

人口统计学平等具有一种优美的简洁性,但它可能是盲目的。如果某个群体对于特定工作确实有更多合格的申请者呢?强行使录用率相等可能意味着拒绝一个群体的合格者或录用另一个群体的不合格者。这引出了一个更复杂的公平概念。

如果我们要求算法对所有群体都同样有效,那会怎样?一个算法会犯两种错误:它可能无法识别出应得的人(​​假阴性​​,比如拒绝了一个本可以偿还贷款的人),或者它可能错误地批准了不应得的人(​​假阳性​​,比如给了一个会违约的人贷款)。

​​真阳性率 (TPR)​​ 衡量模型正确识别出阳性案例的频率。对于一个招聘算法来说,这是它成功录用的真正合格候选人所占的比例。​​假阳性率 (FPR)​​ 衡量模型在阴性案例上犯错的频率。这是它错误录用的真正不合格候选人所占的比例。

​​均等化赔率​​指的是,TPR和FPR在所有人口群体中都应相等。换句话说,对于所有合格的申请者集合,被录用的概率应该与你所在的群体无关。而对于所有不合格的申请者集合,被(错误地)录用的概率也应该与你所在的群体无关。这确保了模型对于每个人来说,“同样好”(和“同样差”),前提是基于他们的真实资格。一个重要的特例是​​机会均等​​,它只要求TPR在各群体间相等。

不可避免的权衡:准确性 vs. 公平性

我们在这里触及了该领域的核心戏剧冲突。使模型更公平通常意味着使其整体准确性降低。为什么?因为原始数据通常包含一些模式,如果为了最大化准确性而遵循这些模式,就会导致有偏见的结果。纠正这种偏见意味着告诉算法忽略它发现的一些模式,这会降低其预测能力。

这不仅仅是一个理论上的担忧。我们可以精确地描绘出这种关系。想象一个图表,一个轴是整体准确性(越高越好),另一个轴是公平性指标,比如​​人口统计学平等 (DP) 差距​​(越低越好)。我们可以评估我们模型的不同版本——也许是通过使用不同的决策阈值或应用公平性干预措施。我们通常发现的不是一个单一的“最佳”模型,而是一条被称为​​帕累托前沿​​的曲线。

这条前沿上的每一点都代表了一个最优的权衡。点A可能高度准确但非常不公平。点B可能完全公平但准确性较低。点C则介于两者之间。前沿上没有一个点绝对优于任何其他点;要从B移动到A,你必须用一些公平性来换取更高的准确性。算法无法告诉我们应该选择哪个点。这是一个留给社会、政策制定者和我们的价值判断。

令人惊奇的是,高等数学的工具为我们提供了一种深刻的思考方式。在优化理论中,当我们强制执行一个公平性约束时,一个被称为​​拉格朗日乘子​​的神奇量会出现在我们的方程中。这个乘子有一个惊人的解释:它是公平性的“影子价格”。它精确地告诉你,为了多获得一个单位的公平性,你必须放弃多少准确性。它量化了我们伦理选择的成本。

更深入地探索这个兔子洞

就在我们以为自己已经掌握了情况时,现实世界提醒我们,事情远比这复杂得多。如果我们赖以分析的数据本身就有缺陷,那么我们优雅的数学定义就建立在不稳固的基础之上。

过拟合与欠拟合的危险

机器学习实践者对​​过拟合​​和​​欠拟合​​都再熟悉不过了。一个欠拟合的模型过于简单;它在训练数据和新数据上都表现不佳。一个过拟合的模型过于复杂;它记住了训练数据,包括其噪声,并且无法泛化到新情况。

公平性为此增加了一个新的、危险的维度。一个高容量模型可能在验证集上实现很高的整体准确性,但却极度不公平。它可能对多数群体极其准确,而对少数群体的表现则糟糕透顶,这是一种公平性过拟合。相反,一个简单的、欠拟合的模型可能看起来“公平”,仅仅因为它对每个人都同样糟糕!粗略地看一下数字会显示出很小的公平性差距,但这个模型将毫无用处。这教给我们一个至关重要的教训:整体性能指标可能掩盖深层次的不公平。我们必须始终通过按我们关心的群体分层来验证性能。

世界并非总是完整的:缺失数据的问题

如果我们用来衡量公平性的数据本身就是有偏见的,那该怎么办?想象一下审计一个贷款算法的​​阳性预测值 (PPV)​​——即被批准贷款的人中实际偿还贷款的比例。我们希望这个值在各群体间是相等的。但如果我们只拥有部分人的还款数据呢?并且,如果由于历史原因,某个群体的数据比另一个群体更容易缺失呢?这是一种数据​​非随机缺失 (MNAR)​​ 的情况。

如果我们天真地根据我们拥有的数据计算PPV,我们的结果可能完全错误。我们可能得出一个模型是公平的结论,而实际上它并非如此,反之亦然。为了得到正确的答案,我们必须对缺失过程本身进行建模。使用像逆概率加权这样的统计技术,我们可以纠正这种选择性偏差,并估计出如果数据是完整的,我们本应看到的真实公平性指标。这是一个强有力的提醒:统计的严谨性不是奢侈品;它是任何有意义的公平性审计的基石。

超越统计:因果前沿

这把我们带到了最深刻、最令人不安的问题:偏见的来源是什么?我们仅仅是在纠正统计上的不平衡,还是在解决不平等的根本原因?

这正是该领域正在发展的方向,从纯粹的统计公平性转向​​因果公平性​​。考虑从敏感属性 AAA 到决策 DDD 的因果路径。一个人的群体可能直接影响决策(例如,一个有偏见的人类招聘官),或者它可能影响他们的特征 XXX(例如,他们居住的地方影响他们的学校质量),而特征 XXX 又反过来影响决策。

像均等化赔率这样的公平性标准之所以强大,是因为它们可以阻断某些不受欢迎的因果路径。通过要求决策 DDD 在给定真实标签 LLL 的情况下独立于属性 AAA,均等化赔预实际上切断了 AAA 对 DDD 的直接、不公平的影响。

然而,它对通过标签流动的路径 A→L→DA \to L \to DA→L→D 却无能为力。如果历史上的歧视导致一个群体在工作上的平均资格(LLL)较低,一个满足均等化赔率的模型仍然会为两个群体产生不同的录用率。它忠实地再现了世界中存在的不平等。这提出了一个深刻的哲学问题,任何算法都无法回答:我们是试图构建一个相对于世界现状而言公平的模型,还是一个反映世界应有面貌的模型?

于是,我们穿越公平机器学习原理与机制的旅程,在它开始的地方结束:一个关于价值观的问题。数学可以给我们提供测量、约束和理解的工具。它可以阐明权衡,揭示隐藏的复杂性。但最终,决定“公平”意味着什么,以及我们愿意为此付出什么代价,是一个人类的决定。机器等待着我们的指令。

应用与跨学科联系

我们花了一些时间来理解算法公平性的数学骨架——那些让我们能够精确地谈论公平性的定义和原则。但科学不仅仅是抽象的原则;它是关于理解世界,并且如果我们足够明智,还要去改善它。所以现在我们问:这些想法存在于何处?它们如何与人类努力的那个混乱、复杂而又美丽的世界联系起来?我们将看到,公平机器学习并非一个孤立的计算机科学岛屿。它是一个繁华的港口城市,每天都有来自经济学、医学、法学、统计学和优化理论的船只抵达,每艘船都带来了新的货物和新的挑战。

我们的旅程从风险最高的地方开始:那些能够改变一个人一生的决策。想象一家医院部署了一个先进的深度学习模型来预测一个人患遗传病的风险。该模型在一个巨大的生物样本库上进行了训练,这是一个数据的宝库。然而,仔细审视这个宝库,会发现一个深层的缺陷:数据绝大多数来自欧洲血统的人,而其他群体的代表性严重不足。该模型取得了出色的整体准确率,但当它被用于一个多样化的现实世界诊所时会发生什么?由于模型从一个有偏见的世界中学习,它很可能在它教育期间很少见到的那些人群上表现不佳。它可能系统性地低估某些群体的风险,而高估其他群体的风险,导致一个悲剧性的悖论:一个旨在改善健康的工具,反而可能加剧现有的不平等,拒绝为一些人提供护理,同时为另一些人推荐不必要且有副作用的治疗。这不是遥不可及的幻想;这是当今计算医学领域最紧迫的伦理挑战之一。未能认识到并考虑到这些特定群体的差异,不仅是一个技术上的疏忽;它还可能侵犯患者的信任和自主权。

那么,该怎么办呢?我们是否要放弃这些强大的工具?完全不是。我们让它们变得更好。在药物基因组学中,模型可以预测药物不良反应,我们可以正面应对这个问题。我们不必为所有人使用单一的、一刀切的决策阈值,而是可以采用一种“后处理”策略。我们可以为不同的祖源人群精心选择不同的阈值。目标是一种精巧的平衡:我们寻求找到一组阈值,使各群体间的错误率更接近——满足公平性约束——同时保持整体错误率尽可能低。这种方法承认,模型的评分对于不同群体可能意味着不同的东西,并在决策阶段对此进行纠正,将一个纯粹的技术问题转变为一个明确编码了我们伦理目标的约束优化任务。

将公平性直接嵌入数学中的这种想法是一个强有力的主题。让我们从诊所转向银行。一家银行使用算法来决定谁能获得贷款。群体公平性的一个核心原则,即*人口统计学平等*,建议不同人口群体之间的批准率应该相同。我们如何构建一个尊重这一点的模型?我们可以使用“处理中”方法的语言,其中公平性不是事后的想法,而是模型训练的核心部分。我们可以将训练表述为一个凸优化问题:“最小化分类误差,但要满足平均预测分数与敏感群体属性的协方差接近于零的约束。”这个约束在数学上强制执行了人口统计学平等的一个版本。像这样的问题可以使用诸如内点法之类的复杂技术来解决,展示了社会公益与严谨的数学优化世界之间的美妙联系。

深入探究机制

公平性不仅关乎最终结果;它也关乎过程。让我们放大视角,从不同角度审视公平性,揭示它与其他基本科学思想的联系。

对个体公平意味着什么?一个优美而直观的答案是,相似的个体应该被相似地对待。你申请中的一个微小、无关紧要的变化,不应该成为获得贷款与被拒绝之间的区别。我们可以通过将公平性与数值分析中的稳定性概念联系起来,来形式化这种直觉。我们可以设计一个度量标准,来衡量模型的决策因“非决定性”特征——那些在法律上或伦理上不应起作用的属性——的微小扰动而发生多大变化。从这个角度看,一个公平的模型是一个鲁棒或“良态”的模型,其输出不会随着输入中无足轻重的变化而剧烈波动。

这种精细的视角可以应用于特定类型的模型。考虑一个决策树,它通过在每个“节点”提出一系列问题来对数据进行分类。一个标准的树可能会学到一个类似“收入是否大于50,000美元?”的问题,这无意中将更高比例的某个群体引向“低分”路径。我们可以设计一个惩罚项,或称正则化器,来阻止树学习这类问题。在每次分裂时,我们可以测量人口比例从父节点到子节点的变化有多大。正则化器根据这些比例向量的平方差添加一个惩罚,引导树构建一个在每一步都公平的分类路径,而不仅仅是在最终目的地。

当我们超越简单的分类问题时,公平性的跨学科性质真正闪耀出来。想象一下一个公司的招聘流程。重要的问题不仅仅是某个群体的候选人是否获得录用通知,还有需要多长时间。某些群体的候选人是否在招聘流程中滞留的时间比其他人更长?这是一个事件发生时间问题,我们可以从生物统计学中借用一个强大的工具来分析它:对数秩检验。这个检验传统上用于比较不同治疗下患者的生存时间。在一个卓越的概念飞跃中,我们可以将完全相同的数学方法应用于测试不同人口群体之间的“获得录用通知时间”分布是否存在统计学差异,甚至可以正确地处理退出流程的候选人(一个被称为“删失”的问题)。

公平性的前沿

该领域在不断发展,与现代机器学习中最前沿的课题建立联系。考虑一个数据因过于私密而无法共享的世界,就像大学的学生记录那样。联邦学习允许多个机构协同训练一个模型,而无需共享其原始数据。但我们如何确保最终的模型是公平的?在这里,公平性与隐私在一个迷人的对抗性舞蹈中相遇。我们可以训练我们的主模型来预测学生的成功,同时训练第二个“对抗”网络。对抗网络的唯一工作就是试图从主模型的内部数据表示中猜出学生的敏感人口统计属性。然后,主模型被训练以实现两个目标:准确预测学生成功,同时,产生一个能够欺骗对抗者的表示。这种技术,通常通过“梯度反转层”实现,鼓励模型学习清除了敏感属性信息的表示,从而以一种保护隐私的分布式方式实现公平性 [@problem-id:3124658]。

这种对抗性思维的主题也帮助我们理解更微妙形式的偏见。在深度学习中,一种称为*数据增强的常用技巧涉及通过应用微小的变换——如旋转图像或改变其亮度——来创建新的训练样本。但如果这些“无辜”的变换对不同群体产生不同影响怎么办?一个假设的模型可能会显示,光线的微小扰动不成比例地损害了面部识别系统对肤色较深个体的性能。这种现象,被称为偏见放大*,可以用数学方式建模。通过理解其机制,我们就可以设计出能够抵消这种效应的、具有公平意识的增强方法,确保我们的数据丰富策略不会无意中加剧不平等 [@problem-id:3111246]。

最后,让我们退后一步,问问这些方法背后是否存在一个统一的原则。像对表现不佳的群体的样本进行重加权这样的技术很常见,但它们可能看起来是临时性的。它们背后有更深层次的原因吗?答案来自强大的*分布鲁棒优化 (DRO)* 领域。我们可以将公平性的目标——即使对处境最差的群体也要表现良好——重新构建为一场与对手的博弈。对手的目标是选择来自不同群体的最难的数据混合来测试我们的模型。我们的目标是训练一个对这种最坏情况分布具有鲁棒性的模型。在一个优美的数学统一中,事实证明解决这个DRO问题等同于最小化所有群体中的最大损失。这为许多公平性干预措施提供了来自优化理论的深刻而有原则的基础。

从内容审核中后处理预测的实际挑战,到DRO深刻的理论优雅,公平机器学习的研究是一个充满活力且不断扩展的领域。它教导我们,构建智能系统不仅仅是为了优化像准确性这样的单一数字。它是关于就有意识地、审慎地、并在数学基础上做出选择,决定我们希望我们的算法帮助创造一个什么样的世界。这是将我们的伦理价值观转化为精确的数学语言的艰苦而必要的工作,并在此过程中,更多地了解两者。