预测均等

玻尔百科

核心要点

预测均等是一项公平性标准，要求模型的阳性预测值 (PPV) 在所有人口群体中均相等。
一个模型的 PPV 不仅取决于其准确性，还取决于特定状况的流行率（基准率），而这在不同群体间通常存在差异。
算法公平性中的“不可能性定理”证明，当基准率不同时，在数学上不可能同时满足预测均等和其他关键指标（如均等化赔率）。
在预测均等和机会均等等公平性标准之间进行选择，涉及到在警报的可靠性与真实案例的平等检测之间的明确伦理权衡。

引言

随着人工智能在医学和金融等领域的关键决策中变得不可或缺，确保这些系统的公平性至关重要。其中一个最直观的公平性标准是预测均等 (predictive parity)，即人工智能工具给出的阳性预测对于每个人口群体都应具有同等的可信度。然而，这个看似简单的目标背后隐藏着一个深刻的挑战：不同且同样合理的公平概念之间，往往在数学上直接对立。这种冲突为从业者带来了巨大的知识鸿沟，他们必须选择实施哪种“公平”的定义，却往往不清楚其必然带来的权衡。本文旨在揭开这一复杂领域的神秘面纱。第一部分“原理与机制”将剖析预测均等的数学基础，揭示其为何对现实世界中的人口差异如此敏感。接下来的“应用与跨学科联系”部分将探讨这些数学真理在高风险领域的实际后果，展示公平性指标的选择不仅是一个技术决策，更是一个具有深远人类影响的伦理决策。

原理与机制

想象一下，你是一名繁忙急诊室的医生。一个新的人工智能工具闪烁警报：“患者 X 败血症风险高！” 你会问的第一个、最实际的问题是什么？很可能不是关于算法的架构或其训练数据，而仅仅是：“这个警报的实际准确率是多少？”

这个问题，即关于阳性预测的可靠性，正是我们所说的阳性预测值 (Positive Predictive Value, PPV) 的核心。它是指收到阳性警报（ $\hat{Y}=1$ ）的患者确实患有该疾病（ $Y=1$ ）的概率。现在，让我们增加一层公平性的考量。要求警报的可靠性不依赖于患者的人口群体似乎是理所当然的。针对 A 群体患者的警报应与针对 B 群体患者的警报具有相同的分量和确定性。这个优美、简单而直观的概念被称为预测均等。它要求所有群体的 PPV 相等。

如果一个工具的警报对一个群体的可靠性为 60%，而对另一个群体仅为 45%，这意味着临床医生将为后一个群体经历更多的“假警报”。这可能导致警报疲劳，使关键警告被忽视，并可能使处于不利地位群体的患者接受不必要、昂贵且有潜在风险的后续检查。追求预测均等，就是为了确保人工智能的警告对其服务的所有人都具有同等的意义。

但当我们深入探究时，会发现这个简单的公平理想与概率论的顽固现实发生了碰撞，这种碰撞既引人入胜，又极具挑战性。

预测能力的构成要素

要理解为什么预测均等如此难以实现，我们需要深入了解决定阳性预测值的内在机制。它并非魔法，而是概率论基本法则——贝叶斯定理的直接结果。PPV 的公式就像一个食谱，包含三个关键成分：

$\mathrm{PPV} = \frac{\mathrm{TPR} \cdot \pi}{\mathrm{TPR} \cdot \pi + \mathrm{FPR} \cdot (1 - \pi)}$

让我们在不陷入符号困境的情况下分解这个公式。

灵敏度 (Sensitivity)，即真阳性率 ( $TPR$ )：这是测试正确识别出确实患有该疾病的人的能力。 $TPR$ 为 $0.90$ 意味着测试能捕获 90% 的真实病例。它是分子中的第一项， $\mathbb{P}(\hat{Y}=1 \mid Y=1)$ 。
假阳性率 ( $FPR$ )：这是测试错误地标记健康人群的比率。它被定义为 $\mathbb{P}(\hat{Y}=1 \mid Y=0)$ 。低 $FPR$ 是理想的。（你可能更熟悉特异度 (Specificity)，它就是 $1 - FPR$ ）。
患病率 ( $\pi$ )：这是指特定人群中疾病的基准率， $\mathbb{P}(Y=1)$ 。在进行测试之前，这种疾病有多普遍？

分子 $\mathrm{TPR} \cdot \pi$ 代表了总人口中患病且被测试正确标记的比例。分母 $\mathrm{TPR} \cdot \pi + \mathrm{FPR} \cdot (1 - \pi)$ 代表了所有被标记的人，包括正确的标记（真阳性）和不正确的标记（假阳性）。因此，PPV 就是这样一个比率：在所有被测试标记的人中，究竟有多少是真正患病的？

患病率的残酷算法

这个公式中患病率 $\pi$ 的存在是许多麻烦的根源。让我们通过一个受真实世界筛查场景启发的思想实验来看看原因。

假设我们有一项出色的抑郁症筛查测试。我们已经确保它对两个亚群 A 和 B 的效果完全相同，这意味着它对两个群体具有相同的灵敏度（假设为 $0.90$ ）和相同的特异度（ $0.85$ ，即 $FPR = 0.15$ ）。这看起来非常公平。

现在，假设抑郁症在亚群 A 中比在亚群 B 中更常见（ $\pi_A = 0.20$ vs. $\pi_B = 0.08$ ）。那么阳性测试结果的可靠性——即 PPV——会发生什么变化？

对于亚群 A： $\mathrm{PPV}_A = \frac{(0.90)(0.20)}{(0.90)(0.20) + (0.15)(1 - 0.20)} = \frac{0.18}{0.18 + 0.12} = 0.60$ 对于亚群 A 的人来说，阳性测试结果意味着他们有 60% 的可能真正患有抑郁症。

对于亚群 B： $\mathrm{PPV}_B = \frac{(0.90)(0.08)}{(0.90)(0.08) + (0.15)(1 - 0.08)} = \frac{0.072}{0.072 + 0.138} \approx 0.343$ 对于亚群 B 的人来说，来自完全相同仪器的完全相同的阳性测试结果意味着他们只有 34.3% 的可能患有抑郁症。

这是一个惊人而深刻的结果。即使一个测试的内在属性（灵敏度和特异度）在不同群体间完全相等，其预测的意义也会发生巨大变化。仅仅因为该疾病在 B 组中更为罕见，就意味着一个随机的阳性测试更有可能是假警报。这不是算法的缺陷，而是概率的内在特性。预测均等被违反，不是因为工具存在偏见，而是因为世界本身如此。

公平性困境：拆东墙补西墙

如果自然无法给予我们预测均等，我们能否通过更智能的算法来强制实现它？我们当然可以尝试。算法可以被调整以满足特定的公平目标。但正是在这里，我们遇到了算法公平性核心的深层权衡。

让我们看一个假设的肺炎检测模型，该模型被明确设计为对两个群体 A（高患病率）和 B（低患病率）实现预测均等。在一个验证集上，工程师们成功了：两个群体的 PPV 都恰好是 $0.60$ 。预测均等实现了！但代价是什么？让我们检查一下这种调整导致的其他性能指标：

A 组（高患病率）：灵敏度 ( $TPR_A$ ) = $0.30$
B 组（低患病率）：灵敏度 ( $TPR_B$ ) = $0.15$

为了使警报同样可靠，模型必须对低患病率群体的灵敏度变得低得多。它现在只能正确识别 B 组中 15% 的肺炎病例，而在 A 组中能捕获 30%。为了在一个维度（警报的同等可靠性）上实现公平，我们在另一个维度（检测疾病的不平等能力）上引入了巨大的不公。B 组的患病患者现在被系统漏诊的可能性是 A 组的两倍。

这就引出了一个与之竞争的公平概念：机会均等 (equal opportunity)。这个标准要求所有群体的真阳性率相等。它优先确保每个患病的人都有平等的机会被系统识别和帮助。在上述的分诊场景中，一种临床上保守的方法可能更倾向于均衡 TPR，接受 PPV 会有所不同，以避免在一个群体中不成比例地漏掉真实肺炎病例的严重错误。

基本的统一性：不可能性定理

这些不仅仅是孤立的例子，它们是一个深刻且统一的数学原理的体现。像 Alexandra Chouldechova 和 Jon Kleinberg 这样的研究人员的开创性工作揭示了现在被称为算法公平性中的“不可能性定理”。

这些定理本质上指出，对于任何不完美的分类器，当不同群体间结果的基础率不同时，在数学上不可能同时满足三个理想的公平性属性：

预测均等 (相等的 PPV)
均等化赔率 (相等的 TPR 和相等的 FPR)
校准 (风险评分为 $s$ 意味着对所有群体而言，成为阳性的概率为 $s$ )

我们看到的预测均等和机会均等（相等的 TPR）之间的冲突是这一原理的直接后果。如果你强制实行均等化赔率（包括相等的 TPR），我们之前看到的 PPV 公式 $\mathrm{PPV}_g = \frac{\mathrm{TPR} \cdot p_g}{\mathrm{TPR} \cdot p_g + \mathrm{FPR} \cdot (1-p_g)}$ 表明，PPV 成为患病率 $p_g$ 的直接函数。如果患病率 $p_A$ 和 $p_B$ 不同，PPV 必须不同。你根本无法两者兼得。

即使是看似无懈可击的校准属性——即风险评分 0.7 对每个人都应意味着 70% 的风险——也无法拯救我们。事实上，它正是相互冲突的要素之一。如果一个评分对两个具有不同基准率的群体都进行了校准，那么对于单个决策阈值，它不可能同时满足这些群体的均等化赔率。

这是一段优美但又有些发人深省的数学。它将我们的观察统一成一个单一而有力的陈述：没有单一、完美的公平定义。我们被迫做出选择。不同的公平概念不仅仅是不同的编程目标，它们是不同的伦理立场。我们是优先让我们的预测对所有群体都同样可靠（预测均等），还是优先让我们的系统在发现有需要的人方面同样有效（机会均等）？数学没有给出答案，它只是以其卓越的清晰度揭示了我们必须做出的选择。

应用与跨学科联系

在探索了预测均等的数学原理之后，我们现在来到了探索中最关键的部分：看到这些思想在现实中得以体现。我们讨论的公平性概念不仅仅是局限于黑板和教科书的抽象概念。它们正是我们必须用来审视和塑造一个算法日益影响我们生活方方面面（从医生诊室到保险公司承保人办公桌）的世界的工具。在这里，数学机器与人类社会混乱、美丽而复杂的现实相遇了。

医生的新助手：医学中的算法

算法公平性的风险在医疗保健领域无处其高。想象一个旨在协助医院急诊部门的人工智能模型。它的工作是分析患者数据，并在检测到败血症等危及生命的状况的高风险时发出警报。或者考虑一个读取医学影像、寻找癌症早期微弱迹象的系统，或是在常规体检中筛查抑郁症的工具。这些并非科幻小说，它们是医学的现在与未来。

我们如何确保这些数字助手对每个人都公平？我们必须首先定义我们所说的“公平”是什么。正如我们所见，公平可以有多种面貌。是确保人工智能对所有人口群体给出阳性预测的比率相同（人口均等）吗？是确保该工具在识别所有实际患病者方面的能力相同（机会均等）吗？或者，是确保它对所有群体的出错率相同（均等化赔率）？这些标准中的每一个都形式化了一种独特且通常崇高的伦理直觉。

预测均等，我们讨论的焦点，引入了另一个强有力的公平理念：一个阳性预测对每个人都应意味着同样的事情，无论他们属于哪个群体。如果一个人工智能将一名患者标记为自杀企图的“高风险”，那么该患者真正处于高风险的实际概率，无论该患者是属于少数群体还是多数群体，都应该是相同的。这就是预测均等的本质：它要求阳性预测值 (PPV)，即 $\mathbb{P}(Y=1 \mid \hat{Y}=1)$ ，在不同群体间保持不变。换言之，一个阳性结果的可信度不应取决于你的人口背景。

无法逃避的权衡

在这里，我们偶然发现了一个极其重要的发现，它并非仅源于伦理辩论，而是源于概率论不容置疑的逻辑。让我们考虑一个由人工智能驱动的宫颈癌筛查项目。人群是多样化的，由于 HPV 疫苗接种普及率等因素，癌前病变的患病率在接种疫苗的群体和未接种疫苗的群体之间存在差异。

假设我们设计的人工智能工具在均等化赔率的意义上是无可挑剔的“公平”。也就是说，它的灵敏度——在患者中检测癌症的能力——对两个群体是相同的。并且它的特异度——正确排除健康者的能力——也是相同的。这听起来完全公平。测试本身对每个人都同样有效。

但一个令人惊讶且数学上必然的后果出现了：阳性预测值不会相同。对于来自高患病率（未接种疫苗）群体的人来说，一个阳性结果将比来自低患病率（接种疫苗）群体的人的阳性结果指示更高的实际疾病概率。该测试满足了均等化赔率，但它违反了预测均等。

为什么必须如此？答案在于贝叶斯法则，这个法则将测试结果与潜在的疾病概率联系起来。阳性预测值 $\mathrm{PPV}$ 不仅是测试内在准确性（其灵敏度和特异度）的函数，它也是被测试人群中疾病基准率或患病率 ( $\pi$ ) 的函数。正如公式所揭示的， $\mathrm{PPV} = \frac{\mathrm{TPR} \cdot \pi}{\mathrm{TPR} \cdot \pi + \mathrm{FPR} \cdot (1-\pi)}$ 。如果你对两个群体保持灵敏度和假阳性率 (FPR) 恒定，但它们的患病率 ( $\pi$ ) 不同，那么它们的 PPV 也必须 不同（除非测试是完美的或完全无用的）。这不是算法的缺陷，而是概率的法则。在基准率不相等的情况下，你通常根本无法同时满足均等化赔率和预测均等。

当指标遭遇现实：伤害的途径

这种数学上的紧张关系不仅仅是一个学术难题，它具有严重的现实世界后果。让我们回到自杀风险预测模型。一项分析可能会揭示，该模型虽然满足了预测均等（一个阳性标记意味着对每个人都有 30% 的企图可能性），但同时违反了机会均等。例如，它对一个群体的真阳性率可能为 0.90，但对另一个群体仅为 0.75。

这在人类层面意味着什么？这意味着对于第一个群体中的每 100 名高风险个体，模型能正确识别 90 人。但对于第二个群体中的每 100 名高风险个体，它只识别了 75 人，使得 25 人无法获得他们需要的救生干预。这是利益分配上的差异——一种治疗不足的伤害。

同时，分析可能显示该模型在第二个群体中的假阳性率更高。这造成了另一种伤害途径：该群体中并非处于风险中的成员更有可能被错误标记，使他们遭受不必要、充满压力且可能具有强制性的干预。满足像预测均等这样的一个公平性指标，可能会隐藏甚至制造其他的不平等。没有一个可以一按就解决所有问题的“公平”按钮；只有需要用智慧和谨慎去理解和驾驭的权衡。

走出医院：为我们的未来投保

同样的原则和权衡远远超出了医学领域。考虑保险业，人工智能模型越来越多地被用于设定保费和决定承保范围。在这里，预测均等具有明确的财务意义：如果一个模型将你归入“高风险”类别，你对保险公司所代表的预期财务成本应该是相同的，无论你的人口群体如何。均等化赔率则意味着，被错误归类为高风险（而你不是）或低风险（而你不是）的比率在各个群体中是相同的。就像在医学中一样，如果不同群体之间索赔的基础率不同，保险公司就无法同时实现这两种形式的公平。这迫使社会进行一场对话：我们希望我们的金融系统体现什么样的公平？

一个更深层的问题：预测公平与结果公平

这把我们带到了最深层的问题。我们花了大量时间试图使我们算法的预测变得公平。但如果公平最终关乎结果呢？

让我们最后一次回到败血症预测模型。假设我们有两个截然不同的患者群体：产后患者，对她们来说漏诊败血症病例（假阴性）是绝对灾难性的；以及对药物有严重过敏史的患者，对她们来说不必要的经验性治疗（假阳性）可能引发危险反应。对于这两个群体来说，错误的代价是不同的。

严格的程序公平可能会要求我们对两者使用相同的风险阈值。但一种决策理论方法，一种基于最小化预期伤害的方法，得出了一个惊人的结论。为了为每个人实现最佳可能的结果——为了最小化痛苦的总负担——我们应该为产后患者使用更低的阈值（非常迅速地发出警报），而为易过敏患者使用更高的阈值（更加谨慎）。

在这里，通过使用一个统一的阈值来“同样”对待每个人，将是明显不公平的，因为它会导致更差的结果。在这种观点下，真正的公平不在于统计数据的平等，而在于后果的均等。它要求我们区分过程中的公平与结果中的公平。这并不会使我们对公平性指标的探索变得不那么重要。恰恰相反，它使其更加重要。只有通过理解我们工具的精确行为、其内在的权衡以及其在现实世界中的影响，我们才能开始做出明智的选择，以建立一个我们强大的技术服务于全人类福祉的未来。