超越准确率：二分类器评估综合指南

玻尔百科

定义

超越准确率：二分类器评估综合指南是机器学习领域中探讨评估指标选择的指导框架，旨在解决准确率在处理类别不平衡数据集时的误导性问题。该指南重点分析了精确率与召回率之间的权衡关系，并提倡使用受试者工作特征曲线下面积（AUROC）等不依赖阈值的指标来评估分类器的辨别能力。最终的评估方法必须结合实际应用场景中不同错误类型的代价以及对概率校准的要求来进行选择。

核心要点

在评估不平衡数据集上的分类器时，准确率是一个具有误导性的指标，因为它通常由多数类的表现主导。
精确率（最小化假阳性）和召回率（最小化假阴性）之间存在根本性的权衡，必须根据特定应用的成本进行平衡。
与阈值无关的指标，如ROC曲线下面积（AUROC），评估的是分类器在所有可能的决策点上区分不同类别的内在能力。
评估指标的最终选择并非纯粹的技术问题；它必须以问题背景为指导，包括不同类型错误的现实世界成本以及对可信、经校准的概率的需求。

引言

在构建一个机器学习模型将数据分为两类之后，一个关键问题随之而来：这个模型到底好不好？最直观的指标——准确率——似乎是一个直接的答案，但它可能具有危险的欺骗性。在许多现实世界的场景中，从医疗诊断到欺诈检测，一个模型可以达到近乎完美的准确率，却完全无用，因为它无法识别出那些它本应被构建来发现的结果。这个悖论揭示了一个关键的知识鸿沟：我们如何超越简单的正确性衡量，转向更有意义、更稳健的评估？

本文为应对这一挑战提供了全面的指南。第一部分，“原理与机制”，解构了常见的评估指标，揭示了它们的优点、缺点以及最适用的场景。它介绍了基本的精确率-召回率权衡，探讨了像ROC曲线这样评估模型内在能力的、与阈值无关的度量方法，并讨论了概率校准的至关重要性。第二部分，“应用与跨学科联系”，展示了这些理论概念如何在现实世界中应用——从临床医学和药物发现到金融和隐私——说明了正确的指标如何能将模型的输出转化为果断、负责任的行动。通过深入探讨这些概念，您将不仅学会如何计算一个分数，还将学会如何提出正确的问题，以确定一个分类器是否真正有用、可靠并与您的目标保持一致。

原理与机制

想象一下，我们建造了一台机器，声称可以通过观察胸部X光片来判断病人是否患有某种罕见的疾病。我们如何知道它是否好用？最显而易见的问题是，“它判断正确的频率是多少？”事实证明，这个简单的问题有点像一个陷阱。它引导我们走上了一条引人入胜的发现之路，迫使我们更深入地思考“好”到底意味着什么。

“正确”答案的专制

我们能想到的最直接的指标是准确率：即预测正确的比例。如果我们的机器观察了1000张X光片，其中950张判断正确，我们就说它的准确率为 $0.95$ ，即95%。简单明了。在许多情况下，这也是完全合理的。如果我们在将苹果分为“红色”和“绿色”两类，且类别大致均衡，那么准确率能告诉我们很多信息。

但现在让我们回到我们的医疗诊断机器。假设这种疾病非常罕见，只在1%的人口中出现。我们在 $10,000$ 人身上测试我们的机器。我们预计大约有 $100$ 人患有此病，而 $9,900$ 人是健康的。现在考虑一个非常简单、“懒惰”的机器，它根本没有学到任何东西。它只是凭概率猜测，并宣布每一位病人都是健康的。

它的准确率是多少？嗯，对于那 $100$ 个确实有病的人，它的判断是错误的，但对于所有 $9,900$ 个健康的人，它的判断是正确的。因此，它的准确率是 $\frac{9900}{10000} = 0.99$ 。99%的准确率！从这个指标来看，我们的懒惰机器似乎近乎完美，但它却完全无用，因为它永远也找不到任何一个病例。

这个思想实验揭示了在处理类别不平衡问题时准确率的一个重大弱点。准确率由多数类（在此例中是健康患者）的表现所主导。总体得分看起来非常棒，但它掩盖了我们在我们真正关心的少数类上的灾难性失败。

为了从数学上理解这一点，我们可以使用两个更基本的比率来分解分类器的性能。真正率（TPR），也称为灵敏度或召回率，它要回答的问题是：“在所有真正患病的人中，机器正确识别出了多大比例？”真负率（TNR），或称特异度，它要回答的问题是：“在所有健康的人中，机器正确判断其健康的比例是多少？”一个完美的分类器其TPR为 $1$ ，TNR也为 $1$ 。我们那个懒惰的分类器TPR为 $0$ （它没有找到任何患病者），但TNR为 $1$ （它正确识别了所有健康者）。

总体准确率实际上是这两个比率的加权平均值，权重由疾病的患病率 $\pi$ 决定：

\text{Accuracy} = \pi \cdot \text{TPR} + (1-\pi) \cdot \text{TNR}

在我们的例子中， $\pi = 0.01$ ，所以 $\text{Accuracy} = 0.01 \cdot (0) + (1-0.01) \cdot (1) = 0.99$ 。这个公式精确地向我们展示了为什么分数如此之高：完美的TNR被乘以 $0.99$ 的权重，而糟糕透顶的TPR仅被乘以 $0.01$ 的权重。我们被一个简单的数字误导了，因为我们没有提出正确的问题。

误差的两面性

那么，如果准确率不是一个好的指导，我们应该用什么呢？让我们继续待在医生的办公室里。当使用筛查测试来检测像癌症这样的严重疾病时，有两种截然不同的错误方式，它们带来的后果也大相径庭。

假阴性：测试显示病人健康，但他们实际上患有癌症。这是检测上的灾难性失败。病人失去了早期治疗的机会，而这可能是生与死的区别。我们想问的问题是：“在所有真正患有癌症的病人中，我们找到了多大比例？”这正是我们前面遇到的召回率（或TPR）。对于危及生命的疾病，我们要求非常高的召回率。
假阳性：测试显示病人可能患有癌症，但他们实际上是健康的。这个人可能会接受进一步的、更具侵入性和昂贵的检查（如活检），更不用说他们将经历巨大的焦虑和压力。一个测试结果呈阳性的病人会问的问题是：“既然测试是阳性，我实际患癌的概率有多大？”这被称为精确率，或阳性预测值（PPV）。我们希望有高的精确率，这样我们就不会让大批健康的人去做不必要且痛苦的后续检查。

这就是许多分类问题中存在的根本性矛盾。你为提高召回率所采取的措施往往会降低精确率，反之亦然。想象一位放射科医生试图格外小心，以免漏掉任何潜在的肿瘤。他们可能会开始标记哪怕最轻微的异常。这将提高他们的召回率（他们会漏掉更少的癌症），但同时也会增加误报的数量，从而降低他们的精确率。

这种权衡的后果超出了单个病人。在医院环境中，一个低精确率的系统会引发如此多的假警报，以至于临床医生开始出现警报疲劳，并可能开始完全忽略这些警告，从而使系统失去了其存在的意义。同样，如果警报自动导致治疗，比如为疑似败血症患者使用抗生素，低精确率会导致过度使用并助长抗生素耐药性。

为了平衡这两个相互竞争的目标，我们有时会使用一个结合了它们的单一指标：F1分数。它是精确率和召回率的调和平均数。与简单平均数不同，调和平均数对较低的值更敏感，这意味着要获得高的F1分数，分类器必须同时具有相当高的精确率和召回率。

摆脱阈值：更高维度的视角

到目前为止，我们的指标——精确率、召回率、F1分数——都依赖于一个关键选择：决策阈值。大多数现代分类器不仅仅输出“是”或“否”。它们产生一个连续的分数，通常在0和1之间，表示模型认为一个实例属于正类的置信度。然后我们选择一个阈值；任何高于该阈值的分数都被归类为“正类”，低于的则为“负类”。改变这个阈值会改变我们统计的真正例和假正例的数量，这反过来又会改变我们的精确率和召回率。

哪个阈值最好？这取决于我们刚刚讨论的精确率/召回率权衡。但是，如果我们想评估分类器区分不同类别的内在能力，而不依赖于任何单一的阈值选择呢？

为此，我们可以将所有可能阈值下的性能同时可视化。这就得到了受试者工作特征（ROC）曲线。想象我们有一组病人，一些患有疾病（正例），一些没有（负例），每个人都有我们分类器给出的一个分数。

我们将所有分数从高到低排序。我们从一个极高的阈值开始，高到没有任何病人被归类为正例。此时，我们的真正率（TPR）是 $0$ ，假阳率（FPR）也是 $0$ 。我们位于图上的 $(0,0)$ 点。现在，我们逐渐降低阈值。每当我们越过一个病人的分数时，我们就更新我们的比率。

如果我们刚刚越过的病人是一个真正例，我们就又正确地识别出了一个病人。我们的TPR上升。这对应于在图上向上走一步。
如果我们刚刚越过的病人是一个真负例，我们就又多发出了一个假警报。我们的FPR上升。这对应于在图上向右走一步。

当我们把阈值降到零时，我们已经把所有人都归类为正例了。我们找到了所有的真正例（TPR= $1$ ），但我们也错误地分类了所有的真负例（FPR= $1$ ）。我们的旅程在 $(1,1)$ 点结束。我们从 $(0,0)$ 到 $(1,1)$ 所描绘的路径就是ROC曲线。

一个只会随机猜测的无用分类器，其ROC曲线将是一条从 $(0,0)$ 到 $(1,1)$ 的对角线。一个完美的分类器，即给所有正例的分数都高于所有负例的分数的分类器，其路径将是笔直向上到达左上角 $(0,1)$ ，然后再横向到达 $(1,1)$ 。因此，一个更好的分类器是其曲线更向那个神奇的左上角弯曲的分类器。

我们可以用一个单一的数字来概括整条曲线：ROC曲线下面积（AUROC或AUC）。一个随机分类器的AUC是 $0.5$ ，而一个完美分类器的AUC是 $1.0$ 。AUC有一个优美而直观的解释：它是一个分类器给一个随机选择的正例打出的分数高于一个随机选择的负例的分数的概率。它衡量的是模型区分两个类别的纯粹能力。

良好排序背后的隐性成本

AUROC最受称赞的特性之一是它对类别流行率不敏感。因为TPR和FPR都是在每个类别内部计算的比率，所以类别的相对大小不影响ROC曲线的形状。这似乎很棒！这意味着一个模型的AUROC在患病率为1%的人群中测试和在50%的人群中测试将是相同的。

但这种优势隐藏着一个微妙的危险。虽然AUROC告诉我们模型对患者进行排序的效果如何，但在低流行率场景下，它可能会掩盖灾难性的实际性能——而这恰恰是准确率失效的场景。

让我们运用之前的直觉。精确率，这个告诉测试呈阳性的患者其实际风险的指标，严重依赖于流行率。如果一种疾病很罕见，那么健康个体的绝对数量将远远大于患病个体的数量。这意味着即使是一个极小的假阳率（一个非常大的数字的一小部分）也可能产生巨大数量的假警报，其数量可能远远超过真正例。结果呢？精确率会急剧下降。

一个模型可以有非常可观的AUROC（比如 $0.90$ ），表明它在排序方面很出色，但当部署在流行率为 $0.1\%$ 的人群中时，对于任何合理的召回率，其精确率都可能低得惊人。AUROC由于其对流行率的不敏感性，根本不会向你展示这种痛苦。

当我们真正关心在特定、不平衡环境下的性能，并且假阳性的数量是一个主要关切时，我们应该使用另一条曲线：精确率-召回率（PR）曲线。这条曲线绘制了在所有阈值下精确率与召回率的关系。在低流行率的环境中，PR曲线将揭示残酷的权衡：当你试图提高召回率（找到更多真实病例）时，你可能会看到精确率的急剧下降。对于像发现罕见基因变异或标记可疑金融交易这样的任务，这条曲线是对分类器效用更直接、更诚实的表征。

超越标签：你的概率在说真话吗？

到目前为止，我们一直专注于分类器获得正确标签的能力。但如果我们想要更多呢？如果我们还需要概率分数本身具有意义呢？例如，如果一个模型告诉医生，一个病人有 $80\%$ 的几率会发生不良事件，医生的行为将与模型说有 $20\%$ 几率时截然不同。为了让这变得有用，概率必须是可信的。

这让我们看到一个概率分类器性能的两个不同方面：

区分度：这就是我们一直在讨论的——区分不同类别的能力。一个具有良好区分度的模型会给正例比负例更高的分数。AUROC是区分度的纯粹度量。
校准度：这指的是预测概率与实际观测频率之间的一致性。如果一个模型在所有它预测结果概率为 $p=0.8$ 的情况下，该结果实际发生的频率确实是 $80\%$ ，那么这个模型就是良好校准的。

一个模型可以有出色的区分度但校准度很差。例如，一个模型可能完美地分开了所有正例和负例，但给所有正例打分 $0.6$ ，所有负例打分 $0.4$ 。它的AUROC将是完美的 $1.0$ ，但它的概率完全没有得到很好的校准（它从未以超过 $60\%$ 的确定性预测任何事情）。模型训练群体和测试群体之间疾病流行率的变化会严重损害校准度，同时保持区分度不变。

像Brier分数（预测概率与实际结果之间的均方误差）和对数损失这样的指标是严格评分规则，它们巧妙地同时评估区分度和校准度。一个模型只有在既有区分度又良好校准的情况下才能获得最高分。

终极问题：犯错的代价是什么？

我们从简单的准确率出发，一路走来，拥有了一整套复杂的评估指标工具。那么哪一个才是“最好”的呢？最终，也是最深刻的认识是，没有普遍的最佳指标。正确的选择完全取决于现实世界的背景以及模型决策的后果。

想象一个用于预测贷款违约的系统。银行可能会计算出，一个假阴性（向一个最终会违约的人发放贷款）会让他们损失 $20,000$ ，而一个假阳性（拒绝向一个本可以还款的人发放贷款）会让他们损失 $1,000$ 的利润。这些是不对称的成本。

在这种情况下，仅仅最大化像F1分数这样的通用指标可能不会带来最佳的财务结果。相反，应该使用决策理论的原则。对于每个人，我们可以根据模型预测的违约概率，计算出发放贷款与拒绝贷款的期望成本。然后我们选择期望成本较低的行动。最优的决策阈值不是那个最大化F1分数的阈值，而是那个直接最小化银行总期望成本的阈值。

这就是最终的教训。我们的指标不仅仅是抽象的数学对象；它们是我们所珍视之物的代理。选择一个指标不是一个纯粹的技术决策——它是定义我们目标的行为。我们是想最大化发现的癌症数量，最小化不必要的活检，还是平衡两者？一个假警报的经济成本是多少？至关重要的是，我们必须问：我们的模型对所有人群的表现都同样好吗？一个对行动自如的用户效果极佳但在轮椅使用者身上频繁失败的跌倒检测器，可能总体得分很高，但它编码了结构性偏见并导致了不公平的伤害。

评估一个分类器的旅程，是深入问题核心的旅程。它迫使我们超越“它是否正确？”这个简单的问题，而去问那些重要得多的问题：“它会犯什么样的错误？”，“它对风险的排序能力如何？”，“我们可以信任它的概率吗？”，以及最重要的是，“我们真正关心的是什么？”理解这些原则，才能让我们不仅能构建“准确”的机器，更能构建真正有用且负责任的机器。

应用与跨学科联系

在遍历了评估分类器的抽象原则——一个充满真与假、精确率与召回率的世界——之后，我们可能会问自己：“这一切都是为了什么？”这些指标仅仅是我们在计算机上玩的游戏中的数字，还是它们以一种深刻的方式与世界相连？答案，你会很高兴听到，是它们不仅与世界相连；它们正是我们用来理解世界、构建帮助我们的工具、以及思考我们创造物后果的语言。这正是这些思想真正美妙之处的体现。

首要问题：模型到底好不好？

想象你是一位正在寻找新药的科学家。可能的分子宇宙浩瀚无垠，如同宇宙级别的草堆。你的计算机模型，一个“对接算法”，不会对每个分子给出一个简单的“是”或“否”。相反，它给你一个分数，一个从最有希望到最没希望的排序列表。你无法测试每一个分子，所以你从列表顶部开始。关键问题是：模型是否成功地将那几根“针”——有效的候选药物——放在了这个巨大列表的顶端？

这就是我们那些与阈值无关的指标——ROC和精确率-召回率曲线——变得不可或缺的地方。通过绘制这些曲线，我们不局限于任何一个单一的截断点。我们是在同时审视模型在所有可能截断点上的性能。然后，曲线下面积（AUC）给了我们一个单一而优美的数字，总结了模型将好东西排在坏东西前面的能力。AUC为1.0意味着完美的排序；AUC为0.5意味着模型不比随机猜测好。

ROC曲线实际上向我们展示了什么？它给了我们一张分数分布之间分离情况的图片。想一个试图检测虚假产品评论的模型。一个好的模型会学会给虚假评论高分，给真实评论低分。这两组的分数会形成两个不同的“山丘”，即分布。这两个山丘分离得越开，就越容易在它们之间画一条线，AUC也就越高。如果你把这个模型应用到一个新的领域，比如说，餐厅评论而不是产品评论，你可能会发现模型会感到困惑。两个分数山丘会靠得更近，它们重叠得更多，AUC也会下降。ROC曲线本质上就是这种分离情况的视觉总结。

权衡的艺术

生活很少只关乎一个单一的数字。更多的时候，它关乎在各种权衡中航行。正如我们所见，F1分数是精确率和召回率的调和平均数。但为什么是这种特定的组合？答案在于犯错的成本。

考虑一个旨在读取电子健康记录中医生笔记并标记潜在药物不良反应的系统。它可能犯下哪些错误？

当系统将一个无害事件标记为不良反应时，就发生了假阳性。这会产生一个警报，需要医生去调查。如果这类警报太多，你就会得到“警报疲劳”——医生开始忽略警告，甚至是真实的警告。这是一种“狼来了”的错误。

当系统漏掉一个真实的不良反应时，就发生了假阴性。一个病人可能会因为一个危险的模式未被检测到而受到伤害。这是一种本该大声呼喊时却保持沉默的错误。

显然，假阴性的成本比假阳性的成本高得不成比例。在这种情况下，我们希望系统有非常高的召回率（找到所有真实病例），即使这意味着接受较低的精确率（以及更多需要医生核查的假警报）。F1分数是一个起点，但在现实世界中，我们必须根据我们问题的独特后果来权衡精确率和召回率。

这种对排序列表顶部的关注，在药物发现的虚拟筛选等领域中更为极端。面对数百万种化合物，化学家们只能负担得起合成和测试其中极小一部分——也许是前1%。在这里，一个名为富集因子（ $EF$ ）的专门指标经常被使用。 $EF_{1\%}$ 告诉你，与随机选择相比，你列表中前1%的真正“命中物”的浓度高出多少。这是一种“早期识别”的度量。美妙的是，这个特定领域的指标并非什么外来概念；它与我们已经知道的直接相关。富集因子就是在那个截断点上你所达到的精确率，除以整个数据集中命中物的总体流行率。这是另一个为特定、重要任务量身定制的普适原则的例子。

从评估到行动

好了，我们理解了权衡。但在某个时刻，必须做出决定。一位流行病学家有一个模型，可以生成一张关于寄生虫环境适宜性的连续地图。输出是一张美丽的彩色地图，红色阴影表示高风险，蓝色阴影表示低风险。但他们应该把有限的医疗用品和干预团队派往哪里？他们不能“大致”派往所有地方。他们需要画一条线，创建一个二元的风险地图：“高风险区”和“低风险区”。

这就是在ROC曲线上选择一个工作点的问题。在那条权衡曲线上，我们希望处于哪个位置？一个优雅的选择方法是找到使约登指数J最大化的点，该指数就是 $(\text{灵敏度} + \text{特异度} - 1)$ 。这个指标给予了正确识别正例（灵敏度）和正确识别负例（特异度）同等的权重。通过选择使该值最大化的阈值，流行病学家做出了一个有原则的选择，平衡了两种类型的正确性，将一个概率模型转化为一个具体的行动计划。

关于信任与可靠性的深层问题

一旦模型建立起来，一系列新的、更深层次的问题就会出现。我们测量的性能是真实的吗？它明天还会保持吗？它比旧模型更好吗？它甚至安全可用吗？我们的评估工具包也为回答这些问题提供了方法。

关于稳健性与不平衡

许多现实世界的问题都存在严重的类别不平衡。想想试图预测一个庞大电网中的故障。这些事件极其罕见。一个总是预测“无故障”的懒惰模型可以达到超过99.9%的准确率，但它将完全无用。在这种情况下，准确率就是一个谎言。

像F1分数这样的指标更好，因为它们关注稀有的正类。然而，F1完全忽略了真负例，而在电网监控系统中，这代表了绝大多数正确的决策。一个更稳健的指标是马修斯相关系数（MCC）。MCC实际上就是真实标签和预测标签之间的皮尔逊相关系数。它产生一个介于-1和+1之间的值，其中+1是完美预测，0不比随机好，-1表示完全不一致。因为它是由混淆矩阵的所有四个条目（ $TP, TN, FP, FN$ ）计算得出的，所以它被认为是最均衡和最值得信赖的指标之一，尤其是在类别不平衡时。

但指标之王AUC又如何呢？它最引人注目——近乎神奇——的特性之一是其内在的对类别不平衡的不敏感性。想象一个监控病人败血症的模型，这是一种危及生命的状况。医院里的败血症发生率可能会随季节变化（一种称为“标签漂移”的现象）。如果模型区分败血症患者数据和非败血症患者数据的潜在能力保持不变，那么即使流行率发生变化，其AUC也将保持不变。一个优雅的数学证明表明，某些常见的AUC估计量在期望上完全不受类别比例变化的影响。这种惊人的稳健性是AUC在医学等领域被广泛使用和信赖的一个关键原因。

关于不确定性与置信度

假设两家医院开发了用于从医学图像预测癌症的模型。A医院报告AUC为0.82，B医院报告AUC为0.80。A医院的模型更好吗？别那么快下结论。一个单一的数字隐藏了一个关键信息：不确定性。

如果A医院的结果是基于一个小规模研究得出的 $0.82 \pm 0.15$ ，而B医院的结果来自一个大型试验，是 $0.80 \pm 0.01$ 呢？突然间，我们的结论就反转了。B医院的模型要可靠得多。这就是为什么我们必须为我们的指标计算置信区间。这些区间为我们提供了真实性能的一个合理值范围。有许多精妙的统计工具可以做到这一点，从理论驱动的方法如用于AUC-ROC的DeLong方法（利用了该指标的数学特性），到暴力计算方法如非参数自举法，我们通过“靠自己的鞋带把自己拉起来”的方式模拟成千上万个新数据集，来估计像AUC-PR这样的指标的分布。报告一个指标而不带其置信区间，就像报告一个测量值而不带误差棒——这只是故事的一半。

关于公平比较模型

这就引出了最终的比较。我们有两个分类器，A和B，用于根据神经元的形状识别其类型。在我们的测试集上，B的F1分数比A略高。它是真的更好，还是只是在这一批特定数据上运气好？

为了回答这个问题，我们求助于统计假设检验的力量。因为两个模型都在相同的数据上进行测试，所以误差是配对的。我们可以使用像McNemar检验这样的测试，它只关注分歧之处——即一个模型正确而另一个模型错误的案例。如果在它们存在分歧的例子上，模型B正确的次数显著多于模型A，我们就能相信B是真正更优的。我们也可以对我们数据的不同子集（交叉验证折叠）上的性能得分应用配对检验，如配对 $t$ 检验，来看这种改进是否具有一致性。这些检验使我们能够为我们的结论赋予一个 $p$ 值，量化观察到的差异仅仅是侥幸的概率。这是比较模型时科学严谨性的基石。

关于隐私与社会契约

最后，我们的旅程超越了纯粹的性能，进入了技术与社会的交汇点。在医学领域，我们的模型是在敏感的病人数据上训练的。保护这些数据不仅是一项技术要求，更是一项伦理责任。最强大的保护措施之一是差分隐私（DP），它通过在过程中添加经过仔细校准的随机噪声来提供数学上的隐私保证。

但这种隐私是有代价的。向模型的分数中添加噪声不可避免地会降低其区分能力。曾经清晰分离的类别条件分数分布，随着噪声的增加开始更多地重叠。结果呢？AUROC下降了。

我们第一次直接、数学化地掌握了隐私与效用之间的权衡。差分隐私的方程式精确地告诉我们，为了达到由参数 $\epsilon$ 度量的特定隐私水平，我们必须添加多少噪声方差。然后，ROC分析的方程式精确地告诉我们，对于该数量的噪声方差，我们的AUROC将下降多少。我们现在可以提出并回答一些精确的问题，比如：“为了保证我们的罕见病检测器具有 $(\epsilon, \delta)$ -隐私，对其识别患病患者能力的影响是什么？”。这不再是一个技术问题。这是一个由数学提供信息的伦理问题。

从曲线的抽象之美到临床医学的生死抉择，再到隐私的社会契约，分类器评估的原则是一条强大而统一的线索。它们不仅仅是关于评判一个模型；它们是关于理解它、信任它并明智地使用它。