用于分类的线性回归

玻尔百科

核心要点

使用线性回归进行分类是一种简单但有缺陷的方法，因为它对异常值极为敏感，并且无法生成经校准的概率。
尽管存在实际应用中的缺陷，最小二乘分类法表现出了“双下降”现象，即在参数极度过剩的情况下，测试误差反而得到改善。
损失函数和训练算法的选择赋予了模型隐式正则化，将最小二乘法与岭回归联系起来，并将逻辑斯谛损失与最大间隔支持向量机关联起来。
分析这种“错误”的方法揭示了看似无关的概念之间深层次的联系，如降维（PCA vs. LDA）、特征缩放和算法公平性。

引言

一个为预测连续值（如线性回归）而设计的工具，能否被重新用于分类这样的排序任务？这个问题开启了一段进入机器学习中最具启发性的思想实验之一的旅程。虽然最直接的答案涉及一个简单而优雅的数学技巧，但这种方法充满了根本性的缺陷。本文探讨了使用线性回归进行分类的悖论性质，不将其视为一种推荐的技术，而是将其视为一面“扭曲的透镜”，通过它揭示现代数据科学深刻而统一的原则。

读者将首先探索该方法的核心“原理与机制”。这包括理解最小二乘分类法的机制、其在异常值和未校准输出方面的关键弱点，以及为什么像逻辑斯谛回归这样的模型通常更优越。我们还将揭示其在高维范畴下的惊人第二幕，它与双下降和隐式正则化等前沿概念相联系。随后，“应用与跨学科联系”一章将拓宽视野，利用该模型的失败之处来说明降维中的基本概念、特征缩放的重要性，甚至算法公平性的社会影响。通过将一个简单的工具推向其极限，我们对整个机器学习领域获得了更丰富的理解。

原理与机制

一个简单、朴素而又绝妙的想法

让我们从一个简单到近乎愚蠢的问题开始：我们能否用一个画线的工具——线性回归——来解决一个将事物分类到不同盒子里的问题——分类？假设你有一些数据点，分属于两个类别，比如“类别0”和“类别1”。回归旨在预测连续的数值，如温度或价格。分类则是预测一个离散的标签。这两者怎么可能互相替代呢？

最直接的方法就是假装类别标签是数字。我们可以为类别0中的每个点赋值 $y=0$ ，为类别1中的每个点赋值 $y=1$ 。现在，我们有了一组点 $(x_i, y_i)$ ，就可以让我们熟悉的朋友——线性回归——来找到最能拟合这些数据的直线（或在高维空间中的超平面）。模型形式为 $f(x) = w^{\top}x + b$ ，其中 $w$ 是权重向量， $b$ 是截距。目标是找到参数 $(w,b)$ ，以最小化预测分数 $f(x_i)$ 与数值标签 $y_i$ 之间的平方差之和。

一旦我们有了这条线，我们如何进行分类呢？一个自然而然的规则出现了：如果模型对一个新点的输出 $f(x)$ 更接近1而不是0，我们就预测为类别1。如果更接近0，我们就预测为类别0。决策边界，即完全无法抉择的点，将是分数恰好在中间的位置： $w^{\top}x + b = 0.5$ 。

或者，我们也可以将类别标记为 $-1$ 和 $+1$ 。在这种情况下，自然的决策边界是分数为零的地方： $w^{\top}x + b = 0$ 。正分意味着我们倾向于类别 $+1$ ，负分则意味着我们倾向于类别 $-1$ 。正如我们将看到的，这种设置具有一些相当优雅的属性。无论哪种情况，决策边界都是一条直线（或一个平面），即一个线性分类器。

最小二乘法的机制

这种我们可以称之为最小二乘分类法的方法，有一个直截了当的数学引擎。任务是最小化总平方误差，这个目标函数我们可以写成 $L(w,b) = \sum_{i=1}^n ((w^{\top}x_i + b) - y_i)^2$ 。利用微积分的工具，我们可以找到最小化该损失函数的精确参数 $(w,b)$ 。通过将损失函数的梯度设为零，我们得到了一组著名的线性方程组，称为正规方程。

在一个紧凑的矩阵形式中，如果我们在特征矩阵 $X$ 中增加一列全为1的向量（我们称之为 $Z$ ），并将参数堆叠成一个向量 $\theta$ ，那么正规方程就是：

Z^{\top} Z \theta = Z^{\top} y

如果矩阵 $Z^{\top} Z$ 是可逆的，我们可以直接解出 $\theta$ ：

\theta = (Z^{\top} Z)^{-1} Z^{\top} y

这给了我们一个闭式解析解。不需要迭代搜索；这是一次性的计算。如果 $Z^{\top} Z$ 不可逆（当某些特征是冗余的时可能发生），解仍然存在，并且可以使用Moore-Penrose伪逆找到，这会给出具有最小可能范数的解。

所以，我们有了一个简单的方法，并且它有一个优雅、精确的解。故事本应到此结束，对吗？简单性的胜利！但大自然，正如她经常做的那样，准备了一些惊喜。当我们仔细观察时，会发现这个简单的想法有一些深刻且富有启发性的缺陷。

当善意走向歧途：异常值的暴政

最小二乘回归最大的优点——其数学上的简单性——源于它的损失函数：平方误差和。但这也是它最大的弱点。通过对误差进行平方，我们赋予了那些远离回归线的点巨大的权力。一个距离直线两倍远的点会贡献四倍的误差。一个十倍远的点会贡献一百倍的误差。模型变得痴迷于安抚这些遥远而苛刻的点。

现在，在我们的分类情境中想象一下。假设我们有一组表现良好、分离清晰的数据点。我们的最小二乘分类器找到了一个非常合理的边界。然后，一个新点出现了。它离其他数据很远（一个“高杠杆”点），并且由于某种错误，它被赋予了错误的标签。例如，假设我们的初始数据表明一条斜率为 $+1$ 的线。新点位于 $x=10$ 处，所以模型会期望 $y \approx 10$ 。但如果它被错误地标记为 $y=-10$ 呢？

这一个点的平方误差是巨大的。为了减少这个巨大的惩罚，最小二乘法会做出一些 drastic 的事情：它会倾斜整条线，牺牲在所有其他点上的良好拟合，只为了更接近这一个麻烦的异常值。一个斜率为 $+1$ 的完美分类器，可能会因为一个被错误标记的高杠杆点，而被猛烈地倾斜到斜率接近 $-1$ 。

这种极端的敏感性使得最小二乘分类成为一种脆弱且不可靠的方法。它缺乏鲁棒性。这就像一个政治体系，谁喊得最大声，谁就得到所有的关注。其他方法，如逻辑斯谛回归，使用更温和的损失函数，不会对异常值如此恐慌。鲁棒回归方法甚至使用“下降”损失函数，如Tukey的双权损失，其中一旦点的误差变得过大，其影响实际上会减小并最终降至零。模型实质上学会了忽略那些与数据其余部分病态不一致的点。[@problem_d:3169363]

“分数”意味着什么？对校准概率的追求

第二个更微妙的问题出现了。我们的最小二乘分类器的输出 $f(x)$ 只是一个原始分数。我们决定使用 $0.5$ 作为阈值，但一个 $0.7$ 的分数与 $0.9$ 的分数有实质性区别吗？它是否意味着这个点有 $70\%$ 的概率属于类别1？完全不是。这些分数不是校准的概率。

这时，逻辑斯谛回归作为主角登场。逻辑斯谛回归不是直接将一条线拟合到0/1标签上，而是对属于某个类别的概率进行建模。它是一个判别模型；它不对数据 $X$ 的分布做任何假设，这与像线性判别分析（LDA）这样的生成模型不同，后者假设每个类别中的数据来自高斯分布。

逻辑斯谛回归提出，属于类别1的几率的对数是 $x$ 的线性函数：

\ln\left(\frac{P(Y=1|x)}{1-P(Y=1|x)}\right) = w^{\top}x+b

通过解出概率 $P(Y=1|x)$ ，我们得到了著名的S形函数（sigmoid function）， $\sigma(w^{\top}x+b)$ 。这个公式的美妙之处在于其输出总是在0和1之间，并且当通过最大化数据的似然性进行适当训练时，它产生一个概率校准的模型。这意味着预测概率为 $0.8$ 可以解释为有 $80\%$ 的置信度认为该点属于类别1。这比最小二乘法得到的任意分数是一个更有用、更可解释的输出。

当我们考虑如何评估我们的模型时，概率输出的优越性变得更加清晰。像准确率这样的简单指标可能具有危险的误导性，尤其是在类别不平衡的情况下。如果一种疾病只影响 $1\%$ 的人口，一个总是预测“健康”的平凡分类器将有 $99\%$ 的准确率，但它完全无用，因为它对病患的召回率为零。这就是准确度悖论。一个概率分类器允许我们使用更细致的评估指标，如Brier分数或ROC/PR曲线下面积，这些指标评估概率本身的质量，而不仅仅是最终的硬分类结果。

有趣的是，拟合逻辑斯谛回归模型的机制，看起来与最小二乘法如此不同，实际上是秘密相连的。最常见的算法，迭代重加权最小二乘法（IRLS），通过求解一系列加权最小二乘问题来求解逻辑斯谛回归的参数，其中的权重是根据模型自身在每一步的方差巧妙地导出的。

过拟合悖论：当更多变得更好

到目前为止，这个故事似乎是一个警世寓言：不要用回归来做分类。但现代机器学习告诉我们，这个简单的想法有一个令人惊讶和深刻的第二幕。这发生在我们进入高维度的奇异世界时，其中特征数量 $p$ 远大于数据点数量 $n$ （ $p \gg n$ ）。

在这种“过参数化”状态下，我们从经典统计学中得出的直觉会失效。当维度多于数据点时，线性模型有如此多的自由度，以至于它可以完美地拟合任何一组标签。以概率1，你可以找到一个权重向量 $w$ ，为每个训练点产生完全期望的输出（ $Xw = y$ ）。这是维度灾难的一种表现。这似乎是过拟合的终极配方——模型只是记住了训练数据。

通过这种方式实现最小可能参数范数 $\|w\|_2$ 的模型被称为最小范数插值器。经典理论会预测，这样一个通过蛮力实现零训练误差的模型，在推广到新数据时会表现得非常糟糕。事实上，随着特征数量 $p$ 接近样本数量 $n$ ，测试误差会趋向无穷大。

但神奇的事情发生了。当我们继续增加特征，将 $p$ 推到远超 $n$ 的程度时，测试误差在达到峰值后，又开始下降了！这种现象被称为双下降。事实证明，在极度过参数化的状态下，并非所有完美的解决方案都是生而平等的。

算法的隐藏智慧

谜题的最后一块不在于模型，而在于我们用来训练它的算法。从零权重开始的简单梯度下降算法，有一个隐藏的偏好。它不只是找到任何拟合数据的解；它隐式地引导模型走向一种非常特殊的解，一种具有卓越属性的解。

当我们对平方误差损失（我们最初的最小二乘分类器）使用梯度下降时，提前停止训练过程的效果等同于 $\ell_2$ （岭）正则化。它优先学习数据中的“简单”模式（与数据矩阵的大奇异值相关），并收缩对应于更复杂、更嘈杂模式的分量。提前停止充当了防止过拟合的内置防御机制。
当我们对逻辑斯谛损失使用梯度下降时，会发生更令人惊讶的事情。随着算法的运行，权重向量的范数 $\|w\|$ 趋向于无穷大。但权重向量的方向会收敛到一个硬间隔支持向量机（SVM）的唯一解！该算法隐式地寻找与两个类别的数据点具有最大可能几何间隔的决策边界。

所以，我们用来寻找解决方案的算法本身就赋予了一种隐式正则化，一种隐藏的智慧，它引导过参数化的模型走向一个泛化良好的解决方案。损失函数的选择——平方误差与逻辑斯谛损失——在这种隐式偏好上烙下了根本不同的烙印。

从一个简单、朴素的想法——用回归做分类——开始，我们经历了一场穿越现代机器学习核心原则的旅程。我们发现了它的缺陷——对异常值的敏感性和缺乏概率基础——这让我们欣赏到逻辑斯谛回归的优雅。但随后，在高维世界中，我们发现这个简单的想法，当与一个简单的算法配对时，蕴含着隐藏的深度，连接到正则化、最大间隔分类器，以及双下降现象这个令人惊讶的前沿领域。事实证明，这个“有缺陷的”方法一直是一位出色的老师。

应用与跨学科联系

现在我们已经探索了使用线性回归进行分类的机制，你可能会留下一个挥之不去的问题。我们已经看到它是一个有点笨拙的工具，理论上有缺陷，并且常常被那些真正为分类任务设计的模型所超越。那么，我们为什么要费这个劲呢？为什么要把时间花在一个乍一看似乎是“错误”使用工具的想法上呢？

答案，也是这段旅程如此有价值的原因，是当我们把一个简单的工具推向其预期用途之外时，我们会发现一片令人叹为观止的联系景观。我们开始看到那些深刻、统一的原则，它们将统计学、机器学习甚至社会科学等看似迥异的领域联系在一起。研究线性回归作为分类器的失败和怪癖，就像使用一个扭曲的镜头；它揭示了数据世界中隐藏的光路和基本结构，而一个完美的镜头只会聚焦而不多言。在本章中，我们将开始探索这些联系、应用和后果。

方枘圆凿：为何拟合常常不适

让我们首先面对显而易见的问题。线性模型画出的是一条直线（或在高维空间中的一个平面）。而分类任务需要画出一条边界，这条边界可能是弯曲的、扭曲的，甚至是断成几块的。当我们需要画的边界根本就不是一条直线时，会发生什么？

考虑著名的“异或”（XOR）问题。想象一个数据集，其中如果特征 $x_1$ 值高或特征 $x_2$ 值高，但不是两者都高，则标签为“真”。这会形成一个棋盘格状的类别分布。一条直线完全无力分离这些类别；无论你怎么画，你总会犯下大量的错误。而像决策树这样的灵活模型可以轻松解决这个问题，只需做两个简单的、与坐标轴平行的切割，就能有效地隔离出这些区域。这是最根本的限制：线性模型仅适用于类别实际上是线性可分的情况。

但这种不适感比几何学本身更深。它触及了我们如何衡量“成功”的核心。在回归中，我们通常使用像 $R^2$ （“解释的方差比例”）这样的指标来衡量我们的线对数据的拟合程度。目标是最小化我们的预测值与真实值之间的平方距离。但对于一个二元的、是/否的结果，“方差”这个词到底意味着什么？

如果我们将线性回归直接应用于一个二元的 $\{0, 1\}$ 目标——这种设置被称为线性概率模型（LPM）——我们常常会发现自己处于一种奇怪的境地。计算出的 $R^2$ 可能非常低，比如说 $0.01$ ，这表明拟合得很差。然而，如果我们使用模型的输出来进行分类，准确率可能相当可观。这是因为 $R^2$ 回答的是一个错误的问题。它告诉我们，我们在预测 $0$ 和 $1$ 的精确值方面做得不好，而这本身就是一个奇怪的目标。一个合适的分类模型，比如逻辑斯谛回归，是使用似然性来优化的，这是衡量模型预测的概率对观察到的结果解释得有多好的一种度量——这对于问题本身来说是一个自然得多的拟合。将LPM得到的微不足道的调整后 $R^2$ 与在相同数据上从逻辑斯谛回归得到的更有意义的伪 $R^2$ 进行比较，常常会揭示回归框架根本就是在衡量错误的东西。

这导致了最后一个关键问题：LPM的输出不是概率。一条直线可以轻易地超过 $1$ 或低于 $0$ 。预测的“概率”为 $1.3$ 或 $-0.2$ 到底意味着什么？它们未经校准且毫无意义。相比之下，一个校准良好的分类器提供的输出可以被信任为真实的概率：如果它预测有70%的降雨概率，那么在它做出该预测的日子里，大约应该有70%的日子会下雨。像期望校准误差（ECE）这样的指标就是为了衡量这种可信度而设计的，而在这方面，为分类构建的模型表现出色，而LPM通常会失败。

以无监督之眼看有监督世界

回归与分类之间的不匹配可以通过一个涉及降维——简化复杂数据的艺术——的美丽类比来理解。想象一下你有很多特征的数据，你想把它减少到仅仅一两个维度，以便更容易处理。

其中一个最著名的工具是主成分分析（PCA）。PCA在其灵魂深处是一个具有回归思维的算法。它审视数据点的云团，并提问：“这个云团在哪个方向上变化最大？”它找到最大方差的轴，并将数据投影到这些轴上。这通常正是你在回归任务中所想要的，因为高方差的方向往往是包含最多关于结果信息的方向。

但对于分类呢？分类的目标不是解释方差；而是找到组与组之间的分离。如果区分两个类别的关键信息位于一个方差非常低的方向上呢？PCA，以其无监督的、回归思维的眼睛，会将这个方向视为不重要的“噪声”并丢弃它。这就像试图在一个嘈杂的房间里只听最响亮的声音来寻找一段低语的对话——你将完全错过信号。

相比之下，像线性判别分析（LDA）这样的有监督工具，则具有分类思维。它明确地寻找能够最好地分离类别均值，同时最小化每个类别内部方差的方向。它不关心这个方向在总方差方面是“响亮”还是“安静”；它只关心它是否具有判别力。

这个强有力的对比为我们的主要话题提供了一个完美的寓言。将线性回归用于分类，就像将PCA用于面向分类的降维。它将一个回归目标——最小化平方误差，一个类似方差的量——强加于一个其真正目标是类别分离的问题上。有时这会因为巧合而奏效，但当变化的方向与分离的方向分道扬镳时，这种方法可能会惨败。

回响与类比：统一的原则

在这里，我们的旅程从批评转向欣赏。通过比较回归和分类的数学原理，我们发现了深刻的相似之处，揭示了统计建模世界中的深层统一性。

考虑模型“置信度”的概念。在多类别分类模型中，我们可能有一个“温度”参数 $\tau$ 。当 $\tau$ 较低时，模型预测的概率会变得非常尖锐和“自信”（例如，一个类别99%，其他类别为极小的分数）。当 $\tau$ 较高时，概率会变得平滑和“不确定”，更接近于均匀猜测。降低温度会使损失函数的景观更陡峭、更弯曲，这可能使优化变得更棘手。

在线性回归中是否有此回响？令人惊讶的是，是的。在回归的概率视角中，我们通常假设数据点围绕着真实的线散布，并带有某个方差为 $\sigma^2$ 的高斯（正态）噪声。这个 $\sigma^2$ 是我们对数据不确定性的度量。如果 $\sigma^2$ 很小，我们相信数据非常精确，紧靠着线。如果 $\sigma^2$ 很大，我们相信数据是嘈杂的。

美妙的联系在于：分类中 $1/\tau$ 的角色在数学上类似于回归中 $1/\sigma^2$ 的角色。在回归中减小噪声方差 $\sigma^2$ 就像在分类中降低温度 $\tau$ 一样。这两个动作都表示对数据有更高的置信度，并且两者都对增加损失函数的曲率有完全相同的效果。这不仅仅是巧合；这是一个迹象，表明在置信度、不确定性和优化难度之间的基本权衡，在这些不同领域是共通的。

当我们考虑重加权样本时，出现了另一个迷人的平行。

在回归中，如果我们有异方差数据——即一些数据点比其他数据点更嘈杂（方差更高）——我们可以使用一种称为加权最小二乘法（WLS）的技术。WLS给予那些嘈杂、不可靠的点更少的权重，以获得对回归线更有效和精确的估计。
现在考虑一个不同的问题。在一次分类调查中，某些人口群体可能不太可能回应，导致数据缺失。为了获得对全人口趋势的无偏估计，我们可以使用逆倾向加权（IPW），它给予来自代表性不足群体的已观察个体更多的权重，以纠正由非随机缺失造成的偏差。

在这两种情况下，我们都在对数据点进行重加权。但逻辑是相反的。WLS降低不可靠点的权重以提高精度。IPW增加观察不足点的权重以提高准确性（减少偏差）。这种比较突显了回归（估计效率）和与分类相关的人口推断（偏差校正）在目标上的微妙但关键的差异。

从理论到实践：现实世界的纠葛

我们讨论过的概念性联系具有非常真实的实际后果。考虑一下特征缩放这个平凡的任务。在将特征输入模型之前，你是否应该将它们标准化为零均值和单位方差？

答案完全取决于模型。对于决策树来说，它只关心一个特征内值的排序，所以缩放是无关紧要的。但对于许多线性模型来说，这绝对是至关重要的。一个未正则化的线性或逻辑斯谛回归，或许令人惊讶地，对缩放是免疫的。模型可以简单地调整其系数来完美补偿。然而，一旦我们引入正则化——一种通过惩罚大系数值来防止过拟合的重要技术——缩放就变得至关重要。

一个标准的 $\ell_2$ 惩罚项， $\lambda \sum w_j^2$ ，同等对待所有系数 $w_j$ 。但是，如果特征 $X_1$ 以米为单位（范围从0到1000），而特征 $X_2$ 是一个0/1指示变量，那么为了产生相当的效果， $X_1$ 的任何系数自然会比 $X_2$ 的系数小得多。正则化项，对这一事实视而不见，会不公平地惩罚模型使用特征 $X_2$ 。标准化特征将它们置于一个公平的竞争环境中，让正则化能够正确地发挥其作用。这同样适用于正则化线性回归和其他流行的线性分类器，如支持向量机（SVM）。

最后，让我们重新审视概率输出的想法。虽然简单的LPM无法产生有效的概率，但更复杂的回归框架可以。例如，一个贝叶斯线性回归模型，它不仅输出一个单一的预测；它可以输出一个完整的预测分布。这个分布不仅告诉我们最可能的结果，还告诉我们所有可能性的范围以及我们对此的不确定性。这是极其强大的。在像医疗诊断或金融这样的领域，错误的成本是不对称的。一个假阴性（漏诊）可能比一个假阳性（不必要的复查）灾难性得多。通过使用一个量化不确定性的回归框架，我们可以超越简单的分类，进入基于风险的决策领域，在那里我们可以根据潜在的错误成本而不仅仅是预测结果来设定决策阈值。

更广阔的视角：社会影响

我们的旅程结束于一个似乎远离线条和平面数学的地方：伦理和公平的领域。我们建立的模型不是抽象的实体；它们越来越多地被用于做出关于人们生活的高风险决策——在招聘、贷款申请和刑事司法中。

当我们把一个简单的线性模型应用于一个存在历史偏见的社会数据时会发生什么？假设我们的特征——比如说，收入和信用历史——的统计属性由于系统性的不平等而在不同的人口群体中具有不同的分布。一个线性模型，作为一个纯粹的数学生物，会根据汇集的数据学习一个决策边界。因为输入分布不同，模型的预测 $\hat{Y}$ 几乎肯定不会独立于敏感的群体属性 $A$ 。例如，模型可能对两个群体有不同的正预测率， $P(\hat{Y}=1 | A=0) \neq P(\hat{Y}=1 | A=1)$ ，这违反了一个被称为人口均等的公平标准。

这不是算法的恶意行为；这是其对输入统计数据敏感性的直接数学后果。算法公平性领域正努力应对这一挑战。一个提议的策略涉及对数据本身进行预处理，在模型看到数据之前应用变换以对齐不同群体的特征分布。其目标是创建一个数据的“更公平”表示，在这种表示中，下游的分类器不太可能延续或放大现有的社会偏见。

这让我们回到了原点。我们对使用线性回归进行分类这个看似简单、“错误”的想法的探索，将我们从几何学和度量标准带到了不同模型家族之间深刻的结构类比，并最终引向了我们这个时代一些最紧迫的伦理问题。它教会我们，最深刻的教训往往不是在我们的工具完美工作时学到的，而是在我们将它们推向极限并仔细研究它们如何以及为何会失效时学到的。