分类与回归：原理、机制及应用

玻尔百科

定义

分类与回归：原理、机制及应用是机器学习中的核心框架，其中分类用于预测离散类别，而回归用于预测连续数值。这些方法通过交叉熵或平方误差等损失函数来定义数学学习目标，并可应用于决策树、k-最近邻和随机森林等模型。通过利用集成学习和多任务学习等机制，这些原理能够有效应对复杂的数据挑战并提升各科学领域的预测性能。

核心要点

分类预测离散类别（例如，金属或绝缘体），而回归预测连续数值（例如，带隙值）。
损失函数的选择，如用于回归的平方误差或用于分类的交叉熵，从数学上定义了模型的学习目标。
像决策树和 k-近邻这样的简单模型既可以执行分类也可以执行回归，区别仅在于它们的预测机制（多数投票与平均值）。
像随机森林这样的集成方法通过平均多个不同模型的输出来提高预测性能，从而有效降低方差。
现实世界的挑战通常需要通过多任务学习来融合任务，或使用删失回归等技术来处理不完美的数据。

引言

在广阔的机器学习领域，能否从数据中提取有意义的洞见，取决于我们是否提出了正确的问题。所有监督学习问题都从一个关键的区别分叉而出：我们是试图预测一个类别还是一个数量？这个选择将该领域划分为两个最基本的范畴：分类与回归。误解这一差异或误用相应的方法可能导致模型缺陷和结论错误，因此，这一区别是任何数据科学家首先必须掌握的最重要的概念。

本文对分类和回归进行了从基础理论到实际应用的全面探讨。我们将阐明定义这些任务并支配模型学习方式的核心原理。在接下来的章节中，我们将首先深入探讨“原理与机制”，正式定义分类和回归，探索指导它们的损失函数以及执行这些任务的核心算法——如决策树和 k-近邻。然后，在“应用与跨学科联系”部分，我们将遍览不同的科学领域，看这些方法如何被用来解决现实世界的问题，从设计新药到诊断疾病，揭示这个简单而强大的选择所带来的深远影响。

原理与机制

在机器学习乃至众多科学领域的核心，在于提出正确问题的艺术。宇宙中充满了数据，从奇异晶体的电子特性到医院病人的生命体征。学习算法本质上是我们设计的一种机制，用以筛选这些数据并学习我们所提问题的答案。这个问题的性质从根本上将监督学习的世界划分为两大领域：分类（classification）与回归（regression）。

两类问题的传说：类别还是数量？

想象你是一位材料科学家，拥有一个包含大量新合成化合物的庞大数据库。你手头有每种化合物的一系列特征——化学式、晶格几何形状等等。现在，你可以提出两种截然不同的问题。

首先，你可能会问：“根据其特征，这种新材料是金属、半导体还是绝缘体？”在这里，你要求机器将材料放入几个预定义的类别或类（classes）中。这就是分类的本质。输出是一个标签，一个类别。答案可能是“半导体”，而不能是“有点像半导体”。它是在一组离散可能性中的一个选择。

或者，你也可以问：“这种新材料的精确电学带隙是多少，单位是电子伏特？”现在，你要求的是一个数字。答案可能是 $2.7$ eV，或 $2.718$ eV，或某个连续范围内的任何值。你要求的是一个数量，而不是一个类别。这就是回归的世界。

这个单一的区别——预测类别与预测数量——是监督学习中最重要的组织原则。为其中一个任务构建的模型通常不适用于另一个，这并非因为某些微小的技术细节，而是因为其目标的本质就不同。一个预测术后并发症是“胆漏”、“出血”还是“无”的外科AI是在进行分类。而一个估算同一次手术中失血量（以毫升为单位的连续值）的AI则是在进行回归。

科学的记分卡：何为“好”的预测？

机器如何学会“出色地”完成其任务？我们必须给它一张记分卡——一种衡量其误差的方法。在机器学习中，这张记分卡被称为损失函数（loss function）。整个学习过程就是试图将这个函数上的得分降到尽可能低。其精妙之处在于，损失函数的选择并非任意；它精确地体现了我们所认为的“好”的预测是什么。

对于回归，一个自然的选择是平方误差损失（squared error loss）， $L(y, \hat{y}) = (y - \hat{y})^2$ ，其中 $y$ 是真实值， $\hat{y}$ 是模型的预测值。这个简单的公式有一个非常直观的特性：它对大错误的惩罚远超小错误。偏差10个单位比偏差1个单位要糟糕100倍。一个训练来最小化此损失的模型，对于任何给定的输入 $X$ ，会倾向于预测该输入下 $Y$ 的平均值——我们称之为条件期望（conditional expectation）， $E[Y \mid X]$ 。这通常正是我们想要的。一个预测失血量并最小化平方误差的模型，实际上总是在尝试猜测它在类似情况下见过的平均失血量。

但如果平均值具有误导性呢？考虑预测病人的住院天数。大多数病人可能住院3-5天，但少数病人可能会有严重并发症并住院100天。这些极端离群值会把平均值拉得很高。基于平均值的预测对大多数病人来说可能持续偏高。在这种情况下，我们可能更关心中位数——即50%的病人住院时间更长，50%的病人住院时间更短的值。要让我们的模型预测中位数，我们只需更换记分卡。我们可以使用绝对误差（absolute error）， $L(y, \hat{y}) = |y - \hat{y}|$ ，来代替平方误差。更进一步，我们可以使用分位数损失（pinball loss）函数，让模型以我们期望的任何分位数（例如，第75百分位数）为目标。这揭示了一个深刻的统一性：损失函数不仅仅是一种惩罚；它是一个工具，用以精确定义我们希望模型从数据中学习何种统计特性。

对于分类，最简单的记分卡是0-1损失（0-1 loss）：答对得0分，答错得1分。试图最小化此损失的模型将只会学习预测给定输入下最常见的类别——即多数类（majority class）。这虽然可行，但通常并不令人满意。医生不仅想知道肿瘤是“恶性”还是“良性”；他们想知道其为恶性的概率。我们需要一个损失函数，它不仅奖励模型答对，还奖励其有信心地答对（并惩罚其有信心地答错）。这就是交叉熵损失（cross-entropy loss）的作用。它直接源于最大似然原理，本质上衡量的是模型对真实答案的“惊讶”程度。一个为正确类别分配 $0.9$ 概率的模型会得到一个非常低（好）的分数，而一个分配 $0.1$ 概率的模型会得到一个非常高（差）的分数。这促使模型产生校准过的概率，这对于做出真实世界的决策至关重要。

简单的机器，强大的思想

定义了目标之后，我们就可以开始构建机器本身了。令人惊讶的是，一些最强大的思想植根于非常简单、直观的结构中。

决策树：伟大的划分器

想象一下与你的数据玩“20个问题”的游戏。这就是一棵决策树（decision tree）。在每一步，树都会针对单个特征提出一个简单的“是/否”问题——例如，“患者年龄是否大于65岁？”或“胆固醇水平是否低于200？”这个过程递归地分割数据，将每个数据点引导至一条路径，直到它落入一个最终的桶中，即叶节点（leaf node）。

使这个简单结构如此通用的是，同一个框架可以用于分类和回归。唯一改变的是在叶节点中做出的预测以及提问的策略。

在回归树中，对新数据点的预测就是所有落入同一叶节点的训练数据点结果的平均值。选择问题的标准是使每个后续组内的结果尽可能相似——也就是最小化方差。
在分类树中，预测是该叶节点中训练点的最常见类别（多数投票）。选择问题的标准是使叶节点尽可能“纯粹”，即由单一类别主导。这不是通过方差来衡量，而是通过不纯度（impurity）指标，如基尼指数（Gini index）或熵（entropy）。

K-近邻：物以类聚

另一个极其简单的算法是k-近邻（k-NN）。其原理我们在日常生活中也会使用：“物以类聚，人以群分”。为了对一个新的数据点进行预测，算法只需在训练集中寻找 $k$ 个最相似的数据点（即“最近的邻居”），然后让它们投票。

同样，这个原理也适用于两种任务。要预测患者未来的肌酐水平（回归），你可以找到数据库中 $k=5$ 个最相似的患者，并计算他们肌酐水平的平均值。要预测患者是否会发生不良事件（分类），你可以找到相同的5名患者，看看哪种结果在他们中更常见。最终的预测是多数投票的结果。其核心思想是局部近似：我们假设在一个足够小的邻域内，答案不会有太大变化。一个卓越的理论结果，即普适一致性，表明在非常普遍的条件下，随着我们的数据集无限增大并且我们巧妙地选择邻居数量 $k$ ，k-NN的预测将收敛到所有可能预测中最好的那个。

森林的智慧：从单棵树到随机森林

单棵决策树透明且易于理解，但它有一个关键弱点：不稳定。训练数据中一个微小、几乎无关紧要的变化，就可能导致在第一个分裂点提出不同的问题，从而产生一个完全不同的树结构。这使得单棵树成为高方差、低偏差的学习器：它们足够灵活以很好地拟合数据（低偏差），但它们的预测可能因样本的不同而剧烈波动（高方差）。

我们如何驯服这种方差？我们可以利用“群众的智慧”。我们不依赖于一个专家（单棵树），而是建立一个由多个专家组成的委员会，并对他们的意见取平均。这就是自助汇聚法（bootstrap aggregation），或称bagging。我们通过从原始数据中有放回地抽样（这就是“自助”的部分）来创建数百个不同的训练数据集。每个新数据集都略有不同，但仍能代表整体。然后，我们在每个数据集上训练一棵深的、不稳定的树。为了做出最终预测，我们只需将所有树的预测取平均（对于回归）或进行多数投票（对于分类）。这个平均过程极大地平滑了单棵树的剧烈波动，从而在不损害偏差的情况下降低了方差。

随机森林（Random Forests）引入了另一个巧妙的转折。为了使我们委员会中的树彼此之间更加不同，我们增加了另一层随机性。在构建每棵树时，在每个分裂点，我们只允许树考虑可用特征的一个小的随机子集。这可以防止所有的树都锁定在一两个“超级预测性”的特征上。它迫使它们探索不同、更多样化的策略来解决问题。这降低了树之间的相关性，正如集成方法的数学原理所示，对相关性较低的专家进行平均会产生一个更好的最终预测。

当世界碰撞：真实世界预测的细微差别

虽然分类和回归之间的区别是根本性的，但现实世界常常给我们带来更复杂的场景，这些场景模糊了界限，并考验着我们的理解。

例如，如果我们把一个回归问题强行塞进一个分类的盒子里，会发生什么？假设我们不预测一个人的确切血压（一个连续的数字），而是创建三个类别：“低”、“正常”和“高”。这个过程，称为分箱（binning）或离散化，似乎简化了问题。但天下没有免费的午餐。通过丢弃精确的数值信息，我们失去了一些东西。我们可以将其形式化：对数据进行分箱后我们能做出的最佳预测，其均方误差总是会高于原始回归问题的最佳预测。这种误差的增加是我们丢弃信息所付出的代价。在某些情况下，这种权衡可能是可以接受的，但关键是要明白我们做出了选择并付出了代价。

当我们必须同时解决多个问题时，复杂性会增加。一个现代的临床AI可能被要求使用单一的、统一的模型，根据相同的数据预测患者的死亡率（分类）、30天内再入院风险（分类）和住院天数（回归）。这就是多任务学习（multi-task learning）。一个新挑战立即出现：你如何平衡不同的记分卡？住院天数的平方误差（以天数的平方为单位）可能是一个数千的数字，而死亡率的交叉熵（一个基于概率的指标）则是一个介于0和比如说2之间的数字。如果我们只是将这些损失加在一起，回归任务的“声音”将比分类任务大数千倍。模型的学习过程将完全被试图减少住院天数误差所主导，实际上忽略了生死攸关的死亡率预测。这迫使我们开发更复杂的策略，比如仔细加权损失、标准化目标，甚至让模型根据其对每个预测的置信度自行学习如何平衡任务的优先级。

从一个在类别和数量之间的简单选择，我们看到了一个丰富而优美的结构出现。通过损失函数定义目标，通过将简单、直观的模型组合成强大的集成，我们可以构建能够驾驭世界复杂性的机器，无论是发现新材料、支持临床决策，还是在增强现实显示中分割复杂的解剖结构。原理虽少，其应用却无穷。

提问的艺术：分类与回归的应用

在宏伟的科学事业中，我们的进步常常以我们找到的答案来衡量。但真正的艺术或许在于我们学会提出的问题。当我们转向浩瀚而沉默的数据宇宙时，有两个问题因其力量和频率而卓然独立：“是哪一种？”和“有多少？”。第一个是分类问题。它要求我们将某物归入一个类别，给它一个名称：这颗恒星是红巨星还是白矮星？这个细胞是癌细胞还是健康细胞？第二个是回归问题。它要求一个数量，一个度量：那个星系有多远？这个化学反应的温度是多少？

这个看似简单的区别——在标签和数字之间的选择——是所有数据科学中最深刻的组织原则之一。它塑造了我们看待世界的方式、我们构建工具的方法，以及我们能够提取的知识的本质。在我们探索了原理和机制之后，我们已经构建了我们的工具箱。现在，让我们踏上一次穿越科学与工程领域的旅程，见证这些工具的实际应用。我们将看到这一个根本性的选择如何从分子的微观领域回响到生态系统的宏观尺度，揭示出科学探究的美妙统一性。

从分子到地貌：定义世界

让我们从分子尺度开始我们的旅程，进入一位试图设计一种新的救命药物的药物化学家的世界。任何口服药物的一个关键特性是其溶解度；它必须在肠道中溶解才能被吸收到血液中。这位化学家可能会问两个相关但不同的问题。首先，为了快速筛选数千种候选分子，他们可能会问一个简单的分类问题：“这个分子可能‘高溶解度’还是‘低溶解度’？”这是一个“是/否”或“通过/不通过”的决定。之后，对于最有希望的候选分子，一个更细致的回归问题变得至关重要：“这个分子的确切溶解度是多少，以摩尔/升为单位？”预测一个类别是分类任务；预测一个连续值是回归。在该领域的语言中，这些将分子结构与其性质联系起来的模型被称为定量构效关系（Quantitative Structure-Property Relationships, QSPRs）。问题的选择决定了模型的输出和用途，指导着从化学蓝图到有效药物的漫长道路。

现在，让我们从分子尺度放大到整个地貌的尺度，通过卫星的眼睛来观察。一位生态学家想要创建一张区域地图，标记每一块土地：“这是森林、草地还是水体？”这是一个经典的分类问题。一个简单的方法是根据每个像素的颜色，或者更准确地说，是其光谱特征来进行分类。但大自然往往更为微妙。如果一个稀疏、干燥的森林与一片茂盛的草地具有相同的平均绿棕色怎么办？一个逐像素的分类器将会无所适从。

在这里，我们必须提出一个更复杂的问题。我们必须教我们的机器不仅要看颜色，还要看纹理。茂密的森林冠层具有平滑、缓慢变化的纹理，而草地则更“粗糙”或呈斑块状。通过设计能够衡量这种空间模式——即一个像素的值如何与其邻居的值相关——的特征，我们可以构建一个远为强大的分类器。这些纹理度量，如半变异函数或灰度共生矩阵的统计数据，量化了空间相关性的概念。它们将像素的空间排列转化为我们分类器可以使用的一组新数字。通过这种方式，我们可以区分两个在平均值上相同但在结构上不同的区域。这个简单的问题，“这是森林还是草地？”，引导我们走向二阶属性这一深邃的统计概念，使我们能够基于模式和结构进行辨别，而不仅仅是简单的平均值。

人类领域：健康、疾病与时间

在研究人类健康时，“哪一种”和“有多少”这两个问题显得尤为深刻。考虑一位肝硬化患者，这是一种健康组织被疤痕组织取代的病症。在接受新疗法后，他的医生想知道：“治疗有效吗？肝硬化在好转吗？”这听起来像一个简单的问题，但在临床试验中，必须以绝对的严谨来回答。研究人员可能会定义一个“复合缓解”分类：只有当患者在多个不同测量指标上都显示出显著改善时，才被宣布为“响应者”。例如，纤维组织的数量必须减少至少 $0.2$ ，肝脏的硬度（通过超声测量）必须下降至少 $0.15$ ，门静脉的压力必须降低至少 $0.2$ 。这些中的每一个都是连续的测量值——一个回归目标——但最终的临床判断是一个分类，一个基于一套严格规则分配的标签。这是一个美丽的例子，说明我们如何结合定量测量来回答一个定性但改变生活的问题。

时间维度增添了另一层复杂性和力量。我们不断地对未来提出问题。对于金融分析师来说，分类问题是“明天股市会涨还是会跌？”，而回归问题是“它究竟会变动多少？”。在医学领域，这些关于时间的问题具有重大的意义。对于有患神经退行性疾病风险的患者，我们可能会根据复杂的网络扫描构建一个他们大脑的精密模型。从这一个模型中，我们可以同时提出一整套问题：

分类：这个人目前是否患有该疾病？( $y_i \in \{0,1\}$ )
回归：他们在认知测试上的当前得分是多少？( $s_i \in \mathbb{R}$ )
生存分析：在未来几年内，他们转化为更严重疾病阶段的风险是多少？

最后一个问题特别有趣。生存分析是一项混合任务；它不仅试图预测事件是否会发生，还试图预测何时发生。它优雅地将分类的逻辑（事件发生或不发生）与回归的逻辑（到事件发生的时间是一个连续量）结合起来，同时小心地处理那些我们在研究结束前就失访的案例。通过训练一个单一、强大的图神经网络来同时回答这三个问题，我们得到了对患者状况的一个整体、多方面的视图，远比任何单一预测都丰富得多。

构建引擎：当任务交汇时

现代人工智能最激动人心的前沿往往在于分类和回归不是独立的选择，而是一个单一、集成系统中的合作伙伴。这就是多任务学习的世界。

想象一个为协助放射科医生解读胸部CT扫描而构建的AI。它的工作是发现潜在的癌性肺结节。为此，系统必须为它找到的每个可疑区域执行两项任务。首先是一个分类任务：“这个区域是结节，还是仅仅是良性结构或成像噪声？”其次是一个回归任务：“如果它是一个结节，其边界框的精确坐标是什么？”第一个问题是关于身份；第二个问题是关于位置和大小。一个成功的系统必须两者兼顾。它学习一种对图像的共享表示，这种表示对于回答“是什么”和“在哪里”都很有用。

任务之间的区别甚至更深，影响着我们学习算法的架构。以随机森林为例，这是一种通过构建一个由许多简单决策树组成的“委员会”来工作的强大方法。当我们构建每棵树时，我们必须决定如何在每个分支处进行分裂。事实证明，最佳策略取决于我们提出的问题。

对于分类任务，如预测患者死亡率，每次分裂都旨在使产生的组在其类别标签方面“更纯粹”。即使使用一个小的、随机的可能特征子集，我们也可以得到一个非常好的分裂。
对于回归任务，如预测住院天数，每次分裂都必须显著减少结果组中数值的方差。这是一项更难的工作，如果树在每一步都能从更多的特征中进行选择，它的表现会更好。

因此，标准做法是在分类任务的每次分裂中使用较少数量的候选特征（例如， $m_{\text{try}} \approx \sqrt{p}$ ，其中 $p$ 是总特征数），而在回归任务中使用较多（例如， $m_{\text{try}} \approx p/3$ ）。算法调优中的这种细微差异，是减少不纯度和减少方差之间根本数学差异的直接结果。我们问题的性质确实改变了我们机器的思考方式。

科学家的重负：处理不完美的世界

如果我们假装来自现实世界的数据是干净、完美和直接的，那么我们的旅程将是不完整的。事实并非如此。明智地应用分类和回归的一个关键部分，是在诚实理解数据局限性的基础上进行。

让我们回到工程蛋白质的世界。一个实验测量了数千种新设计酶的活性。对于大多数酶，我们得到了一个漂亮的连续数值——一个完美的回归目标。但对于某些酶，活性太低，以至于仪器只读出“低于检测极限”。我们该怎么办？我们不能就这么扔掉这些数据点，也不能不诚实地将它们的值设为零。正确的做法是构建一个能理解这种局限性的模型。我们告诉回归模型：“对于这个数据点，我不知道确切的值，但我知道它小于 $L$ 。”这就是删失回归（censored regression）背后的原理，这是一种更真实地模拟被测量世界的方式。同样，如果我们的一些测量非常精确，而另一些非常嘈杂，我们应该构建一个更关注高质量数据的模型。这是通过将每个数据点对误差的贡献按其测量方差的倒数进行加权来实现的——这是一个直接源于最大似然原理的简单而强大的思想。

这种科学的诚实延伸到整个实验过程。想象一个大规模的生物学实验，测量不同组织样本中数千种细胞特性。实验规模如此之大，以至于必须分几周分批进行。但是，周与周之间试剂、温度或机器校准的微小变化可能会引入“批次效应”——一种系统性的、非生物学的测量差异。现在，假设由于偶然，“患病”样本大部分在第1周处理，而“健康”样本大部分在第2周处理。一个在这些数据上训练的朴素分类器可能会达到完美的准确率。但它并没有学会区分“患病”和“健康”；它只是学会了区分“第1周”和“第2周”！它在处理新数据时将完全无用。一个优秀的科学家必须预见并纠正这一点。他们必须要么在他们的回归或分类模型中明确地将“批次”作为一个变量包含进去，要么在主分析之前使用复杂的协调技术来移除批次效应。这不仅仅是一个技术细节；这是一个科学诚信的问题。

结论

我们的巡礼至此结束。从药物分子的结构到森林的纹理，从患者的预后到算法的设计，我们看到了同一个根本性的二分法在起作用：分类与回归，“哪一种”与“有多少”。这个选择是发现的第一步。它聚焦了我们的探究，决定了我们必须构建的工具，并最终决定了我们所获知识的形态。在一个数据泛滥的世界里，最大的挑战和最高的艺术，不仅在于找到答案，更在于学会提出正确的问题。