try ai
科普
编辑
分享
反馈
  • 分类问题:原理、应用与现代挑战

分类问题:原理、应用与现代挑战

SciencePedia玻尔百科
核心要点
  • 分类是绘制决策边界的动态过程,其中贝叶斯错误率代表了数据本身固有的不可约减误差。
  • 模型选择需要在偏见-方差权衡中进行导航,平衡简单模型的稳定性与灵活模型捕捉复杂模式的能力。
  • 计算可行性是一个核心问题,非凸问题通常通过凸松弛等技术变得可解。
  • 许多分类问题的解,例如在支持向量机(SVM)中,是由最具挑战性和最模糊的数据点(即支持向量)定义的。
  • 分类是跨学科的统一语言,解决了从生物学中的基因组分析到经济学中人类行为建模等各类问题。

引言

分类是认知中最基本的行为之一,是为混沌世界建立秩序的方法。从生物学家对物种进行分类,到儿童学习区分猫和狗,我们不断地划定界线以创建有意义的范畴。但当现实是混乱的,无法归入我们整洁的类别时,会发生什么?我们如何教机器绘制这些界线,以及这项任务的理论极限和实践挑战是什么?本文旨在探讨这个核心问题,探索分类问题的现代图景。文章深入研究了支配机器如何学习分类的优雅数学原理,同时也直面了实践中出现的深刻的哲学和计算困境。

本文的探索分为两部分。在第一部分​​原理与机制​​中,我们将剖析分类的理论核心。我们将从由贝叶斯分类器定义的可知事物的概率极限,到模型简单性与灵活性之间的实践权衡,再到在复杂环境中寻找最优解所需的计算技巧,展开我们的旅程。在第二部分​​应用与跨学科联系​​中,我们将看到这些原理的实际应用。我们将见证分类如何成为一把通用钥匙,在基因组学、药物发现、计算经济学和基础物理学等不同领域解开谜团,揭示出看似迥异的科学问题背后共同的数学结构。

原理与机制

绘制界线的艺术

从本质上讲,分类是绘制界线的简单行为。它是思想最基本的活动之一。我们观察世界,一个由物体和现象组成的混乱集合,并试图通过将事物分门别类来赋予其秩序。这个类别是“恒星”,那个是“行星”。这是“猫”,那是“狗”。每个类别都由一套规则,一个边界来定义。但是,当我们发现某个事物恰好位于界线上,或者似乎同时属于两个类别时,会发生什么呢?

这不是一个新问题。当 Antonie van Leeuwenhoek 在17世纪第一次通过他的显微镜观察时,他发现了一个充满他称之为“微型动物”(animalcules)的世界——微小的单细胞生物。他的发现使当时已建立的生物分类系统陷入了危机。那时,生物世界被整齐地划分为两大界:植物界(Plantae)和动物界(Animalia)。界线是根据我们能看到的东西来划分的:植物是静止的,自己制造食物;而动物会移动,并吃掉其他东西。

但 Leeuwenhoek 的小生物们挑战了这种简单的划分。有些生物,如Euglena,像动物一样能动,但像植物一样能进行光合作用。其他的则从环境中吸收营养,像真菌(当时被认为是植物)一样。它们属于哪里?将它们放入任何一个界都感觉武断和错误。旧的界线已不再足够。这一新数据的发现迫使科学家们认识到,他们的分类是人类的发明,而宇宙没有义务尊重它们。这种根本性的张力——我们简洁的模型与世界混乱现实之间的张力——是分类问题的灵魂。它告诉我们,分类不是一个静态的标记行为,而是一个动态的发现过程,迫使我们不断完善我们绘制的界线。

从“界”到“核”:现代视角

那么,我们如何教机器绘制这些界线呢?在现代,我们不仅仅依赖于一些高层次的标准。相反,我们从数据中学习。我们为机器提供一组带有已知标签的样本——这是一张猫的图片,那是一张狗的图片。机器的任务是学习一个函数,一个决策规则,它可以接受一个新的、未见过的样本,并将其分配到正确的类别中。

我们用来描述一个对象的“特征”可以远比其自身属性丰富得多。考虑一下活细胞内复杂的蛋白质网络。我们可以将其表示为一个网络,其中每个蛋白质是一个节点,如果两个蛋白质相互作用,则用一条边连接它们。假设我们想预测一个蛋白质是存在于细胞膜中,还是自由漂浮在细胞质中。一个蛋白质的位置往往与其协作者共享。因此,要对单个蛋白质进行分类,我们需要观察其在网络中的整个邻域。这是一个典型的​​节点分类​​问题:我们通过不仅观察节点本身,还观察其连接结构来为每个节点(蛋白质)分配标签。这说明了现代分类中的一个深刻转变:一个对象的上下文通常与对象本身一样重要。

机器中的幽灵:用概率导航

没有分类器是完美的。一辆自动驾驶汽车的感知系统,任务是区分“行人”、“骑行者”或“静态障碍物”,将不可避免地犯错。我们如何衡量它的成功?这并不像简单地计算错误数量那么简单。

想象一下,这辆车的系统在识别其他车辆方面非常出色(99.8%的准确率),但在识别骑行者方面只是一般(96%的准确率)。这是否意味着该系统很差?不一定。我们还必须问:它遇到每种类型对象的频率是多少?在典型交通中,车辆可能占所有对象的60%,而骑行者可能只有5%。系统的整体性能是一个加权平均值。在非常常见的“车辆”类别上的高准确率对整体成功率的贡献远大于在罕见的“骑行者”类别上的较低准确率。

为了找到误分类的总概率,我们必须使用​​全概率定律​​。我们将每个类别的错误率相加,但用其​​先验概率​​——即首先遇到该类别的概率——对其进行加权。对于KKK个类别,总错误率P(misclass)P(\text{misclass})P(misclass)为:

P(misclass)=∑k=1KP(misclass∣class=k)P(class=k)P(\text{misclass}) = \sum_{k=1}^{K} P(\text{misclass} | \text{class}=k) P(\text{class}=k)P(misclass)=k=1∑K​P(misclass∣class=k)P(class=k)

这告诉我们一个至关重要的事实:分类器的性能是其自身内部准确性与它所处世界的统计环境之间的相互作用。

贝叶斯神谕:什么是最佳分类器?

如果每个分类器都会犯错,一个自然的问题就出现了:一个人可能做到的绝对最佳是什么?性能是否存在理论极限?答案是肯定的,而且它是所有统计学中最优美的思想之一。

想象一个神谕,对于任何给定具有特征X=xX=xX=x的对象,它都知道该对象属于每个类别yyy的真实概率。这些是​​后验概率​​,表示为ηy(x)=P(Y=y∣X=x)\eta_y(x) = P(Y=y | X=x)ηy​(x)=P(Y=y∣X=x)。例如,对于一张模糊的图像xxx,神谕可能会说:“这张图有70%的可能是猫,30%的可能是狗。”

分类器应该如何处理这些神圣的信息呢?最优策略,被称为​​贝叶斯分类器​​,简单得惊人:总是选择后验概率最高的类别。如果神谕说70%是猫,你就猜是猫。你不可能做得更好。

但请注意一件奇妙的事情:即使是这个完美的分类器也会犯错!当它猜测“猫”时,对于那种模糊的图像,它有30%的时间是错的。这个错误不是分类器的缺陷;它是世界本身不可约减的模糊性。数据本身存在固有的噪声或重叠。任何分类器所能达到的最小可能错误率被称为​​贝叶斯错误率​​。它是贝叶斯分类器的错误率,可以表示为:

R∗=1−E[max⁡yηy(X)]R^* = 1 - \mathbb{E}\left[\max_{y} \eta_y(X)\right]R∗=1−E[ymax​ηy​(X)]

这个公式告诉我们,不可约减的误差是因无法以100%的确定性选择一个类别而产生的平均“遗憾”。贝叶斯错误率是分类的基本速度极限。它将由次优模型引起的误差与现实中不可避免的特征所导致的误差区分开来。

建模者的困境:简单性与灵活性

由于我们无法接触到贝叶斯神谕,我们必须建立模型来从有限的数据中估计决策规则。这就把我们带到了所有科学领域的一个核心困境:简单性与灵活性之间的权衡。

假设我们试图根据重量和颜色来区分两类数据点,比如“苹果”和“橙子”。我们可以将每个类别的数据云建模为多元正态分布。现在我们面临一个选择。

一个简单的模型(如​​线性判别分析​​,LDA)可能会假设“苹果”云和“橙子”云的形状和方向是相同的;它们只是在空间中发生了位移。这是一个限制性假设(它具有高​​偏差​​(bias)),但它只需要估计一个共享的协方差矩阵。这使得它即使在数据很少的情况下也非常稳定(它具有低​​方差​​(variance))。

一个更灵活的模型(如​​二次判别分析​​,QDA)将允许每个类别拥有自己独特的协方差矩阵——它自己的云形状。这要强大得多,可以捕捉更复杂的现实(低偏差),但它是有代价的。我们需要估计的参数数量会爆炸性增长。对于一个有ppp个特征和KKK个类别的问题,灵活模型比简单模型需要多估计(K−1)p(p+1)2\frac{(K-1)p(p+1)}{2}2(K−1)p(p+1)​个参数。如果我们没有足够的数据,这个灵活的模型将开始拟合我们特定数据集中的随机噪声——这种现象称为​​过拟合​​——并且在新的、未见过的数据上表现会非常糟糕。

这就是经典的​​偏见-方差权衡​​。简单的模型就像一件成衣:它不完美适合任何人,但对大多数人来说效果还算不错。灵活的模型就像一套定制西装:它完美地适合为其量身定做的人,但对其他人来说毫无用处。选择正确的模型是在你拥有的数据量下找到正确平衡的艺术。

可解性的艺术:凸性与计算

一旦我们选择了一个模型族,我们如何找到最好的一个?这是一个优化问题。我们可以把它想象成在一个广阔的景观中寻找最低点,其中高度代表分类误差。

这个景观的形状至关重要。如果景观是一个简单的碗状——数学家称之为​​凸​​问题——找到底部很容易。你可以从任何地方滚一个球,它都会停在全局最小值处。然而,如果景观布满了山丘、山谷和陨石坑——一个​​非凸​​问题——那将是一场噩梦。一个球可能会卡在一个小的局部山谷里,一个​​局部最小值​​,而永远找不到真正最深的点。

许多现实世界的分类目标都会导致这些噩梦般的、非凸的景观。例如,如果我们想找到一个不仅准确而且简单的模型(使用尽可能少的特征),我们可能会使用一个称为ℓ0\ell_0ℓ0​-范数的惩罚项,它只计算非零特征的数量。这个问题是​​NP难​​的——意味着除了最小的数据集外,它在计算上是难以处理的。优化景观是一个组合的雷区。

在这里,我们看到了一个天才之举。我们无法解决那个困难的、非凸的问题。所以,让我们解决一个不同的问题!我们将那个讨厌的ℓ0\ell_0ℓ0​惩罚替换为它最接近的凸近亲,即ℓ1\ell_1ℓ1​-范数(它对特征的绝对值求和)。这一举动,称为​​凸松弛​​,将不可能的景观转变为一个美丽的、可解的凸碗。奇迹般地,这个更容易问题的解(一种称为LASSO的方法)通常非常接近,有时甚至与原始困难问题的解完全相同。这是一个深刻的教训:有时,分类的艺术不仅仅在于定义你想要什么,而在于以一种计算上可行的方式来定义它。

解决方案存在于数据之中

让我们来看看最优雅的分类算法之一,​​支持向量机(SVM)​​。其直觉是简单而几何化的:要分隔两组点,找到能在它们之间创造最宽“街道”的线。这个最大间隔边界似乎是稳健的。

但这条线从何而来?SVM背后的数学揭示了一些非凡的东西,一个与​​表示定理​​(representer theorem)相关的结果。最优分离超平面——解的真正本质——是作为训练数据点本身的加权和构建的。

w∗=∑i=1Nαiyiϕ(xi)\mathbf{w}^* = \sum_{i=1}^{N} \alpha_i y_i \phi(\mathbf{x}_i)w∗=i=1∑N​αi​yi​ϕ(xi​)

这里,w∗\mathbf{w}^*w∗是定义超平面的向量,求和是对所有NNN个训练点xi\mathbf{x}_ixi​进行的。但魔力在于权重αi\alpha_iαi​。事实证明,对于几乎所有的数据点,这些权重都为零!唯一具有非零权重的点是那些恰好位于“街道”边缘的点——那些最难分类的点。这些被称为​​支持向量​​。

想想这意味着什么。两个国家之间的边界不是由生活在腹地深处的人民定义的;它是由边境上的城镇和防御工事定义的。同样,SVM的决策边界完全由最模糊、最具挑战性的数据点决定。其余的数据,舒适地坐在自己的领地里,没有发言权。解决方案不是一个抽象的实体;它实际上是由数据中最关键的部分来表示的。

界线的脆弱性:病态条件与对抗性攻击

我们已经构建了能够识别人脸、驾驶汽车和诊断疾病的强大分类器。它们看起来像是超人。但它们有一种奇怪而脆弱的本性。有可能拿一张被最先进的神经网络以高置信度分类为“熊猫”的图像,添加一小撮精心制作的噪声——一种人眼完全看不见的扰动——然后让网络以同样高的置信度将新图像分类为“长臂猿”。

这是一个​​对抗性样本​​,它揭示了我们分类器的一个深层真相。这不是一个软件错误;这是它们所学习的几何形状的一个基本属性。我们可以通过​​条件数​​(conditioning)的视角来理解这一点。分类器的输出是其输入的函数。如果这个函数在某个方向上极其陡峭,那么在该方向上迈出一小步就可能导致输出发生巨大变化,足以跨越决策边界并翻转分类。

这个问题在该点是​​病态​​的(ill-conditioned)。我们甚至可以计算出翻转决策所需的最小扰动大小∣∣δ∣∣2||\delta||_2∣∣δ∣∣2​。值越小意味着分类器越脆弱。这些对抗性样本的存在告诉我们,我们的模型学习到的高维决策边界与我们所感知的平滑、稳健的边界完全不同。它们以一种使其对我们自身感官轻易忽略的扰动极其敏感的方式扭曲和锯齿化。理解并加固这种脆弱性是构建真正智能机器的持续探索中最重要的前沿之一。

应用与跨学科联系

我们花了一些时间来理解分类的机制,那些让机器能够将一个物体放入几个整洁堆中的数学齿轮和杠杆。但要真正欣赏这一机制,我们必须看看它能做什么。理解扳手是如何制造的是一回事;看到它被用来建造桥梁、修复星舰或调校大钢琴则是另一回事。分类的概念,以其现代、强有力的形式,就是这样一种通用工具。它撬开了生物学最深角落的问题,解码了人类行为的微妙模式,甚至在物理世界的基本对称性中找到了其自身逻辑的回响。

现在让我们来巡视一下这些应用。你会看到,当用数学精度提出“这是哪种东西?”这个简单问题时,它变成了一把解锁各种科学和人类问题的钥匙。

生命密码与药物分子

也许没有哪个领域比现代生物学更彻底地被分类所革新。生物学,其核心是一门关于类别的科学——物种、基因、细胞类型、功能。为这种分类思维提供一个计算引擎已经产生了惊人的结果。

考虑一个具有巨大实际重要性的问题:确保我们吃的食物名副其实,并且没有受到污染。调查人员可以取一块鱼片,对其DNA中一个被称为“条形码”的小型标准化区域进行测序,然后提出问题:“这条鱼源自哪个地理区域?”通过在一个包含已知来源的大型条形码数据库上训练一个分类器,我们可以建立一个自动标记欺诈性标签的系统。同样,当像沙门氏菌病这样的食源性疾病爆发时,公共卫生官员可以对来自患者的病原体基因组进行测序,并询问分类器:“哪种食物来源——家禽、牛肉、绿叶蔬菜——是这一特定菌株最可能的来源?”一个精心设计、基于基因组特征并经过仔细训练以避免数据泄露等常见统计陷阱的分类器,可以在数小时内而不是数周内为调查人员指明正确方向,从而拯救生命。

分类的力量从识别整个生物体延伸到构成它们工作的分子。在药物发现中,一个核心任务是找到一个以特定方式与目标蛋白质相互作用的小分子。它会激活蛋白质(激动剂)、阻断它(拮抗剂),还是什么都不做?这是一个经典的多类别分类问题。研究人员可以在数千种已知化合物的结构特征及其测量效果上训练一个深度学习模型。训练好的模型随后可以以惊人的准确性预测一个全新的、从未合成过的分子的可能功能,从而大大加快新药的寻找速度。

问题可以变得更加微妙和深刻。你从母亲那里继承每条染色体的一个拷贝,从父亲那里继承一个拷贝。有时,一条染色体的一部分会被意外复制。一个有趣的生物学问题出现了:是母本拷贝还是父本拷贝被复制了?起初,这似乎难以回答。然而,通过检查微小遗传变异(单核苷酸多态性,SNPs)的模式以及支持每种变异的测序读数的数量,我们可以将其构建成一个优美的二元分类问题。我们可以计算在母本复制假设下观察到测序数据的总概率或似然,并将其与父本复制假设下的似然进行比较。使数据更合理的假设就是我们的答案。这是最纯粹、最优雅形式的分类——在两个相互竞争的现实之间进行的直接统计检验。

这种权衡证据的思想是如此基础,以至于它被嵌入到生物信息学最重要的工具之一:BLAST(基础局部比对搜索工具)中。当你要求BLAST寻找与你最喜欢的基因相似的序列时,它会返回一个带有相关分数的“命中”列表。但它如何知道一个高分代表了真正的进化关系,还是仅仅是幸运的巧合?在其核心,BLAST正在解决一个分类问题。它使用一个源自极值理论的复杂统计框架,来计算偶然在不相关序列之间出现如此高分数的概率。它含蓄地问:“这个命中属于‘相关’类还是‘不相关’类?”并提供一个概率性的答案。因此,每当生物学家进行一次搜索时,他们都在使用一个经过数十年理论工作调整的分类器,以将生物学的信号与随机机会的噪声分离开来。

决策、市场与人类行为

当我们将目光从分子的微观世界转向人类的宏观世界时,我们发现分类的逻辑同样强大。毕竟,我们是习惯的生物,我们的选择和行为虽然复杂,但并非随机。

想象一下,试图理解消费者如何根据价格和质量在两种产品之间做出选择。我们可以收集许多此类选择的数据,并将其构建为一个分类问题:预测消费者将选择产品A还是产品B。如果我们使用像决策树这样的模型,就会发生奇妙的事情。该模型不仅可以学会预测消费者的选择,而且树的结构本身可以揭示这些选择背后的逻辑。我们可能会发现,树首先根据质量进行分割,只有在质量相等时才考虑价格。这揭示了一种潜在的“字典序偏好”——一种消费者自己甚至可能无法清晰表达的决策规则。在这里,分类器不仅仅是一个预测器;它变成了一个洞察的引擎,一个观察人类决策的显微镜。

同样的思维可以从杂货店的货架扩展到地缘政治的高风险世界。两个国家会签署贸易协定吗?这个复杂的结果取决于多种因素,如现有关税水平、它们的政治结盟,以及这些因素之间的相互作用(高关税对于亲密盟友可能是可以接受的,但对于中立国家则可能成为交易的障碍)。通过将其构建为一个二元分类问题——预测“达成协议”或“未达成协议”——我们可以建立像逻辑回归这样的模型,权衡所有这些因素及其相互作用,以产生一个概率性预测([@problem-id:2407497])。这些模型现在是计算经济学和政治学中理解和预测复杂社会系统行为不可或缺的工具。

在人类领域,分类的范围仅受我们选择测量的内容的限制。我们输入分类器的特征不必是经济数据或基因组序列。它们可以是任何东西。假设,为了好玩,我们收集了一组科学家的实验笔记本,并用作者的情绪状态标记每个条目:“平静”、“中性”或“有压力”。我们能训练一台机器来阅读一个新的条目并预测科学家的情绪吗?当然可以。使用自然语言处理技术,我们可以将每个条目的文本转换为一个高维的词频向量。这个向量虽然抽象,但对于像支持向量机这样的分类器来说,是一个完全有效的输入。在这个高维空间中,事实证明,即使是一个简单的线性分类器也能有效地分离开对应不同情绪状态的“文本云”。这个例子虽然异想天开,但蕴含着一个深刻的真理:分类提供了一个通用的框架,用于在我们可以赋予有意义标签的任何数据中寻找模式。

结构与对称性的深度统一

到目前为止,我们已经将分类视为应用于不同领域的工具。但在其最先进的形式中,它成为表达一个领域本身法则的方式。在物理学和化学中,一个核心原则是自然法则不依赖于你的观察角度。例如,一个分子的能量是相同的,无论你是从左边、右边还是上下颠倒地看它。它对旋转和平移是不变的。如果我们能将这种基本的物理对称性直接构建到我们的分类器中呢?

这正是物理科学中现代机器学习背后的思想。在预测分子的属性(如其稳定性)时,我们可以首先将原始的原子坐标转换为一组描述符——即特征——这些特征通过其构造本身就对旋转、平移和相同原子的置换保持不变。当我们将这些“对称函数”输入我们的分类器时,我们已经完成了大部分工作。模型不需要浪费时间和数据去学习水分子的稳定性与其在空间中的方向无关;它免费地知道了这一点。这不仅使模型在数据使用上更高效,也更稳健,因为它根植于问题的基本物理学原理。然而,这种方法带来了一个深刻的警告:必须小心要强制执行哪些对称性。例如,一些分子是“手性”的——它们以左手和右手形式存在,互为镜像。如果我们想要预测的属性(比如它与体内其他手性分子的相互作用)依赖于这种手性,但我们的特征对此视而不见,我们的分类器就会失败。艺术在于构建恰到好处的对称性,不多也不少。

这段从生物学到经济学再到物理学的旅程,最终汇聚成一个美丽的抽象。考虑两个看似无关的问题:向顾客推荐产品,以及预测基因的功能。这两者究竟有什么共同之处?从图论的视角来看,它们几乎是相同的。第一个可以建模为在二分图中预测“顾客”节点和“产品”节点之间的缺失链接。第二个是关于预测“基因”节点和“功能”节点之间的缺失链接。两个问题都可以通过在网络中寻找短路径来解决:顾客可能喜欢口味相似的人购买过的产品;一个基因可能具有与其相互作用的基因中常见的功能。

这是最终的教训。在不同科学学科的表面细节之下,常常隐藏着一个共同的数学结构。分类、链接预测、模式识别的行为,提供了一种共同的语言和一套共同的工具。它揭示了我们用来在流媒体服务上推荐电影的逻辑,从本质上讲,与生物学家用来解开细胞之谜的逻辑是相同的。这确实是一件深刻而美好的事情。