分类结果的理解与建模

玻尔百科

定义

分类结果的理解与建模是数据科学中的一个统计框架，重点在于通过合适的数学结构分析名义型和定序型数据。该学科强调使用广义线性模型（如多项和累积 Logit 回归）来对结果概率进行建模，而不是对数值代码应用标准的线性回归。正确的分类建模对于避免辛普森悖论等分析错误至关重要，在这种悖论中，聚合数据的趋势与分组观察结果完全相反。

核心要点

区分名义（无序）数据和有序（有序）数据是分析中至关重要的第一步，因为这种区别决定了恰当的建模方法。
为类别分配简单的数字编码以用于标准线性回归是根本错误的，因为这会给数据强加一个人为的、且往往是虚假的结构。
广义线性模型，如多项和累积逻辑回归，通过对结果的概率而非任意数字编码进行建模，提供了一个有原则的框架。
未能正确处理分类变量可能导致严重的误解，辛普森悖论就证明了这一点，其中在组内观察到的趋势在汇总后会发生逆转。

引言

在数据分析的世界里，并非所有信息都生而平等。定量测量与分类标签之间的区别是一道根本性的分界线，它塑造了所有后续的统计探究。定量数据处理的是可测量的数量，而分类结果则将观测值分入不同的组别或类别。理解如何正确处理这些类别不仅关乎技术上的正确性，对于得出有效的科学结论也至关重要。许多常见的分析错误源于未能尊重分类数据的独特性质，往往将为连续数值设计的方法应用于带标签的组，从而导致荒谬的结果和有缺陷的解释。

本文为分析分类结果的原理与实践提供了指南。文章首先在“原理与机制”一章中建立基本概念，探讨名义变量和有序变量之间的关键差异、不当数值编码的危险，以及因不当处理类别而可能出现的统计悖论。随后，文章过渡到“应用与跨学科联系”一章，展示这些理论原理如何付诸实践。从医学中的临床试验设计、公共卫生中的疾病爆发追踪，到社交网络聚类和先进人工智能模型的训练，您将看到对类别的深刻理解如何在广泛的学科领域中释放强大的洞察力。通过掌握这些概念，您将获得一个更稳健、更真诚的框架来解读我们周围的分类世界。

原理与机制

要通过数据真正理解世界，我们必须首先学会尊重我们观测数据的性质。并非所有数据都生而平等。一个人的身高（以厘米为单位）与他们的血型，是两种性质完全不同的信息。对物理学家来说，这或许像是矢量与标量，或是连续场与离散态的区别。在统计学中，这正是定量结果与分类结果之间的关键区别。我们此行的目的，是理解支配这些分类结果的原则——那些我们用来整理这丰富多彩世界的标签、分类和分箱。

类别的本质：不只是一个标签

想象你置身于一个巨大的图书馆。一种整理书籍的方式是根据它们的ISBN号——一个定量标签。另一种方式是根据它们的学科：物理、历史、小说。这些学科就是类别。但即便在这个简单的想法中，也浮现出一个优美而关键的区别。

有些类别只是不同的分箱。以血型为例：A、B、AB和O型。它们之间没有内在的顺序。A型比B型“更多”还是“更少”？这个问题毫无意义。这类变量被称为名义变量。它们就是名称，纯粹而简单。临床研究中的其他例子可能包括传染性病原体的种类或患者的婚姻状况。它们的核心在于互斥性，即属于某个分箱而不属于其他分箱。

现在，思考另一种给书籍分类的方式：品相。一本书可以是“差”、“一般”、“好”或“极佳”品相。在这里，这些标签有着不可否认的序列。“好”优于“一般”，“极佳”优于“好”。这便是一个有序变量。顺序至关重要。在医学中，这种情况无处不在：癌症分期（I、II、III、IV期），疼痛评级（无、轻度、中度、重度），以及患者状态可以被描述为稳定、改善或恶化。

名义变量和有序变量之间的这种区别不仅仅是学术上的吹毛求疵；它是任何分析中第一个、也是最关键的步骤。有序数据比名义数据包含更多信息——它不仅告诉我们类别不同，还告诉我们差异的方向。一个好的统计模型，就像一个好的物理学家一样，不应不必要地丢弃信息。

在更深的层次上，我们可以将定量变量和分类变量看作生活在不同的数学宇宙中。像温度或速度这样的定量变量生活在实数轴上，这是一个连续的空间，其中“距离”和“中间值”等概念是自然的。而分类变量则生活在一个离散的不同状态集合中。我们的任务是找到正确的数学语言来描述那个离散世界的物理规律。

数字的麻烦：为何不能简单地分配编码

当面对类别时，一个常见的诱惑是立即用数字替换标签。假设我们有疼痛等级：{无、轻度、中度、重度}。将其编码为{ $0, 1, 2, 3$ }似乎很自然。我们有了数字，为什么不使用高中数学中熟悉的工具，比如线性回归呢？为什么不尝试找一条直线，根据病人的年龄来预测“疼痛数值”呢？

在这里，我们遇到了第一个巨大的陷阱。通过分配编码 $0, 1, 2, 3$ ，我们做出了一个隐藏的、且非常强的假设。我们宣称，从“无”到“轻度”的痛苦“距离”（增加了 $1$ ）与从“中度”到“重度”的痛苦“距离”（也增加了 $1$ ）完全相同。是这样吗？几乎肯定不是。模型强加了一个在现实中不存在的刚性的、等间距的结构。这就像因为圆形在数学上很方便，就坚持认为行星必须以完美的圆形轨道运行一样。

对于名义变量，情况更糟。想象我们正在研究三种类型的不良事件：肠胃道、神经系统和血液系统。我们可以将它们编码为{ $1, 2, 3$ }。线性回归可能会告诉我们，年龄每增加一岁，“不良事件得分”就增加 $0.05$ 。这到底是什么意思？这毫无意义，因为我们最初的编码是完全任意的。如果我们把它们编码为{ $3, 1, 2$ }，我们的回归会产生一个完全不同的斜率。一个结论依赖于任意标签选择的科学模型，根本算不上模型；它是一个数字命理游戏。

这种对简单模型的滥用会导致一连串的问题。模型可以预测出不可能的结果，比如 $2.7$ 的“疼痛等级”或 $1.5$ 的“血型”。更根本的是，它违反了使线性回归得以成立的核心假设，例如回归线周围误差呈正态分布的假设。一个只能取值为 $0$ , $1$ , $2$ , 或 $3$ 的变量，其误差绝不可能遵循一个延伸至无穷大的钟形曲线。

这种本质上的根本差异，可以通过“最常见”值这个简单概念得到优美的阐释。对于像不良事件等级这样的分类结果，报告众数——即出现最频繁的等级——是完全合理且具有科学意义的。它告诉我们典型的经历是什么。但对于像血压这样真正连续的变量，“最常见”值的概念几乎毫无意义。如果我们能以无限精度进行测量，那么每个读数都将是独一无二的！我们在实践中观察到的众数只是我们如何舍入测量值的人为产物。一台舍入到最接近 $5$ mmHg的机器，会得到与另一台舍入到最接近 $1$ mmHg的机器不同的众数。众数是不稳定的，因为它不是潜在连续现象的属性，而是我们测量过程的属性。这再次告诉我们，类别和连续数值是完全不同的事物，必须用不同的工具来处理。

看清全貌：表格的力量与风险

开始探索两个分类变量之间关系的最自然方式就是简单计数。我们可以将数据排列在一个列联表中，这是一个网格，显示了落入每个类别组合的观测数量。这个表是经验联合分布的一个快照——一幅我们数据景观的地图。

从这个表中，我们可以问一个简单的问题：这两个变量相关吗？用于此目的的经典工具是Pearson卡方检验。其逻辑非常优雅。它将我们观察到的世界（我们表中的计数）与一个两个变量完全独立的假设世界进行比较。在那个独立的世界里，任何单元格的期望计数仅仅是行总计和列总计的函数。卡方统计量衡量了观察世界与期望世界之间的总差异。如果这个差异太大，无法用偶然性来解释，我们就断定这两个变量是相关的。

但这个强大的工具存在一个关键的盲点。卡方统计量是通过对所有单元格的差异求和计算得出的，而这些单元格的顺序无关紧要。你可以打乱表格的行或列——例如，将有序的疼痛等级从{无、轻度、中度、重度}重新排序为{重度、无、轻度、中度}——最终的卡方值将完全相同。这个检验对顺序是“盲目”的。它把所有数据都当作名义数据来处理。这意味着，如果我们正在寻找一种趋势——例如，更高的分诊严重程度与更高的入院率相关——卡方检验就不是最有效的工具。它可以告诉我们是否存在某种关联，但不能告诉我们是哪种关联。

大逆转：聚合的悖论

在我们构建更好的模型之前，让我们先绕道探讨一下统计学中最令人惊讶也最重要的现象之一：辛普森悖论。这是一个严正的警告，表明我们处理分类变量的方式可能导致结论不仅是错误的，甚至是与事实完全相反的。

想象一项测试新疗法的研究。我们查看诊所A的数据，发现接受新疗法患者的成功几率更低。我们查看诊所B的数据，发现同样的情况：使用新疗法后成功的几率更低。结论似乎显而易见：这种疗法是有害的。

但接着，我们决定将两个诊所的数据汇总到一个大表格中。我们计算了总的比值比，结果令我们震惊地发生了逆转！在聚合数据中，接受新疗法患者的成功几率现在反而更高了。这不是一个数学戏法；这是一个能够并且确实会在数据中发生的真实现象。

到底发生了什么？这个悖论是由一个潜伏的第三变量，即混杂变量——在本例中是“诊所”——引起的。事实证明，诊所B的总体成功率远高于诊所A，这可能是因为患者人群不同或资源更好。碰巧，诊所B也对其更大部分的患者使用了新疗法。通过聚合数据，我们把苹果和橘子混为一谈了。我们在不知不觉中给予了来自诊所B的、接受了治疗且成功率高的患者更大的权重，从而制造出该疗法总体上有益的假象。当我们按“诊所”这个分类变量进行分层时，悖论就消失了。那个真实的、潜在的关系——即该疗法是有害的——只有在每个组内才能看到。

这并不仅限于分类结果。同样的反转也可能发生在定量数据中，即两个组内的负相关在组合后可能变成正相关。辛普森悖论是一个深刻的教训：我们数据的结构，特别是分类分组，不是可以忽略的麻烦。它是故事的关键部分，如果未能考虑到它，我们可能会开出毒药。

说类别的语言：逻辑回归的逻辑

那么，如果简单地分配数字并进行线性回归是错误的，而卡方检验又对顺序“盲目”，我们该如何构建一个真正尊重分类数据性质的模型呢？我们需要一种新的语言，一种建立在统计学“货币”——概率——之上的语言。

现代分类建模的核心思想是：我们不为无意义的数字编码建模，而是为观测值落入每个类别的概率建模。由于概率是介于 $0$ 和 $1$ 之间的数字，我们的基础更加坚实。挑战在于如何以有原则的方式将这些概率与我们的预测变量（如年龄或血压）联系起来。我们使用的桥梁是logit，即对数优势（log-odds）。优势（odds）是指某事件发生的概率与不发生概率的比值。通过取优势的自然对数，我们创造了一个从负无穷到正无穷、横跨整个实数轴的量。这个logit现在可以被设为我们预测变量的线性组合（ $X\beta$ ），从而创建一个广义线性模型（GLM）。

这个框架的美妙之处在于，它可以优雅地适应我们所拥有的特定类型的分类结果。

建模名义变量：与基线的对话

对于像中风亚型{大动脉、心源性栓塞、小血管}这样的名义结果，没有顺序可言。模型必须将它们视为不同的可能性。基线类别多项logit模型通过选择一个类别作为参照点，一个“大本营”来实现这一点。然后，模型描述的是属于其他每个类别相对于该基线的对数优势。

这就像进行几场独立的对话。如果“小血管”是我们的基线，模型会有一组系数（ $\beta_1$ ）来描述协变量如何影响发生“大动脉”中风与“小血管”中风的优势比。对于“心源性栓塞”与“小血管”的比较，模型有另一套完全不同的系数（ $\beta_2$ ）。这提供了最大的灵活性，完美地反映了一个事实：一种中风亚型的风险因素可能与另一种的风险因素截然不同。该模型的一个关键特性是“不相关备择项的独立性”（IIA），这意味着两个亚型之间的比较不依赖于存在哪些其他亚型。虽然这有时是一个局限，但它是这种优雅方法的一个决定性特征。

建模有序变量：驾驭累积浪潮

对于像疼痛严重程度这样的有序结果，我们希望利用其顺序信息，而不是忽略它。累积logit模型，也称为比例优势模型，是一个标准的、绝妙的解决方案。它不比较离散的类别，而是基于累积概率提出一系列有序的问题。它建模的是结果处于某个水平或更低水平与处于任何更高水平的对数优势。

对于我们的四级疼痛量表，它将建模：

{无} vs. {轻度, 中度, 重度}的对数优势。
{无, 轻度} vs. {中度, 重度}的对数优势。
{无, 轻度, 中度} vs. {重度}的对数优势。

接下来是优雅的简化。比例优势假设假定一个预测变量——比如止痛药的剂量——对这些比较中每一个的影响都是相同的。该模型使用一个单一的系数向量（ $\beta$ ）应用于所有切点。一种有益的药物不仅降低了重度与中度疼痛的优势比；它沿着整个量表降低了处于较高类别与较低类别的优势比。它将整个概率分布向“较不严重”的一端移动，就像退潮一样。这个简约的模型强有力地捕捉了有序结果中单调漂移的思想，利用了卡方检验所丢弃的信息。如果这个优雅的假设对于复杂的现实来说过于简单，该框架可以扩展到更灵活的模型来放宽它。

从简单的标签到悖论式的逆转，再到逻辑回归的优雅机制，支配分类结果的原则揭示了我们数据中的深层结构。理解这种结构，就是获得一个更真诚、更强大的镜头来观察世界。

应用与跨学科联系

在回顾了支配分类结果的原理和机制之后，我们现在到达了探索中最激动人心的部分：看这些思想如何付诸实践。孤立地理解一个工具是一回事；而看它如何搭建桥梁、解决难题，甚至创造新世界则完全是另一回事。对类别的研究不是一个狭窄的统计学专业；它是一个镜头，通过它我们可以看到医学、社会科学和人工智能等不同领域中潜在的统一性。一个科学原理的真正魅力，不在于其抽象的表述，而在于其应用的广度。

医学与公共卫生中的探究艺术

也许在任何领域，对类别的分析都没有像在医学和公共卫生领域那样至关重要。在这些领域，问题常常围绕着离散的状态展开：生病或健康，感染或未感染，存活或死亡。但即使是这些听起来简单的问题，也隐藏着精妙之处。

例如，想象一组流行病学家正在研究一场呼吸道感染的爆发。他们识别出几种不同的病原体亚型——比如，不同株的流感病毒和其他病毒。一个自然的初步想法可能是根据“严重性”对这些病原体进行排序，也许是基于它们的总体致死率。但如果对于年轻患者，甲型流感比乙型流感更严重，而对于老年患者，情况正好相反呢？这种现象，被称为等级逆转，立即告诉我们任何单一、固定的排序都是一种幻觉。这些类别是真正的名义变量——它们是不同的标签，而不是梯子上的横档。将有序模型强加于此类数据，就像试图坚持认为“红色”普遍“大于”“蓝色”一样。相反，我们必须转向尊重这种名义性质的模型，例如多项逻辑回归，它允许我们独立地研究每种病原体亚型的风险因素，而无需强加一个虚假的层级结构。同样的原则也适用于我们分析疫苗接种后的不良事件；模型必须对我们如何标记事件保持不变性，因为“头痛”、“发烧”和“疲劳”之间没有自然的顺序。数学必须尊重现实，而像多项逻辑回归这样的模型正是建立在标签不变性这一基础之上的。

我们思考类别的方式甚至从一开始就塑造了我们设计研究的方式。考虑经典的病例对照研究，这是流行病学的一个基石，我们在其中比较患有某种疾病的人（“病例”）与未患病的人（“对照组”）。为了得到公平的比较，我们必须考虑混杂变量。如果我们研究的疾病对男性和女性的影响不同，我们必须确保我们的病例组和对照组有相似的性别平衡。这个过程称为匹配，是在设计阶段直接应用分类思维的例子。我们可能会进行群体匹配，确保两组中吸烟者的比例相同，或者我们可能会使用更复杂的个体匹配技术。无论哪种情况，我们都在操作分类信息，以分离出我们真正想要研究的效应。

确实，我们能问的问题本身就与我们如何收集数据紧密相连。一个由两个分类变量（如吸烟和肺癌）交叉分类的人群样本，允许我们检验它们的独立性。但如果我们对两个独立的组（例如吸烟者和非吸烟者）进行抽样，然后检查他们是否患有肺癌，我们实际上是在检验同质性——两个人群的癌症发病率是否相同？而如果我们只有一个群体，想看看它的分类构成（例如血型分布）是否符合某个理论预期，我们则使用拟合优度检验。这三种相关的统计工具，都来自同一个家族，强调了一个深刻的真理：我们探究的结构塑造了我们能获得的知识。

那么，现实世界数据的杂乱现实又如何呢？数据集很少是完整的。一项公共卫生调查可能会缺失参与者的主要饮食模式。我们如何填补这些空白？在这里，分类结果模型再次伸出援手，不是作为最终目标，而是作为一个关键的中间工具。使用像链式方程多重插补（MICE）这样的技术，我们可以建立一个多项逻辑回归模型，根据一个人的其他特征（如年龄和锻炼习惯）来预测其最可能的饮食模式。这使我们能够为最终分析创建一个更完整、更有用的数据集。

从生物学到社会：在复杂系统中寻找模式

世界充满了复杂的系统，从我们肠道中生活的微观群落到庞大的人类协作网络。在这些系统中，我们常常寻求发现“中尺度”结构——那些乍一看并不明显的群体、簇或社区。在这里，类别的逻辑同样是我们的向导。

以人类微生物组为例，这是由数万亿细菌组成的繁华生态系统。生物信息学的一个主要目标是理解这个微生物群落在不同个体之间有何不同，例如，在健康人与患有像炎症性肠病这样的慢性病患者之间。我们拥有的数据是一个巨大的计数矩阵，它告诉我们每个人的样本中存在哪些细菌物种（类别！）以及它们的丰度。为了比较这些复杂的分类概况，我们可以使用像PERMANOVA这样的复杂的基于距离的方法。这项技术使我们能够问一个简单而强大的问题：疾病组之间的微生物群落总体差异是否大于其内部的差异？要回答这个问题，我们必须首先正确编码我们的元数据——将像“疾病状态”这样的分类预测变量和像“年龄”这样的连续预测变量转换为模型所需的连贯的数学形式。

这种寻找群体结构的挑战并非生物学所独有。想象一位网络科学家正在研究一个合作网络，其中节点是研究人员，连边代表合著的论文。每位研究人员都有一个混合数据构成的个人资料：如连接数（度中心性）等数值属性，以及其主要研究领域和地理区域等分类属性。如果我们想将这些研究人员聚类成社区，我们如何将这些不同类型的信息组合成一个单一的“相似性”度量？一种天真的方法可能会让某个变量占主导地位，例如，使聚类几乎完全基于地理位置。优雅的解决方案是使用一种专门为混合数据类型设计的相异性度量，如Gower距离。它巧妙地对每个变量——无论是数值型还是分类型——进行缩放，使每个变量都能公平地对最终的距离计算做出贡献。这使我们能够找到有意义的聚类，这些聚类反映了结构属性和个人属性的真实组合，从而揭示了网络中隐藏的社区。无论类别是细菌门还是学科学科，问题都是一样的。

教计算机看懂类别：人工智能革命

分类思维最引人注目和最现代的应用体现在机器学习和人工智能中。为了让机器从世界中学习，我们必须首先将世界翻译成它能理解的语言：数字的语言。那么，我们如何向计算机讲述类别呢？

答案在于一个简单而深刻的想法：独热编码 (one-hot encoding)。我们不给类别分配任意数字（例如，1代表‘猫’，2代表‘狗’，3代表‘鸟’），因为这会暗示一种虚假的顺序和距离。相反，我们在向量空间中为每个类别提供其自己的私有维度。‘猫’变成(1, 0, 0)，‘狗’变成(0, 1, 0)，‘鸟’变成(0, 0, 1)。这些向量都是相互正交的；它们彼此之间的“差异”是相等的。这种编码是解锁神经网络和其他算法从名义数据中学习而不被虚假结构误导的关键。编码的选择不仅仅是一个技术细节；它是对数据基本性质的声明，并直接影响模型参数的解释。

有了这种强大的表示方法，我们就可以构建非常智能的系统。假设我们正在构建一个模型，使用数千个潜在预测变量来预测脓毒性休克，其中包括几个多级分类变量，如患者的既往病史。独热编码可能会创建数十个新列。我们如何防止模型在这个高维空间中迷失方向？组套索（Group Lasso）惩罚是一个绝妙的解决方案。它是一种正则化形式，能够“理解”由单个分类变量创建的多个虚拟列是属于一起的。在决定哪些预测变量重要时，它将它们视为一个整体，要么作为一个组保留，要么作为一个组丢弃。这鼓励了模型变得更稀疏、更具可解释性，从而反映我们变量的真实结构。同样的概念可以扩展到高度复杂的医学模型，如用于生存分析的Cox模型，允许我们在预测患者寿命时对分类预测变量进行变量选择。

最后，我们来到了前沿领域：生成式人工智能。我们能教机器不仅识别类别，还能创造类别吗？想象一下，训练一个生成对抗网络（GAN）来生成合成但逼真的电子健康记录。这些记录是连续数据（如实验室值）和离散数据（如诊断代码）的混合体。在这里，我们面临一个深刻的悖论。深度学习的引擎是基于梯度的优化，这是一个植根于微积分的光滑、连续世界的过程。但选择一个类别的行为本质上是离散且不可微的。你无法对“选择‘糖尿病’”求导。

解决方案是一个优美的数学技巧，称为Gumbel-Softmax松弛。在训练期间，我们不强迫生成器做出硬性的、离散的选择，而是允许它产生一个“软”近似——一个接近但并非严格独热的概率向量。这平滑了决策景观，使得梯度能够流动，网络得以学习。一个“温度”参数控制着这种柔软度。随着训练的进行，我们逐渐“冷却”温度，将其退火至零。随着温度下降，“软”选择变得更加锐利，收敛到我们在现实世界中看到的清晰、离散的独热类别。通过这种方式，我们暂时弥合了连续与离散之间的鸿沟，让一个建立在微积分之上的模型能够掌握分类创造的艺术。

从临床试验的精心设计到人工世界的生成，小小的类别始终是科学思想的中心支柱。理解它不仅使我们能够分类我们所看到的世界，还能找到其隐藏的模式，并最终在硅基中重现其复杂性。