定序量表

玻尔百科

核心要点

定序量表按特定顺序对数据进行排序，但等级之间没有相等且有意义的间隔。
计算定序数据的平均值在统计上是无效的，因为结果取决于分配给类别的任意数字标签。
对定序数据的正确分析需要使用非参数方法，如中位数和基于秩次的检验（例如，Wilcoxon 秩和检验），这些方法尊重信息仅含顺序的特性。
在机器学习中，应使用温度计编码等专门技术来表示定序特征，以避免错误地假设其具有等距属性。
关于定序数据的统计陈述是否有效，取决于其在任何保持顺序的量表重新标记下的不变性。

引言

测量是科学的基石，但当我们测量的不是物理量，而是一种有序的判断，例如“轻度”、“中度”或“重度”时，会发生什么？这就引出了定序量表——数据分析中最常见却又最常被误解的工具之一。定序数据看似简单，却带来了一个重大挑战：滥用它可能导致统计上无效的结论、有缺陷的风险评估，以及在从医学到机器学习等各个领域做出错误的决策。许多从业者都掉入了一个陷阱，即将有序的类别当作等距的数字来处理，而本文旨在揭示并纠正这一根本性错误。

本文将引导您了解定序量表的基本原则和应用。在第一章“原理与机制”中，我们将探讨测量量表的理论，定义定序数据独特的数学特性，并通过一个清晰的例子来证明为什么像计算平均值这样的常见运算具有危险的误导性。在第二章“应用与跨学科联系”中，我们将进入现实世界，看看定序量表如何在临床实践和数据分析中使用，重点介绍那些尊重其结构、避免不当分析陷阱的正确统计工具。读完本文，您将拥有一个稳健的框架，以应有的精确性和谦逊态度来处理定序数据。

原理与机制

要真正理解定序量表，我们必须从一个看似幼稚简单的问题开始：测量某物意味着什么？我们可能会说，这是给事物赋予数字。但这不完全正确。测量是在创建一幅地图。我们有一个经验世界——一个由物体及其关系构成的现实，比如一个病人的疼痛比另一个病人的更剧烈——我们试图创建一幅能够忠实反映这个现实的数字地图。一幅好的国家地图不只是给城市随机编号；它会保留它们的相对位置，或许还有它们之间的距离。同样，一个好的测量量表会保留被测量事物的基本关系。

这一思想由心理学家 S.S. Stevens 正式提出，其精妙之处在于它为我们提供了一个测量的阶梯，每一级都增加了一层新的信息和结构。

名义量表：阶梯的第一级。在这里，数字只是标签。想想血型（A、B、AB、O）或足球队服上的号码。唯一的规则是不同的事物有不同的标签。我们可以说 A 型血的病人与 O 型血的病人不同，但仅此而已。
定序量表：阶梯的上一级，也是我们本文的主角。在这里，数字有顺序。想想一场比赛的结果（第一名、第二名、第三名）或病人自我报告的疼痛程度，其量表为“无”、“轻度”、“中度”和“重度”。我们知道“中度”比“轻度”更严重，就像第二名在第一名之后一样。这个量表保留了大于或小于的关系。但它没有告诉我们等级之间的距离。第一名是比第二名快几秒，而第二名又比第三名快几分钟吗？定序量表并不会说明这一点。
等距量表：这一级增加了等距的概念。典型的例子是摄氏度温度。 $10^\circ\text{C}$ 和 $20^\circ\text{C}$ 之间的热量差异与 $30^\circ\text{C}$ 和 $40^\circ\text{C}$ 之间的差异是相同的。间隔是有意义的。然而，零点是任意的—— $0^\circ\text{C}$ 并不意味着“没有热量”，它只是水的冰点。因为零点是任意的，所以你不能说 $20^\circ\text{C}$ 比 $10^\circ\text{C}$ “热两倍”。
比例量表：阶梯的顶端。这个量表具备等距量表的一切特性，外加一个真实的、非任意的零点。身高、体重或血液中生物标志物的浓度都属于比例量表。零值真正意味着被测量物质的缺失。在这里，比例终于有了意义：一个身高 2 米的人确实是一个身高 1 米的人的两倍高。

游戏规则：允许的变换与不变性

我们如何知道可以对来自特定量表的数字进行哪些操作？这就引出了一个极其优雅而强大的思想：在允许的变换下的不变性。一个关于我们测量结果的陈述，只有当它的真伪在我们切换到另一个不同但同样有效的现实“地图”时保持不变，它才真正有意义。

什么使一幅地图“同样有效”？这取决于量表。对于像身高这样的比例量表，我们可以从米切换到英尺。这是一个形式为 $x' = ax$ 的变换（其中 $a \approx 3.28$ ）。所有的比例都保持不变。对于像温度这样的等距量表，我们可以从摄氏度切换到华氏度，这是一个形式为 $x' = ax + b$ 的变换（具体为 $x' = 1.8x + 32$ ）。这保留了间隔的相等性。

那么，我们的定序量表呢？由于我们唯一的信息就是顺序，任何保留顺序的变换都是允许的。这意味着我们可以使用任何严格递增函数来重新标记我们的类别。如果我们有一个编码为 $1, 2, 3, 4, 5$ 的疼痛量表，我们完全有权使用函数 $f(x)=x^3$ 将其重新编码为 $1, 8, 27, 64, 125$ 。或者我们可以使用 $f(x) = \ln(x+1)$ 。只要新的数字保持相同的顺序，新的量表就和原始量表一样，是同样有效的定序表示。这种自由是定序量表的决定性特征，也是其灵活性和为粗心者设下陷阱的根源。

一个危险的计算：平均疼痛评分的幻觉

让我们来做一个思想实验。假设我们正在比较两组患者 A 和 B，他们在一份 1 到 5 分的量表上评估自己的呼吸困难（dyspnea）程度。每组有 10 名患者，得分如下：

A 组: $\{1, 1, 2, 3, 5, 5, 4, 2, 3, 4\}$
B 组: $\{1, 2, 2, 2, 3, 3, 3, 4, 4, 5\}$

一个自然的第一步可能是计算每组的平均分，看看哪一组的情况更糟。

A 组的总分是 $30$ ，所以平均分是 $\bar{x}_{A} = \frac{30}{10} = 3.0$ 。
B 组的总分是 $29$ ，所以平均分是 $\bar{x}_{B} = \frac{29}{10} = 2.9$ 。

看起来，A 组的平均呼吸困难程度比 B 组稍差。差异是 $3.0 - 2.9 = 0.1$ 。

但是等等。我们刚才确定了，任何保留顺序的重新标记对于定序量表都是公平的。如果另一位研究人员使用一套不同（但完全有效）的数字标签来设置数据录入系统，比如说 $f(k) = k^3$ 呢？现在类别被标记为 $1, 8, 27, 64, 125$ 。让我们看看我们的数据会发生什么变化。

A 组（变换后）: $\{1, 1, 8, 27, 125, 125, 64, 8, 27, 64\}$
B 组（变换后）: $\{1, 8, 8, 8, 27, 27, 27, 64, 64, 125\}$

让我们再次计算平均值。

A 组现在的总分是 $450$ ，所以平均分是 $\overline{f(x)}_{A} = \frac{450}{10} = 45.0$ 。
B 组现在的总分是 $359$ ，所以平均分是 $\overline{f(x)}_{B} = \frac{359}{10} = 35.9$ 。

看看发生了什么！A 组看起来仍然更糟，但现在的差异是 $45.0 - 35.9 = 9.1$ 。那个 $0.1$ 的微小差异膨胀成了 $9.1$ 的巨大差异。如果我们选择了不同的变换，我们会得到另一个答案。

这证明了一个深刻的观点：“平均疼痛评分”不是一个真实的物理量。它是一种幻觉，是我们为标记有序类别而选择的任意数字所产生的假象。它的值完全取决于我们对允许变换的选择。这就是为什么使用比较平均值的学生 $t$ -test 对定序数据来说是根本不连贯的。同样，试图用平均值来填补缺失的定序值也是一个有缺陷的想法，因为填补的值会根据你选择的任意编码方案而改变。

诚实的方法：尊重顺序的统计学

那么，如果平均值是海市蜃楼，什么是真实的呢？我们能依赖什么？我们可以依赖任何对我们重新标记的选择不敏感的量。

让我们回到我们的患者数据。与其计算平均值，不如让我们找到中位数，也就是当我们把所有人从最好到最差排序时，排在中间的那个人。对于一个 10 人的列表，中位数在第 5 和第 6 个人之间。在 A 组 ( $\{1,1,2,2,3,3,4,4,5,5\}$ ) 中，第 5 和第 6 个值都是 $3$ 。所以中位数是 $3$ 。现在让我们看看变换后的数据。中间两个值的有序变换分数为 $3^3=27$ 和 $3^3=27$ 。变换后数据的中位数是 $27$ 。请注意， $27 = f(3)$ 。这个性质，称为*等变性，意味着变换后数据的中位数就是原始中位数的变换。更重要的是，中间那个人（或类别）的身份*没有改变。无论我们如何拉伸或挤压我们的数字标签，分布的中间位置仍然是中间位置。中位数是定序数据的一个诚实的统计量。

一个更基本的概念是秩次。让我们将两组的 20 名患者合并，并按呼吸困难从轻到重的顺序排列。得分最低的人获得秩次 1，下一个获得秩次 2，依此类推。（对于平局，我们使用平均秩次）。现在，如果我们对所有分数应用我们的 $f(k)=k^3$ 变换，这个排列会改变吗？不会！之前得分最低的人仍然得分最低（因为 $1^3=1$ ），得分最高的人仍然得分最高。在任何严格递增的变换下，秩次是完全不变的。这就是为什么像 Wilcoxon 秩和检验或 Kruskal-Wallis 检验这样的非参数方法是比较定序数据的黄金标准。它们剥离了任意的数字标签，直接处理我们唯一可以信任的信息：顺序。

当现实棘手时：检验我们的假设并处理不完美

我们很容易将我们的量表——定序、等距、比例——视为抽象的类别。但是我们如何知道一个量表，比如说一个新的“功能限制量表”（FLS），是否真的具有等距特性呢？我们可以检验它！想象一下我们有一个外部的、客观的、属于比例量表的测量指标，比如患者在六分钟内可以行走的距离（6MWD）。然后我们可以观察这个锚定指标的变化与我们的 FLS 上给定变化的关系。

假设我们发现，在 FLS 的低端（从类别 2 到 7）提高 5 个点，对应于行走距离平均提高 130 米。但在高端（从类别 10 到 15）提高 5 个点，则对应于 360 米的提高。这是一个强有力的发现！它告诉我们，我们的 FLS 上的“步长”大小并不相等。该量表不是等距的；它确实是定序的，如果我们把它当作其他任何东西，那就太傻了。

现实世界的工具也受到诸如天花板效应和地板效应等实际限制的影响。如果一个生活质量量表的最高分是“优秀”，我们就无法区分一个真正优秀的人和一个生活质量超凡出众的人。每个人都被归集在最高分上。这造成了大块的并列秩次，通过压缩我们试图检测的变异，从而降低了我们统计检验的效力。

这并不意味着我们无能为力。这意味着我们必须深思熟虑。首先，我们应该努力设计分辨率更高的更好工具，尤其是在极端情况下。其次，当面对定序数据时，我们可以使用复杂的统计模型，如序数逻辑回归，这些模型专门设计用来尊重类别的顺序，而不做等距的错误假设。这些模型接受数据的本质，而不是与之对抗。

穿越测量量表原理的旅程教会了我们科学谦逊的重要一课。它迫使我们去问，我们从数据中真正了解了什么，并使用能够诚实反映这些知识的工具。简单而优雅的不变性原则作为我们的向导，保护我们免于得出错误的结论，并引导我们对我们试图测量的世界有更深入、更真实的理解。

应用与跨学科联系

在我们迄今为止的旅程中，我们探讨了定序量表的抽象性质——它们的属性、局限性以及支配它们的逻辑。但科学不是一个抽象的游戏；它是我们理解现实世界最强大的工具。现在，让我们离开理论的洁净室，进入一个混乱、充满活力且引人入胜的世界，在那里，这些思想被付诸实践。我们将看到，“有顺序但无等距”这个简单的概念如何成为跨学科使用的基本语言，从急诊室的高风险环境到人工智能的复杂世界。我们将发现为正确使用这种语言而设计的工具的优雅之处，也将见证误译它所带来的危险。

临床判断的语言

医学在很大程度上是一门训练有素的判断艺术。医生观察、倾听、触摸，然后将复杂的体征和症状群转化为一个连贯的评估。很多时候，这个评估不是表盘上的一个数字，而是一个有序类别量表上的一个位置。定序量表是临床观察的母语。

思考一下急诊科的忙乱环境。分诊护士必须迅速评估患者的状况。是“危重”、“紧急”还是“非紧急”？这是一个关乎生死的定序量表。顺序至关重要；将“危重”与“非紧急”混淆可能是灾难性的。然而，危重和紧急之间的严重性“差距”与紧急和非紧急之间的差距是否意味着相同？当然不是。将三名患者——一名危重、一名紧急、一名非紧急——的状况“平均”并宣布他们都是“紧急”，这是毫无意义的。相反，统计学家或医院管理者会从中位数和分布的角度思考。他们可能会发现中位数患者是“紧急”，或者“紧急或更差”的患者比例是 $0.60$ 。这些是有意义的陈述，尊重了量表的定序性质。

这一原则从分诊的即时评估延伸到人类发展的长远轨迹。儿科医生使用Tanner 分期来追踪儿童的青春期进程。儿童会经历乳房发育（ $B1$ 到 $B5$ ）或阴毛生长（ $PH1$ 到 $PH5$ ）的各个阶段。 $B3$ 期无疑比 $B2$ 期更晚。但是，从 $B2$ 过渡到 $B3$ 所需的生物学时间和荷尔蒙变化，可能与从 $B4$ 过渡到 $B5$ 所需的截然不同。将这些阶段平均化以追踪人群发育状况是一种统计上的罪过。一种更优美、更诚实的方法是，想象每个孩子都有一个不可观察的、真正连续的“青春期分数”。Tanner 分期只是我们被允许观察这个潜在连续体的离散窗口。复杂的统计模型正是这样做的，它们从观察到的定序阶段向后推断，以推断它们所代表的潜在特质。

当我们观察的不是整个人，而是在显微镜下观察他们的组织时，同样的想法也会出现。当病理学家检查胃活检以诊断胃炎时，他们使用新悉尼系统。他们对几个特征——慢性炎症、活动性、萎缩——进行四级评分：“无”、“轻度”、“中度”或“显着”。这创建了疾病的细致画像。一个病人不仅仅是一个单一的数字；他们可能有“轻度”炎症但“显着”萎缩，这种组合讲述了关于他们疾病过程和未来风险的特定故事。在这里，病理学家训练有素的眼睛再次做出了有序的判断，而不是度量测量。

然而，我们也必须认识到将复杂现实简化为单一有序等级的局限性。用于面瘫的 House-Brackmann 量表将病情从 I 级（正常）分级到 VI 级（完全瘫痪）。一个病人可能被赋予一个“IV 级”的总体评分。但这个单一的数字可能掩盖了复杂的情况。他们的闭眼功能可能严重受损（IV 级特征），而他们的额头运动仅为中度受影响（更接近 III 级特征）。总体评分抹平了这些丰富的细节。这一局限性推动了创新，导致了更先进、分段的评分系统，使用多个分数来捕捉病人状况更忠实的画像。临床量表的故事是在简单、标准化的沟通需求与描述保真度的渴望之间不断跳跃的舞蹈。

正确比较的艺术

如果定序量表是一种语言，那么统计学提供了语法。使用错误的语法会把一个有意义的句子变成胡言乱语。最常见和最危险的语法错误是把定序数字当作我们可以加、减、乘、除的常规等距量表数字来对待。

想象一个医院安全团队正在进行失效模式与效应分析（FMEA）。对于每一个潜在的失效（例如，“用药错误”），他们在一个 1 到 5 的量表上对三个方面进行评级：严重性（ $S$ ）、发生率（ $O$ ）和可探测性（ $D$ ）。一个常见的做法是将这些数字相乘得到一个风险优先数（RPN， $S \times O \times D$ ），然后关注 RPN 最高的失效。这听起来客观且量化，但它建立在沙地之上。

数字“1”到“5”只是有序类别的标签。我们完全可以选择标签 {1, 2, 3, 10, 11} 来代表五个严重性级别，因为这个新集合仍然保留了顺序。让我们看看会发生什么。一个评分为 $(S=4, O=4, D=2)$ 的失效模式 $A$ 可能会得到一个 RPN 为 $4 \times 4 \times 2 = 32$ 。另一个失效模式 $B$ ，评分为 $(5, 3, 3)$ ，得到的 RPN 为 $5 \times 3 \times 3 = 45$ 。我们优先处理失效模式 $B$ 。但是，如果我们使用我们备选的（但同样有效的）标签方案，失效模式 $A$ 的评分变为 $(10, 10, 2)$ ，得到 RPN 为 $200$ ，而失效模式 $B$ 的评分变为 $(11, 3, 3)$ ，RPN 为 $99$ 。突然之间，我们的优先级完全颠倒了！“最关键”的风险完全取决于一个任意选择的标签。该方法对容许的变换不是不变的，因此在科学上是无效的。

那么，如果我们不能进行简单的算术运算，我们如何比较组别呢？答案在于一个极其简单的思想：秩次。像 Kruskal-Wallis 和 Friedman 这样的非参数统计检验通过一个聪明的技巧来工作。它们根本不看原始分数。它们将所有数据汇集在一起，并将每个观察值转换为它的秩次——第一、第二、第三，依此类推。然后，它们会问，一个组的秩次是否系统性地高于另一个组。

这种方法的天才之处在于，秩次对于任何严格单调的量表重新标记都是不变的。如果你将你的疼痛评分从 $\{0, 1, 2, 3\}$ 改为 $\{0, 10, 50, 1000\}$ ，疼痛最严重的人仍然拥有最高的秩次。检验的结论保持不变。这些检验是稳健的，因为它们只使用定序量表真正提供的信息：顺序。

同样地，对顺序的尊重也让我们能够开发出更智能的方法来衡量一致性。假设两位精神科医生在一个 5 点严重性量表上对一位患者的症状进行评级。如果一位说“轻度”，另一位说“中度”，这是一个小分歧。如果一位说“无”，另一位说“严重”，那是一个大分歧。一个只计算同意/不同意的未加权度量会给这两种情况相同的惩罚。这显然是错误的。加权 kappa 是专为解决这个问题而设计的统计量[@problem_-id:4568783]。它允许我们为“几乎一致”的情况给予部分加分，加分随着评级之间分歧的增大而减少。这是一个为定序判断的现实量身定做的工具。

即使是描述定序数据的离散度或变异性，也需要一种不同的思维方式。我们不计算标准差（它基于算术，在这里没有意义），而是可以报告分布或使用分位数。对于一个虚弱评分，像“虚弱程度中位数为‘中度’，四分位距范围从‘轻度’到‘严重’”这样的陈述既直观清晰又在统计上是合理的。它告诉我们中心趋势和中间 50% 患者的分布范围，仅使用了类别的顺序。

算法时代的定序量表

我们讨论的原则并非过时统计时代的遗物。在机器学习和人工智能时代，它们比以往任何时候都更加重要。一个人工智能模型的好坏取决于它所获得的数据，如果我们未能尊重输入数据的性质，它同样会受到“垃圾进，垃圾出”原则的影响。

考虑一位数据科学家正在建立一个模型，根据分诊数据来预测住院情况，其中包括一个四级定序疼痛评分：{‘无’，‘轻度’，‘中度’，‘严重’}。一个常见但幼稚的方法是将这些编码为整数——0, 1, 2, 3——然后输入模型。模型会将这些视为等距数据，假设从‘无’到‘轻度’的影响恰好是从‘无’到‘严重’影响的三分之一。这个假设是完全任意的，而且正如我们在 RPN 例子中看到的，将编码改为一个非线性但仍有序的集合，如 {0, 1, 5, 10}，将会迫使模型学习一个完全不同的关系。

优雅而正确的解决方案是使用一种像温度计编码的方法。我们不使用一个间距可疑的变量，而是创建几个二元的“是/否”变量来代表跨越一个阈值：

疼痛是否至少为‘轻度’？（是/否）
疼痛是否至少为‘中度’？（是/否）
疼痛是否至少为‘严重’？（是/否）

一个疼痛程度为‘中度’的患者将被编码为{是，是，否}。这种表示方法只依赖于类别的顺序，对它们之间的距离不做任何假设。现在，机器学习模型可以自由地学习跨越每个疼痛阈值的独特重要性，使其能够灵活地发现疼痛严重程度与入院风险之间真实的、潜在的非线性关系。这种方法对原始量表的任何保序重标记都是不变的；它是稳健、诚实且强大的。

从床边到硅芯片，定序量表的教训是深刻的。它教会我们谦逊和精确。它提醒我们，智慧的第一步是正名——认识我们信息的真实性质。通过尊重顺序这一简单而强大的逻辑，我们避免了在沙上建城堡，而是在数学真理的坚实基石上构建我们的知识。