测量尺度：科学数据的语法

玻尔百科

定义

测量尺度：科学数据的语法是一个由定类、定序、定距和定比四个层级组成的层次分类系统，用于定义数据的数学属性和限制。这一框架是医学、数据科学和生态学等领域的基础，决定了哪些统计运算在数据处理和建模中是有效的。正确应用这些尺度能确保统计方法得出有效的结论，并防止因不当的数据简化而导致的信息损失。

核心要点

测量尺度构成一个层级结构（名义尺度、有序尺度、等距尺度、等比尺度），每个层级都增加了新的数学属性和约束。
尺度类型决定了哪些统计操作是有效的；例如，你可以对等距数据进行有意义的平均计算，但不能对有序数据这样做。
对给定的测量尺度应用不正确的统计方法会导致无效的结论，并可能降低统计功效。
在医学、数据科学和生态学等不同领域，理解测量尺度对于正确处理数据和建模至关重要。
将连续数据二分化（例如，分为高/低）是一种有害的简化，它丢弃了有价值的信息并削弱了分析。

引言

在量化科学的世界里，数字是我们用来描述和理解现实的语言。然而，并非所有数字都生而平等。运动员运动衫上的号码、患者的疼痛评分、室外的温度以及一个人的身高，这些都代表着根本不同类型的信息。误解这些差异是一个严重错误，可能导致有缺陷的分析和荒谬的结论。无法区分这些数据类型表明分析严谨性存在重大缺陷，这会将潜在富有洞察力的数据变成毫无意义的噪音。本文为测量尺度理论提供了一个基础指南，这是一套科学语言的语法。第一章“原理与机制”将介绍四种主要尺度——名义尺度、有序尺度、等距尺度和等比尺度——并探讨支配每种尺度的数学规则。随后，“应用与跨学科联系”将展示这些原理如何应用于从临床医学到机器学习等不同领域，揭示该理论对产生有意义的科学知识的深远影响。

原理与机制

想象你是一位试图绘制新世界地图的探险家。你不会用同一种语言来描述城市的名字、赛马的终点顺序、每日的温度以及山脉的高度。这些中的每一项都需要不同种类的描述，不同层次的精确度。在科学中，我们的语言是数学，而我们用来测量世界的数字也有不同的“风味”。它们并非生而平等。理解这些差异不仅仅是学术上的吹毛求疵；它是我们如何从数据中得出有意义结论的根本基础。这就是测量尺度理论，一套科学语言的语法。

测量的阶梯

物理学家兼哲学家 Stanley Smith Stevens 将这些尺度想象成一个阶梯，每向上一级都保留了其下所有级别的属性，同时增加了一个新的、强大的结构。攀登这个阶梯赋予我们更多的数学能力，但同时也要求我们的测量能捕捉到被测事物更深层次的现实。让我们一起攀登这个阶梯。

底层：用于命名的名义尺度

在阶梯的底部，我们有名义尺度。 “Nominal”这个词来源于拉丁文 nomen，意为“名字”。这些数字也正是如此：它们是名字或标签。想象一下一个多中心临床试验中的不同地点，我们可能将其标记为地点1、地点2和地点3，或者四种主要的ABO血型：A、B、AB和O。

在这个底层唯一的规则是，不同的事物获得不同的标签。我们可以计算有多少人是O型血，我们可以说A型不是B型。但仅此而已。“地点3”大于“地点1”或者“平均”血型是有意义的说法，这些都不成立。我们拥有的数学自由度是巨大的：我们可以随心所欲地交换标签，只要我们保持一致性。这种自由度被数学家称为在任何一对一变换或双射 (bijection) 下的不变性。我们数据的真实性——每个类别内的频数统计——保持不变。这就是为什么简单的条形图是可视化名义数据的完美方式：它尊重了我们仅仅是在计数标签这一事实。

更上一级：用于排序的有序尺度

阶梯再往上一级，我们发现了有序尺度。在这里，数字有了顺序。一个经典的例子是从0（“无痛”）到10（“可以想象的最剧烈疼痛”）的疼痛量表，或者一个从1到5分级的临床症状严重程度量表。我们知道疼痛评分为7比4更糟，严重程度为5比2更重。

但这里的关键微妙之处在于：我们只知道顺序，而不知道等级之间的距离。疼痛评分1和2之间的痛苦差异与8和9之间的差异相同吗？几乎可以肯定不是。这些数字只是有序的标签，就像在比赛中获得第一、第二或第三名一样。你知道到达的顺序，但你不知道冠军是领先了一秒还是一小时。

这带来了深远的影响。如果数字之间的距离不相等，你就不能有意义地对它们进行加减。因此，声称症状量表上“平均改善了5个单位”在严格意义上是毫无意义的胡说。你不能对等级进行平均。这里的数学自由度在于你可以随心所欲地拉伸和压缩这个尺度，只要你保持顺序（即一个严格递增的单调函数）。例如，我们可以将我们的疼痛评分从 $\{0, 1, 2, ..., 10\}$ 重新标记为 $\{0, 10, 25, 45, ... , 1000\}$ ；只要新数字仍然是递增顺序，所有原始的有序信息都得以保留。这就是为什么像中位数（中间值）这样的统计量对有序数据是有效的，而算术平均值则不是。同样，免疫学中使用的半定量抗体滴度（例如， $1\text{:}10, 1\text{:}20, 1\text{:}40$ ）是有序的；虽然数字在变大，但它们之间的“步长”是乘性的，而不是加性的，所以对它们求平均是无效的。

引入标尺：用于差异的等距尺度

为了进行加法和减法这样的算术运算，我们需要攀登到下一个阶梯：等距尺度。在这里，数字之间的距离是均匀且有意义的。典型的例子是用摄氏度或华氏度测量的温度。将一杯水从 $10^{\circ}\text{C}$ 加热到 $20^{\circ}\text{C}$ 所需的热量增加量与将其从 $30^{\circ}\text{C}$ 加热到 $40^{\circ}\text{C}$ 所需的增加量是相同的。这些间隔是相等的。

这个属性——相等的间隔——使我们能够有意义地计算差异，并因此计算平均值。平均变化 $1.5^{\circ}\text{C}$ 是一个完全有效的陈述。然而，等距尺度有一个隐藏的陷阱：它的零点是任意的。零摄氏度只是水的冰点，一个方便的约定，而不是所有热量的真正缺失。

零点的任意性意味着我们不能进行比率比较。说 $40^{\circ}\text{C}$ 是 $20^{\circ}\text{C}$ 的“两倍热”是毫无意义的。为什么？让我们使用这个尺度的规则。等距尺度允许的变换是仿射变换， $y = ax + b$ ，这对应于改变单位（ $a$ ）和移动原点（ $b$ ）。从摄氏度（ $C$ ）转换到华氏度（ $F$ ）就是一个完美的例子： $F = \frac{9}{5}C + 32$ 。

让我们来检验一下我们“两倍热”的说法。 $20^{\circ}\text{C}$ 是 $68^{\circ}\text{F}$ 。 $40^{\circ}\text{C}$ 是 $104^{\circ}\text{F}$ 。 $104$ 是 $68$ 的两倍吗？完全不是。比率改变了，因为这个陈述不是一个基本事实；它只是我们任意起点的人为产物。然而，请注意差异会发生什么。 $40^{\circ}\text{C}$ 和 $20^{\circ}\text{C}$ 之间的差异是 $20^{\circ}\text{C}$ 。 $104^{\circ}\text{F}$ 和 $68^{\circ}\text{F}$ 之间的差异是 $36^{\circ}\text{F}$ 。而确实， $36 = \frac{9}{5} \times 20$ 。差异被保留了下来，只是重新调整了尺度。关于差异和差异比率的陈述对于等距尺度是不变的，但关于数值比率的陈述则不是。

登顶：等比尺度与“无”的意义

在阶梯的顶端是等比尺度。它拥有等距尺度的所有属性（等距间隔），外加一个意义深远的补充：一个真实的、非任意的零点。等比尺度上的零意味着被测量的东西完全不存在。身高、体重、银行账户余额、血液中C-反应蛋白（CRP）的浓度，或者你去急诊室的次数——所有这些都是等比尺度。值为零意味着没有身高、没有体重、没有钱、没有CRP以及没有就诊。

这个真正的零点最终使得比率变得有意义。一个2米高的人确实是一个1米高的人的两倍高。CRP浓度为 $4.0 \, \text{mg/L}$ 是浓度为 $1.6 \, \text{mg/L}$ 的 $2.5$ 倍。无论我们使用什么单位——mg/L、g/dL或任何其他单位——这个陈述都保持为真。我们唯一的自由度是改变单位，这对应于简单的缩放， $y = ax$ 。加法项 $b$ 消失了，因为零点是固定的。因为比率的分子和分母都乘以相同的因子 $a$ ，所以比率本身是不变的。

等距尺度和等比尺度之间的对比在温度上得到了完美的体现。虽然摄氏度是一个等距尺度，但开尔文温标是一个等比尺度。零开尔文是绝对零度，是热能的真正缺失。因此，像“ $600 \, \text{K}$ 是 $200 \, \text{K}$ 的三倍热”这样的陈述在物理上是有意义的。

语法在行动

那么，为什么这个层级结构在哲学课堂之外还如此重要？因为它告诉我们能对数据做什么，不能做什么。它是防止我们说出统计学上的胡言乱语的语法。

了解一个变量的尺度决定了我们可以执行的数学运算、可以绘制的图表，甚至可以构建的复杂统计模型。

计算与可视化： 你可以计算平均温度变化（等距尺度），但不能计算平均疼痛评分（有序尺度）。你可以计算病毒载量的倍数变化（等比尺度），但不能计算摄氏度的倍数变化（等距尺度）。在可视化数据时，计数的条形图适用于医院地点（名义尺度），而直方图或箱形图适用于温度（等距尺度）。对于像甘油三酯这样倾斜的、正值的等比尺度变量，对数坐标轴上的图通常是完美的，因为它将等比尺度固有的乘性关系转换为线性关系，使模式更容易被观察到。
构建诚实的模型： 这个语法延伸到统计建模的核心。当我们构建一个模型时，我们选择的数学结构必须尊重结果变量的尺度。对于像血型这样的名义尺度结果，我们使用不假定任何排序的模型（如多项逻辑斯谛回归）。对于像疼痛严重程度这样的有序尺度结果，我们使用专门的模型（如累积logit模型），这些模型尊重顺序但不假定等距。对于像温度这样的等距尺度结果，假定高斯分布的标准线性模型通常效果很好。而对于像CRP浓度这样正值的、倾斜的等比尺度结果，基于伽马分布或对数正态分布的模型通常是理想的，因为它自然地处理了数据的乘性特性。模型的选择不是任意的；它是理解测量本身性质的直接结果。

简化的原罪

有一条诱人但危险的路径，一些人为了“简化”他们的分析而采取：他们拿一个完全良好的连续变量，比如血糖（一个等比尺度），然后在中位数处将其一分为二，将每个人标记为“高”或“低”。这被称为二分化。其论点是这样做使事情变得更简单。但它真正做的是，拿一个丰富、详细的测量，然后把大部分信息扔掉。

想象你有一张高分辨率的彩色照片。将其二分化就像把它转换成一幅双色调的卡通画。你失去了所有的细微差别，所有光与影的微妙渐变。在统计学术语中，你正在将一个等比尺度变量降级为一个粗糙的有序变量。你将一个血糖水平刚刚超过中位数的人与一个水平高出三倍的人同等对待。这种信息损失并非无害。它几乎总是削弱关联的表观强度，增加你估计的不确定性，并且至关重要的是，降低你的统计功效——即在真实效应存在时检测到它的能力。

因此，理解测量尺度不仅仅是关于变量的分类。它是关于尊重它们所包含的信息。它是通向诚实而强大的分析的指南，是一套帮助我们将数字翻译回关于世界的真实故事的原则。

应用与跨学科联系

我们已经走过了测量的抽象原理之旅，根据它们在保持真实性的前提下所允许的变换，定义了一个尺度的层级结构——名义尺度、有序尺度、等距尺度和等比尺度。这可能看起来像是一场学术练习，一个哲学家分类和贴标签的游戏。但意义何在？在现实世界中，我们称一个变量为有序尺度还是等距尺度，这重要吗？

这至关重要。事实上，这不仅仅是一个事后分类的问题；它是所有量化科学赖以建立的根本基础。弄错测量尺度不是一个小小的统计失误。它是一个根本的逻辑错误，类似于试图测量一段旋律的温度或一种颜色的重量。测量规则是科学的语法，当我们打破它们时，我们的问题就变成了胡言乱语，而我们从自然界得到的答案也变得毫无意义。

现在让我们来探讨这个看似简单的思想，如何以惊人的力量和优雅，在人类探究的广阔领域中展开，从我们自己思想的内心世界，到错综复杂的生态系统网络，再到信息的基本法则。

人的度量：从疼痛到生活质量

有什么比疼痛的感觉更个人化、更主观呢？我们如何可能用数字来捕捉这样的体验？这是临床医生每天面临的挑战，而他们的工具就是一个活生生的测量尺度博物馆。当医生让你用“搏动性”、“刺痛性”或“烧灼性”等词语来描述你的疼痛时，他们正在收集名义数据。这些只是类别，是不同类型体验的标签。没有内在的顺序；“刺痛性”不一定比“烧灼性”更“严重”，它只是不同。我们可以计算有多少患者报告“搏动性”疼痛，但我们无法对其进行平均。

如果他们让你将疼痛评为“轻度”、“中度”或“重度”，那么尺度就提升了。现在我们有了有序数据。我们知道“重度”比“中度”更强烈，“中度”又比“轻度”更强烈。顺序是有意义的。但是从“轻度”到“中度”的跳跃是否与从“中度”到“重度”的跳跃相同？没有理由这样假设。这些状态之间的心理“距离”是未知的。

为了尝试捕捉这个距离，临床医生开发了像视觉模拟评分法（Visual Analog Scale, VAS）这样的工具，这是一条线，你可以在上面从“无痛”到“可以想象的最剧烈疼痛”之间标记你的疼痛水平。因为这条线是连续的，它通常被视为一个等距尺度。这里的假设——并且是一个很强的假设——是，在 $2\,\mathrm{cm}$ 和 $3\,\mathrm{cm}$ 处的标记差异代表的疼痛变化量与在 $7\,\mathrm{cm}$ 和 $8\,\mathrm{cm}$ 处之间的差异相同。这个等距的假设允许我们进行算术运算，比如计算一段时间内的平均疼痛分数。但请注意，我们仍然不能说评分为 $6$ 的疼痛是评分为 $3$ 的“两倍”。为什么？因为零点——“无痛”——是一个真正的缺失，但另一个锚点，“可以想象的最剧烈疼痛”，是主观的。你的 $10$ 分是我的 $10$ 分吗？由于缺乏一个普适的、绝对的锚点，我们无法做出比率陈述。这个尺度是等距的，而不是等比的。

同样的逻辑也延伸到更复杂的概念，比如衡量一个人的生活质量（Quality of Life, QoL）。QoL问卷经常使用李克特量表（例如，从“非常不同意”到“非常同意”的1-5分制）。每个项目严格来说都是有序的。一个常见但有争议的做法是将这些分数相加，创建一个综合分数，研究人员为了统计上的方便，常常将其视为等距数据。然而，对测量更细致的理解警告我们，这个总和，在严格意义上，仍然是有序的。一个真正的等距尺度需要更复杂的心理计量学建模。

更微妙的是，考虑健康效用指数，其中一种状态可以被评为“比死亡更糟”，从而产生一个负值。虽然该尺度有一个非任意的零点（“死亡”），但负值的存在破坏了等比尺度所需的乘性结构。效用为 $0.4$ 并不比效用为 $0.2$ 有意义地“好两倍”，同样，效用为 $-0.4$ 也不是比 $-0.2$ “差两倍”。因此，这个尺度是等距的。这些区别并非迂腐；它们决定了有效的数学运算以及我们能对患者及其福祉提出的主张。

机器的语言：数据科学与建模

测量规则不仅适用于人类；它们也嵌入在塑造我们世界的算法逻辑中。当我们向机器提供数据时，我们必须首先教会它我们测量的语法。

想象一下，你正在设计一种医疗设备，用于测量光电容积描记法（PPG）信号的脉动幅度，这与智能手表测量心率所用的技术相同。原始数据是等比尺度的：值为零确实意味着没有检测到脉搏，2伏特的幅度是1伏特幅度的两倍。然而，每个人的皮肤和每个传感器的放置都会引入一个未知的乘性“增益因子”。你的读数是真实的生理信号乘以某个未知常数。为了在人与人之间比较读数，你必须对数据进行归一化。

如果你错误地分类了尺度会发生什么？如果你假装数据是等距的，并应用标准的Z-score标准化（其中涉及减去均值），你就犯了一个灾难性的错误。从一个等比尺度变量中减去均值会破坏其真正的零点，并使所有比率比较失效。你甚至可能得到负的振幅，这在物理上是荒谬的。由等比尺度决定的正确方法是使用乘性归一化：将每个人的信号除以一个特定于个人的基线（比如他们的平均振幅）。或者，你可以取信号的对数。这巧妙地将乘性增益因子转换为一个加性偏移量，然后可以通过减法安全地移除。理解测量尺度是解锁正确数据处理流程的关键。

这个原则在统计建模中是普遍适用的。假设你正在建立一个模型，根据患者入院的科室（例如，心脏科、肿瘤科、神经科）来预测患者死亡率 [@problem-id:4955331]。这是一个名义变量。如果你天真地将心脏科编码为1，肿瘤科为2，神经科为3，并将其输入回归模型，你就是在告诉模型，肿瘤科在某种程度上位于其他两者之间，并且科室变化的影响是线性的。这是荒谬的。正确的方法是独热编码（one-hot encoding），它为每个科室创建一个单独的开关，告诉模型它们只是不同，而不强加任何虚假的顺序或距离。

在处理复杂的混合数据集时，挑战变得更加尖锐，这在现代生物信息学中是常见情景。想象一个患者档案，包含二元数据（例如，某生物标志物阳性/阴性）、有序数据（例如，反应性分级为 $1+, 2+, 3+$ ）和连续数据（例如，生物标志物浓度）。对于像聚类这样的任务，你如何衡量两个这样的患者之间的“相似性”？你不能简单地将所有这些数字扔进一个像欧几里得距离这样的标准公式中。那将相当于将米、等级和类别标签相加。一种有原则的方法，比如使用 Gower 距离，是测量理论在实践中的证明。它就像一个通用翻译器，对每种数据类型使用不同的、适合其尺度的方法：对二元特征使用非对称距离（两个患者都为阴性并不如都为阳性那样信息丰富），对有序特征使用基于秩的比较，对连续特征使用适当缩放的差异。只有通过尊重每种测量的性质，我们才能构建一个有意义的患者相似性概念。这种深刻的理解为整个流程提供了信息，从为预测变量选择编码到选择正确类型的预测模型。

自然的架构：生态学与N维生态位

测量理论的力量超越了以人为中心的数据，帮助我们理解自然世界的基本结构。生态学中最优雅的概念之一是 Hutchinsonian 生态位，它定义了一个物种能够生存和繁殖的“空间”。这不是一个物理空间，而是一个抽象的 $n$ 维超体积，其中每个维度或轴代表一个关键的环境因素——温度、pH值、湿度、资源可利用性。这个超体积的边界被定义为物种的种群增长率 $r$ 正好为零的条件集合。在内部， $r > 0$ ，物种繁盛。在外部， $r 0$ ，物种灭亡。

这个优美的几何思想只有在它的坐标轴构成一个有效的度量空间时才是连贯的。而这正是测量理论成为生态位设计师的地方。你不能通过混合不兼容的尺度来定义一个有意义的超体积。一个代表温度（ $^{\circ}\mathrm{C}$ ）的轴是等距尺度。一个代表资源密度（ $\mathrm{kg/ha}$ ）的轴是等比尺度。但一个代表“栖息地类型”的轴呢？如果你将“森林”编码为1，“草原”为2，“湿地”为3，你就创造了一个无意义的维度，扭曲了整个几何结构。在这个空间中的距离和体积变得荒谬。

为了构建一个有效的生态位超体积，生态学家必须使用至少在等距尺度上测量的轴。像栖息地类型这样的名义类别必须被分解为其潜在的连续梯度（例如，冠层覆盖度、土壤湿度），或者用不假定欧几里得几何的专门方法来处理。此外，由于许多环境变量是相关的（例如，温度和海拔），生态学家必须使用像主成分分析（PCA）这样的统计技术，将相关的轴转换为一组新的正交轴，或者使用一种本身就考虑了协方差的距离度量（如马氏距离）。测量尺度的抽象规则决定了生态学最基本理论对象之一的实际构建。

最深的尺度：信息与物理定律

最后，我们可以在信息和物理学的基本概念中看到测量尺度的回响。微分熵是信息论中的一个概念，它衡量与一个连续随机变量相关的平均“惊奇”或不确定性。但是，当我们改变测量尺度时，这个信息度量会如何表现？。

考虑一个我们测量其浓度 $X$ 的生物标志物。假设它遵循某种概率分布。我们可以计算它的微分熵 $h(X)$ 。现在，正如我们所见，使用浓度的对数 $Y = \ln X$ 来工作通常很有用。关键的洞见是，对数转换后变量的熵与原始熵不相同。事实上，它们通过一个简单的公式相关联： $h(Y) = h(X) - \mathbb{E}[\ln X]$ ，其中 $\mathbb{E}[\ln X]$ 是浓度自然对数的平均值。

这告诉我们，微分熵在尺度变化下不是不变的。这很合理：我们获得的“信息”取决于我们使用的语言。然而，故事更深一层。如果我们用伽马分布——一个非常常见的正值物理量模型——来模拟生物标志物浓度，那么对数转换后变量的熵 $h(Y)$ 结果只依赖于分布的形状参数，而不依赖于率（或尺度）参数。率参数定义了测量单位（例如，微克/升 vs. 纳摩尔/升）。它的变化对应于等比尺度允许的变换。 $h(Y)$ 与此参数无关的事实表明，我们已经找到了一个与我们选择的单位无关的“信息”量！是分布的形状，而不是其绝对尺度，承载着这种内在信息。

这引出了一个最终的、统一的思想。虽然单个变量的熵可能易变，但两个变量之间的互信息——它们共享的信息量——在这些平滑、可逆的变换下是不变的。无论你用微克还是纳摩尔来测量两个生物标志物，或者你使用它们的原始值还是对数值，它们之间的互信息都保持不变。这就是为什么互信息在科学中是如此基本和稳健的概念。它捕捉了关系的本质，独立于我们选择的尺度的任意语言。

从诊所到计算机，从森林地表到物理学的基础，测量的原则不仅仅是分类。它们是确保我们科学探究不仅仅是噪音，而是有意义的无声而严谨的语法。它们让我们能够翻译自然之书，而又不失其诗意。