年龄标准化

玻尔百科

核心要点

死亡或疾病的粗率常常具有误导性，因为它们将真实的健康风险与人群的潜在年龄结构混淆在一起。
年龄标准化通过计算不同人群在拥有相同、共同的年龄构成情况下的期望率值，从而实现公平比较。
主要技术包括直接标准化（使用一个标准人口）和间接标准化（使用标准率来计算标准化死亡比）。
这一原则不仅在流行病学中至关重要，在临床医学、儿科护理和神经心理学中对于准确诊断和公平的资源分配也同样关键。
年龄标准化仅校正年龄因素，无法解释其他混杂因素（如吸烟）、时期效应（如大流行病）或队列效应。

引言

在比较两个城市、国家或时间段的健康结果时，简单地看总体死亡率或发病率可能会产生严重的误导。一个退休社区的粗死亡率几乎肯定会高于一个大学城，但这是否意味着前者的居住健康环境更差？这种差异突显了统计学和公共卫生领域的一个根本问题：年龄的混杂效应。如果没有办法解释人口年龄结构的差异，我们的结论可能完全错误，这种现象有时会像辛p森悖论一样突出，即某个趋势在不同的数据分组中都存在，但当这些分组合并后，该趋势却消失或逆转了。

本文将介绍年龄标准化，这一解决上述问题的关键统计工具。它提供了一种通过消除年龄影响来进行公平、“同类”比较的方法。在接下来的章节中，我们将深入探讨年龄标准化的“原理与机制”，探索粗率是如何构成的，以及直接和间接标准化方法如何将其解构以揭示潜在的真相。随后，在“应用与跨学科联系”部分，我们将看到这一强大原则的实际应用，展示其不仅在流行病学中，而且在临床医学、神经心理学和公共政策等不同领域中的重要作用，在这些领域，它已成为准确诊断和公平决策的基石。

原理与机制

两城悖论

想象你是一名公共卫生侦探。你的任务是比较两个城市的健康状况：佛罗里达州一个繁华的退休社区Sunnyside，和中西部一个充满活力的大学城Northwood。你查看最基本的统计数据：总体死亡率，即粗死亡率。令你惊讶的是，你发现在阳光明媚、看似平静的Sunnyside的死亡率，明显高于寒冷且工业化的Northwood镇。

你应该得出什么结论？是Sunnyside的棕榈树下隐藏着某种未知的危险？还是Northwood的污浊空气秘密地是青春之泉？在你匆忙下结论并发布公共卫生警报之前，让我们像物理学家——或者在本案例中，像流行病学家一样思考。我们必须质疑最初的观察结果。我们真的在进行同类比较吗？

Sunnyside的居民平均年龄远大于Northwood的居民。而且，一个简单的人生事实是，老年人的死亡风险高于年轻人。因此，一个城市的“粗”死亡率是一个混合体——是其年轻、中年和老年公民死亡率的混合。如果一个城市有很大比例的老年居民，即使其医院是一流的，环境是 pristine 的，其总体粗死亡率自然也会更高。

这正是年龄标准化被发明出来要解决的根本挑战。它是一种用于进行公平比较的工具，确保我们是在比较苹果与苹果，而不是苹果与橘子。没有它，我们可能得出大错特错的结论。

考虑一个流行病学家称之为辛普森悖论的鲜明真实世界场景。在一项假设性研究中，工人们暴露于一种新的工业化学品。当我们查看总体数据时，暴露组患呼吸道感染的粗风险远低于非暴露组（粗风险比约为 $0.19$ ）。看起来这种化学品具有保护作用！但这是一种错觉。当数据按年龄——年轻工人和年长工人——分层时，一个完全不同的故事浮现出来。在年轻工人组中，暴露者的感染风险是非暴露者的两倍。而在年長工人組中，暴露者的風險高出25%。

这种化学品怎么可能对每一个子群体都有害，而总体上却显得有保护作用呢？答案在于年龄的混雜效應。在这个假设情景中，暴露组主要由年轻工人组成，他们本身的基线感染风险就非常低。而非暴露组则主要是年長工人，他们的基线风险要高得多。粗略的比较并没有真正衡量化学品的效果；它主要是在比较一群低风险的年轻人和一群高风险的老年人。表面上的“保护”效应完全是由于不同年龄结构造成的人为假象。要看清真相，我们需要将年龄与暴露分离开来。

粗率：伪装的加权平均

为了解开这个结，我们首先需要理解粗率的真正含义。它不是一个基础数字，而是一个复合数字。粗死亡率其实就是年龄别死亡率的加权平均。

让我们想象一个只有两个年龄组的国家：“年轻组”（0-64岁）和“年长组”（65岁以上）。假设年轻组的死亡风险为每年每1000人中有2人死亡，而年长组为每年每1000人中有30人死亡。现在，考虑这个国家在 $t_1$ 年，当时80%的人口是年轻组，20%是年長組。粗死亡率为：

$\text{Crude Rate}_{t_1} = (0.80 \times \text{Risk}_{\text{young}}) + (0.20 \times \text{Risk}_{\text{old}})$ $\text{Crude Rate}_{t_1} = (0.80 \times \frac{2}{1000}) + (0.20 \times \frac{30}{1000}) = 0.0016 + 0.0060 = 0.0076$

即每1000人中有7.6人死亡。

现在，让我们快进到 $t_2$ 年。假设医学科学没有任何进步，所以年龄别风险完全相同：年轻人每1000人中有2人死亡，老年人每1000人中有30人死亡。然而，人口已经老化。现在，只有70%的人属于年轻组，30%属于年长组。新的粗率是多少？

$\text{Crude Rate}_{t_2} = (0.70 \times \frac{2}{1000}) + (0.30 \times \frac{30}{1000}) = 0.0014 + 0.0090 = 0.0104$

即每1000人中有10.4人死亡。粗死亡率从7.6跃升至10.4，增幅超过35%！一个不知情的观察者可能会认为一场可怕的瘟疫袭击了这个国家。但我们知道真相：潜在的健康风险没有任何改变。唯一改变的是人口的年龄构成。粗率上升仅仅是因为人口这块“蛋糕”中，高风险的老年人群体所占的比例更大了。

这揭示了控制粗率的两个“杠杆”：年龄别率（真实的潜在风险）和年龄结构（平均数中的权重）。要在两个人群之间比较健康状况，我们需要一种方法来固定其中一个杠杆。

“公平”比较的发明：直接标准化

解决方法既简单又巧妙。如果问题在于两个人群的年龄结构不同，那我们就假装它们没有不同。我们可以提出一个反事实问题：“如果A市拥有某个‘标准’人口的年龄结构，它的总体死亡率会是多少？”然后，我们用完全相同的标准对B市提出完全相同的问题。

通过将每个城市的年龄别率应用于一个单一的、共同的年龄结构，我们计算出两个新的率。这些就是年龄标化率。因为我们在两次计算中都使用了相同的权重（标准人口的年龄结构），所以这两个新率之間剩下的任何差异都不能归因于年龄构成。它必定是由于它们潜在的年龄别健康风险存在真实差异。

让我们重温人口结构从第1年到第2年发生了变化，但年龄别率没有变化的场景。我们看到粗率增加了。但是，如果我们使用一个标准人口（比如70%是年轻人，30%是老年人）来计算这两年的年龄标化率，会怎么样呢？

第1年的标化率： 我们将第1年的率（两年相同）应用于标准人口的结构： $(0.70 \times \text{Rate}_{\text{young}}) + (0.30 \times \text{Rate}_{\text{old}}) = \text{Adjusted Rate}_1$
第2年的标化率： 我们将第2年的率应用于相同的标准人口结构： $(0.70 \times \text{Rate}_{\text{young}}) + (0.30 \times \text{Rate}_{\text{old}}) = \text{Adjusted Rate}_2$

由于两年的年龄别率完全相同，所以这个计算的结果也会完全相同。年龄标化率是相同的！这个方法正确地揭示了被粗率掩盖的真相：在这两年之间，潜在的死亡风险状况并未改变。

这个强大的思想有其历史渊源。在19世纪中叶，一位名叫William Farr的杰出统计学家在英国总登记处工作时，就面临着完全相同的问题。他想比较英格兰和威尔士不同地区的死亡率，但意识到粗略的比较具有误导性，因为一些地区的人口比其他地区更老。他发展出一种“比较死亡率指数”，这正是这种逻辑的早期形式化表达——将不同的率集应用于一个标准人口，以实现公平比较。他的工作为整个生命统计学和循证公共卫生领域奠定了基础。

标准化工具箱

我们刚才描述的核心标准化原则可以有多种应用方式，为不同情况提供了一个工具箱。

我们刚才描述的方法称为直接年龄标准化。这是最直观的方法。要使用它，我们需要两个要素：我们想要比较的人群的年龄别率，以及一个单一标准人口的年龄结构（这可以是一个国家人口、世界人口，甚至是研究人群之一）。我们将每个群体的率应用于标准结构，以获得可比较的调整后率。

但如果我们研究的群体没有可靠的年龄别率怎么办？想象一下，试图在一个非常小的城镇里研究一种罕见疾病。在某些年龄组中，可能没有死亡病例，导致率要么为零，要么不稳定。在这种情况下，我们可以使用间接年龄标准化。在这里，我们反转逻辑。我们不使用标准人口，而是使用一组标准率（例如，该疾病的国家年龄别率）。我们将这些标准率应用于我们小镇的年龄结构。这告诉我们，如果该镇居民的风险与全国整体风险相同，我们预期会看到多少死亡人数。然后，我们将镇上观察到的死亡人数与这个预期的人数进行比较。这两者的比值就是著名的标准化死亡比（SMR）。SMR为 $1.3$ 意味着该镇的死亡人数比根据其年龄结构预期的人数多30%，这表明存在局部问题。

在现代，这一思想已与强大的统计建模框架相结合。分析师可以使用广义线性模型（GLM），例如泊松回归模型，来描述疾病率如何依赖于年龄、城市和其他因素。一旦模型建立，我们就可以像使用“神谕”一样用它来计算调整后的率。我们可以问模型：“对于整个标准人口，如果每个人都住在X市，平均预测率会是多少？”然后，“如果他们都住在Y市，又会是多少？”这种技术，通常被称为计算预测边际，在概念上与直接标准化完全相同。然而，模型提供了更大的灵活性；例如，它可以平滑率中的随机噪声，并允许同时调整多个因素。无论是使用经典方法还是现代模型，指导原则都保持不变：通过提出一个“如果…会怎样”的问题来消除年龄的混杂效应，从而创造一个公平的比较。

哲人之石：可交换性及其局限

让我们再深入一层。这种统计机制的最终目标是什么？当我们探究某种暴露——比如生活在一个受污染的城市——的因果效应时，我们实际上是在进行一种想象。我们试图将现实世界中的结果与一个本可能存在的反事实世界中的结果进行比较。理想的实验是，让一群人生活在受污染的城市并测量他们的健康状况，然后让时间倒流，让完全相同的一群人生活在干净的城市，再测量其中的差异。

当然，这是不可能的。于是，我们比较两个不同的人群。为了使这种比较能够公平地替代我们不可能实现的理想实验，我们需要这两个群体是可交换的。这意味着，如果通过某种魔力，这两个群体交换了他们的暴露（干净城市的群体搬到污染城市，反之亦然），总体的健康结果将是相同的。简单来说，这两个群体在所有相关方面都是可比的，除了我们正在研究的暴露因素之外。

正如我们所见，具有不同年龄结构的群体是不可交换的。年龄调整是我们修正此问题的一种尝试。通过对年龄进行调整，我们希望实现条件可交换性——即假设在给定的年龄组内，两个城市的人群在所有意图和目的上都是可交换的。然后，调整过程将这些可交换的子群体以平衡的方式重新组合，以估计因果效应。

但这给我们带来了一个重要的警告。年龄调整是一个强大的工具，但它并非魔杖。它解决了年龄造成的混杂问题，但如果存在其他混杂因素呢？想象一下，受污染的城市不仅人口老龄化，而且吸烟率也高得多。吸烟与健康结果密切相关，也与“暴露”（城市）相关。在这种情况下，即使我们调整了年龄，我们的比较仍然不公平，因为我们没有考虑到吸烟习惯的差异。年龄调整后的结果仍然会有偏差。这告诉我们，年龄调整对于提出因果主张通常是必要但不充分的。为了更接近真相，我们必须识别并调整暴露与结果的所有主要共同原因。

最后，即使在比较同一人口在不同时间点的情况时，我们也必须谨慎。年龄调整对于分析趋势至关重要，但它只控制了年龄构成的变化。它不能控制其他强大的作用力。例如，2019年和2020年之间年龄标化死亡率的差异不仅仅是统计上的奇特现象；它会反映COVID-19大流行的时期效应，这场大流行增加了所有年龄段的死亡风险。同样，差异也可能源于队列效应；1930年出生的一群人（一个“出生队列”）可能因为早年营养、吸烟习惯和职业暴露等原因，在其一生中携带的健康风险与1990年出生的一群人不同。年龄调整分离出年龄构成的影响，拨开迷雾，以便我们能更好地看到数据中展开的这些其他往往更有趣的历史和生物学故事。这是通往理解之路上至关重要的第一步。

应用与跨学科联系

在我们之前的讨论中，我们探讨了年龄标准化的“是什么”和“如何做”。我们视之为一个用于进行公平比较的巧妙统计工具。但要真正领会其力量，我们必须看它在实践中的应用。要全面领略一个原则的辉煌，你不能将其局限于教科书的某一章；你必须让它走向世界，看它解决了什么问题，启发了什么新思想。事实证明，年龄标准化不仅仅是流行病学家的一种小众技术。它是一种合理的比较基本原则，其回响遍及医学、公共政策，甚至我们对人类成长和认知的理解。它是一面透镜，让我们穿越幻象，看到更深层、更公平的真相。

流行病学家的视角：绘制疾病图景

年龄标准化的最经典应用，也是其“原生栖息地”，是在流行病学——研究疾病分布的科学——中。想象一下，你是一名公共卫生官员，听说一个城市的某种癌症发病率高于另一个城市。你的第一反应可能是拉响警报，寻找某种隐藏的环境毒素或独特的地方行为。但明智的官员会停下来问：“这两个城市的人口构成是怎样的？”

如果一个城市是繁华的大学城，而另一个是宁静的退休社区，那么比较它们对于一种主要影响老年人的疾病的粗死亡率，就像比较幼儿园和养老院中髋部骨折的人数一样。这种比较毫无意义。为了进行公平比较，我们必须问，如果大学城拥有与退休社区相同的年龄结构，其癌症率会是多少，或者如果退休社区像大学城一样年轻，其癌症率又会是多少。这正是年龄标准化所做的。通过将每个城市的年龄别率应用于一个单一、共同的标准人口，我们创造出可以直接比较的年龄标化率。我们消除了年龄“透镜”造成的扭曲。这个过程使我们能够比较不同地区间罕见骨癌如骨肉瘤的潜在风险，并确信我们没有被人口统计学所误导。

这个工具让我们能做的不仅仅是比较一个疾病在两个地方的情况。我们可以用它来比较同一人群中不同疾病的相对负担。例如，在心血管病理学中，我们常常区分心源性猝死（SCD）和非猝死性心血管死亡（NSCM）。简单的计数可能会显示NSCM死亡人数远多于SCD，但在我们考虑到两者都严重依赖于年龄后，风险如何比较？通过计算各自的年龄标化发病率，我们可以计算出一个率比，它告诉我们，对于一个具有标准年龄结构的人群，一种死亡类型比另一种常见多少倍。这为我们提供了它们相对公共卫生影响的更真实画面，这是优先安排研究和预防工作的关键信息 [@problemid:4453590]。

这种“侦探工作”还可以更进一步。当我们追踪一段时间内的年龄标化率时，它们成为评估政策和社会变革影响的有力工具。思考自杀死亡率这一悲剧性问题。一个国家可能会观察到其粗自杀率在二十年间攀升，并想知道原因。部分答案可能是人口老龄化，因为自杀率在老年人群中通常更高。但通过计算年龄标化率，我们可以看到每个年龄段的风险是否也在变化。如果年龄标化率也在攀升，尤其是在全球趋势下降的情况下，这是一个强有力的线索，表明本地因素正在起作用。这个线索可以引导研究人员调查特定事件的影响——比如实施剧毒农药禁令（预计会降低死亡率），相对于枪支拥有率的上升或经济衰退的冲击（可能预计会增加死亡率）。年龄标准化提供了一个稳定的基线，据此可以辨别这些复杂、相互作用的力量所产生的影响。

临床医生的困境：从人群到患者

你可能会倾向于认为这只是研究庞大人群的工具。但解释年龄的原则是如此基础，以至于它已经深入临床医学的核心，帮助医生为个别患者做出更好的决定。

考虑诊断肺栓塞（PE），这是一种危及生命的肺部血凝块。一个关键的筛查测试是测量血液中的一种叫做D-二聚体的物质。几十年来，医生们使用一个固定的截断值：例如，高于 $500 \, \text{ng/mL}$ 的值被视为“阳性”，需要进行昂贵且有辐射暴露的CT扫描。问题在于，D-二聚体的基线水平会随着年龄增长而自然升高。对于一个健康的30岁年轻人来说， $400 \, \text{ng/mL}$ 的值是不寻常的。而对于一个健康的80岁老人来说，这个值完全正常。

使用固定的截断值造成了一个可怕的困境。它在老年人中的特异性非常差，意味着它产生了大量的“假阳性”。一个80岁的胸痛患者，其D-二聚体可能为 $600 \, \text{ng/mL}$ ，这仅仅是因为他们的年龄，而不是血栓，但固定规则会将其标记为阳性，导致不必要的检查、焦虑和费用。

解决方案简洁而巧妙：采用年龄校正的D-二聚体阈值。对于50岁以上的患者，许多医院现在采用这样的规则：截断值为患者年龄乘以 $10 \, \text{ng/mL}$ 。对于一个64岁的患者，截断值不是 $500 \, \text{ng/mL}$ ，而是 $640 \, \text{ng/mL}$ 。一个 $520 \, \text{ng/mL}$ 的测量值，在旧规则下本应是“阳性”测试，现在被正确地识别为阴性，患者从而免于进一步检查。这一简单的调整极大地提高了测试的性能，通过考虑患者自身的生物钟，使诊断过程个性化。

这一原则并非一次性的技巧。它出现在医学的许多角落。在血液学中，再生障碍性贫血的诊断依赖于发现“增生低下”的骨髓——即造血细胞过少。但什么是“过少”？年轻人的骨髓充满活力，而80岁老人的骨髓自然较为安静。一个固定的细胞增生度阈值（例如低于25%）可能会将一个有正常年龄相关变化的老年人误诊为患有严重疾病，或者更糟的是，漏诊一个年轻患者的疾病。解决方法是相同的：使用年龄调整的阈值，通常用100%减去患者年龄的经验法则来估计正常细胞增生度。这确保了“增生低下”是相对于该患者年龄的正常水平来定义的，从而带来更准确的诊断。

医学之外：该原则在其他领域的应用

调整年龄的力量远远超出了医院的墙壁。它出现在任何测量量随人类生命周期可预测变化的领域。

最直观的例子之一来自儿科烧伤护理。当患者遭受严重烧伤时，首要且最关键的任务之一是估算受影响的总体表（或体）面积百分比（%TBSA）。这个数字指导着从液体复苏到手术计划的一切。对于成人，通常使用简单的“九分法”，它为不同的身体部位分配固定的百分比（例如，头部是9%，每条腿是18%）。但任何见过婴儿的人都知道，这个规则不适用于儿童。人类的生长是“头尾向”的——我们从头到脚发育。婴儿的头部占其身体表面积的比例远大于成人，而腿部则小得多。将成人的九分法应用于一个头部烧伤的两岁儿童会危险地低估烧伤的严重程度，而腿部烧伤则会被高估。为了拯救生命，临床医生必须使用年龄调整图表，如Lund-Browder图表，该图表为儿童成长的每个阶段提供了正确的身体比例。在这里，年龄调整不仅仅是统计准确性的问题，它是救生治疗的先决条件。

该原则也是神经心理学——测量心智功能的科学——的支柱。在评估某人是否患有轻度认知障碍（MCI），即痴呆症的潜在前兆时，神经心理学家会进行一系列关于记忆、注意力和执行功能的测试。如何定义“受损”表现？它几乎总是相对于同龄健康个体的表现来定义的。一个对85岁老人来说是平均水平的分数，在一个55岁的人身上则会令人深感担忧。年龄调整后的常模，通常以与年龄别平均值的标准差表示，是整个诊断框架赖以建立的基础。没有它们，该领域将无法区分正常的衰老认知变化与病理过程的最初迹象。

追求公平：年龄调整与社会公正

我们已经看到年龄调整作为一种追求清晰、准确和洞察力的工具。但它最深刻的角色可能是作为一种实现公平的工具。因为资源是有限的，所以必须做出如何分配资源的决定。当这些决定基于粗略的、未经调整的统计数据时，它们可能极不公平。

想象一个州卫生机构有一笔预算用于预防老年人跌倒。他们必须决定A县和B县哪个需求更大。他们查看了伤害住院的粗率，发现A县的率更高。决定似乎很简单：把钱给A县。但随后一位流行病学家介入了。她指出A县是一个非常年轻的县，而B县有大量的老年人口。A县的高粗率是由大量年轻人的中度高发率（比如运动损伤）所驱动的。而在B县，老年人中的伤害率实际上几乎是A县老年人口率的两倍。B县的严重问题被其年龄结构的混杂效应所掩盖。

通过计算年龄标化率——尤其是使用一个能适当反映该项目旨在帮助的老年群体的标准人口——真相得以揭示。B县与该项目相关的潜在伤害负担要大得多。如果根据粗率分配资金，那就意味着忽视了那些最需要帮助的人。通过这种方式，年龄标准化不仅仅是一种统计修正；它是一种伦理上的 imperative，确保资源流向真正需要的地方。

认识到这种力量后，我们清楚地看到，负责任地使用统计数据是一个公共政策问题。建立一个促进公平比较的体系需要明确的指导方针。最佳实践要求所有比较都使用单一、固定的标准人口，以确保公平的竞争环境。它们要求透明度，不仅要公布最终的调整后数字，还要公布计算所依据的粗率和潜在的年龄别数据。它们还包括针对统计复杂情况的规定，例如数据稀疏时需要替代方法。通过将这些原则嵌入我们的公共卫生基础设施，我们从仅仅欣赏这个工具，转向系统地运用它来改善社会。

从癌症地图到医生的决策，从儿童的烧伤到老年人的摔倒，年龄调整的原则证明了它的价值。这是一个简单而深刻的想法：要看到事物的本来面目，我们必须首先解释我们观察事物所通过的透镜。在一个充满令人困惑的复杂性的世界里，它是一个指向更清晰、最终更公平理解的指南针。