预期死亡数与标准化死亡比

玻尔百科

定义

预期死亡数与标准化死亡比指一套用于公共卫生领域的统计框架，通过调整年龄和健康状况等变量来公平地比较不同人群的死亡率。预期死亡数建立了一个定制的基准，而标准化死亡比（SMR）通过观察死亡数除以预期死亡数，衡量特定群体的死亡率是否高于或低于标准水平。该方法被广泛应用于医院质量审计、识别健康差异以及为医疗资源的伦理分配提供依据。

核心要点

预期死亡数通过调整年龄和健康状况等潜在的人群差异，创建了一个定制化的基准，以公平地比较死亡率。
标准化死亡比（SMR）的计算公式为“观测死亡数”除以“预期死亡数”，它量化了一个群体的死亡率是高于还是低于标准。
SMR计算的有效性关键取决于选择一个合适的标准人群，以避免诸如“健康工人效应”之类的偏倚。
这种方法是一个多功能工具，用于审查医院质量、识别健康差异、分析历史干预措施，并为伦理资源分配提供信息。

引言

我们如何才能公平地评判一家医院的表现或一项公共卫生政策的影响？简单地比较原始死亡人数具有极大的误导性，因为它未能考虑人群中的关键差异，如年龄、性别或疾病的严重程度。这种“拿苹果和橘子作比较”的根本问题可能导致错误的结论和资源的错误配置。本文通过引入一个强大的统计工具来应对这一挑战：预期死亡数的概念。我们将首先深入探讨“原理与机制”，以理解这一基准是如何计算的，以及如何用它来推导出标准化死亡比（SMR）。随后，在“应用与跨学科联系”中，我们将探讨这个单一的概念如何在从审查医疗质量到应对复杂伦理困境等不同领域中提供清晰的见解。

原理与机制

寻求公平的比较

我们如何知道一家医院是否表现良好？或者一项新的公共卫生项目是否在一个社区中拯救了生命？你可能会想直接计算死亡人数。假设A医院去年有50例死亡，而B医院有100例。B医院的危险性是A医院的两倍吗？别这么快下结论。如果B医院是一个巨大的区域中心，治疗的病人数是A医院的十倍呢？如果它是一个专门处理最危重病人的专业机构，而A医院主要接诊更年轻、更健康的病人呢？

你看，原始数据可能是很糟糕的骗子。直接比较它们，就像比较一支青少年联赛足球队和一支世界杯冠军队的进球数，而不考虑比赛场次或竞争水平。这是一种“拿苹果和橘子作比较”，在医学和公共卫生等领域，这种不公平的比较可能导致错误的结论、资源的错误配置和不公正的指责。

为了进行公平的比较，我们需要对这些潜在的差异进行调整。我们需要一种方法来创造一个公平的竞争环境。我们为此发明的工具是一个优美且惊人简单的想法：一个思想实验，一个“如果”机器，它允许我们问：“本应发生什么？”

“如果”机器：预期死亡数的构建

我们方法的核心在于计算一个称为预期死亡数的量。这不是对未来的预测，而是一个精心构建的基准。它回答了这样一个问题：“如果我们特定的群体——有着他们独特的年龄、疾病和其他特征组合——经历了与一个更大的、标准的参考人群（如整个国家）完全相同的死亡率，我们预期会看到多少死亡？”

构建这台“如果”机器需要采用经典的“分而治之”策略。

首先，我们不能把所有人都看成一个整体。一个90岁的人和一个20岁的人在任何一年中面临的死亡风险都大相径庭。因此，我们必须首先将我们的研究人群（无论是医院的病人还是城镇的居民）分解成更小、更均一的组，即分层。最常见的分层方式是按年龄，但我们也可以按病人疾病的严重程度、性别或任何其他强烈影响其风险的因素进行分层。

接下来，对于每个分层，我们从我们选择的标准人群中查找其死亡率。这个参考率，通常从庞大的国家数据库中计算得出，作为我们的通用衡量标准。例如，我们可能会发现，全国范围内65-79岁男性中风后的死亡率为每次入院4.5%。

然后是计算的核心部分。对于我们研究组中的每个分层，我们将该组中的人数乘以相应的参考率。如果我们的医院收治了500名65-79岁年龄组的病人，而全国比率为0.045，那么该组的预期死亡数将是 $500 \times 0.045 = 22.5$ 。是的，这个数字可以是小数，这完全没问题——我们谈论的是一个抽象的期望，而不是计算实际的人数。

更正式地说，我们用率乘以的量是总的风险人时。如果我们跟踪1000人一年，他们贡献了1000人-年的风险。如果我们跟踪500人两年，那也是1000人-年。预期事件数就是这个总风险暴露量乘以风险率：

\text{第 } i \text{ 层的预期死亡数} = (\text{第 } i \text{ 层的人时}) \times (\text{第 } i \text{ 层的参考率})

这个简单的乘法， $E_i = N_i \times R_i$ ，非常优雅。从更高级的角度看，这是生存分析中一个更深层次数学真理的实际近似，在生存分析中，预期事件数是通过对一个连续的风险函数（事件的瞬时风险）在风险人群过程上随时间积分得到的。这种复杂的微积分在实际应用中简化为直接的乘法，这一事实证明了数学思想美妙的统一性。

最后，为了得到我们整个人群的总预期死亡数，我们只需将所有单个分层的预期死亡数相加：

E_{\text{total}} = \sum_i E_i

结论：标准化死亡比（SMR）

现在我们有了进行公平比较所需的两个数字：

观测死亡数 ( $O$ )：我们组中实际发生的死亡人数。这是一个简单的、真实世界的计数。
预期死亡数 ( $E$ )：我们的“如果”机器计算出的死亡人数。这是我们的基准。

比较是通过一个简单而强大的比率进行的，即标准化死亡比，或SMR。

\text{SMR} = \frac{\text{观测死亡数}}{\text{预期死亡数}} = \frac{O}{E}

这个比率的含义非常直观：

如果 $\text{SMR} = 1$ ，意味着我们观测到的死亡数与预期完全相同。在考虑了其特定结构（例如，其年龄分布）后，我们组的死亡经历与标准水平相当。
如果 $\text{SMR} > 1$ ，我们观测到的死亡数多于预期。这表明死亡率高于标准——一个潜在的警示信号。例如，SMR为1.69意味着该组经历的死亡数比预期多出69%。
如果 $\text{SMR} 1$ ，我们观测到的死亡数少于预期。这表明表现优于平均水平。SMR为0.85意味着该组经历的死亡数比预期的要少15%。

这个单一的数字，SMR，已经创造了一个公平的竞争环境。它通过创建一个完全为我们研究的群体的独特构成量身定制的基准 ( $E$ )，使我们能够进行“苹果对苹果”的比较。

选择合适衡量标准的艺术

SMR的力量伴随着一项深远的责任：我们必须明智地选择我们的“标准”人群。SMR是一个相对度量；它的全部意义都来自于我们用来评判它的衡量标准。一个不合适的衡量标准会给出误导性的答案。

考虑经典的健康工人效应案例。想象一下，我们正在研究一家工厂工人的死亡率，想看看他们是否暴露于任何职业危害。我们使用普通人群作为我们的标准来计算他们的SMR。令我们高兴的是，我们发现SMR是0.89！看来这家工厂是一个非常健康的工作场所。

但是等等。“普通人群”中包括谁？它包括所有人：正在积极工作的人，但也包括退休、失业、残疾或病得无法工作的人。就其本质而言，一个在职工人群体平均比普通人群更健康。他们足够健康，能够每天上班，这本身就是一种强有力的选择偏倚。

将我们的工厂工人与普通人群进行比较是另一个“拿苹果和橘子作比较”的陷阱。我们发现的低SMR可能并不反映一个安全的工作场所；它可能只是反映了我们的工人，根据定义，是健康的。一个更公平的比较是使用一个不同的标准：一个由其他在职人员组成的人群。当我们使用一个仅限在职人员的参考人群重新进行计算时，我们可能会发现SMR实际上是1.04。情况完全反转了！相对于其他工人，我们的工厂工人实际上正在经历稍高的死亡率，这个发现在最初带有偏倚的比较中被掩盖了。这教给我们一个至关重要的科学教训：我们结论的有效性完全取决于我们对照组的质量。

从群体到个体：大数据时代的SMR

到目前为止，我们的“如果”机器是基于像年龄组这样的宽泛类别。但我们能做得更好吗？如果对于每一个进入医院的病人，我们都有一个详细的电子健康记录，其中包含他们的具体年龄、他们的合并症（如糖尿病或心脏病）、他们最初的实验室值等等，该怎么办？

我们可以构建一个复杂得多的“如果”机器。使用像逻辑斯蒂回归这样的现代统计技术，我们可以建立一个风险模型，为每个个体病人根据他们独特的风险因素集生成一个个性化的死亡概率， $p_i$ 。

现在，我们不再是对所有65岁的人使用一个参考率，而是为一个患有糖尿病和心力衰竭史的65岁老人提供一个特定的风险，而为一个没有其他健康问题的65岁老人提供另一个不同的风险。这里的妙处在于我们的基本原则保持不变。总预期死亡数， $E$ ，现在就是所有这些个别的、个性化的概率之和：

E = \sum_{i=1}^{\text{all patients}} p_i

那么SMR公式呢？它完全相同： $\text{SMR} = O/E$ 。这个基本概念是如此稳健和优雅，以至于它无缝地适应了从粗略的群体水平比率到高度个性化的、数据驱动的预测的转变。这显示了科学思想非凡的连续性，一个经典的流行病学工具在机器学习和大数据时代找到了新的、强大的生命力。

关于波动和抖动的说明

与任何对真实世界的测量一样，SMR不是一个完美雕琢、绝对的真理。它是一个估计值，和所有估计值一样，它存在一些不确定性。当我们研究小群体或罕见事件时，这一点尤其正确。

如果你抛硬币1000次，你很可能会得到非常接近500次正面的结果。但如果你只抛10次，得到7次正面（“观测”为7，而“预期”为5）并不会令人震惊。这可能只是随机机会。

同样，如果一家小型乡村医院在其最年长的年龄段中病人很少，那么观测到的死亡人数可能由于纯粹的偶然性而年复一年地显著“波动”。一年的SMR为1.5，下一年可能为0.7，而护理质量没有任何实际变化。这种统计上的不稳定性来自于分母中预期死亡数太小。为了解决这个问题，科学家们会报告SMR的置信区间，给出一个合理的数值范围，而不仅仅是一个数字。在更长的时间段内汇集更多的数据是减少这种“波动”并获得更稳定、更可信估计的最佳方法。

预期死亡数的概念，以及它所促成的SMR，是一个强大而多功能的工具。它让我们能够穿透原始数字的噪音，进行公平、有意义的比较。但就像任何强大的工具一样，它必须被明智地使用，需要深刻理解其假设，并对我们复杂世界中不确定性和随机机会的作用保持健康的尊重。

应用与跨学科联系

一个基础科学思想的真正魅力不在于其抽象的优雅，而在于它有能力照亮一个广阔且常常令人困惑的现实世界问题。一个简单的概念可以像一把钥匙，为那些乍看起来毫无关联的领域解锁清晰的认知。我们刚刚探讨的“预期死亡数”这个概念，正是这样一把钥匙。其核心是一种在充满不确定性和混杂变量的世界中进行公平比较和理性决策的工具。它让我们能够提出一个强有力的问题：“与什么相比？”现在，让我们踏上一段旅程，看看这一个简单的思想如何提供一个镜头，让我们能够审视我们医院的质量、绘制疾病的传播图谱、与历史对话，甚至驾驭我们时代最深刻的伦理困境。

医生的新听诊器：审查医院的健康状况

想象一下，你正试图确定两家医院中哪一家更好。A医院去年有100例死亡，B医院有150例。B医院更差吗？这个问题几乎是幼稚的简单，但答案却绝非如此。如果B医院是一个接收最危重病人的主要创伤中心，而A医院是一家较小的社区医院呢？比较它们的原始死亡人数就像比较一个安静的制琴师作坊里损坏的乐器数量与一个繁忙工厂里的数量——这并不能告诉你任何关于工艺质量的信息。

为了进行公平的比较，我们需要一个公平的基准。这正是预期死亡数概念发挥作用的地方。我们问：“考虑到这家医院治疗的特定病人组合——他们的年龄、他们的潜在状况、他们疾病的严重程度——如果这家医院的表现处于一个标准的、平均的水平，我们本应预期发生多少死亡？”这个预期数字就成了我们的基准。然后我们可以计算一个简单但强大的指标，即标准化死亡比，或SMR：

$\text{SMR} = \frac{\text{观测死亡数}}{\text{预期死亡数}}$

SMR为 $1.0$ 意味着医院的表现与预期完全一致。SMR低于 $1.0$ 表明表现优于预期，而SMR高于 $1.0$ 则是一个警示信号。例如，一家医院可能会发现其SMR为 $1.275$ ，这意味着它为其病人人群所经历的死亡数比预期的多了近 $28\%$ 。

然而，这个数字不是判决书；它是一个诊断工具。在著名的Donabedian医疗质量模型中，这个SMR是衡量结果的指标。它告诉我们发生了什么，但没有告诉我们为什么。不良结果可能是由于医院的结构（例如，训练有素的护士不足，设备陈旧）或其过程（例如，沟通不畅，未能遵守临床指南）存在问题。SMR就像发烧一样——它发出问题信号，告诉我们需要进行更深入的调查。

此外，我们必须始终考虑偶然性的作用。SMR为 $1.17$ 是问题的真实信号，还是可能只是一连串的坏运气？在这里，预期死亡数的思想让我们能够引入统计学的工具。我们可以计算SMR的置信区间。如果SMR的整个 $95\%$ 置信区间都位于 $1.0$ 以上——比如说，从 $1.009$ 到 $1.324$ ——我们就可以更加确定，高于预期的死亡率不仅仅是随机波动，而是一个需要医院领导和认证机构立即关注的系统性问题。

流行病学家的地图：绘制跨人群的疾病图谱

让我们能够审查一家医院的逻辑同样可以放大，用于绘制整个人群的健康景观。流行病学家不断面临着比较具有不同潜在特征的群体的挑战。

考虑一项调查，研究一组高紫外线辐射暴露的户外工作者死于黑色素瘤的风险是否升高。这个群体在其他方面可能平均比普通人群更年轻、更健康。简单比较死亡率会产生误导。相反，我们将全国性的、按年龄和性别分列的死亡率应用于该工人群体，以计算如果他们唯一的风险是作为普通人群的一员，我们预期会发生的黑色素瘤死亡人数。如果我们观测到 $90$ 例死亡，而我们只预期 $60$ 例，那么得到的SMR为 $1.5$ ，这发出了一个明确的信息：这个职业群体的超额风险为 $50\%$ 。这一量化证据是倡导工作场所采取保护措施的有力工具。

这种方法也成为揭示社会不公和健康差异的关键工具。公共卫生官员可能想知道，最近的移民人口是否正面临心血管疾病的不成比例的负担。移民人口通常比本国人口年轻，这可能会掩盖一个潜在的问题。通过根据移民的年龄结构和国家死亡率计算预期死亡人数，我们可以建立一个公平的比较。一个显著大于 $1.0$ 的SMR可以揭示一个隐藏的健康危机，为证明旨在实现健康公平的定向公共卫生干预和政策提供所需的数据。

与历史对话：量化过去以启示未来

预期死亡数的概念不仅是当下的工具；它还让我们能够与过去进行量化对话，并为未来做出更理性的决策。

Florence Nightingale，一位真正的数据可视化和应用统计学先驱，在克里米亚战争期间本能地使用了这种思维方式。我们可以追溯性地将她的论点形式化。假设在她的卫生和护理改革之前，一名士兵的疾病死亡风险是 $0.17$ ，改革后降至 $0.06$ 。在一个 $20,000$ 名士兵的队列中，避免的预期死亡人数就是改革前后预期死亡人数之差： $20,000 \times (0.17 - 0.06)$ ，等于惊人的 $2,200$ 条生命。这个计算给出了改革影响的惊人量化度量。当然，正如任何优秀的科学家都必须做的那样，我们补充一点谨慎的说明：这显示了强烈的相关性，但证明因果关系更难。其他因素可能在同一时间发生了变化。尽管如此，该分析为她的计划的有效性提供了强有力的证据。

这种前瞻性的应用也是启蒙运动对抗天花斗争的核心。面对一种可怕的疾病，思想家们开始使用概率来权衡他们的选择。想象一个有 $10,000$ 人的城镇。在没有干预的情况下， $2\%$ 的天花死亡率将导致预期的 $200$ 人死亡。一种早期的免疫方法，人痘接种术，本身带有风险——可能有 $0.3\%$ 的程序性死亡率，加上幸存者 $0.5\%$ 的残余天花风险——导致总预期死亡人数约为 $80$ 人。然后是Jenner更安全的疫苗，其程序风险可能为 $0.05\%$ ，残余风险为 $0.1\%$ ，将预期死亡人数降至仅 $15$ 人。预期死亡人数的计算将一个充满恐惧的选择转变为一个清晰、理性的决定，展示了新干预措施拯救生命的力量。这种相同的基本逻辑延续至今，尽管使用了更复杂的工具如生存分析，使我们能够估计现代干预措施（如整合艾滋病毒和结核病治疗项目）所避免的预期死亡人数。

道德罗盘：用预期值导航伦理困境

也许这个概念最深刻的应用是在伦理领域。当拯救生命的资源稀缺时，我们面临着痛苦的选择。我们如何决定谁能得到疫苗，或捐赠的器官？我们的直觉可能会相互矛盾，但最小化预期死亡人数的原则提供了一个强大（尽管不总是完整）的道德罗盘。

考虑器官分配的经典困境：只有一个肝脏可用，有两位候选人。候选人A病情非常严重，MELD评分为 $30$ ，在 $90$ 天内有 $50\%$ 的死亡几率。候选人B病情较轻，MELD评分为 $24$ ，死亡几率为 $19\%$ 。我们假设移植非常有效，给任何一位病人带来的同期死亡几率仅为 $10\%$ 。谁应该得到这个器官？目标是最小化这个两人系统中的总预期死亡人数。

方案1：移植给病情更重的病人（A）。 病人A的风险从 $50\%$ 降至 $10\%$ 。病人B仍在等待名单上，风险为 $19\%$ 。这个两人系统中的总预期死亡人数为 $0.10 (\text{来自A}) + 0.19 (\text{来自B}) = 0.29$ 。
方案2：移植给病情较轻的病人（B）。 病人B的风险从 $19\%$ 降至 $10\%$ 。但病人A仍在等待名单上，其 $50\%$ 的高风险保持不变。总预期死亡人数为 $0.50 (\text{来自A}) + 0.10 (\text{来自B}) = 0.60$ 。

分析结果清晰明了。通过将器官分配给最病重的病人，我们最大化了拯救的生命数量。这并非偏袒；这是一个理性的策略，旨在为整个群体实现最大的利益，用系统中最小的可用风险替换最大的风险。

同样的逻辑可以应用于大规模的公共卫生挑战，比如在大流行期间分配有限的疫苗供应。假设我们必须在一组高风险的老年人和一组高暴露的基本工作人员之间做出选择。我们可以计算每个群体每剂疫苗“避免的预期死亡人数”。因为老年人的感染致死率要高得多，一剂给予该群体的疫苗可能比给予更年轻、更健康的工作人员的一剂避免更多的死亡。因此，纯粹的“死亡最小化”策略将优先考虑高风险群体。这并不意味着它是唯一的伦理考量——社会可能会决定维持基本服务的运行也是一个有效的目标——但预期死亡人数的计算提供了一个透明和量化的基线。它迫使我们明确我们正在做出的权衡和指导我们选择的价值观。

从医院安静的大厅到大流行的前线，从历史的编年史到手术室，预期死亡数这个简单的思想充当了一个统一的原则。它为混乱带来了理性的度量，为比较带来了公平，为我们最困难的决定带来了清晰。它无法解决所有问题，因为许多问题涉及价值观的冲突，这是任何方程式都无法解决的。但它提供了一个共同的语言和一个坚实的基础，我们可以在此基础上建立一个更健康、更理性、更公正的世界。