人时偏移量：发生率建模指南

玻尔百科

核心要点

原始事件计数不足以进行比较；必须通过考虑总观察时间（人时）将其标准化为率。
人时偏移量是总人时的对数，用于回归模型中，以在数学上将计数模型转换为率模型。
在带有偏移量的泊松或负二项回归中，暴露变量的指数化系数被解释为发生率比（IRR）。
在回归中使用偏移量是一种强大的技术，它允许研究人员同时调整多个混杂变量以分离出特定效应。
偏移量的概念非常灵活，可扩展到处理过度离散、时变暴露和复发事件的更高级模型中。

引言

我们如何公平地比较不同群体、不同时间段内事件发生的频率——例如疾病案例、设备故障或客户投诉？仅仅比较原始计数可能会产生严重的误导。一个有500例某疾病病例的城市似乎比一个有100例病例的城市情况更糟，但如果不知道人口规模和观察时长，这个结论就毫无意义。根本的挑战在于如何从原始、不可比较的计数转向标准化的、有意义的率。

本文将揭开一个旨在解决这一问题的核心统计方法的神秘面纱：人时偏移量。这项强大的技术主要用于计数数据回归模型（如泊松回归），它允许研究人员直接对事件发生率进行建模，并将观察时间这一关键背景信息纳入其中。通过理解和应用人时偏移量，我们可以进行公平的比较，调整混杂因素，并揭示隐藏在数据中的真实关系。

我们将从探讨“原理与机制”入手，在这里我们将解析将乘法形式的率公式转换为加法形式的回归模型的数学逻辑，并学习如何解释其结果。随后，在“应用与跨学科联系”部分，我们将遍览从流行病学、药物安全到因果推断等不同领域，看看这一个简洁而优雅的思想如何为稳健的科学发现提供动力。

原理与机制

从计数到率：寻找通用“货币”

让我们从一个简单的观察开始。想象你是一位流行病学家，被告知一种新疾病在A市导致了100个病例，在B市导致了500个病例。哪个城市的问题更严重？这个问题无法回答。如果A市只有1000名居民，而B市有一百万居民呢？情况立刻完全反转。事件的原始计数本身几乎是一个没有意义的数字。这就像有人告诉你一辆车行驶了100英里；除非你知道它行驶了多长时间，否则你对它的速度一无所知。

为了理解事件计数，我们必须将它们置于背景之中。我们需要一个分母。最自然的分母是事件可能发生期间的“暴露”量。在从公共卫生到工程学的许多领域中，这种暴露是被观察的个体数量和每个个体的观察时长的组合。我们称之为人时单位，例如人年或人日。如果我们跟踪一个人5年，他们贡献了5人年的观察时间。如果我们跟踪10个人各半年，他们也总共贡献了 $10 \times 0.5 = 5$ 人年。人时是让我们能够比较不同事物的通用“货币”。

有了这种“货币”，我们就可以计算一个有意义的量：发生率， $\lambda$ 。它是衡量事件发生频率的基本指标。

\lambda = \frac{\text{事件总数}}{\text{总人时}}

每1000人年发生10个事件的率是一个具体、可比较的量，无论它来自一个被长期跟踪的小群体，还是一个被短期跟踪的大群体。因此，我们的目标不是对原始计数本身建模，而是对这个潜在的率进行建模。

物理学家的技巧：将乘法变为加法

我们如何构建一个以率 $\lambda$ 为核心的统计模型？率的定义直接给出了我们与期望事件数（我们称之为 $\mu$ ）的联系。期望计数就是率乘以总人时 $T$ ：

\mu = \lambda \times T

这是一个乘法关系。然而，标准的回归模型是建立在加法的美妙与简洁之上的。那么，我们如何弥合这一差距？我们使用一个在整个科学领域都极为强大的技巧：取对数。对数具有将乘法变为加法的神奇特性。

\ln(\mu) = \ln(\lambda \times T) = \ln(\lambda) + \ln(T)

看看我们做了什么！期望计数的对数方程现在是两部分之和。第一部分 $\ln(\lambda)$ 是率的对数——这正是我们想要理解和建模的东西。第二部分 $\ln(T)$ 是总人时的对数，一个我们从数据中已知的值。

现在我们可以构建我们的模型了。假设我们想看看一个由变量 $X$ 代表的暴露是否会影响率。例如， $X=1$ 代表接受新药的组，而 $X=0$ 代表对照组。我们可以为率的对数提出一个简单的线性模型：

\ln(\lambda) = \beta_0 + \beta_1 X

将这个代入我们之前的方程，我们得到期望计数的完整模型：

\ln(\mu) = (\beta_0 + \beta_1 X) + \ln(T)

这就是用于分析率的泊松回归的数学灵魂。 $\ln(T)$ 这一项是一个已知变量，其系数固定为1。统计学家称之为偏移量。它是解开谜题的关键部分，它使得模型的其余部分 $(\beta_0 + \beta_1 X)$ 能够直接描述发生率的对数。我们不再是对原始、无法解释的计数进行建模；我们是在对率本身进行建模，并恰当地根据观察时间量进行了调整。

解读秘密信息：系数告诉我们什么

我们有了这个优雅的模型，但像 $\beta_1$ 这样的系数到底意味着什么呢？让我们来解读这个信息。

考虑我们的对数率模型， $\ln(\lambda) = \beta_0 + \beta_1 X$ 。对于未暴露组（ $X=0$ ），对数率就是： $\ln(\lambda_0) = \beta_0$ 。对于暴露组（ $X=1$ ），对数率是： $\ln(\lambda_1) = \beta_0 + \beta_1$ 。

为了看暴露的效果，让我们通过用第二个方程减去第一个方程来比较这两组：

\ln(\lambda_1) - \ln(\lambda_0) = (\beta_0 + \beta_1) - \beta_0 = \beta_1

再次使用我们的对数法则，我们发现：

\ln\left(\frac{\lambda_1}{\lambda_0}\right) = \beta_1

为了分离出率的比值，我们只需对两边取指数：

\frac{\lambda_1}{\lambda_0} = \exp(\beta_1)

这个比值 $\lambda_1 / \lambda_0$ 是流行病学的一个基石：发生率比（IRR）。它告诉我们暴露组的率与未暴露组的率相差的倍数。IRR为2意味着率增加了一倍；IRR为0.5意味着率减少了一半。因此，我们泊松回归模型中的指数化系数 $\exp(\beta_1)$ 就是发生率比。

让我们把这个具体化。在一项关于诊所新通风系统的研究中，暴露组（升级通风）在4800人年中发生了68例呼吸道感染，而未暴露组在7200人年中发生了72例感染。我们可以直接计算率：

率（暴露组）： $\lambda_1 = 68 / 4800 = 0.01417$ 例感染/人年。
率（未暴露组）： $\lambda_0 = 72 / 7200 = 0.01$ 例感染/人年。

粗发生率比是这些率的比值： $\text{IRR} = 0.01417 / 0.01 = 1.417$ 。如果我们拟合一个泊松回归模型，暴露的系数 $\beta_1$ 将是 $\ln(1.417) \approx 0.348$ 。模型优雅地重现了我们通过直接计算得到的结果，但它是在一个更强大的框架内完成的。

超越简单比较：调整的力量

真实世界是一个极其混乱的地方。在一项研究中，接受治疗的组可能也比对照组更年轻、更健康，或者生活在更清洁的环境中。这些其他因素中的任何一个都可能是观察到率差异的真正原因。这个问题被称为混杂。

这正是回归模型真正威力 unleashed 的地方。我们可以将这些其他因素，即混杂因素，加入到我们的模型方程中。假设我们担心年龄是一个混杂因素。我们可以为年龄创建一个变量（例如， $X_{\text{age}}=1$ 代表“年长”， $X_{\text{age}}=0$ 代表“年轻”）并将其添加到我们的模型中：

\ln(\lambda) = \beta_0 + \beta_1 X_{\text{exposure}} + \beta_2 X_{\text{age}}

现在， $\exp(\beta_1)$ 的解释变成了在保持年龄恒定的情况下，暴露的IRR。模型在数学上解开了这些效应的纠缠，给了我们一个关于暴露影响的“调整后”估计。

考虑一项包含暴露（无、间歇性、持续性）和年龄（年轻、年长）数据的研究。如果简单地将所有数据汇集起来，比较持续暴露与无暴露的粗IRR可能计算为3.375。然而，年长组可能既更容易受到持续暴露，也更容易出现健康问题。年龄混杂了这种关系。通过拟合一个同时包含暴露和年龄项的泊松模型，我们可能会发现年龄校正后的IRR为3.000。这个校正值是对暴露效应更真实的估计，因为它剥离了年龄的混杂影响。这种同时调整多个因素的能力，使得回归建模成为科学发现不可或缺的工具。

模型的宇宙：联系与区别

我们的泊松率模型不是一个孤岛；它是一个美丽、相互关联的统计方法大陆的一部分。

一个关键的区别在于率和风险。正如我们所见，率是以每人时的事件数来衡量的。而风险（或累积发生率）则不同：它是在一个固定时期内发生事件的概率，比如手术后30天的感染风险。为了对风险建模，人们可能会使用对数二项模型来估计风险比（RR），或者使用非常普遍的逻辑斯谛回归模型来估计比值比（OR）。虽然这三个度量（IRR、RR、OR）在概念上是不同的，但它们之间有着深刻的联系：当所研究的事件在随访期内是罕见的，它们的数值会变得非常接近。这是不同数学视角下统一性的一个非凡实例。

这种联系甚至延伸到了生存分析领域。一种用于分析事件发生时间数据的著名技术是Cox比例风险模型，它估计风险比（HR）。风险（hazard）是瞬时失效率。事实证明，在某些假设下——最简单的情况是，如果风险率随时间恒定——我们的泊松率模型会给出与Cox模型完全相同的结果。IRR变得与HR相同。实际上，人们可以巧妙地利用泊松回归对时间分割数据进行分析来近似Cox模型，这揭示了计数模型和生存时间模型之间的深刻联系。

真实世界充满噪声：处理复杂情况

自然界并不总是像我们最简单的模型那样整洁。泊松模型的一个关键假设是事件计数的方差等于其均值。实际上，计数数据通常比这更分散；方差大于均值。这种现象称为过度离散。如果某些个体天生比其他人更容易发生事件，或者事件倾向于成簇发生，就可能出现这种情况。

忽略过度离散是危险的。它可能导致标准误过小，置信区间过窄，以及p值具有欺骗性的显著性。这种“反保守”的推断会让我们以为找到了一个显著的结果，而实际上我们只是在观察噪声。幸运的是，我们有工具来解决这个问题：

稳健修正：我们可以使用稳健（或“三明治”）方差估计量。这是一种绝妙的统计补丁，它在事后校正我们的标准误，以考虑观察到的过度离散。它不会改变我们对IRR的估计，但它提供了更可靠、更宽的置信区间和更可信的p值。
更深层次的修正：我们可以使用一个完全不同、更灵活的模型，比如负二项回归模型。该模型包含一个特殊的参数来明确捕捉额外的方差。因为它是一个根本不同的模型，它在拟合过程中对观测值的加权方式不同，可能导致IRR的估计值略有不同——且通常更准确。

提出更精细的问题：交互作用的艺术

我们可以推动我们的模型去回答更复杂的问题。与其问“暴露有什么影响？”，我们可以问，“暴露的影响是否随时间变化？”。例如，一个安全培训项目的保护效果是否会随着时间的推移而减弱？

为了解决这个问题，我们可以在模型中引入一个交互项。如果 $E$ 是我们的暴露指示符， $T$ 是时间，我们可以将乘积 $E \times T$ 加入方程：

\ln(\lambda) = \beta_0 + \beta_E E + \beta_T T + \beta_{ET} (E \times T)

这个新项的系数 $\beta_{ET}$ 是关键。它量化了交互作用。如果我们进行与之前相同的解码练习，我们会发现 $\exp(\beta_{ET})$ 代表了时间 $T$ 每增加一个单位，IRR变化的倍数。例如， $\exp(\hat{\beta}_{ET}) \approx 1.05$ 的估计值意味着暴露组和未暴露组之间的率比每年增加约5%。

这才是建模的真正美妙之处。我们从一个简单的想法开始——在背景中计算事件。通过应用一个基本的数学工具——对数——我们构建了一个灵活而强大的框架。这个框架不仅让我们能够在应对混杂和过度离散的复杂性时估计效应，还使我们能够提出关于这些效应如何演变的精细、动态的问题，从而让我们更接近对世界的真实理解。

应用与跨学科联系

现在我们已经熟悉了人时偏移量的原理，你可能会问：“它有什么用？”这是一个合理的问题。一个物理或统计原理的价值仅在于它所能带来的理解。而在这个案例中，答案是：它的用处大得惊人。这个简单、近乎谦逊的会计技巧——不仅考虑受试者，还考虑受试者-时间——是现代定量科学中最悄然强大的思想之一。在一个事物很少整洁有序的世界里，它是解开公平比较之锁的钥匙。让我们踏上一段旅程，看看这一个思想如何在广阔的学科领域中开花结果。

公平比较的基石：流行病学与药物安全

想象你是一名科学家，肩负着一项重大的责任：确定一种新的救命药物是否有一种罕见但危险的副作用。你收集了数千名服用新药的人和数千名服用旧标准药物的人的数据。一年后，你发现新药组有 $100$ 个不良事件，而旧药组只有 $60$ 个。看起来新药风险更高，不是吗？

但等一下。如果服用新药的人平均随访时间更短呢？也许是因为研究设计就是这样，或者出于其他任何原因。如果你只比较计数，那就像试图通过看哪辆车开得更远来判断哪辆车更快，而不问每辆车开了多久！问题不是“有多少事件？”，而是“每单位时间有多少事件？”

这时，我们的主角——人时偏移量——登场了。通过将每个组中每个人被观察的所有月份或年份加总，我们得到了总的“人年”观察量。然后我们可以计算一个发生率：事件数除以总人时。也许新药组在 $20,000$ 人年里有 $100$ 个事件，而旧药组在 $25,000$ 人年里有 $60$ 个事件。

新药的率是 $\frac{100}{20,000} = 0.005$ 事件/人年。旧药的率是 $\frac{60}{25,000} = 0.0024$ 事件/人年。

现在情况更清楚了！新药的事件率实际上更高。通过使用带有对数人时偏移量的泊松回归模型，我们可以形式化这个比较，计算发生率比（IRR），甚至为我们的估计值加上置信区间来表示我们的不确定性。这项在药物流行病学中的基本应用，是像FDA这样的机构监控你未来可能使用的药物安全性的基石。它确保我们做出公平的比较。

构建更丰富的世界：从简单分层到复杂模型

当然，世界很少是简单的A对B的比较。如果我们正在研究职业健康，想知道一种清洁剂是否会导致皮疹怎么办？风险可能取决于剂量：可能存在低、中、高暴露组。同样的原则适用。我们可以使用基于偏移量的模型来估计三个组中每个组的发生率，从而让我们能够看到是否存在剂量-反应关系——即更多的暴露是否会导致更高的皮炎发生率？。

我们可以更进一步。我们可以构建一个丰富的、包含许多不同因素的多变量模型。想象一下公共卫生官员正在追踪流感样疾病（ILI）。新病例的发生率可能取决于诊所是否接受了干预（如口罩和洗手液）、季节（冬季流感更多）以及社区的社会经济剥夺程度。通过拟合一个单一的泊松回归模型，并为诊所的人口规模（我们的人时！）设置一个偏移量，我们可以同时估计这些因素中每一个的影响。

在这里，偏移量揭示了它更深层的魔力。当模型中包含偏移量时，我们估计的每一个系数都被转换了。代表“干预”的变量的系数不再告诉我们病例计数的变化；它告诉我们病例率的乘法变化。截距不再是一个基线计数；它是所有其他因素为零时的基线率。偏移量从根本上改变了我们所回答问题的性质，将其从“多少？”提升到更深刻的“多频繁？”。

时间之箭：处理动态与复发事件

到目前为止，我们都把时间当作一个可以加总和被除的分母。但时间不仅仅是一个分母。如果暴露在研究期间发生了变化怎么办？一个人可能在随访的前五年是吸烟者，然后戒烟了。我们该如何处理？

在这里，一个极其优雅的技术——“人时分割”——来帮助我们。这个想法很简单：如果一个人的暴露状态发生变化，我们只需将他们的随访历史切成几段。我们为他们作为吸烟者的时间创建一个“记录”，为他们作为非吸烟者的时间创建一个新记录。这个人现在为两个不同的暴露组贡献了人时。通过对每个人都这样做，我们创建了一个由人时区间组成的新数据集，其中每个区间内的暴露是恒定的。然后——你猜对了——我们可以将我们可靠的带有偏移量的泊松模型应用于这个扩展的数据集。这个简单的技巧使我们能够用同样的基本工具来分析复杂的、随时间变化的暴露。

这种联系非常深刻。这种分割时间并使用泊松模型的方法，在数学上被证明与生存分析中一个非常著名且强大的方法——Cox比例风险模型——是等价的，至少在某些条件下是这样。它揭示了统计学中一种美妙的统一性：两条看似不同的路径通向同一个理解的顶峰。

这种灵活性不止于此。那么复发事件呢，比如哮喘发作？你第一次发作的风险可能与你第二次或第三次发作的风险不同。我们同样可以运用我们的原则。我们可以对一个人的随访时间进行分层。从研究开始到他们第一次发作的时间是“第一次事件的风险人时”。从他们第一次发作后到第二次发作的时间是“后续事件的风险人时”。通过分别对这些不同风险时期的率进行建模，我们可以研究一个因素，比如高粉尘暴露，对引发首次发作和导致复发的影响是否不同。

拥抱混乱：从理想模型到真实世界数据

现实生活是混乱的。人是美好而又令人沮丧地复杂的。数据很少符合教科书中原始的假设。当我们的方法遇到现实时会发生什么？

一个常见的难题是“过度离散”。有时，事件的聚集程度比简单的、无记忆的泊松过程所暗示的要高。在我们的哮喘例子中，有些人可能就是比其他人更“易于加重”。这导致计数的方差大于均值，违反了泊松模型的一个关键假设。解决方案是使用一个更灵活的模型，比如负二项（NB）回归。其美妙之处在于，NB模型仍然使用完全相同的对数人时偏移量来正确地建模率！这个核心思想足够稳健，可以处理这种统计上的复杂性。

一个更大的挑战是人类行为。在随机对照试验（RCT）中，我们将一组分配给新疗法，另一组分配给安慰剂。但如果疗法组的人停止服药，或者安慰剂组的人开始从自己的医生那里服用有效疗法呢？这种情况时有发生。如果我们根据人们实际接受的治疗来分析他们（一种“按实际治疗”分析），我们就会破坏保护我们免受偏倚的随机化。

解决方案是强大的意向性治疗（ITT）原则：按照他们被随机分配的方式进行分析，无论他们后来做了什么。这给出了开具该药物这一政策效果的无偏估计。为此，我们比较分配到疗法组的全部人群与分配到安慰剂组的全部人群的事件率。我们如何计算这些率呢，特别是在有复发事件和不同随访时间的情况下？使用计数回归模型（如泊松或NB）和人时偏移量。偏移量是使这种对真实世界试验进行关键、务实分析成为可能的引擎。

前沿：背景、因果与复杂性

拥有了这样一个多功能的工具，我们可以开始提出一些科学中最深刻的问题。我们不是孤立的个体；我们嵌套在家庭、社区和社会中。你的邮政编码对你健康的影响是否和你的基因编码一样大？

想象一项跨越许多不同社区的疾病研究，每个社区都有不同程度的社会经济剥夺。我们想要区分作为个体吸烟者的影响和生活在贫困地区的背景效应。一个分层或多水平模型允许我们这样做。它为每个地区包含一个随机效应，以解释聚集性。在这个复杂模型的核心，对于嵌套在各自地区内的每个个体，我们再次使用——带有对数人时偏移量的泊松或NB模型来建模他们的事件计数。这个原则可以向上扩展，让我们能够探索健康和疾病的多层次性质。

最后，我们到达了前沿：对因果关系的追求。在观察性研究中，从相关性推断因果关系是出了名的困难，尤其是当暴露和结果之间的关系随时间展开时。一个主要挑战是时变混杂，即一个变量（如疾病严重程度）既是过去治疗的后果，又是未来治疗的原因。标准回归在这里会失败。

进入边际结构模型（MSM），一种来自因果推断的尖端技术。它使用一种称为逆概率加权的方法来创建一个“伪人群”，在这个人群中混杂已经被打破。这是一个卓越而复杂的想法。但是在完成了创建权重和构建伪人群的所有复杂工作之后，我们如何分析结果呢？我们如何估计因果发生率比？我们拟合一个加权的负二项回归，并带有……一个对数人时偏移量。

即使在因果推断的最前沿，这个正确核算风险时间的基本原则仍然是不可或缺的分析引擎。从最简单的两组比较到最复杂的因果模型，人时偏移量是一条统一的线索，是一个简单的想法，它让我们能够提出，并常常回答，关于我们周围世界的具有深远重要性的问题。