try ai
科普
编辑
分享
反馈
  • 倾向性评分

倾向性评分

SciencePedia玻尔百科
核心要点
  • 倾向性评分是在给定个体观察到的基线特征的情况下,其接受特定治疗的概率,它将许多混杂因素压缩成一个单一的数值。
  • 通过以倾向性评分为条件,研究人员可以平衡治疗组和非治疗组之间观察到的协变量的分布,从而模拟随机对照试验的特性。
  • 应用倾向性评分的常用方法包括匹配统计双生子、将人群分层为可比较的亚组,以及对个体进行加权以创建一个平衡的伪群体。
  • 倾向性评分分析的有效性关键依赖于无法检验的无未测量混杂因素的假设,以及治疗组之间存在重叠的实际要求。

引言

确定一项干预措施是否真正导致某个结果是科学研究的核心目标,但“金标准”——随机对照试验(RCT)——通常无法实施。在现实世界的观察性数据中,由于混杂因素的存在,对不同组别进行比较充满了风险。这就是所谓的“苹果和橘子”问题,即结果的差异可能是由组间预先存在的差异导致的,而非治疗本身。本文通过介绍倾向性评分来应对这一根本性挑战,这是一种强大的统计工具,旨在在非随机化研究中实现公平比较。它揭示了这种巧妙的方法如何让研究人员利用观察性数据来近似模拟实验条件。在接下来的章节中,您将首先探索使倾向性评分发挥作用的核心统计学“原理与机制”,从“平衡特性”到匹配和加权等主要方法。随后,“应用与跨学科联系”一章将展示这些技术如何应用于医学、流行病学和数据科学等不同领域,以在复杂的世界中揭示因果真相。

原理与机制

苹果与橘子的困境

想象一个医生团队想知道一种新的、高风险的外科手术是否比标准药物更能治疗严重的心脏病。他们查看了数千名患者的数据,发现了一个惊人的结果:接受手术的患者比服用药物的患者更有可能出现并发症。他们应该就此断定手术是失败的吗?

别那么快下结论。一个好的科学家,就像一个好的侦探,必须总是问:“还有其他什么可能的原因呢?”谁会接受手术?通常是那些病情最危重的患者——那些标准药物已不再是选项的患者。而接受药物治疗的患者,可能一开始就比较健康。因此,最初的分析并不是一个公平的比较。它比较的是病情较重的“苹果”(手术组)与较健康的“橘子”(药物组)。这个根本性问题,即一个隐藏因素既与治疗相关又与结果相关,被称为​​混杂​​。在这个案例中,疾病的严重程度就是混杂因素。它使得我们无法将治疗的效果与患者初始健康状况的效果区分开来。

几十年来,这个“苹果与橘子”问题对于那些试图从现实世界的、无法进行完美实验的观察性数据中了解因果关系科学家来说,一直是个巨大的难题。进行公平比较的黄金标准是​​随机对照试验(RCT)​​,即通过抛硬币的方式将患者分配去接受手术或药物治疗。随机化像魔法一样,能确保平均而言,除了接受的治疗不同外,两组在所有可以想象的方面——无论是已知的还是未知的——都是相同的。它强制让比较在苹果和苹果之间进行。但是,当RCT不道德、不切实际或已错过时机时,我们能做什么呢?我们如何才能在混乱的、非随机的数据中找到真相?

一种统计学上的巧妙手法:倾向性评分

这时,一个极其巧妙的想法应运而生,这是20世纪末最重要的统计学发展之一。在20世纪80年代初,统计学家Paul Rosenbaum和Donald Rubin提出了一个简单而深刻的问题:一个混乱的观察性研究和一个干净的随机试验之间的关键区别是什么?他们的答案是,在试验中,每个人接受治疗的概率是固定且已知的(通常为50%),无论他们是病是健。在我们关于心脏病的观察性研究中,这个概率并非固定的。一个病得很重的患者可能有90%的机会被建议进行手术,而一个较健康的患者可能只有10%的机会。

这个概率——在给定一组基线特征的情况下接受治疗的概率——就是他们所称的​​倾向性评分​​。形式上,如果A=1A=1A=1代表接受治疗,而XXX是所有相关的治疗前患者特征(如年龄、性别、疾病严重程度、实验室检查值等)的集合,那么倾向性评分是:

e(X)=P(A=1∣X)e(X) = P(A=1 \mid X)e(X)=P(A=1∣X)

乍一看,这似乎没什么大不了。但这是一个天才之举。它将一个可能包含数十个特征的庞大、笨拙的列表——统计学家称之为高维问题——压缩成一个单一的数值。这一个数值,即倾向性评分,充当了患者接受特定治疗的所有已测量原因的摘要。它本质上是一个关于混杂的单一汇总分数。

伟大的均衡器:平衡特性

真正的魔力在这里发生。Rosenbaum和Rubin证明了一个被称为倾向性评分的​​平衡特性​​的卓越定理。该定理指出,如果你选取一组倾向性评分完全相同的患者,那么在该组内,接受治疗者和未接受治疗者之间所有基线特征(XXX)的分布将是相同的。

让我们停下来体会一下这是多么令人惊叹。假设我们找到一组倾向性评分均为0.750.750.75的患者。这意味着根据他们特定的年龄、疾病严重程度和其他因素的组合,他们都有75%的机会接受手术。他们中的一些人确实接受了手术,而另一些人由于某种原因最终接受了药物治疗。平衡特性保证了在这个75%概率的群体中,手术患者和药物患者在XXX中的所有特征上平均而言是完全可比的。他们的平均年龄将是相同的,他们的平均疾病严重程度将是相同的,依此类推。这就像是我们在我们数据的一小部分中创造了一个微型随机实验![@problem_g_id:4515359]

通过以这个单一数值为条件,我们同时在数十个变量上实现了平衡。我们在统计上将我们的观察性研究中的苹果和橘子变成了可比较的组。这是使倾向性评分分析成为可能的核心原理。

因果推断工具箱:匹配、分层与加权

一旦我们有了这个强大的工具,我们如何用它来估计治疗效果呢?主要有三种策略,每种都有其自身的特点。

​​1. 匹配(Matching):​​ 这是最直观的方法。对于每个接受治疗的患者,我们在未接受治疗的患者池中搜索他们的“统计双生子”——一个倾向性评分完全相同或非常相似的个体。然后我们形成治疗和未治疗个体的配对,并直接比较他们的结果。通过只比较这些匹配的双生子,我们正在进行公平的比较。这种方法通常估计的是​​受治疗者的平均治疗效应(ATT)​​,它回答了这样一个问题:“在实际接受手术的患者中,与他们如果接受药物治疗会发生的情况相比,手术的效果是什么?”

​​2. 分层(Stratification):​​ 这是匹配的一个稍显粗略但更简单的方法。我们不是寻找单个的双生子,而是根据倾向性评分将整个研究人群分成几个组或“层”。例如,我们可以创建五个分层:评分在000到0.20.20.2之间的患者,在0.20.20.2到0.40.40.4之间的患者,依此类推。在每个分层内,治疗组和未治疗组现在大致是平衡的。我们可以在每个分层中计算治疗效果,然后将这些效果平均以获得一个总体估计。

​​3. 逆概率治疗加权(IPTW):​​ 这是最抽象但可以说是最强大的方法。其思想是创建一个新的、合成的“伪群体”,在这个群体中混杂已不复存在。它通过对研究中的每个人进行加权来实现这一点。

  • 一个接受了根据其特征来看不太可能接受的治疗的患者(例如,一个非常健康的人接受了高风险手术),会被赋予一个较大的权重。他们在统计上“代表”了所有其他未接受手术的类似健康人群。

  • 一个接受了很可能接受的"治疗的患者(例如,一个病得很重的人接受了手术),会被赋予一个较小的权重,因为他们已经能代表他们所在的群体。

权重就是他们实际接受治疗的概率的倒数。对于一个接受治疗的人,权重是 w=1/e(X)w = 1/e(X)w=1/e(X);对于一个未接受治疗的人,权重是 w=1/(1−e(X))w = 1/(1-e(X))w=1/(1−e(X))。当我们应用这些权重时,我们创造了一个新的、平衡的伪群体,其中治疗组和未治疗组的特征是相同的。在这个合成的世界里,就好像治疗是随机分配的,我们可以估计整个群体的​​平均治疗效应(ATE)​​。

游戏规则:假设与陷阱

这个强大的工具箱并非没有代价。其有效性依赖于几个关键且无法检验的假设。诚实的科学要求我们清楚地陈述它们。

  • ​​条件可交换性(无未测量的混杂因素):​​ 这是最重要的一条。倾向性评分只能平衡我们已经测量并包含在模型(XXX)中的混杂因素。如果存在某个未测量的因素,它既影响治疗选择又影响结果——比如,患者的积极性或我们没有检测的特定基因标记——倾向性评分无法解决这个问题。我们必须能够假设,在考虑了我们测量的协变量XXX之后,相对于潜在结果而言,治疗分配实际上是随机的。 这是一个深刻的要求;它意味着即使某些混杂因素数据缺失,我们也必须使用复杂的方法来填补空白,而这些方法本身必须知晓治疗和结果,以避免破坏我们试图研究的微妙关系网。

  • ​​正性(或重叠):​​ 对于任何给定的特征集,接受任一治疗的概率都必须非零。在我们的例子中,如果所有肾功能极低(例如,eGFR30eGFR 30eGFR30)且有大出血史的患者都接受了药物治疗,而没有一个接受手术,那么我们就没有关于这类患者如果接受手术会发生什么的数据。没有可以与他们比较的对象。这严重违反了正性。在实践中,我们经常面临“接近违规”的情况,即某些个体的倾向性评分非常接近000或111。这表明组间缺乏重叠,并可能导致严重问题,例如在IPTW分析中产生大得不可能的权重。

  • ​​一致性和SUTVA:​​ 这些是更技术性的假设,基本上是说治疗是明确定义的,并且一个个体的结果不受其他任何人治疗的影响。

此外,构建倾向性评分模型本身也需要谨慎。它不是一个简单的预测任务。包含一个能强有力预测治疗但与结果无关的变量(“工具变量”),并不会减少偏倚,反而可能通过产生更极端的倾向性评分而显著增加你估计值的方差。一个致命的错误是包含了任何在治疗开始后测量的变量,因为这会引入严重的偏倚。

驾驭现实世界:诊断与勤勉

研究人员如何负责任地使用这些方法?这需要勤勉和愿意检查他们的工作。

首先,你如何知道你的倾向性评分模型是否好?目标是​​平衡​​,而不是预测。一个能完美预测谁接受哪种治疗的模型意味着没有重叠,这使得因果推断变得不可能!所以,研究人员不应检查分类准确率之类的指标,而必须检查他们选择的方法(匹配或加权)是否真正在协变量上实现了平衡。他们通过比较调整前后的每个协变量的​​标准化均数差(SMD)​​来做到这一点。一个好的模型将导致调整后的SMD都接近于零。

其次,如果你发现缺乏重叠(一个实际的正性问题)怎么办?统计学家已经发展出许多策略:

  • ​​修剪或限制:​​ 你可以简单地排除那些倾向性评分极端、难以进行公平比较的个体。例如,在匹配分析中,找不到合适“双生子”的个体会被排除。这会产生一个更可靠的估计,但只适用于一个更受限的人群。你回答了一个略有不同但更易回答的问题。

  • ​​权重截断:​​ 在使用IPTW时,你可以为极大的权重设置上限,以防止它们破坏整个分析的稳定性。这会引入微量的偏倚,但可以大幅减少估计的方差,这通常是值得的权衡。

  • ​​重叠加权:​​ 一种更优雅的现代方法涉及一种不同的加权方案,它给予那些“摇摆不定”的人——倾向性评分接近0.50.50.5的人——最大的权重。这些人是治疗选择最不确定的人,也是治疗组和未治疗组之间有最自然重叠的地方。这种方法对极端倾向性评分具有高度的稳健性,并针对一个定义明确且通常具有临床相关性的因果效应。[@problem_g_id:4639155]

倾向性评分不是一根能将所有观察性数据都点石成金的魔杖。它是一个锋利而强大的工具,当以对其原理的深刻理解和对其假设的健康尊重来使用时,能让我们在一个完美实验通常是我们无法负担的奢侈品的世界里,更接近关于因果关系的真相。它证明了统计推理在复杂性中寻找清晰和秩序的力量。

应用与跨学科联系

在理解了倾向性评分背后的原理之后,我们现在可以踏上一段旅程,去看看它的实际应用。这个想法的真正美妙之处不仅在于其数学上的优雅,更在于其非凡的多功能性。它是一把钥匙,能解开医学、社会学和环境科学等迥异领域中的因果问题。它让我们能够在一个狂野、未驯服的观察性数据世界里,强加一种实验秩序的表象。让我们来探索这个单一而强大的概念如何帮助我们了解世界是如何运作的。

医学:追求治愈之道

观察性数据带来的挑战在医学领域表现得最为尖锐。出于伦理和实践原因,我们无法对每一种治疗都进行随机化。医生根据其专业判断和患者的独特特征为患者做出选择。一个年龄较大且有肾脏问题的高血压患者,可能会接受与一个更年轻、更健康的患者不同的药物。如果我们后来观察到第一组的预后更差,是因为药物的原因,还是因为他们一开始就病得更重?这是典型的“适应症混杂”问题,也正是倾向性评分的天然用武之地。

想象一项研究,比较一种标准利尿剂与另一种降压药。我们有一个丰富的数据集,包含了在治疗开始前测量的患者特征:年龄、性别、基线血压、肾功能等等。我们可以利用这些信息来构建一个倾向性评分模型——一个预测在给定特定特征集的情况下,患者会接受利尿剂的概率的模型。这个评分,一个介于0和1之间的单一数值,完美地总结了医生可能偏好一种药物而非另一种的所有已测量原因。

现在,我们可以用这个评分来创造一个公平的比较。一种流行的方法是逆概率治疗加权(IPTW)。可以把它看作一种“统计学上的平权行动”。在我们的原始数据中,接受利尿剂的组很可能与未接受的组大不相同。但是,通过将每个人的权重设为他们实际接受治疗的概率的倒数,我们可以创建一个“伪群体”。在这个新的、合成的群体中,就好像每种类型的患者都有同等的机会接受任一种药物。混杂变量得到了平衡,对两个加权组的平均血压进行简单比较,就能为我们提供一个关于药物真实效果的更公平的估计。

同样的逻辑也适用于更具戏剧性的干预措施,比如手术。考虑在两种减肥手术——袖状胃切除术(SG)和Roux-en-Y胃旁路术(RYGB)——之间的选择。外科医生可能会为患有严重胃酸反流的患者推荐RYGB,而这个因素也影响着他们的手术结局。为了将手术的效果与预先存在的疾病状况的效果区分开来,我们可以再次求助于倾向性评分。这里,我们可能尝试使用匹配而非加权。对于每个接受RYGB的患者,我们可以寻找他们的“统计双生子”——一个接受了SG但倾向性评分几乎相同的患者。通过创建一个仅由这些匹配对组成的新数据集,我们实际上制造了一项研究,其中两组在所有已测量的协变量上都达到了精确的平衡。在这个匹配队列中比较结果,现在是对该手术类型因果效应的一个更可信的估计。这个过程是精细的;它需要深厚的临床知识来选择正确的协变量,并进行仔细的诊断以确保“双生子”真正相似。

健康的前沿:基因、亚组与生存

倾向性评分的用途延伸到了医学的最前沿。在肿瘤学中,我们可能想比较一种新的免疫疗法与传统的化疗对宫颈癌的疗效。在这里,结果不仅仅是单个测量值,而是随时间变化的生存状况。倾向性评分可以与生存分析方法(如Cox比例风险模型)无缝集成,以估计一种治疗如何影响患者生存的整个轨迹,同时调整从疾病分期到肿瘤上特定生物标志物等一系列混杂因素。

也许最深刻的是,倾向性评分帮助我们驾驭混杂与我们所谓的“效应修饰”之间的复杂相互作用。混杂因素是一种干扰,是我们必须消除的偏倚来源。而效应修饰词则是一项发现——它提示我们一项治疗对不同类型的人效果不同。

考虑抗血小板药物clopidogrel。其有效性依赖于体内一种名为CYP2C19的酶的激活。有些人携带一种使该酶活性降低的基因变异。在研究clopidogrel与另一种药物ticagrelor时,这个基因在我们的故事中扮演了一个引人入胜的角色。了解这一点的医生可能更倾向于给携带“功能丧失”基因的患者开ticagrelor。在这个角色中,该基因是一个混杂因素。但该基因也直接改变了clopidogrel的工作方式。在这个角色中,它是一个效应修饰词。倾向性评分使我们能够处理这两种角色。我们必须将该基因包含在我们的倾向性评分模型中以消除其混杂效应。但一旦我们这样做了,我们能够——也应该——更进一步。我们可以分别为携带和不携带该基因变异的患者估计治疗效果。这不再仅仅是问“这个治疗有效吗?”而是“它对谁有效?”

这就是亚组分析的目标。当我们想知道一种新的糖尿病药物在有无慢性肾脏病的患者中效果是否不同时,我们不能只检查整个人群的平衡情况。我们必须确保我们的倾向性评分调整在有肾病的组内创造了公平的比较,并在没有肾病的组内创造了另一个独立的公平比较。这需要拟合更精细的倾向性评分模型,并且关键的是,要为每个亚组分别进行平衡诊断。这是一种要求更高的分析,但也是我们从群体平均效应走向个性化医疗的方式。

超越临床:社会、空间与数据

倾向性评分的逻辑并不仅限于医学。它是任何观察性科学的通用工具。

在流行病学中,我们可能研究接触工业溶剂与工厂工人患皮炎风险之间的联系。一个简单的分析可能会显示,接触溶剂的工人风险更高。但如果接触溶剂的工人主要从事薪水较低、体力要求更高的工作,而这些工作特征也增加了皮肤问题的风险呢?工作等级就成了一个典型的混杂因素。通过按工作等级对我们的分析进行分层,或使用倾向性评分,我们可以看到混杂在起作用。在一个精心设计的教学例子中,一旦控制了混杂,一个虚假的关联可能会完全消失,从而揭示该溶剂根本没有效果。

这个概念甚至可以扩展到考虑空间本身。想象一下研究居住在主要公路附近的健康影响。居住在高速公路附近的人可能在很多方面(如收入、种族)与居住在较远地方的人不同。但可能也存在一个未测量的“空间混杂因素”——某个其他环境因素,它随地理位置变化,既影响人们的居住地,也影响他们的健康。为了解决这个问题,研究人员开发了“空间倾向性评分”。预测暴露(居住在高速公路附近)的模型不仅包括个体特征,还包括一个关于个人地理坐标的灵活函数。在匹配阶段,人们可以坚持寻找一个不仅倾向性评分相似,而且地理位置也相近的“统计双生子”。这种统计思维与空间思维的优雅结合,有助于将暴露的影响从环境的复杂织锦中分离出来。

最后,倾向性评分是现代数据科学的基石,帮助我们应对其两大挑战:混乱的数据和有偏倚的数据。

现实世界的数据,特别是来自电子健康记录(EHR)等来源的数据,通常是不完整的。某个患者的特定实验室检测可能缺失。为什么?如果是“完全随机缺失”(MCAR)——比如一个试管被打碎了——问题不大。但如果是“随机缺失”(MAR)——医生因为患者年轻且看起来健康而没有开具检测?或者更糟,是“非随机缺失”(MNAR)——检测结果太惊人以至于记录被隐藏了?倾向性评分分析的有效性,和任何分析一样,都取决于这些假设。理解它们迫使我们批判性地思考我们的数据为什么看起来是这个样子。

更值得注意的是,倾向性评分甚至可以用来校正整个数据集的选择偏倚。想象你有一个来自健康应用程序的大型数据集——一个由志愿者组成的“非概率样本”。它信息丰富,但偏倚严重;应用程序用户并不能代表普通人群。另外,你有一个小而精心收集的“概率样本”——一个具有代表性但缺乏详细健康数据的正规全国性调查。通过将两者结合,你可以根据在两个样本中都测量的一组协变量(如年龄和性别),来模拟个体被纳入有偏倚的应用程序样本的倾向性。然后,你可以使用这些倾向性来重新加权应用程序用户,使他们的协变量分布与全国人口的分布相匹配。这种强大的技术使我们能够“消除”大型、方便的数据集的偏倚,这在数据来源激增但往往不具代表性的时代是一项至关重要的任务。当然,这个过程需要仔细的诊断,例如检查各组之间倾向性评分的重叠情况,以确保我们没有进行过度外推,并检查可能使我们的估计不稳定的极端权重。

从医生的决策,到工人的工作场所,再到我们呼吸的空气和数字世界的有偏倚的数据流,倾向性评分提供了一种统一的思维方式。它是一种纪律严明、数学化的方法,用以回答那个简单而深刻的问题:“与什么相比?”它不会变魔术——其结论的好坏取决于我们输入的数据和我们做出的假设——但它提供了一个强大的框架,用以在一个复杂的、非随机化的世界里寻求更清晰的真相。