幸存者偏差

玻尔百科

定义

幸存者偏差是指在数据分析中仅根据“幸存者”得出结论，而忽视了来自失败个体的关键数据的逻辑错误。这种偏差广泛存在于医学、金融和古生物学等领域，可能导致对风险的低估，或在医学研究中使有害暴露显得具有保护性。为了纠正幸存者偏差，研究人员通常采用事件队列等稳健的研究设计以及逆概率加权等统计方法。

核心要点

幸存者偏差是一种严重错误，即结论仅基于“幸存者”，而忽略了来自失败案例的关键数据。
在医学领域，这种偏差会优先抽样患病持续时间较长的患者（长度偏倚抽样），从而使致命的暴露因素看似具有保护作用。
这种偏差影响着不同领域，导致金融领域的风险被低估，并在古生物学中造成“寒武纪大爆发”之类的错觉。
稳健的研究设计（新发病例队列）和统计方法（逆概率加权）是纠正幸存者偏差的重要工具。

引言

我们天生容易被成功故事吸引。我们研究成功的公司，庆祝病人的康复，并向历史上的胜利者学习。但如果只关注胜利者会让我们对现实产生危险而不完整的看法呢？这种从幸存的例子中得出结论，而忽略沉默的失败者的倾向，被称为“幸存者偏差”（survivorship bias），这是一种普遍存在的逻辑错误，会扭曲我们对世界的理解。它指出了一个根本问题：我们看到的数据往往并非故事的全貌，因为关键的教训常常隐藏在我们看不见的数据之中。

本文将对这一关键概念进行全面探讨。在第一章“原理与机制”中，我们将回到第二次世界大战，了解这一思想的起源，并剖析其背后的统计机制，如 Neyman 偏倚和长度偏倚抽样。我们还将揭示为克服这一挑战而发展的稳健研究设计和分析技术。随后的“应用与跨学科联系”一章将揭示幸存者偏差如何在金融、医学、人工智能，甚至我们对深层进化史的理解等不同领域中，巧妙地影响我们的结论。通过学习识别这种偏差，你将获得一个更具批判性和准确性的视角来审视世界。

原理与机制

数据的无形坟场

想象一下第二次世界大战期间。盟军的轰炸机在执行完欧洲任务后返回，机身上布满了弹孔。军方希望增加装甲来保护它们，但装甲很重。装甲太厚，飞机会变得迟钝，容易成为目标；装甲太薄，飞机又过于脆弱。问题是：装甲应该加在哪里？

显而易见的答案似乎是观察返航的飞机，并加固那些最常被击中的区域。他们收集了数据，绘制出弹孔分布图，发现弹孔集中在机翼、机尾和机身中部。合乎逻辑的结论是在这些地方增加装甲。

但是，一位在哥伦比亚大学军事研究小组工作的统计学家 Abraham Wald 却有不同的看法。他提出的建议既反直觉又充满智慧：装甲不应该加在有弹孔的地方，而应该加在没有弹孔的地方——驾驶舱和引擎。他的推理意味深长。军方的数据仅来自那些幸存返航的飞机。这些飞机代表了所有执行任务的飞机中的一个特殊的、非随机的样本。弹孔告诉我们的故事是，飞机在哪些部位被击中后仍能返航。真正关键的数据存在于那些未能返航的飞机的“无形坟场”中。幸存飞机引擎和驾驶舱上没有弹孔，这一事实本身就是震耳欲聋的无声证据，表明在这些部位被击中的飞机正是那些坠毁和烧毁的飞机。

这个故事是“幸存者偏差”的典型寓言。它是一种逻辑错误，即只关注那些“幸存”于某个筛选过程的人或物，而忽略了那些因不够显眼而未被看到的对象。我们看到的是胜利者、成功故事以及幸存下来的数据，但最关键的教训往往与失败者一同被埋葬。这个原理不仅仅是一个历史奇闻；它是一个根本性的挑战，困扰着几乎所有人类探索的领域，从医学、金融到历史和生物学。

浴缸与欺骗性的快照

为了解这种偏差在更科学的背景下是如何运作的，让我们转向医学领域。想象一个浴缸。水龙头进水的速率是“发病率”（incidence）——人群中新发疾病病例的速率。一滴水在流下排水口前在浴缸里停留的平均时间是疾病的“持续时间”（duration）。在任何特定时刻浴缸里的总水量是“患病率”（prevalence）——当前患有该疾病的总人数。在稳定状态下，这三个量由一个极其简单的关系联系在一起：

\text{患病率} \approx \text{发病率} \times \text{持续时间}

现在，假设你想研究某种工业溶剂是否是某种慢性病的风险因素。一种常见且看似直接的方法是“横断面研究”：你在某一天对城市人口进行一次快照式调查，比较暴露于溶剂的工人与未暴露的办公室职员之间的疾病患病率。这就像从浴缸的“暴露”部分和“未暴露”部分各舀一杯水来比较水位。

让我们设想一个基于经典流行病学思想实验的场景。假设该溶剂对引发疾病完全没有影响。对于暴露和未暴露的人群，水龙头出水的速率完全相同——“发病率比” ( $IRR$ ) 为 $1.0$ 。然而，这种溶剂很烈性，对于那些确实患病的人来说，它会悲剧性地缩短他们的生存期。假设未暴露病例的平均病程为 $8$ 年，而暴露病例仅为 $2$ 年。

你的快照式研究会发现什么？对于未暴露人群，水位（患病率）与 $I \times 8$ 成正比。对于暴露人群，水位与 $I \times 2$ 成正比。尽管发病率相同，暴露组的疾病患病率将仅为未暴露组的四分之一！当你从研究中计算“优势比” ( $OR$ ) 时，你将得到一个约等于 $0.25$ 的值。你会错误地得出结论，认为该溶剂是一种强“保护性”因素，而事实上它对患病风险没有影响，但对患者却是致命的。

这个矛盾的结果之所以出现，是因为你的研究是从现患病例中抽样的，而暴露本身就像一个强大的过滤器，决定了谁能留在这个样本池中。暴露的病例被更快地从“浴缸”中移除（通过死亡），所以在任何时刻，可以被计数的病例数量都更少。这种幸存者偏差的特殊形式，常困扰使用现患病例的横断面研究和“病例对照研究”，通常被称为“Neyman 偏倚”。你测量的不是患病的风险，而是在你调查的那一刻，患病并存活的几率。

长短之别：长度偏倚抽样

“浴缸”类比告诉我们“是什么”，让我们更深入地探究“如何运作”。为什么快照式调查如此具有欺骗性？其背后的机制是一种被称为“长度偏倚抽样”（length-biased sampling）的基本统计现象。

想象一条从过去延伸到未来的时间线，在这条时间线上，你随机放置不同长度的线段，每条线段代表一个个体疾病的持续时间。现在，你闭上眼睛，向这条时间线投掷一支飞镖。飞镖落下的点就是你进行横断面调查的时刻。你最有可能击中哪些线段？当然是长的那些。一条两倍长的线段占据了时间线上两倍的空间，因此构成了一个两倍大的目标。

这正是横断面研究所做的事情。通过在单个时间点进行抽样，它优先选择了在那个时刻处于患病状态的个体。而一个个体的病程越长，他们在任何一天处于患病状态的几率就越大。一个病例被纳入你研究的概率与其病程持续时间成正比。

这导致了一个惊人的结果，被称为“检查悖论”（inspection paradox）。假设我们所研究疾病的真实病程遵循指数分布（一种常见的随机等待时间模型），真实平均病程为 $5$ 年（数学上， $T \sim \text{Exponential}(\lambda)$ ，其中均值 $E[T] = 1/\lambda = 5$ ）。如果你进行一项横断面研究，并测量你找到的现患病例的总病程，你样本中的平均病程将不会是 $5$ 年，而是 $10$ 年（ $E[T_{\text{prev}}] = 2/\lambda$ ）。你的幸存者样本不仅有一点偏差；它系统性地由存活时间最长的病例组成，这扭曲了你试图理解的疾病的本质。

过去的回响，生者的声音

这个原理的应用远不止于医学。历史，就其书写方式而言，很大程度上是由幸存者讲述的故事。我们拥有的记录是那些经受住了火灾、洪水和时间无情考验的记录。当我们试图重建过去时，我们几乎总是在处理一个有偏的样本。

考虑估算14世纪黑死病的死亡率。历史学家可能会查阅瘟疫后的税务记录，这些记录列出了仍然存在并能够纳税的家庭。但那些被完全消灭的家庭呢？他们没有留下任何记录。他们身处“无形的坟场”。仅仅依赖这些记录将导致对瘟疫真实死亡人数的严重低估。

或者想想，试图通过研究疗养院的信件和日记来理解19世纪肺结核等疾病的患者体验。活得更长的患者有更多时间写作，他们的文件也有更多机会被存档。那些迅速去世的人留下的文字很少，甚至没有。由此产生的档案库过度代表了长期幸存者的声音，可能描绘出一幅比大多数人实际经历更为乐观的画面。一个声音被听到的概率 $p(t)$ 随着存活时间 $t$ 的增加而增加，这意味着观察到的故事分布是倾斜的： $f_{\text{obs}}(t) \propto p(t) f(t)$ 。

甚至对生命本身的研究也受这种偏差的影响。自然选择是最终的生存过滤器。如果我们想了解哪些性状能让动物在严酷的冬季存活下来，我们不能简单地研究春天还活着的动物。那将是同义反复。我们只会描述幸存者的性状。为了真正衡量选择作用，进化生物学家必须遵循一个避免这种陷阱的方案：他们必须在冬季开始“之前”捕捉、标记和测量“整个”种群的性状。只有通过追踪每个个体——幸存者和非幸存者——的命运，才能确定哪些性状真正起到了作用。

看见幽灵：设计更好的研究

如果幸存者偏差如此普遍，科学如何取得进步？答案是，研究人员已经开发出巧妙的策略——无论是在研究设计还是数据分析方面——来解释缺失的部分。

最好的防守是好的进攻：从一开始就设计研究以避免偏差。

研究人员尽量不研究“现患队列”（prevalent cohorts，即现有病例组），而是组建“新发病例队列”（incident cohorts，或称初始队列 inception cohorts），在患者首次确诊时将其纳入，并随时间向前追踪。通过这种方式，他们能捕捉到疾病的整个历史，而不仅仅是长寿者的最后章节。
对于偏远地区快速传播的流行病，依赖诊所数据是产生偏差的根源。那些在到达诊所前就死亡的人被系统性地遗漏了。更准确的图景需要一种综合方法：将诊所记录与基于社区的方法相结合，如“死因推断访谈”（Verbal Autopsy，即采访家属以确定死因）和“主动病例发现”（active case-finding，即派遣卫生工作者挨家挨户寻找未就医的较轻病例）。通过整合这些不同的数据源，我们才能开始看到整个冰山，而不仅仅是冰山一角。

统计学上的复活

但如果你只能得到有偏差的数据怎么办？如果你只有返航轰炸机的记录怎么办？有时，我们可以使用统计方法来“重新加权”我们拥有的数据，以弥补我们没有的数据。

一种强大的技术叫做“逆概率加权”（Inverse Probability Weighting, IPW）。其直觉是：如果我们知道研究中的某些个体存活到最后的可能性较小，我们可以在分析中给那些“确实”存活下来的个体多一点统计权重。每个幸存者都代表了一个更大的群体，这个群体包含了那些在研究开始时与他们看起来一样但运气不佳的同伴。对于一个幸存的个体，其权重基本上是：

SW = \frac{\text{仅根据其初始组别得出的存活概率}}{\text{根据其所有特定风险因素得出的存活概率}}

如果一个高风险的人（分母概率低）设法存活下来，他会得到一个很大的权重，从而增强其对最终分析的贡献。这种技术创建了一个“伪群体”（pseudo-population），在这个群体中，存活与风险因素不再相关，从而可以无偏地估计例如治疗的效果。

当然，这种统计魔法有一个巨大的前提条件：它只有在我们正确测量了所有预测存活的关键因素时才有效。这就是“无未测量混杂”（no unmeasured confounding）的假设。我们只能对我们知道的幽灵进行调整。如果存在其他未知的决定存活的因素，偏差将依然存在。对真理的探寻是一场持续的战斗，我们既要对抗我们能看到的数据所带来的诱人简单性，又要付出严谨、富有想象力的努力来解释我们看不到的数据。来自无形坟场的教训是，有时，最重要的真理就存在于缺失数据的沉默之中。

应用与跨学科联系

既然我们已经仔细研究了幸存者偏差的运作机制，让我们开始一次小小的探险。我们将看看这个微妙的幽灵隐藏在我们周围世界的何处。你可能会感到惊讶。它不仅仅是关于飞机的古老战争故事中的一个奇特现象；它也困扰着股票市场、医生办公室、你手机上的人工智能，甚至我们对地球生命黎明的理解。一个深刻科学原理的美妙之处在于它无处不在，而学会发现它正是像科学家一样思考的一大乐趣。

成功的幻觉：金融与经济学

让我们从一个熟悉的地方开始：金钱世界。回顾股票市场并惊叹于著名指数的增长是一种常见的消遣。你可能会想，投资很简单——只需挑选几家好公司，然后看着它们成长。但这种观点常常被强大的幸存者偏差所扭曲。

当我们看一个股票指数的历史图表时，我们看到的是一部胜利者的历史。今天构成该指数的公司，根据定义，是那些幸存下来的公司。而那些破产、被亏本收购，或者仅仅因为表现太差而被从指数中剔除的公司则消失了。它们灾难性的损失，通常是接近 $-100\%$ 的回报，被悄悄地从那些只关注今日成分股的便利历史记录中抹去。一个使用这种有偏差的历史来计算风险的分析师，就像一个通过采访返乡士兵来撰写战史的历史学家，并得出伤亡率出奇地低的结论。通过忽略阵亡者，他们系统性地低估了这项事业的真实风险。这不仅仅是一个理论问题；它可能导致金融模型描绘出一幅过于乐观的过去，使得风险管理者为防范未来损失而预留的资本远远不足。

这种成功的幻觉也延伸到我们如何看待自己的经济生活。想象一下，你是一名医疗事故案件的律师，试图计算一个在35岁时永久残疾的人损失的终生收入。你可能会聘请一位专家，通过查看历史数据来预测工资增长。但他们应该使用什么数据呢？如果专家仅使用那些在整个职业生涯中持续就业的人的记录来建立模型，那么他研究的是一群“幸存者”。他排除了所有因疾病、残疾或表现不佳而退出劳动力市场的人——这些因素通常与较低的工资增长相关。结果是对原告本应赚取的收入作出了人为夸大的估计。正确且更诚实的方法是使用来自广泛人群队列的数据，这些数据包含了那些“退出”劳动力市场的人的故事。这使得专家不仅能考虑工资增长的“速率”，还能考虑在任何给定年份赚取该工资的“概率”，从而提供一个更接近现实的典型人生轨迹图景。

看不见的患者：医学、遗传学与人工智能

幸存者偏差的幽灵在医学领域的影响最为重大。在这里，看不见的数据点不仅仅是电子表格上的数字，而是活生生的人。

思考一下理解化疗长期副作用的努力，比如“化疗脑”（chemo brain）——一种认知功能障碍。研究这个问题的一个自然方法是召集一群癌症幸存者，比如在他们治疗两年后，测试他们的认知功能。但这个群体里有谁？根据定义，它是由那些幸存下来的人组成的。患有更具侵袭性癌症的患者通常接受更积极的治疗。可悲的是，这些患者很可能同时面临着最高的死亡风险“和”最严重的认知副作用风险。通过只研究两年后的幸存者，研究人员可能系统性地排除了那些受治疗伤害最严重的个体。在“所有”接受治疗的患者中，化疗脑的真实平均严重程度很可能被低估了，因为那些未能存活下来接受测试的人的故事在数据中缺失了。

这个原理以最引人入胜、有时甚至是矛盾的方式出现。在传染病研究中，人们可能认为最危险的病原体是我们在患病者身上最常见到的那些。但幸存者偏差教导我们要持怀疑态度。想象一种病毒有几种不同的毒株。一种特别强毒力的毒株可能会如此迅速地杀死宿主，以至于这个人甚至来不及去医院确诊。当流行病学家后来从诊所的病人那里收集样本时，他们发现这种超级杀手毒株出奇地罕见。这并非因为该毒株不成功；从一种冷酷的意义上说，它“太”成功了。它的受害者在我们能够计数之前就从潜在研究对象的池子里被移除了。我们剩下能研究的，是那些足够“狡猾”的“较温和”毒株，它们让宿主存活足够长的时间，从而被纳入我们的研究中。

我们在微观层面也看到了同样的情景。当我们用抗生素处理一个细菌菌落时，一小部分“持留菌”细胞可能会存活下来。如果我们随后只研究这些幸存者来了解它们是如何做到的，我们会得到一个被严重扭曲的观点。一个最初由 $99\%$ 的正常细胞和 $1\%$ 的持留菌组成的种群，在抗生素风暴过后，可能看起来像是超过 $80\%$ 的持留菌。如果天真地断定原始培养物中充满了这些顽强的细胞，那将是一个巨大的错误。我们把幸存者的构成误认为是整体的构成。

有时，更长的存活时间会产生反直觉的效果。在艾滋病（HIV）流行的早期，最毁灭性的后果是 HIV 相关性痴呆（HAD）。随着强大的联合抗逆转录病毒疗法（cART）的出现，人们开始活得更长、更健康。HAD 的发病率急剧下降。然而，矛盾的是，任何形式的 HIV 相关性神经认知障碍（HAND）的总患病率仍然很高，甚至似乎在增加。为什么？部分答案是幸存者偏差。通过防止死亡，cART 创造了一个庞大的、与 HIV 共存数十年的群体。这更长的寿命为病毒和衰老效应导致更温和、慢性的认知障碍提供了更多时间。幸存者群体不断增长，随之而来的是可能发展并携带这些较轻微病症的人群也在扩大。同样的逻辑也适用于理解许多病毒感染后急性期后遗症的负担；为了衡量真实风险，我们的分析必须从感染的那一刻开始，而不是几周或几个月后，因为在那个初始窗口期发生的一切——包括谁存活、谁没有——都是故事的一部分。

在大数据、遗传学和人工智能时代，这一挑战变得至关重要。拥有数十万人遗传信息的巨型生物样本库是科学的宝库。但它们是幸存者的数据库。当我们寻找增加冠状动脉疾病等致命疾病风险的基因时，我们是在一个非自然地耗尽了那些既有高风险基因“又”在生命早期患病的人群中进行搜索。这种偏差会削弱我们正在寻找的统计信号，使我们更难发现该疾病的真实遗传结构。

同样的偏差也威胁着我们正在构建的旨在改善医疗保健的人工智能系统。想象一个旨在根据用户语言筛查抑郁症的人工智能聊天机器人。如果它只用那些坚持使用聊天机器人几个会话的用户数据进行训练，那么它是在从一个有偏的样本中学习。如果最严重的抑郁症患者最有可能在一两个会话后失去动力并停止使用呢？这个人工智能将在一个低估了它最需要帮助人群的数据集上进行训练。它可能学会将轻度或中度抑郁症的语言模式与该疾病联系起来，却无法识别重度抑郁症的模式，因为那些用户从训练数据中“消失”了。这其中的伦理含义是深远的。解开这些复杂的、与时间相关的偏差需要现代统计学中一些最复杂的工具，比如边际结构模型，它通过创建一个“伪群体”来统计性地重建我们希望拥有的数据。

来自远古的回响

幸存者偏差上演的最大舞台，或许就是生命本身的历史。当我们审视化石记录时，我们看到大约在5.4亿年前发生了一个名为“寒武纪大爆发”的事件，主要的动物门类（phyla）似乎在地质学的一瞬间突然出现。节肢动物、软体动物，以及我们自己的脊索动物祖先——“噗”的一声，它们就以完整的形态出现了。

但这幅图景是真的，还是一个幻觉？我们是从生命之树幸存下来的细枝末节的视角来观察它的。主要的动物门是由它们独特的身体构造定义的，它们之间的形态学“鸿沟”是巨大的。没有看起来介于蜗牛和海星之间的生物。为什么？幸存者偏差提供了一个有力的解释。在数亿年的时间里，灭绝扮演了一个无情的过滤器。那些本可以连接今天各个动物门的生命之树的分支——无数“实验性”的身体构造和中间形态——都被修剪掉了。我们在寒武纪看到的是恰好幸存下来的“冠群”中最早可识别的成员。它们“干群”祖先那漫长、缓慢、分支繁多的历史，本可以填补那些鸿沟，但几乎完全失落了。寒武纪“大爆发”可能与其说是一个瞬时的创造事件，不如说是远古更多样化的进化传奇中少数幸存者最终走上化石舞台的时刻。

看见不存在之物的艺术

从金融到化石，幸存者偏差的教训是一种智识上的谦逊。它教导我们要对我们看到的数据抱有深刻的怀疑，尤其是当它讲述一个整齐划一的成功故事时。它迫使我们提出一个科学家或批判性思考者能问的最重要的问题：这个故事里缺少了谁？

这里的真正美妙之处不仅在于识别问题，还在于解决方案的巧妙。科学家和统计学家已经开发出非凡的工具——从在受试者命运未卜之前就将其纳入研究的前瞻性队列研究，到像 IPW 这样优雅的加权方案，它给予代表性不足的“幸存者”更大的发言权，让他们为逝去的同伴发声。这些方法在数学上等同于 Wald 的洞见：它们是看见数据中幽灵的工具。它们让我们通过解释一路丢失的信息，来重建一幅更完整的现实图景。因此，幸存者偏差不仅仅是一个需要避免的谬误；它是一种邀请，邀请我们更深入地思考，去想象那看不见的部分，并去领会：真理最重要的部分，往往是那些未能幸存下来讲述自己故事的部分。