信息偏倚

玻尔百科

核心要点

信息偏倚是数据收集中存在的系统性误差，它会扭曲研究结果，这与随机误差或混杂等其他偏倚不同。
它表现为非差异性错分（通常会使结果偏向于零假设）或更危险的差异性错分（会以不可预测的方式扭曲结果）。
诸如发表偏倚（零结果的研究未被发表）和选择性结局报告等系统性问题，导致整个科学文献中的证据呈现出扭曲的景象。
信息偏倚的原理如今在人工智能领域至关重要，在该领域中，数据偏倚、标签偏倚和反馈循环可能导致有缺陷且不公平的算法系统。

引言

我们对世界的理解建立在信息的基础之上。从测试新药的临床试验到从数据中学习的人工智能算法，我们都依赖于证据的质量来得出有意义的结论。但如果这个基础出现了裂痕，会发生什么？如果我们收集的数据不仅充满噪声，而且被系统性地扭曲，持续地将我们的发现推向错误的方向，又会怎样？这个根本性挑战被称为信息偏倚，它是一种普遍存在的威胁，可能损害科学研究的完整性。本文将直面这一关键主题。首先，我们将深入探讨信息偏倚的原理与机制，定义其概念，剖析其各种形式，如错分和回忆偏倚，并考察它如何从最初的测量到最终的发表，腐蚀整个科学过程。随后，本文将探讨其深远的应用与跨学科联系，展示信息偏倚如何影响从医学到人工智能等多个领域，并揭示科学家和工程师为检测、缓解和控制其影响而开发的巧妙策略。

原理与机制

在我们探索世界的过程中，科学是我们最强大的工具。这是一个提出问题、收集证据并得出结论的过程。但如果证据本身具有误导性呢？如果我们收集的信息本身就是被污染的呢？这并非随机偶然事件，比如一次不稳定的测量。这是一种系统性的、可重复的误差——如同在天平上按了一个拇指，能持续将我们的结论推向错误的方向。这就是偏倚的世界，理解它与理解科学方法本身同样至关重要。

误差的宇宙：通往谬误的三条路径

假设我们想知道一种新肥料是否能帮助植物长得更高。我们可能通过三种基本方式被误导。

首先，我们可能遭受选择偏倚：我们可能无意中选择了一个有偏倚的样本。如果我们只测量花园中阳光最充足地方的植物，我们可能会得出结论说这种肥料效果极佳，而实际上是阳光起了作用。我们关注的是正确的事物，但地点选错了。

其次，我们可能被混杂所迷惑：一个隐藏的第三方因素可能是真正的原因。如果施肥的植物恰好也得到了更多的水，我们可能会将额外的生长归功于肥料，而水才是真正的功臣。在这里，暴露（肥料）和混杂因素（水）纠缠在一起，如果不进行仔细调整，就不可能将它们的效果分离开来。

第三种，也是我们这里的焦点，是信息偏倚。这也许是最直接的一种欺骗。它意味着我们记录的信息根本就是错误的。在我们的植物研究中，这就好比使用一把歪曲的尺子——一把系统性地高估或低估每棵植物的尺子。在这里，我们可能在正确的花园里观察了正确的植物，但我们的观察工具本身是有缺陷的。数据本身就是现实的扭曲反映。

虽然这三种偏倚都对研究的有效性构成明显威胁，但信息偏倚直击我们数据的核心。它是测量这台机器中的幽灵。

扭曲的标尺：信息偏倚的本质

信息偏倚——也称为测量误差——的核心源于数据收集过程中的缺陷。对于我们希望测量的任何真实的潜在变量（我们称之为 $V$ ），我们实际记录的值是 $V^*$ 。当从 $V$ 到 $V^*$ 的映射过程存在系统性缺陷时，信息偏倚就存在了。这个映射过程我们可以称之为测量机制。

这个机制可以是任何东西，从有故障的血压计到措辞不当的调查问卷。它是生成我们观测数据的过程，如果这个过程有偏倚，我们的数据也会有偏倚。其结果是我们试图研究的关系被扭曲了。我们以为在估计暴露 $A$ 对结局 $Y$ 的影响，但因为我们使用的是测量变量 $A^*$ 和 $Y^*$ ，我们实际上是在估计一个被污染的暴露版本与一个被污染的结局版本之间的关系。这对研究的内部有效性——即在其自身样本内正确测量效应的能力——构成了根本性威胁。

两种有缺陷的测量

我们标尺的“扭曲”可以以两种主要方式表现出来，而这种区别至关重要。这就是非差异性错分与差异性错分之间的区别。错分就是把某物归入错误的类别——例如，将一个真正暴露于某种化学物质的人归类为“未暴露”，反之亦然。

非差异性错分：一把同等扭曲的标尺

假设我们正在研究二元暴露 $E$ （如吸烟）与疾病 $D$ （如肺癌）之间的联系。暴露的非差异性错分意味着，我们用来确定谁吸烟的方法对于患有癌症的人和没有癌症的人来说，其不准确程度是相同的。在癌症组和无癌症组中，将吸烟者错分为非吸烟者的概率是相同的。[@problem_tui:4956447]

这种类型的误差往往会给我们的数据增加“噪声”，模糊暴露与结局之间的真实关系。在大多数常见情况下，这会产生一个特定的效果：它使估计的关联偏向于零假设。换句话说，它使得效应看起来比实际的要弱。如果存在真实的联系，非差异性错分可能会将其掩盖，使其看起来好像根本没有关系。

例如，在一项假设性研究中，某暴露的真实风险比是强烈的 $2.0$ ，引入一个合理的非差异性测量误差水平可能会将观察到的风险比稀释到大约 $1.63$ ，使得效应看起来远没有那么显著。虽然这看起来比夸大效应的危险性要小，但它可能导致我们错误地否定有效的治疗方法或真正的风险因素。

差异性错分：一把狡猾的选择性标尺

这是一种远为危险的偏倚形式。差异性错分意味着我们测量中的误差在不同组别之间是不相同的。这把尺子是歪的，但对某些人来说比对其他人更歪。

让我们回到吸烟与癌症的研究。一个经典的例子是回忆偏倚。在一项我们询问人们过去习惯的回顾性研究中，那些患有肺癌的人可能会比健康个体更彻底地搜寻自己过去的吸烟习惯。他们有强烈的动机为自己的疾病寻找解释。这可能导致与健康对照组相比，癌症病例组对吸烟的报告更准确，甚至被夸大。

差异性错分的危险在于它可以朝任何方向偏倚结果。它可以削弱关联，加强关联，甚至将其颠倒，使有害的暴露看起来具有保护作用。在一个假设的病例对照研究中，一个真实的优势比约为 $2.1$ 可能会因为这种选择性的错误报告而被虚增至近 $3.5$ 。这种类型的偏倚是医学文献中虚假发现的一个强有力的来源。

人为因素：当思维与动机混淆数据

许多形式的信息偏倚并非源于有故障的机器，而是源于人类思维的复杂性。

回忆偏倚，正如我们所见，是一种记忆的认知失误，即过去事件被不准确地回忆，并且这种不准确性在不同组别（例如，病例组和对照组）之间存在差异。
社会期许偏倚是一种动机性偏倚。人们倾向于以一种让他们看起来更好的方式回答问题。病人可能会少报他们的饮酒量；照护者可能会多报他们如何很好地应对困难的职责。这是一种污染了自我报告数据的自我呈现策略。
代理报告偏倚发生于一人代表另一人报告时，例如照护者为痴呆症患者报告。代理人的报告是通过他们自己的感知、情绪和负担过滤的。一位感到压力和不堪重负的照护者，即使观察到完全相同的行为，也可能认为其患者的疼痛比一位休息良好的照护者所认为的更严重。这不一定是一个有意识的选择；它反映了我们自身的心理状态如何影响我们对世界的感知。

理解这些心理机制是与之斗争的关键。对于回忆偏倚，我们可以使用前瞻性日记或缩短回忆窗口。对于社会期许偏倚，我们可以使用匿名调查。对于代理报告，我们可以将问题锚定在具体的、可观察的行为上（例如，“他们今天做了多少次鬼脸？”），而不是主观状态（“他们有多痛？”）。

系统性弊病：科学流程中的偏倚

信息偏倚不仅仅是关于单次有缺陷的测量。它可能是一个系统性的问题，从知识的源头到其综合的整个流程都可能被腐蚀。把科学证据的产生想象成一个流程：

真实事件 → 监视 → 检测 → 报告 → 发表 → 综合

偏倚可以在每一个阶段渗入。

监视与检测偏倚：我们可能只是在一个群体中比在另一个群体中更努力地寻找一种疾病。如果我们知道一名工厂工人暴露于某种化学物质，医生在筛查相关疾病时可能会更加警惕。这种差异化的监视强度可能导致在暴露组中检测到更多的病例，从而制造出风险更强的假象，即使实际发病率是相同的。这是一种发现真相的机会上的偏倚。
报告偏倚：即使一个病例被正确检测出来，它也必须被报告才能成为数据的一部分。报告可能是选择性的。例如，医生可能更倾向于报告一个戏剧性且不寻常的疑似疫苗副作用，而不是一个常见且轻微的副作用。这与错分不同；在这里，测量（ $T$ ）可能是正确的，但纳入登记库的选择过程（ $R$ ）是有偏倚的。
发表偏倚：这是科学中最深刻和最令人担忧的偏倚之一。期刊、审稿人，甚至作者自己都偏爱“阳性”结果——即那些显示出统计学显著效应的研究。而那些“阴性”结果（未发现效应）或结果走向出乎意料的研究则远没有那么容易被发表。它们最终被锁进了“文件抽屉”。这意味着我们赖以进行荟萃分析和循证决策的已发表文献，是所有已进行研究的一个有偏倚的、不具代表性的样本。这可能导致对真相的巨大歪曲。例如，即使一种新药完全没有效果（真实效应 $\theta=0$ ），那一小部分纯粹因为偶然性而显示出统计学显著阳性结果的研究，才是最有可能被发表的。对这些已发表证据的荟萃分析会错误地得出该药有效的结论。
选择性结局报告：这是发表偏倚的近亲。一项研究被发表了，但作者只报告了那些结果碰巧具有统计学显著性的结局，而方便地省略了那些不显著的结局。[@problem_tui:4625276]

旧偏倚，新机器：人工智能时代的信息偏倚

随着我们进入医学领域的数据科学和人工智能时代，人们可能希望这些人为偏倚会消失。但它们并没有；它们只是以新的方式表现出来。原理是相同的，只是背景变了。

测量偏倚：一个人工智能模型是基于来自真实世界的数据进行训练的。如果这些数据来自校准不佳的MRI机器或充满噪声的电子健康记录，那么人工智能就是从有缺陷的信息中学习。这是典型的测量误差：观测到的特征 $X_{\text{obs}}$ 是真实特征 $X$ 的一个扭曲版本。这相当于一把数字化的歪尺子。
标签偏倚：为了学习，一个监督式人工智能需要“基准真相”标签（例如，这张图片显示癌症，那张没有）。但这些标签通常由人类专家提供，而专家也可能犯错。如果标签系统性地不正确——例如，如果某一组患者更有可能被误诊——人工智能将忠实地学习这种标签偏倚。这仅仅是错分，被重新用作训练数据。观测到的标签 $\tilde{Y}$ 不等于真实标签 $Y$ 。
算法偏倚：这是一个较新的变种。学习算法本身可能成为偏倚的来源。通过其优化过程——即它最小化误差的方式——算法可能会学会更多地关注数据中的多数群体，而在少数群体上表现不佳。它实际上学习了一个现实的重新加权版本， $P_{\mathcal{A}}(x,y) \propto w(x,y) P(x,y)$ ，其中其内部的权重方案 $w(x,y)$ 制造了盲点和偏见。

理解信息偏倚，从其最简单的测量误差形式到其系统性和算法性表现，是科学事业中一个使人谦卑但至关重要的部分。它提醒我们，我们的知识从来都不是完美的，追求真理不仅需要卓越的发现，还需要对我们自身信息质量的持续、警惕的怀疑。

应用与跨学科联系

我们所有的知识都基于我们的经验。这似乎显而易见。但如果我们的经验工具——我们的感官、记忆、测量设备、计算机算法——并非通往世界的完美、公正的窗口呢？如果它们有自己独特的怪癖，有自己系统性的倾向去拉伸、压缩或着色它们传递给我们的信息呢？这就是我们所说的信息偏倚的核心。它并非可以相互抵消的随机误差；而是一种持续的、有方向的、偏离真相的拉力，是科学博弈中一颗被灌了铅的骰子。理解这种偏倚不仅仅是一项技术练习；它是一门关于科学怀疑论和独创性的高级课程。让我们踏上一段旅程，看看这个根本性挑战出现在何处，从拯救生命到设计聚变反应堆，再到构建自主机器的心智。

基础：捍卫医学真理

在医学领域，理解信息偏倚的利害关系从未如此之高。历史提供了一个令人不寒而栗的教训。在20世纪50年代末和60年代初，一种名为thalidomide的药物作为一种安全的镇静剂上市，甚至适用于孕妇。很快，一场悲剧性的严重出生缺陷的流行病出现了。但为什么花了这么长时间才将药物与灾难联系起来？部分答案就在于信息偏倚。看到个别病例的临床医生可能没有上报它们，或者期刊可能对发表孤立的、令人警觉的报告犹豫不决。医生的选择性报告和期刊的发表偏倚相结合，意味着只有一小部分真实病例进入了集体科学意识。一个简单的模型显示，如果只有，比如说，一小部分 $f=0.25$ 的真实病例被发表，那么积累足够证据来触发安全警报可能需要四倍长的时间——这个延迟是以数千个破碎的家庭来衡量的。这场悲剧催生了现代药品监管体系的建立，而这些体系的核心，就是对抗信息偏倚的精密防御工事。

今天的金标准，即随机对照试验（RCT），是一座为抵御偏倚而建造的堡垒。想象一下，我们正在测试一种治疗慢性疼痛的新疗法，并想知道它是否能改善患者的生活质量。我们不能只问他们“过去几个月你感觉怎么样？”我们的记忆是出了名的不可靠的叙述者。我们倾向于记住一次经历的高峰和终点，而不是平均值——这种现象称为回忆偏倚。此外，如果患者知道他们正在接受一种新颖、令人兴奋的治疗，他们希望其有效的愿望可能会影响他们的回答——这是一种报告偏倚。为了对抗这一点，试验设计者使用了巧妙的策略。他们可能会使用双盲法，这样就没人知道谁得到了真正的治疗。他们可能会要求在智能手机应用上进行每日报告，而不是几周后的单一总结。通过使用短的回忆周期和频繁的、带有时间戳的记录，他们可以最大限度地减少记忆和期望的扭曲，从而更清晰地了解真相。

但即使是一个设计精良的试验，也可能因其结果的偏倚报告而被破坏。假设一项关于戒烟计划的研究在三个不同的时间点测量了五个不同的结局。这就有十五次机会仅凭运气找到一个“统计学上显著”的结果！如果研究人员只强调那个阳性结果，而淡化其他十四个结果，他们就在进行选择性结局报告。这就像先朝墙上射一箭，然后在箭落点周围画上靶心。这会误导科学界，并可能使一种无效的治疗看起来像一个突破。解药是透明度：在试验开始之前就在一个公共数据库中预先注册试验的“游戏规则”。这包括声明一个主要结局以及处理所有其他结局的计划，确保研究人员在射箭之前就确定了他们的目标。

侦探工具箱：在实践中发现偏倚

在新的研究中预防偏倚是一回事，但我们如何在浩如烟海的现有研究中检测到它呢？科学家们已经为此项法医工作开发了一套工具。

在荟萃分析中综合来自多项研究的证据时，我们可以寻找发表偏倚。想象每项研究都是投向靶板的一支飞镖，靶心是真实效应。大型、高精度的研究会落在中心附近的一个紧凑集群中。小型、低精度的研究会更广泛地散布。如果研究被如实报告，散布应该是对称的。但如果你看到一个图，其中一侧缺少了一大块小型的、“无趣的”（不显著的）研究，它看起来就像一个被咬了一口的漏斗。这种不对称的“漏斗图”是一个明显的迹象，表明整整一类结果可能未被发表，从而偏倚了我们的总体结论。

当我们离开RCT的原始世界，进入观察性数据（如来自电子健康记录（EHR））的混乱现实时，挑战变得更大。在这里，信息偏倚可以隐藏在显而易见之处。例如，如果一种新药导致医生更密切地监测患者，他们可能会在该组中更频繁地检测到某种疾病，仅仅因为他们看得更仔细。这被称为检测偏倚或监视偏倚。药物并没有导致该疾病，而是导致了它的被检测。这是信息偏倚的一个完美例子，其中测量过程本身在各组之间存在系统性差异。为了驾驭这个雷区，流行病学家使用全面的偏倚风险工具，如ROBINS-I，它作为一个详细的清单，用于仔细审查一项研究是否存在混杂、选择偏倚以及多种形式的信息偏倚——从干预措施如何分类到结局如何测量和结果如何报告。

也许侦探工具包中最巧妙的工具是阴性对照。假设你怀疑吃更多水果与拥有更好肺功能之间的观察到的联系并非因果关系，而是被“健康使用者”效应所偏倚——即吃更多水果的人通常在其他你无法衡量方面也更有健康意识。你如何检验这个怀疑？你找到一个“阴性对照暴露”：某种也与健康意识相关，但对肺功能没有合理生物学效应的东西，比如服用维生素E补充剂。然后你对这个阴性对照进行相同的分析。因为你知道它不可能真正影响肺功能，所以你发现的任何关联都必须归因于你所担心的那种偏倚！你的阴性对照出现了阳性结果，这就是一个警示信号，一个偏倚的“阳性对照”，警告你的主要结果很可能也受到了污染。这是多么巧妙的科学推理啊！

新前沿：算法时代的偏倚

信息偏倚的概念如今在人工智能和自主系统的世界里获得了新的生命。一个AI模型的优劣取决于其训练数据，如果数据是对现实的有偏倚的反映，那么AI将成为延续甚至放大这种偏倚的载体。

考虑一个设计用于从CT扫描中分类肿瘤的AI。它可能在数千次扫描的数据上进行训练。但如果 $90\%$ 的扫描来自供应商A的机器，而只有 $10\%$ 来自供应商B的机器呢？这就是数据偏倚。算法在其不懈追求最小化整体误差的过程中，可能会学习到对供应商A的图像非常有效的特征，但在供应商B的图像上表现糟糕。它甚至可能通过在供应商A的图像上变得完美，而在供应商B的图像上完全失败，来达到相同的整体准确率。这就是算法偏倚——学习过程本身通过牺牲少数群体来换取多数群体的利益，从而创造了一个歧视性的结果。AI接收到的“信息”被抽样过程扭曲了，算法学会了将这种扭曲编码进去。

在复杂的“信息物理系统”（cyber-physical systems），如自动驾驶汽车中，这个问题急剧升级。偏倚可以渗透到系统的每一层。传感器可能有数据偏倚，对某些物体或人的感知不如其他物体或人清晰。人类提供的训练数据可能有标签偏倚，系统性地错误识别某些场景。AI模型本身有模型偏倚，即其学习能力的内在局限性。即使有一个完美的模型，汽车的决策策略也可能有部署偏倚，与真实世界的互动方式会产生不公平的结果。但最阴险的形式是反馈偏倚。自主系统采取的行动改变了世界，而从这个被改变的世界中收集的数据又被用来重新训练系统。如果一个自动驾驶出租车队因为感知到的风险而避开某个社区，系统将永远不会收集到新的数据来纠正这种看法。这种偏倚成了一个自我实现的预言，一条吞食自己尾巴的蛇，将其对世界的扭曲看法写入了现实的肌理之中。

正当你认为应用范围不可能再广时，我们在一个完全不同的领域发现了同样的想法：聚变反应堆的核心。模拟tokamak中子行为的工程师面临着一个概念上相同的问题。他们的预测可能出错有两个原因。他们可能在输入数据中有错误——即他们从物理实验中获得的基本核截面数据。这是数据偏倚。或者，他们的模拟软件可能有近似或错误。这是代码偏倚。他们如何区分这两者呢？他们使用我们一直以来看到的相同的统计逻辑：他们在一个精心设计的实验中，用多个不同的数据库运行多个不同的代码。通过分析结果中的模式，他们可以将来自输入数据的误差与来自信息处理工具的误差分离开来。从医学到机器学习再到核物理，原理是相同的。

结论

信息偏倚的线索贯穿我们整个科学技术世界。它是机器中的幽灵，是萦绕于我们的测量、记忆和模型之中的系统性误差。要成为一个好的科学家、工程师，甚至只是一个批判性思考者，就必须成为这种偏倚的警惕猎手。与它的斗争促使我们发明了巧妙的方法——盲法、预注册、漏斗图、阴性对照和鲁棒算法。这不是为了追求某种遥不可及的、完美的客观性，而是一场永无止境的探索，旨在诚实、自觉地理解我们知识的局限性。这是一门艺术，它教我们不仅要看到世界表面的样子，更要看到其本来的面目，而这首先需要我们理解自己观察世界所用的“透镜”中的瑕疵。