可证伪性原则

玻尔百科

定义

可证伪性原则是科学哲学中的核心准则，主张一个理论只有在能够通过具体的、具有风险的预测被证明为伪时，才具有科学性。该原则由卡尔·波普尔提出，作为区分严谨科学与不可测试的伪科学的分界标准。现代科学实践中的虚无假设检验、预注册研究以及多重证据验证等机制，都是这一原则在推动科学自我修正和进步过程中的具体应用。

核心要点

一个科学理论的优势不在于被证实，而在于其可证伪性——即其可能被一个具体的、有风险的预测所推翻的能力。
可证伪性提供了一个划界标准，用以区分严谨的科学（如 Semmelweis 的病菌理论）和无法检验的伪科学（如 Freud 的精神分析学）。
现代科学实践，如零假设检验和预注册研究，都是 Popper 设计“严峻检验”原则的直接应用。
在古生物学等历史科学中，证伪通过证据汇合的方式进行，即一个假说必须与多条独立的证据线相符才能存续。
Popper 式的精神特质倡导有组织的怀疑主义和开放科学等制度性实践，这对科学的自我修正和进步至关重要。

引言

我们如何才能确定一个科学理论是正确的？几百年来，答案似乎是证实——即不断积累证据来确认我们的信念。然而，这种方法建立在不稳固的逻辑基础之上，这个难题被称为归纳问题。无论多少次确认性的观察，都永远无法真正证明一个普遍定律。正是在这个哲学僵局中，20世纪的哲学家 Karl Popper 带着一个强大而独特的思想——可证伪性，彻底改变了我们对科学知识的理解。他认为，一个科学理论的真正标志不是它能被证明是正确的，而是它有足够的勇气去被证明是错误的。本文旨在探讨 Popper 原则的深远意涵。第一章“原则与机制”将剖析证伪的逻辑，通过 Ignaz Semmelweis 的关键发现和 Sigmund Freud 不可证伪的理论，将其与证实进行对比。随后的“应用与跨学科联系”一章将展示 Popper 思想巨大的实际应用范围，说明它如何在医学、演化生物学、精神病学和现代数据科学等不同领域中充当指路罗盘。

原则与机制

想象一下你是一名在犯罪现场的侦探，你的目标是找出“谁是凶手”。你有一个嫌疑人，然后开始寻找线索。你会去寻找那些能证实你怀疑的线索吗？你可能会发现与嫌疑人鞋子相符的泥泞脚印，也可能了解到嫌疑人有作案动机。你收集了一堆都指向同一方向的证据，于是你感到很自信，你证实了自己的理论。但你真的破案了吗？万一你过于专注于寻找证实性证据，而错过了那个本可以洗清嫌疑人并指向他人的线索呢？

简而言之，这正是科学中最深奥的难题之一。我们如何知道自己走在正确的道路上？几百年来，常识性的答案似乎是证实：一个好的科学理论是能够被观察所证实的理论。我们走向世界，收集与理论相符的事实，我们的信心随之增长。但伟大的苏格兰哲学家 David Hume 指出了这一逻辑中的一个致命缺陷。无论你看到过多少只白天鹅，你永远无法绝对确定地得出结论说所有天鹅都是白色的。你看到的下一只天鹅可能就是黑色的。这就是归纳问题：我们永远无法从一系列具体观察中得出一个被证明的、普遍的定律。一个理论可能对了一百万次，但在第一百万零一次时仍然可能是错的。事实证明，证实是建立在哲学流沙之上的。

Popper 式转向：错误的威力

正是20世纪的哲学家 Karl Popper 以天才的一笔，将整个问题颠倒了过来。他意识到，一个科学理论的真正力量不在于其能被证明为正确，而在于其可能被证明为错误。他提出了一个划分科学与非科学的新标准：可证伪性。

一个陈述、假说或理论，只有当它是可证伪的，才是科学的。这并不意味着它是错误的，而是意味着它对世界做出了一个有风险的论断。它大胆地宣称：“情况就是这样，因此，你永远不会看到那样。”那个被禁止的观察，一旦发生，就可能使整个理论大厦轰然倒塌。这里存在着一种根本性的不对称：一百万次证实性的观察无法证明一个理论，但一次坚实的证伪性观察就能驳倒它。一个不禁止任何事情、能容纳任何可能观察结果的理论，什么也没有告诉我们。

一个主张要真正可检验，就必须是脆弱的。它的力量来自于它所树立的敌人——那些可能摧毁它的潜在观察。

两种理论的故事：一位医生的发现与一张诊疗床的慰藉

为了亲眼见证这一原则的运作，让我们回到19世纪40年代的维也纳。一位名叫 Ignaz Semmelweis 的年轻医生正被一个可怕的谜团所困扰。在维也纳总医院的第一产科诊所，那里有医生和医学生工作，大量新生儿母亲死于一种名为产褥热的疾病——有时死亡率高达六分之一。然而，在由助产士负责的第二诊所，死亡率却显著降低。

当时流行的理论认为，这种疾病是由“瘴气”——即污浊的空气——引起的。但这个理论模糊而含混。当医院改善通风后，死亡率并未改变。瘴气理论并未真正面临风险；总可以说，那个病房里的瘴气格外顽固。

Semmelweis 在一系列悲剧性线索的启发下，形成了一个不同、更具体且更危险的想法。他注意到，医生和学生们经常在 morgue（停尸房）进行尸检后直接来到产科病房。他的大胆猜想是，“尸体颗粒”——来自尸体的看不见的物质——通过医生的手传播给了母亲们，从而引起了发热。这是一个极具风险的预测。它不仅令人作呕，还直接暗示医生们自己就是死亡的传播者。如果这个理论是正确的，那么一个简单的干预措施就应该产生显著的效果。

这引向了一项关键检验：Semmelweis 命令所有医生在检查病人前用含氯石灰的溶液洗手。预测是明确而危险的：如果他的理论正确，第一诊所的死亡率应该骤降至第二诊所的低水平。如果不然，他的理论将被粉碎。结果是立竿见影且惊人的。死亡率从超过 $10\%$ 降至大约 $2\%$ 。Semmelweis 的理论经受住了一次严峻的检验，一次直接的证伪尝试。在此过程中，它也有效地证伪了瘴气理论，因为瘴气理论无法很好地解释为什么一个基于接触的干预措施会产生如此具体而强大的效果。

现在，将此与另一个著名的维也纳理论对比：Sigmund Freud 的精神分析学。Popper 将此作为其不可证伪或“伪科学”理论的首要例子。想象一位精神分析师提出，一个男人的神经症源于其深藏的俄狄浦斯情结。如果这个男人的行为与此相符，理论就被“证实”了。但如果这个男人的行为与该情结预测的完全相反呢？没问题。分析师可以简单地引入一个新的、特设的机制：这个男人正在表现出“反向形成”，这是一种他压抑真实感受并以相反方式行事的防御机制。如果他表现出矛盾心理，他就是患有“未解决的冲突”。

这个理论的概念如此富有弹性，以至于它可以解释任何可以想象到的人类行为。它是一个理论上的变色龙，能根据任何背景改变颜色。与 Semmelweis 的理论不同，它从不做出有风险的预测。它从没有被证明是错误的危险，而 Popper 认为，正因如此，它未能成为科学。一个能解释一切的理论，最终什么也解释不了。

现代的证伪：从逻辑到实验室

Popper 的思想不仅仅是一个历史上的奇闻；它是现代科学实践跳动的心脏。语言可能变了，我们现在用概率和统计来处理问题，但将我们的思想置于严峻检验之下的核心原则依然存在。

想一想现代针对一种新药的临床试验。科学家们并非着手“证明”药物有效。相反，他们将证伪的过程形式化。他们从陈述一个零假设（ $H_0$ ）开始，这是一个表示无效果的陈述：“这种药没有任何作用。”整个实验，通常是一个耗资数百万美元的随机对照试验（RCT），被设计成一台试图证伪这个零假设的机器。他们预先规定什么算作“命中”——例如，血压出现统计学上显著的降低。结果从不是一个“证明”，而是概率性的证据。一个低的 $p$ -value 并不意味着备择假设为真；它意味着，如果零假设为真，观察到的数据将是非常不可能的。这是一种概率性的反驳，是现代版的 Semmelweis 看着死亡率下降的场景。

这个原则也帮助我们在科学与社会交汇的险恶地带航行。考虑一下气候变化这个复杂的问题。可证伪性帮助我们区分科学主张和活动家主张。像“过去一个世纪，由于人为二氧化碳排放，全球平均地表温度上升了 $X$ 度”这样的陈述是一个科学主张。它是描述性的，并且是可证伪的——它与具体的测量和模型相关联，原则上可能被新数据或更好的理论证明是错误的。而像“因此，我们必须立即实施全球碳税”这样的陈述则是一个规范性主张。它关乎我们应该做什么。这是一个伦理和政治论点，而不是科学论点。科学可以为这场辩论提供信息，但它不能为我们做决定。可证伪性帮助我们将这两种至关重要的思维模式分开。

最关键的是，可证伪性对科学的实际操作方式具有深远的影响。近年来，科学面临着所谓的“可重复性危机”。许多备受瞩目的研究发现很难或不可能被其他实验室复制。这是科学的失败吗？从 Popper 的角度来看，这是科学正在发挥作用的迹象，但前提是它必须拥抱可证伪性的精神特质。复制一个结果与检验它并不相同。如果一个研究团队发表了一项引人注目的发现，但却对其原始数据和分析代码保密，那么他们的主张对于科学界的其他人来说就在操作上是不可证伪的。其他实验室无法检查工作、尝试替代分析或探查其弱点。这就是为什么开放科学运动——倡导开放数据、开放代码和透明方法——如此至关重要。它是可证伪性的实践性、制度性体现，将私人主张转变为可公开检验的主张。

科学自我修正的艺术

当然，科学并不是一个简单的“一击出局”游戏。科学家们不会——也不应该——在出现第一个异常迹象时就放弃像牛顿物理学这样强大的理论。Popper 的学生、哲学家 Imre Lakatos 对这一图景进行了完善。他将科学理论描述为“研究纲领”，其拥有一个由基本思想构成的坚韧的硬核，周围环绕着一个由辅助性假设组成的保护带。

当出现一个相互冲突的观察时，科学家们首先会尝试对保护带进行调整。这是一种合法的改进还是一种特设的借口？答案在于这种改变是进步的还是退步的。一个进步的改变会做出新的、可检验的预测，并在后来得到证实。一个经典的例子是海王星的发现。当天王星的轨道与牛顿定律的预测不完全匹配时，科学家们并没有抛弃牛顿。相反，他们通过假设一颗未被发现的行星的引力在拉扯天王星来调整保护带。他们计算出这颗行星应该在的位置，将望远镜对准那里，结果它就在那里。理论的经验内容增加了。

另一方面，一个退步的改变仅仅是修补一个漏洞，而没有预测任何新事物。这就像精神分析师援引“反向形成”，或者，在一个历史例子中，古代医生 Galen 的追随者在面对动物体内的“rete mirabile”（奇异网）结构在人体中并不存在这一事实时，可能会发明一个“无形的、季节性消失的微型奇异网”来挽救理论。这一举动降低了可检验性，是一个研究纲领正在消亡的迹象。

这个更为细致的观点展示了科学是一个动态的、纠错的过程。它坚守其最好的思想，但并非教条地坚持。它允许调整，但要求这些调整通过做出新的、有风险的预测来证明其价值。

归根结底，可证伪性不仅仅是一个逻辑标准；它是一种精神特质。它是一种对有组织的怀疑主义的拥抱。它是一种激进的思想，即通往真理的更近一步的方式，是毫不留情地、系统地批判我们自己最珍视的思想。它要求建立各种制度——如同行评审、开放数据存储库和对抗性合作——来鼓励和奖励对错误的追寻。这是一种谦逊而极其强大的认知：科学不是一堆事实，而是一场发现之旅，由敢于犯错的勇气所驱动。

应用与跨学科联系

一个哲学家的思想有什么用？这是个合理的问题。我们不靠哲学本身来建造桥梁或治愈疾病。但一个伟大的哲学思想就像一个罗盘。它不能移动船只，但它告诉船长该朝哪个方向航行。Karl Popper 的可证伪性原则正是这样一个罗盘。它不是供安乐椅思想家们把玩的抽象奇物；它是一个极其务实的工具，指引了几乎所有可以想象到的领域的科学探究。它是我们不断演进的、力求明天比今天错得更少的探索之旅的引擎。让我们踏上旅程，穿越其中一些领域，看看这个简单而强大的思想如何提供一条共同的线索，一种统一的思维方式，贯穿于广袤的科学图景之中。

沙滩上的界线：划分科学与伪科学

Popper 标准最著名的应用或许是作为一种武器——一种在科学及其模仿者之间划清界限的工具。在 Popper 的观点中，科学是勇敢的。它敢于冒险。它做出有风险的预测，并宣称：“如果我是对的，你应该观察到 X。但如果你观察到 Y，那么我就错了。”而伪科学，则是一个变形者。它提供的解释如此灵活，以至于永远无法被证明是错误的。当面对一个不便的事实时，它只是扭曲自己，发明一个借口，然后若无其事地继续。

在当今关于疫苗接种的辩论中，这场斗争再清晰不过了。疫苗学的科学理论做出了大胆、可证伪的主张。它预测，如果一个群体的麻疹疫苗覆盖率降到某一阈值以下，比如 $92-95\%$ ，疫情将会复发。这是一个有风险的预测。如果在低覆盖率地区没有发生广泛的麻疹疫情，该理论将陷入严重困境。相比之下，反疫苗的叙事常常使用 Popper 所谓的特设性假说来保护自己免受反驳。如果大规模研究显示疫苗与所声称的伤害之间没有联系，这个预测的失败并不会被视为反对该主张的证据。相反，新的、无法检验的解释被发明出来：数据被“制药业阴谋”所压制，病例被“重新分类”，或者现在是另一种成分是罪魁祸首。这些遁词使得核心主张变得不可证伪，将其推出了科学的领域。

在艾滋病（HIV/AIDS）危机的恐怖早期，同样的情节也曾上演。一种新的、致命的综合征正在社区中蔓延，科学家们争相寻找其原因。一种病毒——我们现在称之为 HIV——是罪魁祸首的假说，做出了一系列有风险的预测。否认论者的反假说，则将责任归咎于生活方式或娱乐性药物。科学如何做出决断？答案在于设计一个能够决定性地证伪病毒假说的检验。这正是 Popper 遗产的精髓：不仅是识别伪科学，更是积极地创造工具，将我们自己最好的思想置于检验之下。

建筑师的蓝图：设计严峻检验

对 Popper 的一个常见误解是，科学是一个堆满被证伪理论的坟场。这忽略了该思想创造性和建设性的核心。可证伪性不是一个等待理论消亡的被动过程；它是一个设计实验的积极原则——Popper 称之为“严峻检验”。一个好的理论就像一艘建造精良的船。仅仅在港口欣赏它是不够的；你必须把它驶入你能找到的最汹涌的海域，并尽一切努力去弄沉它。如果它还能浮着回来，你就对其强度有了深刻的了解。

思考一下生物学中最优美的思想之一：DNA的双螺旋结构。当 Watson 和 Crick 在 $1953$ 年提出他们的模型时，它不仅仅因为其优雅而受到赞誉。它在科学上之所以强大，是因为它极具风险性。它并不含糊；它做出了一整套惊人具体且可证伪的预测。它预测X射线衍射图谱必须显示一个特定的螺旋状“十字”。它预测分子的直径必须是均匀的，这要求一个嘌呤总是与一个嘧啶配对。最重要的是，它规定碱基比例必须遵守 Chargaff 法则——即腺嘌呤（ $A$ ）的量必须等于胸腺嘧啶（ $T$ ），鸟嘌呤（ $G$ ）的量必须等于胞嘧啶（ $C$ ）——并且复制必须是“半保留的”，每个子代分子继承一条旧链和一条新链。这些预测中的任何一个，如果被实验证明是错误的，都会在一夜之间摧毁这个模型。双螺旋结构经受住了所有这些严峻检验，其中最著名的是优美的 Meselson-Stahl 实验证实了半保留复制，正是这一点让我们今天对它有如此大的信心。

设计严峻检验的这一原则是医学领域的生命线。在20世纪80年代，为了检验 HIV-AIDS 假说，科学家们设计了一个绝妙的实验。他们找到了一组接受过输血的人——这条传播途径完全独立于否认论者所归咎的生活方式因素。他们测试了捐献者存档的血液样本中的 HIV 抗体。该假说做出了一个极其危险的预测：接受 HIV 阳性血液的受血者患上艾滋病的比率将远高于 ( $RR \gg 1$ ) 接受 HIV 阴性血液的受血者。证伪的结果是明确的：如果比率相同 ( $RR \approx 1$ )，假说将被驳倒。那个悲剧性但科学上决定性的结果证实了病毒是病因，使科学和医学得以向前发展。这不是幸运的猜测；这是将证伪逻辑用作发现蓝图的典范。

阅读往昔之书：历史科学中的证伪

但是，对于那些我们无法进行对照实验的科学领域，情况又如何呢？我们无法倒放生命的录像带来观察恐龙的演化，也无法再次将大陆板块撞击在一起来检验地质学理论。Popper 的思想在这里有用吗？绝对有用。这正是证据汇合思想的用武之地。一个历史假说，比如鸟类从兽脚类恐龙演化而来的理论，就像一个用几本不同书籍讲述的故事——化石之书、地质学（地层学）之书、解剖学之书和基因之书。要使故事为真，所有书籍都必须一致。因此，证伪并非来自单一实验，而是来自在这些独立的证据线索中发现一个深刻的矛盾——即证据汇合的失败。

例如，关于鸟类起源的兽脚类恐龙假说（TDH），并非一个模糊的故事；它做出了一系列非常有风险的预测，原则上可以被证伪。它预测，类鸟恐龙的化石必须在早于或至少与最早的鸟类一样古老的地质岩层中被发现。它预测，最早的鸟类必须具有从其兽脚类祖先那里继承下来的特定解剖学特征，比如特定的腕关节和踝关节结构。并且它预测，对这些特征的系统发育分析必须将鸟类稳固地置于兽脚类恐龙的谱系树内。

一项严峻的检验，一个潜在的证伪，将是发现一块能打破这种证据汇合的化石。想象一下，在三叠纪地层中发现一块完全现代形态鸟类的化石，比它本应演化自的恐龙早了超过3000万年。再想象一下，如果这块化石的踝关节类型不对，并且一项严谨的系统发育分析将其完全置于恐龙谱系树之外。这样的发现——一只“三叠纪麻雀”——将是一次毁灭性的、多领域的证据汇合失败。它将像实验室里的实验一样确凿地证伪 TDH。一个多世纪的搜寻之后，从未发现过这样的化石，这一事实本身就是对演化假说力量的有力证明。

从诊疗床到实验室：Popper 在人文科学中的应用

Popper 的逻辑不仅适用于化石和分子；它还彻底改变了我们对人类心智的理解。在其历史的大部分时间里，精神病学一直被宏大、充满理论色彩的叙事所主导，而这些叙事是出了名的难以检验。一个诊断可能基于临床医生对病人“无意识冲突”的解读。但你如何证伪这样的主张？什么样的观察可能驳倒它？

20世纪70年代末，《精神障碍诊断与统计手册》第三版（DSM-III）的制定，对该领域来说是一个意义深远的 Popper 式时刻。DSM-III 的构建者们坚持一种非理论性的、描述性的方法。他们认为，在你能够检验关于一种障碍病因的假说之前，你必须首先能够就谁患有该障碍达成一致。他们用明确的、可操作的症状清单取代了模糊的描述。为了做出诊断，病人必须表现出，比如说，九种具体、可观察症状中的五种。这一举措极大地提高了评分者间信度——即不同临床医生对一个诊断达成一致的程度。更重要的是，它使诊断主张变得可证伪。像“该病人符合重度抑郁症的标准”这样的主张，变成了一个可检验的假说，可以通过观察来反驳。这为真正科学的精神病学奠定了基础。

同样的逻辑也适用于心理治疗的个体层面。一个熟练的治疗师就像一个优秀的科学家。病人可能带着一个问题前来，比如情境性勃起功能障碍。原因是表现焦虑吗？是对特定情境的条件反射吗？还是潜在的医学问题？治疗师可以与病人合作，将这些表述为相互竞争的、可证伪的假说。然后他们可以设计“行为实验”来检验它们。为了检验表现焦虑假说，他们可能会设计一种练习（如性感官集中训练），以消除表现的压力。如果病人的焦虑下降但勃起问题依然存在，这就构成了反对焦虑假说的证据。这就是 Popper 思想在治疗师诊疗床上的实践——一个通过猜想与反驳的协作过程来寻找有效方法的实践。

现代前沿：Popper 在大数据时代的应用

在我们这个充满“大数据”、机器学习和复杂计算机模型的21世纪世界里，人们可能认为 Popper 的简单思想已经过时。事实恰恰相反；它从未如此切题。在数据泛滥的领域，发现虚假模式——在云中看到人脸——是极其容易的。现代的危险不是证据的缺乏，而是证据的过剩，这使得我们所谓的后设叙事（post-hoc storytelling）成为可能。

Popper 的哲学提供了解药：预注册的、可证伪的假说原则。在像放射组学这样旨在从医学影像中寻找能预测疾病结果的模式的领域，纯粹探索性的方法可能会测试数千个特征，直到有一个因纯粹的偶然性而显示出相关性。相比之下，Popper 式的方法坚持研究者在进行主分析之前做出一个具体的、有风险的预测。例如，一个团队可能假设肿瘤质地的某个特定度量，“熵”，将能预测癌症进展。他们预先指定他们将使用的确切模型、将要调整的协变量，以及最重要的是，他们必须在一个独立的、样本外数据集中看到的最小效应量和预测改进，才能认为该假说得到证实。如果结果未达到这些预先指定的、可证伪的阈值，那么无论它在初始数据中看起来多么有希望，该假说都将被驳倒。这是在数据丰富的科学领域中对抗自我欺骗的现代堡垒。

这种统计上的严谨性对于检验用于预测天气和气候的复杂模型也至关重要。你如何“证伪”一个给出 $80\%$ 降雨概率的天气预报？在任何单独的一天，你都无法证伪它。这里的证伪变成了一个统计概念。它要求将预报的性能指标（一种“评分规则”）嵌入到一个针对零模型（如气候学）的正式假设检验中。我们必须在一个大型的、留出的数据集上表明，我们的模型的性能在统计上和实践上都优于基线。仅仅有一个“好分数”是不够的；我们必须通过一个原则上本可以驳倒我们关于技能主张的严峻统计检验。这个复杂的框架仅仅是 Popper 的逻辑被翻译成了现代统计学的语言。甚至我们最基本的框架，比如“物种”的定义本身，也可以被视为可证伪的假说，用尖端的基因组学和生态学数据进行检验，看看哪种概念最能经受住审视。

从诊所到宇宙，从生命密码到我们计算机中的代码，Popper 的可证伪性思想不仅仅是一条哲学规则。它是科学诚信的统一原则。它是一种简单、深刻且要求苛刻的承诺——要诚实地面对我们的无知，要拿出我们最好的思想，并尽最大努力去证明它们是错误的，并怀着谦逊和希望的信念，相信这是通往真正知识的唯一可靠路径。