首页可重复研究

可重复研究

玻尔百科

定义

可重复研究是一种旨在确保科学主张透明且可验证的科研诚信承诺，其核心要求是使研究结果在监管合规之外仍能被他人核实。这一领域通过预注册详细分析计划来防止 P 值操纵和事后假设等统计偏见，并强调利用版本控制共享代码。此外，遵循 FAIR 原则对于确保数据和证据的可发现、可访问、互操作及可重用至关重要。

核心要点

可重复研究是对诚信的伦理承诺，旨在确保科学主张的透明性和可验证性，而不仅仅是满足法规要求。
在研究开始前预先注册详细的分析计划，是防止如p值操纵（p-hacking）和知晓结果后构建假设（HARKing）等统计偏见的关键工具。
计算可重复性要求通过版本控制共享确切的代码，用容器定义计算环境，并管理算法的随机性。
FAIR原则（可发现、可访问、可互操作和可重用）对于确保更广泛的科学界能够验证数据和证据至关重要。

引言

在一个科学主张能够影响公共政策和改变人们生活的时代，信任问题至关重要。是什么让一项科学发现可信？答案在于一个基本原则：可重复性。独立研究人员能够重新审视证据并得出相同结论的能力，是科学有效性的最终试金石。然而，日益加剧的“可重复性危机”表明，许多已发表的研究成果难以甚至无法验证，这威胁到了整个科学事业的信誉。本文旨在通过提供一份关于可重复研究的理念与实践的综合指南来解决这一关键缺口。我们将首先深入探讨其核心的“原则与机制”，探索构成可重复科学基石的伦理承诺、统计学基础和计算工具。随后，“应用与跨学科联系”部分将展示这些原则在不同领域的实际应用，说明可重复性如何成为可靠发现和创新的引擎。

原则与机制

要真正理解可重复研究，我们必须超越单纯的定义。它不是一张刻板的清单，而是一种充满活力的哲学，触及科学研究的本质。这是一个从抽象理想到具体实践的旅程，确保科学主张不仅仅是声明，而是任何人都可亲自检验的可验证的真理。让我们踏上这段旅程，从激发整个事业的精神开始。

科学家的契约：超越规则的诚信

想象一个科学研究在紧闭的门后进行的世界。一位研究者宣布了一项突破性发现，但当被问及如何发现时，他只是回答：“相信我。”这样的世界不是科学的世界。整个科学知识的大厦建立在独立验证的原则之上。一项主张只有在能够被他人审视、检验和确认后，才能成为科学事实。这是最基本的契约。

这个契约由两个相关但又截然不同的概念来约束：研究诚信和法规遵从。可以把它想象成做好人与守法的区别。法规遵从是遵守法律条文——那些外部施加的规则，如临床试验管理规范（GCP）或机构审查委员会（IRB）的批准。这些规则至关重要，它们保护患者，确保安全，并为数据质量建立了基线。它们是良好科学赖以建立的地基。

然而，研究诚信是法律的精神。它是一种内在的、由原则驱动的承诺，致力于遵循科学方法最严格的标准，其动机源于诚实、透明和负责等认知美德。它关乎如实报告你所有的发现，而不仅仅是那些符合你假设的发现。它关乎透明地记录你的方法，以便他人能够评估它们。它关乎对你的工作负责，并在发现错误时予以纠正。

一个研究者可以完全合规但缺乏诚信。例如，他们可能遵守了所有安全规程，但从五个不同的实验中只选择性地报告了阳性结果，悄悄地埋藏了那四个显示无效的实验。这种做法，通常被称为p值操纵（p-hacking）或选择性报告，并未违反任何特定法规，但从根本上违背了科学精神。它用误导性信息污染了知识的长河。因此，可重复研究不仅仅是一个技术挑战；它首先是对研究诚信的伦理承诺。

测量的剖析

要使一个结果可重复，我们首先需要理解“结果”究竟是什么。当我们测量某样东西时——无论是蛋白质的浓度、基因的活性，还是患者的血压——我们得到的数字并非纯粹、未经修饰的真相。它是一个复合物，一个被噪声污染的信号。

让我们想象一下，我们正在尝试测量一种新药的“真实”生物学效应。我们观察到的值，称之为 $Y$ ，从来不只是真实的效应。一个非常简单的模型可以帮助我们剖析这一点。任何给定的测量值可以被认为是：

$Y = \text{True Biological Effect} + \text{Sample Processing Error} + \text{Instrument Error}$

在统计学上，我们在数据中观察到的总方差 $\mathrm{Var}(Y)$ 是这些不同变异来源的总和：

$\mathrm{Var}(Y) = \sigma_b^2 + \sigma_t^2 + \sigma_a^2$

在这里， $\sigma_b^2$ 是生物学方差——我们想要研究的、个体或群体之间真实且有趣的差异。另外两项是噪声。 $\sigma_t^2$ 是技术方差，在样本制备过程中引入（例如，化学反应或DNA提取过程中的不一致性）。而 $\sigma_a^2$ 是分析方差，来自测量仪器本身的随机误差（例如，光谱仪中的电子噪声）。

这个框架揭示了为什么我们有不同种类的“重复”：

生物学重复：使用不同的小鼠、患者或细胞培养物。这是捕捉至关重要的生物学方差 $\sigma_b^2$ 并提出可推广的科学主张的唯一方法。
技术重复：取同一个生物样本（例如，一管血）并进行多次处理。这有助于我们了解来自实验室流程的噪声( $\sigma_t^2 + \sigma_a^2$ )。
分析重复：将完全相同的已处理样本两次放入测量机器。这能分离出仪器本身的噪声( $\sigma_a^2$ )。

理解这些来源不仅仅是一项学术活动。许多“未能重复”的情况是由于技术或分析流程中未被记录的差异造成的。想象两家医院试图重复一项将高血压与某种疾病联系起来的研究发现。一家医院使用了正确尺寸的袖带，并让患者休息五分钟。另一家医院使用的袖带太小，并在患者一到就立刻测量血压。即使他们分析的是电子病历中“相同”的数据字段，他们测量的也不是同一回事！测量方案不同，引入了不同的系统性偏见和随机误差。

这告诉我们一些深刻的道理：数据不仅仅是数字。数据是数字及其上下文。没有描述数据是如何、何时以及用什么仪器收集的详细元数据，我们就不可能重复一项发现。实验方案是实验的一部分。

将自己绑在桅杆上：预先承诺的力量

人类的大脑是一台了不起的讲故事机器。它非常擅长此道，甚至能在随机噪声中找到模式。作为科学家，我们也不能幸免。当我们审视一个丰富的数据集时，很容易去探索它，找到一个看起来有趣的关联，然后围绕它构建一个美丽的故事。这被称为知晓结果后构建假设（HARKing）。虽然这对于产生新想法（探索性分析）至关重要，但对于检验假设（验证性分析）来说，这是一种灾难性的方式。

为什么？因为它极大地增加了假阳性的风险。想象一下，你正在测试一种药物，有5个可能的结果需要测量。如果你将显著性水平 $\alpha$ 设置为 $0.05$ ，你接受任何单次检验有 $5\%$ 的出错概率。但是，如果你进行了所有五次检验，并且只报告那个碰巧看起来“显著”的，你报告至少一个假阳性的机会就不是 $5\%$ ，而是要高得多。在一次检验中不得到假阳性的概率是 $1 - 0.05 = 0.95$ 。在五次独立检验中都不得到假阳性的概率是 $(0.95)^5 \approx 0.77$ 。因此，得到至少一个假阳性的概率是 $1 - 0.77 = 0.23$ ，即 $23\%$ ！。你的“发现”很可能只是侥幸。

为了防范这一点，我们必须在听到数据的诱人歌声之前，将自己绑在桅杆上。这就是预先指定的原则。在研究开始之前，研究者必须公开发布一份详细的方案和一份统计分析计划（SAP）。这份计划是一份有约束力的合同。它必须精确定义主要假设、待测量的结果、将使用的统计模型、如何处理缺失数据，以及将进行多少次检验。通过预先承诺分析计划，研究者消除了事后挑选结果的诱惑和能力。

发现的秘诀：代码、容器和种子

在现代，许多科学“实验”发生在计算机内部。数据分析不是一个简单的一步式过程，而是一个复杂的计算工作流。为了使这个工作流可重复，我们需要一个完整的“秘诀”，让另一位科学家能够遵循它得到完全相同的结果。这个秘诀包含几个关键要素。

首先是代码。所有用于分析的脚本和程序都必须共享。但仅仅共享最终版本是不够的。我们需要知道产生已发表论文中图表的代码的确切版本。这就是版本控制系统（如Git）不可或缺的地方。通过创建一个带标签的发布（例如，v1.0.0），研究者为代码历史中的一个特定时刻创建了一个永久的、可引用的、不可变的指针。这就像一个历史标记，确保任何人在未来的任何时候都可以检索到用于该出版物的精确代码库。

其次是计算环境。代码并非在真空中运行。它依赖于操作系统、编程语言以及一系列软件包，每个都有其特定的版本。这些依赖项中的一个微小变化就可能改变结果。我们已经看到，即使是像百分位数这样简单的统计量，根据所使用的软件或默认设置的不同，也可能产生不同的值。为了解决这个问题，研究人员现在使用软件容器（如Docker或Singularity）。容器就像一个数字生态箱；它将代码、数据和整个计算环境——每一个依赖项——打包成一个单一的可执行包。这保证了分析在任何计算机上，无论是今天还是十年后，都能以完全相同的方式运行。

第三，我们甚至必须考虑分析内部的随机性。许多现代机器学习算法，如随机森林，使用内部随机性（由一个随机种子控制）来执行自举抽样等任务。如果种子不固定，在相同的数据上运行相同的代码每次都会产生略有不同的模型和预测。要使一个结果真正可重复，它必须是稳定的。其结论不应取决于算法骰子的一次幸运投掷。一个稳健的发现是那种在多个随机种子上都保持一致的发现，这表明结果是数据的特征，而不是算法随机性的人为产物。

作为公共信托的科学：FAIR原则的实践

我们已经为可重复性构建了一个优美、自洽的秘诀。但如果没人能得到原料怎么办？如果底层数据无法获取，一个可重复的工作流也是无用的。这把我们带到了科学的社会和法律基础设施层面。

FAIR原则指出，要使数据对科学界发挥最大效用，它必须是可发现（Findable）、可访问（Accessible）、可互操作（Interoperable）和可重用（Reusable）的。这里的“A”和“R”是关键。如果支持一项科学主张的证据被锁在专有许可或付费墙之后，那么它对更广泛的社区来说既不是真正可访问的，也不是可重用的。对于那些无力支付的人来说，独立验证变得不可能。完全依赖专有数据库来提出公共科学主张，从根本上与认知透明性原则相冲突。要建立一个真正公开且可验证的知识体系，关键证据必须锚定在允许所有人重新分发和再分析的开放资源上。

当然，这种完全开放的理想遇到了一个关键且必要的障碍：人类的隐私和自主权。对于敏感数据，如个人健康记录或高分辨率脑部扫描，我们不能简单地将所有内容公之于众。这产生了一种深刻的张力。我们如何既尊重参与者的隐私权和他们撤销同意的权利，又维护科学验证的需求？。

这是可重复研究的前沿领域。这是一个单靠科学家无法解决的挑战。它需要与伦理学家、律师和计算机科学家合作，建立新的系统。我们需要能够执行同意、限制数据使用目的、并尊重个人被遗忘权的技术，同时保留一个不可变的、可审计的追踪记录，以允许对科学主张进行验证。目标是建立一个“可信的可重复性”系统，其中访问受控但问责绝对。这是我们寻求建立一个不仅严谨可靠，而且值得公众信赖的科学事业的下一个巨大挑战。

应用与跨学科联系

在理解了可重复研究的原则和机制之后，我们现在开始一段旅程，去看看这些思想在实践中的应用。我们会发现，可重复性不是一份枯燥的官僚主义清单，而是一个充满活力的、贯穿整个科学事业的活原则。它是一条无形的线，将一个实验室的遗传学家与另一个实验室的气候建模者联系起来，确保宏伟的科学织锦是由坚实、可验证的线索编织而成。就像一位钟表大师揭示时计内部精密的齿轮一样，我们将看到这些原则如何使科学的机器以精确、可靠和不断增强的力量运转。

数字发现的剖析

在计算时代，许多科学发现不再是单次测量的结果，而是一个复杂分析流程的输出。我们可以将这样的流程看作一个复合函数，一系列操作接连应用： $f(X) = (h \circ g \circ \phi)(X)$ 。这里， $X$ 是原始数据， $\phi$ 是预处理， $g$ 是特征提取，而 $h$ 是最终的统计模型。要重复这个结果，就需要能够完美地重构这个函数 $f$ 。这要求一份关于“数字实验”的完整蓝图。

这份蓝图包含什么？事实证明，它有四个基本部分。

首先，原材料必须被精确定义。仅仅提供一个数据文件是不够的。我们必须知道它的完整出处——它来自哪里，如何收集，以及至关重要的，它的参照系。在空间流行病学或环境科学等领域，数据点通常只是一串数字。如果不指定坐标参考系统（CRS）——即地图投影和基准面——这些数字就是模糊不清的。一个疾病热点可能会出现在错误的位置，或者一个土壤侵蚀模型可能建立在未对齐的数据层之上，导致完全错误的结论。因此，一个稳健的工作流始于用标准化的、机器可读的元数据描述的不可变原始输入，不留任何猜测的余地。

其次，配方必须精确无误。分析师做出的每一个选择都是流程中的一个参数。在医学影像分析或“影像组学”中，将CT扫描转换为一组预测性特征的过程涉及数十个此类选择。你如何将图像重采样到标准分辨率？你使用哪种插值算法？当你对图像的强度值进行离散化时，你选择多大的分箱宽度——比如说， $25$ 亨斯菲尔德单位（Hounsfield Units）？一个不同的选择可能导致一套不同的特征和不同的临床预测。这些是显式参数，即我们函数中的 $\phi$ ，它们必须被极其详细地记录下来，一项研究才可能被重复。

第三，厨房本身必须被描述。两位厨师使用完全相同的食谱和食材，如果一个用对流烤箱而另一个用传统烤箱，可能会做出不同的菜肴。科学也是如此。我们的“厨房”是计算环境：操作系统、编程语言（如Python或R）的版本，以及所用所有软件库的确切版本。一个新版本的库可能包含一个错误修复或对算法默认设置的微妙更改。如果不指定完整的环境，通常通过提供一个带有不可变标识符（如提交哈希）的代码仓库，我们就无法保证我们运行的是相同的确定性代码路径。这是蓝图中一个关键但常被忽视的部分[@problem-id:5221622] [@problem-id:5223323]。

最后，我们必须驯服偶然性因素。许多现代算法，从训练机器学习模型到为交叉验证分割数据，都使用伪随机数。虽然这种随机性很有用，但为了可重复性，必须使其变得“确定性随机”。通过为随机数生成器设置并记录一个特定的“种子”，我们确保每次都能产生相同的“随机”数序列。这使得独立分析师能够在交叉验证程序中生成完全相同的数据折叠，这对于验证报告的模型性能指标至关重要。为了达到最大的稳健性，甚至可以更进一步，发布将每个数据点分配到特定折叠的确切索引，从而消除对随机数生成器本身的任何依赖。

守护推断的大门

可重复性不仅仅是计算上的记账；它与科学主张的统计诚信深度交织。科学家拥有众多的“研究者自由度”——关于分析哪些变量、调查哪些亚组、以及运行哪些统计检验的选择。即使是下意识的，探索多种不同路径并只报告得出统计显著性结果的那一条的诱惑也可能很强烈。这种被称为“ $p$ 值操纵”的做法，导致科学文献中充满了仅仅是统计幻影的“发现”。

为了应对这种情况，科学界已经发展出一种强大的承诺工具：预注册。在遗传流行病学和临床试验等领域，研究人员现在在接触结果数据之前就公开发布他们完整的分析计划。这份带有时间戳的、不可变的记录就像一份合同。它规定了主要假设、统计方法，以及至关重要的，任何将被视为验证性的亚组分析。

当探索一项新技术，如用于心脏病的多基因风险评分（PRS），是否在不同亚组（例如，不同性别或血统）中作用不同时，这一点尤其重要。每一次亚组检验都会增加发现假阳性的机会。通过预先指定有限数量的亚组检验和一种控制多重检验第一类错误率（FWER）的方法——如Bonferroni校正或更强大的门控程序——研究人员可以提出可信的验证性主张。任何未包含在预注册计划中的分析，根据定义都是探索性的，必须以适当的怀疑态度对待。这种在出手前“预告击球点”的简单行为，是建立可靠和可信证据基础的基石。

开放中的科学：从实验室到世界

可重复性的原则向外扩散，不仅塑造了个人如何进行研究，也影响了整个领域和机构的运作方式，以及科学如何与社会互动。

当研究依赖于专有的“黑箱”软件组件时，一个常见而棘手的挑战便会出现。如果一项研究的分析函数 $f = h \circ g \circ \phi$ 的一个关键部分是秘密的，它如何能被验证？答案是在保护知识产权和维护科学验证之间达成的一个巧妙妥协。虽然源代码可能保持秘密，但研究人员可以提供一个“可审计的执行路径”——一个锁定的、容器化的二进制文件或一个Web API，允许任何人在新数据上运行该专有组件。这允许功能上的重复——验证流程确实产生了声称的输出——而无需透露底层代码。这是一个务实的解决方案，即使在商业化的世界中也能保持科学的可验证性。

这些原则也向上扩展到机构层面。考虑一个卫生技术评估（HTA）机构，它决定一种新药或诊断方法是否足够具有成本效益，从而可以被国家卫生系统覆盖。该机构可能会发现，不同的分析师在给定相同证据的情况下，得出的结论大相径庭。通过实施一份方法指南来规范分析选择（如贴现率），一份流程手册来确保执行的保真度和文档记录，以及一个咨询程序来使价值判断透明化，该机构可以减少这种变异性。这确保了其改变人生的决策不仅基于证据，而且是一致、公平和可审计的。这是服务于公共政策的可重复性。专业学会也通过制定报告指南做出贡献，例如针对机器学习模型的TRIPOD-ML标准，这些标准充当共享清单，以确保所有必要的蓝图信息都包含在出版物中。

也许，可重复性的利害关系在公共卫生危机期间最为攸关。在疫情爆发时，存在着巨大压力，要求迅速分享研究结果以指导应对。这导致了开放科学和预印本服务器的兴起，手稿在正式同行评审前公开发布。这种做法加速了发现和合作，但带有严重的伦理风险。过早的发现如果被公众或政策制定者误解，可能造成切实的伤害。符合伦理的前进道路是彻底的透明。研究人员必须尽早共享他们的数据和代码，但也要清楚地将他们的工作标记为初步的，并明确传达其不确定性。这是一个微妙的平衡，权衡行善（通过分享来帮助）的义务与不伤害（不做有害之事）的义务。在这种背景下，可重复性成为公共安全的工具，确保科学在以前所未有的速度发展时，能够负责任地这样做。

从单次分析的复杂细节到科学事业宏大的伦理责任，我们看到可重复研究是使现代科学成为可能的基础原则。它是让我们能够信任、验证并最终在我们集体追求知识的过程中，建立在他人工作之上的机制。