受试者内设计

玻尔百科

定义

受试者内设计是一种实验研究方法，其中每个参与者都会接受自变量的所有处理水平，从而使每个个体都成为其自身的对照组。该设计通过消除稳定的个体差异来增强统计效力，被广泛应用于临床交叉试验、fMRI 脑成像和基因组分析等领域。为了处理由此产生的相关数据，研究者通常采用配对样本 t 检验和重复测量方差分析等专门的统计技术。

核心要点

受试者内设计通过让每位参与者作为自身的对照，有效地过滤掉稳定的个体差异，从而增强统计功效。
这种设计会产生相关的数据点，需要使用配对 t 检验和重复测量方差分析等专门的分析方法，以避免假阳性风险的增加。
对于超过两种条件的实验，重复测量方差分析依赖于球形性假设，必须识别并纠正对此假设的违反，以确保结论的有效性。
自我比较的原则具有高度的通用性，在临床交叉试验、功能性磁共振成像（fMRI）脑成像、基因组分析以及测量信度的评估中都有关键应用。

引言

在科学研究中，从纷繁复杂的自然变异中检测出真实效应是一项根本性挑战。我们如何能确定一种新药、新教学方法或新疗法是真正有效的，而不仅仅是被个体之间存在的巨大差异所掩盖？这种固有的“噪声”会削弱统计功效，需要更大、更昂贵的研究才能得出明确的结论。受试者内设计，也称为重复测量设计，通过让每位参与者充当自身的完美对照，为这个问题提供了一个优雅而有力的解决方案。

本文旨在探索这一重要研究方法的全貌。在第一章 原理与机制 中，我们将剖析受试者内设计的统计基础，探讨它如何在数学上抵消个体变异性，以及为何这会引入数据相关性这一关键问题。我们将考察为解决此问题而开发的分析工具，从简单的配对 t 检验到复杂的重复测量方差分析及其假设。随后，在第二章 应用与跨学科联系 中，将展示该设计在众多科学领域的卓越通用性。从动物研究和临床药物试验中的伦理考量，到神经科学和基因组学的前沿研究，您将看到简单的自我比较行为如何驱动发现与创新。

原理与机制

自我比较的力量

想象一下，你是一名科学家，任务是回答一个简单的问题：两种新款跑鞋“Swift”和“Pace”，哪一双能让跑步者跑得更快？你有两种主要方式来设计实验。你可以招募 20 个人，给其中 10 人穿 Swift，另外 10 人穿 Pace，然后比较两组的平均跑步时间。这是一种 受试者间设计。这是一种不错的方法，但它有一个潜在的问题：人与人之间差异巨大。你的 Swift 组可能纯属偶然地包含了几位天生的马拉松选手，而你的 Pace 组则可能是一些更喜欢待在沙发上的人。个体之间这种固有的变异性就像收音机的静电噪音，可能会淹没跑鞋之间真实但或许微小的差异。

现在，考虑另一种方法。你招募 10 个人，让 每一个人 在周一穿着 Swift 跑鞋跑一次 5 公里，然后在周三穿着 Pace 跑鞋再跑一次（当然，要随机安排谁先穿哪双鞋）。然后，你观察每个人两次跑步的时间差异。这就是 受试者内设计（也称 重复测量设计）的精髓。每位参与者都充当自身的对照。你不再是拿苹果和橘子作比较（不同的人），而是拿苹果和苹果作比较（同一个人在两种不同条件下）。

这种设计上的简单转变非常强大。通过关注 个体内部的变化，你自动地过滤掉了该个体的所有稳定、独特的特征——他们的基因、他们的基础健康水平、他们的动机。你分离出了唯一改变的因素——跑鞋——所产生的影响。这就是赋予受试者内设计卓越统计清晰度和功效的核心原理。

深入底层：抵消噪声的数学原理

让我们将这种美妙的直觉转化为数学语言，这能让我们以完美的清晰度看清其机制。我们可以将我们所做的任何测量，比如受试者 $i$ 穿着鞋 $k$ 的 5 公里跑步时间，看作是由几个部分组成的：

Y_{ik} = \mu_k + b_i + \epsilon_{ik}

让我们来分解一下：

$Y_{ik}$ 是我们观察到的最终跑步时间。
$\mu_k$ 是鞋 $k$ 的真实、普遍效应。这是我们试图找出的。
$b_i$ 是受试者特定效应。这是关于个体 $i$ 的一切独特之处，无论穿什么鞋，这些特征都使其比平均水平更快或更慢。这是他们相对于总体均值的个人“偏移量”。这个项就是我们前面提到的受试者间“噪声”的来源。
$\epsilon_{ik}$ 是不可简化的随机误差——每次跑步之间微小、不可预测的变动。

在受试者间设计中，你比较的是 $Y_{\text{person 1, Swift}}$ 和 $Y_{\text{person 2, Pace}}$ 。这个差异既包括了鞋的效应 $(\mu_{\text{Swift}} - \mu_{\text{Pace}})$ ，也包括了个体效应 $(b_1 - b_2)$ 。如果 $b_1$ 和 $b_2$ 相差很大，鞋的效应就可能被掩盖。

但在我们的受试者内设计中，我们为 同一个人 计算差异：

D_i = Y_{i, \text{Pace}} - Y_{i, \text{Swift}} = (\mu_{\text{Pace}} + b_i + \epsilon_{i, \text{Pace}}) - (\mu_{\text{Swift}} + b_i + \epsilon_{i, \text{Swift}})

D_i = (\mu_{\text{Pace}} - \mu_{\text{Swift}}) + (\epsilon_{i, \text{Pace}} - \epsilon_{i, \text{Swift}})

仔细看——那个讨厌的 $b_i$ 项消失了！它被减掉了。我们通过数学方法过滤掉了受试者间的变异性，留下了一个更清晰的、关于两款鞋真实差异的信号。这不仅仅是一个巧妙的技巧；它解释了为什么受试者内设计通常能用比其受试者间设计对应方案少得多的参与者来检测到真实效应。这个差异的方差 $\text{Var}(D_i)$ 不再包含与受试者个体差异相关的方差，使得统计检验更为敏感。

功效的代价：一种新的依赖关系

当然，俗话说，天下没有免费的午餐。在解决受试者间噪声问题的同时，我们引入了一个新的、微妙的复杂问题：来自同一个人的测量数据不再是独立的。如果你穿着 Swift 跑鞋是个快跑者，那么你穿着 Pace 跑鞋时可能仍然是一个相对较快的跑者。你的两个测量值是相关的，因为它们共享一个共同的来源：你。在我们的模型中，这种相关性是由共享项 $b_i$ 引入的。该项的方差 $\text{Var}(b_i) = \tau^2$ 直接决定了两次测量之间的协方差，在这个简单模型下，协方差实际上就等于 $\tau^2$ 。

忽略这种相关性是一个致命的错误。标准的统计检验，如双样本 t 检验，建立在一个基本假设之上：每个数据点都提供一个全新的、独立的信息片段。当数据像在受试者内设计中那样呈正相关时，每个新测量值的信息内容就部分冗余了。

考虑一个来自临床实验室的真实案例。假设你想通过连续测量同一样本的血液 12 次来测试一种新的化学试剂。由于仪器漂移或预热，第一次测量可能略低于第二次，第二次又略低于第三次。这些测量值是 自相关 的。如果你将这 12 次测量视为真正独立的重复，你就在夸大你的论据。你实际上并没有 12 个独立证据；你的 有效样本量 更小。假装你有那么多独立证据会导致对真实标准误的低估，人为地夸大检验统计量，并因此得到一个看起来比实际应有的更显著的 p 值。这会抬高 I 型错误率——即在没有效应时声称发现了效应的风险——并可能导致科学家欺骗自己和他人。

驾驭相关性：分析的机制

统计学的精妙之处在于，它为我们提供了处理这种复杂情况的工具，不是通过忽略它，而是通过明确地对其建模。

对于一个简单的两条件实验，配对 t 检验 是完美的工具。通过首先为每个人计算差异分数 $D_i$ ，我们创建了一组单一的数字。受试者 1 的差异与受试者 2 的差异是独立的。然后我们可以对这些差异分数进行简单的单样本 t 检验，检验它们的均值是否与零有差异。这个优雅的过程内在地解释了受试者内的相关性。

当我们有超过两个条件时（例如，鞋 A、B 和 C），这个逻辑延伸到一种称为 重复测量方差分析 (ANOVA) 的方法。为了进行这种分析，我们通常将数据组织成一个矩阵，其中每行代表一个受试者，每列代表一个条件。然后，ANOVA 进行一种复杂的“核算”，将数据中的总变异分解为不同的来源：

受试者间变异：受试者之间在平均水平上有多大差异。
受试者内变异：对于相同的受试者，分数从一个条件到另一个条件有多大变化。

“受试者内变异”随后被进一步分解为由我们的实验条件系统性引起的部分（我们关心的效应）和剩余的随机误差。最终的检验，即 F 统计量，本质上是一个比率：

F = \frac{\text{由我们的条件解释的方差}}{\text{无法解释的误差方差}}

一个大的 $F$ 值表明，我们看到的条件之间的差异相对于随机噪声来说是大的，这意味着我们很可能发现了一个真实效应。假设本身可以用矩阵代数正式表达，其中 对比矩阵 精确地定义了所有条件均值相等的零假设。

深入观察：优雅的球形性假设

为了使重复测量方差分析中的 F 检验完全准确，我们数据中的依赖结构需要具有一种特定的平衡形式，这个条件被称为 球形性（sphericity）。简单来说，球形性意味着任何两对条件之间差异的方差是相同的。因此，在我们的三款鞋的例子中，它假设 $\text{Var}(\text{Time}_A - \text{Time}_B) = \text{Var}(\text{Time}_A - \text{Time}_C) = \text{Var}(\text{Time}_B - \text{Time}_C)$ 。这是对我们所有条件之间相互关联性保持一致的假设。

一种更严格、更简单的模式称为 复合对称性（compound symmetry）（其中所有条件的方差相等，所有成对的协方差也相等）可以保证球形性，但球形性是一个限制性较弱、更普遍的条件。

如果这个假设被违反了怎么办？例如，如果鞋 A 和 B 的设计非常相似，但鞋 C 的设计截然不同，该怎么办？相关性结构可能会变得不均匀，从而违反球形性。当这种情况发生时，标准的 F 检验会变得“宽纵”，这意味着它又一次太容易产生假阳性。

幸运的是，统计学家们已经开发出了诊断方法和治疗方案。诊断方法是一种正式的检验，例如 Mauchly 球形性检验。这个检验的逻辑在数学上很优美。它比较不同对比（contrast）的方差的几何平均值与其算术平均值。著名的算术平均值-几何平均值不等式告诉我们，对于一组正数，当所有数都相等时，乘积（相对于和）最大。因此，随着对比的方差变得越来越不相等（违反球形性），检验统计量会变小，从而发出问题的信号。

治疗方案是调整 F 检验，使其更加保守。像 Greenhouse-Geisser 校正 这样的校正方法通过减少检验的自由度来起作用。这种校正的幅度，一个称为 $\epsilon$ (epsilon) 的因子，是根据数据估算出来的，它反映了球形性被违反的严重程度。 $\epsilon$ 的范围从 1（完美的球形性）到对于 $t$ 个条件时的下限 $1/(t-1)$ ，后者代表了对该假设最极端的违反情况。

超越钟形曲线：针对秩次和顺序的设计

受试者内比较的基本原则是如此强大，以至于它不仅限于完全连续或正态分布的数据。如果我们的结果是一个 7 点量表上的主观评分，我们无法确定“1”和“2”之间的心理距离与“6”和“7”之间的心理距离是否相同，该怎么办？

这时，我们可以使用 非参数 方法，如 Friedman 检验。这个检验体现了相同的核心逻辑：将每个受试者作为其自己的“区组”来控制个体差异。然而，它不使用原始分数，而是将每个受试者的分数转换为秩次。然后，它检验是否有一个条件在所有受试者中始终倾向于排名更高或更低。更正式地陈述，其零假设是每种处理结果的分布是相同的。这展示了受试者内原则的普适性，表明即使在传统方差分析的假设不满足时，它也同样适用。

从一个简单、直观的想法——将一个人与他自己进行比较——我们经历了一系列强大的统计概念。我们看到了这种设计选择如何巧妙地消除了噪声，但又引入了相关性的挑战。作为回应，一整套优雅的分析工具被开发出来，从配对 t 检验到带球形性校正的方差分析，所有这些都统一在正确建模这种依赖性的目标之下。这种连贯性，即一个简单的设计原则能够引出如此丰富且相互关联的一系列机制，证明了统计推理内在的美感与统一性。

应用与跨学科联系

在理解了受试者内设计的原理之后，我们现在可以踏上一段旅程，去看看这个强大的理念在何处焕发生机。你会发现它并非某种尘封的统计学奇珍，而是在众多学科领域的核心，是推动发现的充满活力的重要工具。它的美在于一个单一而优雅的技巧：要理解一个变化所带来的效应，你能做的最强大的事情就是将某物与 它自身 进行比较。这种简单的自我比较行为让科学家能够消除大量的背景噪声，以惊人的清晰度揭示他们所寻求的微弱信号。

也许这种影响在伦理领域最为深远。在动物研究中，科学家们遵循“3R”原则：替代（Replacement）、减少（Reduction）和优化（Refinement）。受试者内设计是减少原则直接而优美的体现。想象一项研究新药随时间变化效果的实验。研究人员无需使用四组各十只大鼠来研究四个不同时间点的效果——这总共需要 40 只动物——而是可以采用受试者内设计。通过对单组 10 只大鼠进行重复的、微创的测量，他们可以获得相同甚至更好的统计功效。为什么更好？因为通过将每只动物与其自身的基线进行比较，不同动物之间巨大的生物学变异性被从等式中减去了。结果是一个更精确的实验，它在回答科学问题的同时，将所需动物数量减少了四分之三。这不仅仅是统计学上的改进，更是一项伦理上的责任。

医生诊室与心理咨询室：追踪随时间的变化

受试者内设计最直观的应用是追踪个体的变化。当你站上浴室的体重秤时，你就在进行一次受试者内实验。你正在将今天的体重与昨天的体重进行比较，消除了“你”这个“固定效应”。

这个逻辑是临床研究的基石。假设一位精神病学家想确定辩证行为疗法（DBT）是否有助于边缘型人格障碍患者改善他们的抑制控制能力——这是该病症的一个关键挑战。他们可以在治疗开始前测量患者在认知任务中的反应时间，然后在治疗完成后再次测量 同一位患者。通过分析每个人的配对分数，他们可以有力地检测出一致的改善，因为人与人之间基线反应时间的巨大差异被巧妙地从比较中移除了。

但这种变化有意义吗？除了仅仅询问治疗是否有效，我们还想知道它 效果如何。受试者内设计在这方面也表现出色。通过分析每个人内部变化的幅度，并结合这种变化在所有人中的一致性，我们可以计算出一个效应量，例如 Cohen's $d$ 。这为临床医生提供了一个标准化的治疗影响衡量标准——一个“小”、“中”或“大”的效应——从而更丰富地描绘其临床意义。

这种前-后测设计是最简单的形式。一个更复杂的版本是 交叉试验（crossover trial），这是临床研究设计中的一颗明珠。想象一下，你想比较三种不同的药物—— $X$ 、 $Y$ 和 $Z$ ——对一种慢性病的疗效。你无需招募三个庞大的人群组，而是可以给每个人依次使用所有三种药物。当然，你必须足够巧妙。为了避免仅仅因为参与研究时间更长而使患者好转（“时期效应”），或者药物 $X$ 的残留效应影响了药物 $Y$ 的结果（“延滞效应”），研究人员会采用优雅的结构，如平衡的拉丁方设计。这确保了每种药物在每个时间段（第一、第二或第三）出现的次数相等。他们还在药物之间设立一个“清洗期”，让身体得以重置。其结果是一个极其高效的实验，每个人都作为自己完美的对照，用于比较所有三种治疗方法。

聆听大脑与解读基因组：从秒到序列

当我们进入神经科学和基因组学的“大数据”世界时，个体变异性的问题呈爆炸式增长。在这里，受试者内设计不仅仅是有用，它们是绝对不可或缺的。

考虑用功能性磁共振成像（fMRI）来“聆听”大脑。实验者可能想知道大脑的哪些部分对新奇、意外的声音与熟悉、重复的声音有不同的反应。fMRI 信号中的背景“噪声”是巨大的，每个人的大脑在解剖结构和基线活动上都是独一无二的。将一个听到新奇音调的人与另一个听到重复音调的人进行比较是毫无希望的。解决方案是事件相关的受试者内设计。同一个人 躺在扫描仪中，听一个抖动、随机序列，其中包含新奇和重复的音调。

利用通用线性模型（GLM）的机制，科学家为每种音调类型的大脑反应应有的样子建立一个模型。他们通过将事件时间与一个典型的血流动力学响应函数（血流响应神经活动的特征性方式）进行卷积，创建了两个“回归量”——一个用于“新奇”事件，一个用于“重复”事件。然后，GLM 估算该单个受试者在每种条件下大脑反应的振幅。为了找出差异，使用一个简单的对比向量（例如， $[1, -1, 0, \dots]$ ）来询问模型：“‘新奇’的估计振幅减去‘重复’的估计振幅是多少？” 这使得能够在几秒钟的时间尺度上检测到大脑活动的微小差异，否则这些差异将淹没在噪声之中。

同样的原则可以扩展到我们的 DNA 和 RNA 水平。在生物信息学中，一个主要目标是找出哪些基因的表达水平会因药物而改变。问题在于，成千上万个基因的基线表达水平在人与人之间差异巨大。这就像试图在飓风中听到耳语。受试者间设计往往注定要失败。

解决方案是配对设计，即基因组学上的前-后测研究。研究人员从患者身上获取组织样本，测量每个基因的 RNA 水平，施用治疗，然后从 同一位患者 身上获取第二个样本。通过使用负二项广义线性模型等技术对数据进行建模，他们可以为每个受试者引入一个项。这个项——无论是作为估计每个人独特基线的“固定效应”，还是作为捕捉人与人之间总体方差的“随机效应”——吸收了所有的基线个体间变异性。剩下的是纯粹的、由治疗引起的受试者内变化。耳语变成了清晰的声音，精确地揭示了哪些基因被药物上调或下调。

机器中的幽灵与旁观者的眼睛：信度原则

“受试者”不一定非得是生物，这是受试者内概念的精妙之处。它可以是任何被测量的对象，而“条件”可以是测量它的不同方式。这种泛化为我们提供了一个思考信度和可重复性的强大框架。

想象一下放射组学（radiomics）领域，科学家试图从医学图像中提取定量特征，例如 CT 扫描中肿瘤的纹理。一个关键问题是：这个纹理特征有多稳定？如果两位不同的放射科医生对肿瘤边界的勾画略有不同，我们是否会得到一个截然不同的纹理值？如果是这样，这个特征就毫无用处。

为了检验这一点，我们可以使用一个受试者内设计，其中“受试者”是患者的扫描图像，而“重复测量”是从肿瘤的多个、略有不同的分割中计算出的特征值。然后我们可以使用一个直接源于受试者内分析的工具——组内相关系数（ICC）——来量化该特征的稳定性。ICC 优雅地划分了总方差：我们的测量变异有多少是由于患者肿瘤之间的“真实”差异造成的，又有多少是由于分割差异引入的“误差”造成的？一个高的 ICC 告诉我们，我们的特征是稳健和可信的。

这种划分方差的思想是驱动所有受试者内分析的基本引擎。当流行病学家验证一种新的生物标志物时，一组测量值的总变异性来自多个来源：人与人之间稳定的、真实的生物学差异（ $\sigma^2_{\text{between-subject}}$ ）、同一个人日常的生物学波动（ $\sigma^2_{\text{within-subject}}$ ）、进行测量的技术员的系统性偏倚（ $\sigma^2_{\text{rater}}$ ），以及纯粹的随机噪声（ $\sigma^2_{\text{residual}}$ ）。受试者内设计是一把统计学的手术刀，使我们能够分离这些组成部分。通过在不同日期、由不同评估者测量同一个人，我们可以精确估计每个来源对数据总“混乱度”的贡献，从而理解我们生物标志物的真实信度。

生命之舞：研究行为与动态系统

最后，受试者内设计是研究生物学中最迷人的现象之一的唯一途径：个体如何响应变化的世界而改变其行为。这被称为表型可塑性，其图形表示是“反应规范”。

一位进化生物学家可能会问：雄性动物是否会根据感知的精子竞争风险，策略性地调整其在一次射精中的投入？要回答这个问题，不能简单地比较一个处于低风险情境的雄性与另一个处于高风险情境的雄性；它们的基线投入水平可能天生就不同。唯一有效的方法是雄性内设计。必须将同一只雄性暴露于低风险的线索，然后是高风险的线索，并测量其在每个步骤的反应。通过使用带有“随机斜率”的线性混合模型，科学家不仅可以估计整个种群的平均可塑性反应，还可以量化个体雄性在其策略性反应中的变异程度。

这把我们带到了一些最复杂和动态的系统，例如人类中激素、大脑回路和情绪之间的相互作用。要理解月经周期中的激素波动如何影响青少年的情绪和奖赏处理，一个受试者间的快照是完全无用的。雌二醇和孕酮的复杂舞蹈是一个人内部的故事。一项严谨的研究需要纵向的、受试者内的设计，追踪同一些个体跨越其整个周期。通过从唾液中重复获取激素测定结果，在关键周期阶段（如卵泡期、排卵期、黄体期）用 fMRI 探测大脑活动，并用智能手机应用收集实时情绪数据，研究人员可以构建一个关于这些系统在每个人内部如何相互作用的动态图景。这是计算精神病学的前沿，它是一个完全建立在受试者内设计逻辑之上的世界。

从实验室的伦理到心智的运作，从基因的读出到肿瘤的纹理，受试者内设计的原则是一条金线。它证明了这样一个观点：有时，最深刻的发现并非通过寻找陌生人之间的差异而获得，而是通过仔细观察一个单一、熟悉的实体内部的变化——通过将某物优雅而有力地与它自身进行比较。