数字生物标志物

玻尔百科

定义

数字生物标志物是健康监测领域的一项技术，利用智能手表等可穿戴设备采集的高频数据，将传统的单次健康快照转变为连续的动态监测。该技术需要经过分析有效性、临床有效性和临床实用性的三步验证过程，以确保其在精准医疗中的可靠性。通过整合多种数据形成的数字表型，数字生物标志物能够提供个体化的健康画像，并通常作为医疗器械软件受到监管。

核心要点

数字生物标志物利用智能手表等可穿戴设备的高频数据，将健康监测从单一的“快照”转变为连续的“影片”。
可靠的数字生物标志物需要经过三步验证过程：分析验证（准确性）、临床验证（意义）和效用验证（改善健康结果）。
结合多个数字生物标志物可以创建一个“数字表型”，这是一种丰富的、个性化的健康画像，有助于实现精准医疗。
数字生物标志物的实施涉及克服诸如缺失数据之类的统计挑战，以及应对“作为医疗设备的软件”（SaMD）的监管路径。

引言

在现代医学领域，我们理解人类健康的能力长期以来一直局限于间歇性的快照——这里做一次血液检测，那里去一次门诊。这些传统的生物标志物虽然有价值，但只能提供我们动态生物系统的碎片化视图。这造成了知识上的差距，使得临床评估之间的时期成为未知的领域。可穿戴传感器和智能手机的普及现在提供了一种革命性的解决方案：能够连续捕获健康数据，从而创建高清的“影片”，而不仅仅是单张照片。本文深入探讨了数字生物标志物的世界，这些客观的健康指标源自于这种数字流。

首先，我们将探讨其核心的原理与机制，剖析原始传感器数据如何转化为有意义的健康指标，确保其可信度所需的严格验证过程，以及这种新数据类型的独特统计特性。随后，我们将审视其变革性的应用与跨学科联系，展示这些工具如何革新临床实践、加速药物发现，并在技术、医学和伦理的交叉点上提出深刻的新问题。

原理与机制

从狼烟到智能手表：一种看待健康的新方式

几个世纪以来，医学一直依靠“生物标志物”来窥探人体内部。生物标志物是一种可测量的特征，作为健康、疾病或治疗反应的指标。血液中的葡萄糖浓度是糖尿病的经典生物标志物。血压读数是心血管健康的生物标志物。这些都是极其强大的工具，但它们有一个根本的局限性：它们是快照。一次血糖读数告诉你某一时刻的情况，就像一张照片捕捉了长达一天的庆祝活动中的一个瞬间。

现在，想象一下，你拥有的不是一张照片，而是一部关于整个庆祝活动的连续、高清的影片。你可以看到起伏变化、关键时刻的酝酿，以及那些你原本会错过的微妙互动。这就是数字生物标志物所承诺的革命。我们不再是在诊所进行单次测量，而是可以利用智能手表、智能手机或其他可穿戴设备中的传感器，在人们日常生活中捕捉连续的生理和行为数据流。

可以这样想：传统的生物标志物，比如胆固醇测试，就像每六个月检查一次汽车发动机的油位。这很有用，但它并不能告诉你路上正在发生什么。而数字生物标志物就像汽车里的实时仪表盘，不断显示油压、发动机温度和油耗。它为你提供了发动机性能的动态、连续且深度情境化的视图。这种从静态快照到连续影片的转变，正在开启一种理解、测量和改善人类健康的全新方式。

数字生物标志物的剖析：从信号到意义

那么，我们如何从手表收集的杂乱数据中得到一个有意义的健康指标呢？这是一个迷人的转变过程，一种将原始数据转化为临床洞见的数字炼金术。这不是魔法，而是一个精心设计的、包含三个不同阶段的流程。

让我们来看一个现实世界的例子：预防老年人跌倒。放在口袋里的智能手机可以利用其内置的加速计来测量运动。

原始信号：整个过程始于原始传感器信号，我们可以称之为 $x(t)$ 。这是传感器直接、未经解释的输出。对于我们的加速计来说，它是一串代表三维加速度的数字流，看起来像一团混乱的涂鸦，反映了每一次微小的晃动、步伐和摇摆。就其本身而言，这个原始信号大部分是噪音；它只是发动机的声音，而不是速度。
算法：这才是“机制”的真正所在。我们需要一个翻译器，一个复杂的算法或函数，我们可以称之为 $\phi$ 。这个算法的工作是处理混乱的原始信号 $x(t)$ 并提取一个特定的、有意义的特征。它就像一个熟练的口译员，听着一门外语并从中挑选出关键短语。对于我们的防跌倒应用，该算法会分析加速计数据中的模式，以识别行走片段并计算此人的步态速度 $v_{\text{gait}}(t)$ 。
数字生物标志物：最终的输出是数字生物标志物本身——一个已定义的、可量化的特征。系统可能不会存储每一秒的步态速度，而是会计算并存储每日步态速度中位数 $v_{\text{gait,median}}$ 。这个单一、干净的数字就是数字生物标志物。它是一个通过算法得出的客观行为测量指标（一个人走路的速度），可作为潜在过程（如虚弱或运动功能下降）的指示器。

理解这一点至关重要：这个生物标志物并非我们关心的最终结果。最终关注的是临床终点，它是衡量患者感受、功能或生存状况的指标。在我们的例子中，临床终点是跌倒事件的发生。数字生物标志物（低步态速度）之所以有价值，是因为它与临床终点（未来的跌倒）相关联，并能帮助预测它，从而允许及时的干预，例如预防性锻炼计划。

这一区别将数字生物标志物与其他类型的数字健康数据区分开来。例如，患者报告结局（PRO）是直接来自患者的报告，比如在智能手机应用上对呼吸困难程度的每日评分。它反映了患者的感受，这是一种临床终点。而像通过手表计算的静息心率变异性（ $B_{\text{HRV}}$ ）这样的数字生物标志物，是生物过程（自主神经功能）的客观指标，而不是对感受或功能的直接测量。

一种新数据：数字流

可穿戴设备生成的数据不仅仅是旧数据的数字版本；它是一种具有独特性质和挑战的全新信息。让我们比较一下数字生物标志物（如智能手表每秒测量的心率）和传统的分子生物标志物（如每周一次用于检测炎症的C反应蛋白（CRP）血液测试）。

采样频率：差异是惊人的。心率的采样频率为 $1\,\text{Hz}$ （每秒1个样本）。CRP测试的采样频率约为 $1.65 \times 10^{-6}\,\text{Hz}$ （每604,800秒1个样本）。这不仅仅是数量上的差距，更是质量上的差距。根据奈奎斯特-香农采样定理（Nyquist-Shannon sampling theorem），要捕获一个周期，采样频率必须至少是其发生频率的两倍。通过每周一次的血液测试，不可能观察到炎症的昼夜节律（每日节律）。而利用逐秒数据，我们可以观察到小时内、一天内和一周内的节律。我们已经从一个稀疏数据点的世界进入了一个密集、连续曲线的世界。
噪声结构：实验室测试中的误差通常是表现良好的。它很小，是随机的，并且每次测试之间相互独立。而可穿戴设备数据中的“噪声”则是一头野兽。例如，手表光学传感器读取的心率误差不是恒定的。当你移动手臂时，误差会变得大得多，这一特性称为异方差性（heteroskedasticity）。运动伪影会破坏信号，而且这些误差不是随机的闪现；它们在时间上是相关的，意味着一个错误的读数之后往往会跟着另一个。噪声与你的行为相关联。
自相关性：你一秒钟后的心率将与现在的心率非常相似。这种被称为自相关性（autocorrelation）的特性在高频数据中非常高。这种时间依赖性是一把双刃剑。它使统计分析复杂化，因为分析方法通常假设数据点是独立的。但它也包含了关于我们生理动态的丰富信息。

建立信任：验证的三大支柱

面对所有这些新的、强大的、混乱的数据，一个关键问题出现了：我们如何知道可以信任它？一个带有“健康评分”的华丽应用如果其评分毫无意义，那它就是无用的，甚至可能是危险的。科学界和监管界已经建立了一个严格的框架来建立信任，该框架依赖于三个支柱：分析验证、临床验证和临床效用。

假设我们正在构建一种新的数字“温度计”来测量夜间呼吸频率变异性（ $B_t$ ），以预测慢性阻塞性肺疾病（COPD）的急性发作。

分析验证：这是第一个也是最基本的问题：我们的设备是否测量了我们认为它在测量的东西？它的测量是否准确可靠？ 这纯粹是技术验证。我们需要将我们的可穿戴设备输出的 $B_t$ 与“金标准”参考进行比较，例如来自睡眠实验室（多导睡眠监测）的测量结果。我们会进行研究以确保其可重复性（如果你测量两次得到相同的结果）和可再现性（不同的设备给出相同的结果）。我们需要证明其在不同人群和条件下的准确度和精密度都是可接受的。这是关于构建一个值得信赖的测量工具。
临床验证：一旦我们信任了我们的工具，下一个问题是：这个测量结果是否具有临床意义？ 我们的呼吸生物标志物 $B_t$ 的高值是否真的与COPD急性发作相关联或能预测之？为了确定这一点，我们需要进行观察性研究，通常是在前瞻性队列中，以显示生物标志物与临床结果之间存在强大、可靠的联系。我们使用灵敏度、特异度和受试者工作特征（ROC）曲线下面积（AUC）等指标来量化这种联系。这个支柱确立了该生物标志物不仅在技术上是可靠的，而且是健康状况的有效指标。
临床效用：这是最后也是最高的标准：在临床实践中使用该生物标志物是否真的能带来更好的健康结果？ 一个生物标志物即使在分析和临床上都有效，也可能仍然是无用的。例如，如果我们的COPD生物标志物能提前24小时预测急性发作，但没有有效的治疗方法可以在那个时间窗口内阻止它呢？这个预测虽然准确，却没有效用。为了证明临床效用，我们必须证明基于该生物标志物信息采取行动能够改善对患者重要的结局。这通常需要一个随机对照试验（RCT），其中一组患者接受由数字生物标志物指导的护理，而对照组则接受标准护理。只有通过证明生物标志物指导的组表现更好（例如，住院次数更少），我们才能声称具有临床效用。

超越单一数字：描绘数字表型

虽然像步态速度这样的单个数字生物标志物是一个强大的工具，但真正的革命来自于将许多这样的测量结合起来，创造一个个体的整体、高分辨率的画像。这就引出了数字表型的概念。

表型是一个生物体可观察特征的集合，由其基因型与环境相互作用产生。你的数字表型是通过数字数据对你个人表型的量化。它是从你的可穿戴设备传感器数据流中提取的高维、情境感知和纵向的特征集（ $X = \phi(Y)$ ）。

如果说单个生物标志物是一个词，那么数字表型就是整个故事。它可能包括你的活动和休息的昼夜节律、睡眠期间心率的变异性、通过智能手机使用推断出的社交互动模式，以及你一周内的移动模式。通过将这些线索编织在一起，我们可以超越单一疾病指标，创造出一种丰富、动态、专属于你的健康和行为画像。这是真正“精准健康”的基础。

现实世界是混乱的：克服实际障碍

从一个聪明的想法到一个经过验证、有用的数字生物标志物的过程充满了实际挑战。现实世界不是一个干净的实验室。

一个关键的区别在于被动感知和主动评估。被动测量，如后台计步，是在用户没有任何努力的情况下收集的，为我们提供了一个了解他们自然、自发行为的窗口（高生态效度）。而主动评估，如通过应用进行的有提示的6分钟步行测试，则提供了关于特定功能的标准化、高质量数据，但可能会给用户带来负担，并且可能无法反映典型的日常生活。一个稳健的数字生物标志物策略通常两者兼备。

也许最大的实际挑战是缺失数据。当用户忘记给手表充电或摘下手表时会发生什么？忽略这些空白似乎很简单，但数据缺失的原因至关重要。在许多健康研究中，数据很可能是非随机缺失（MNAR）。想象一项关于进行性神经系统疾病的研究。患者可能恰恰在因严重症状而感觉最糟糕的日子里不佩戴他们的设备。在这种情况下，缺失的数据隐藏了最严重和最重要的疾病状态。简单的修复方法，如填补零值或沿用上一观测值，是极其错误的，会导致有偏见的、不正确的结论。处理非随机缺失需要先进的统计模型和敏感性分析，以测试关于缺失数据的不同假设如何改变我们的结果。

最后，如果一个数字生物标志物被用来诊断疾病或指导治疗，它就不再仅仅是一项技术；它是一种医疗设备。这就使其受到美国食品药品监督管理局（FDA）等监管机构的管辖。软件算法本身通常被归类为作为医疗设备的软件（SaMD）。为了将这样的工具推向市场，开发者必须遵循一个基于风险的监管路径——从证明与现有设备“实质性等同”（510(k) 路径），到为新颖、低风险技术建立新的设备类别（De Novo 路径），再到对维持生命或存在重大疾病或伤害风险的高风险设备进行最严格的审查（上市前批准（PMA） 路径）。这确保了这些强大的新工具不仅是创新的，而且最重要的是，对患者是安全和有效的。

应用与跨学科联系

在探索了支配数字生物标志物世界的基本原理之后，我们现在转向探索中最激动人心的部分：看这些想法在实践中如何运作。在抽象层面理解一个概念是一回事；亲眼目睹它解决实际问题的力量则是另一回事。在某种意义上，我们正在学习用新的、更流利的语言来解读人体。我们已经超越了偶尔的血液测试快照或静态的X光片，开始解读直接从源头流出的连续、丰富的叙事。

在本章中，我们将看到数字生物标志物如何不仅仅是一项小众技术，而是一条贯穿各个学科的统一线索。从传感器和信号的复杂工程，到日常的医疗实践，再到发现新疗法的宏大挑战，最后到关于健康或疾病意味着什么的深刻伦理问题。这里是理论与实践交汇的地方——或者更确切地说，是加速计与手腕相遇的地方。

观测的工程学：从原始信号到有意义的测量

从本质上讲，一个数字生物标志物始于一个简单的观察行为，一次测量。但这些原始数据就像未经提炼的矿石；真正的艺术在于提取黄金。这是物理学、信号处理和生物学之间的一场优美的舞蹈，我们将传感器的混乱喋喋不休翻译成关于人类功能的有意义的故事。

考虑一下生命最基本的表现之一：运动。我们如何量化它？加速计，即你智能手机或手表中的微小传感器，它测量的不是“行走”或“震颤”；它测量的是加速度，即速度的变化率。要从一串数字流到对移动性的深刻理解，我们必须成为解释者。例如，人类行走的节律性运动并非随机噪声。它是一首交响曲。它有一个与你的步频相对应的基频，以及一系列赋予信号其独特纹理的谐波。

为了准确捕捉这首交响曲，我们必须首先遵守信号处理的一个基本定律：奈奎斯特-香农采样定理。它非常直观地告诉我们，要捕捉一个波，你必须以至少其最高频率两倍的速度进行采样。如果你“听”得不够快，你就会被虚假的信号误导——这种现象称为混叠。这就是为什么一个旨在测量步态中微妙、高频成分的传感器必须以高频率采样，也许是每秒50或100次。

一旦我们有了信号，就必须对其进行清理。无处不在的重力，一个恒定的加速度 $g \approx 9.8 \, \text{m/s}^2$ ，是一种可能淹没运动旋律的背景嗡嗡声。通过巧妙的滤波，我们可以减去这种嗡嗡声，从而分离出动态的运动信号。只有到那时，真正的分析才能开始。

当我们用这个过程来操作化复杂的临床概念时，它变得真正强大。以帕金森病中的运动迟缓为例，这是一种临床上被描述为缓慢、振幅减小和运动中进行性递减的组合。通过数字生物标志物，这种临床艺术变成了量化科学。我们可以设计一个任务，比如快速手指敲击，并使用智能手机的加速计来测量每次敲击的周期时间（ $T_i$ ）以量化缓慢度，每次敲击的峰值加速度（ $a_{\max,i}$ ）以量化振幅，以及试验期间峰值加速度的斜率（ $s$ ）以量化递减。我们甚至可以通过观察其“加加速度”（ $j(t) = da/dt$ ）来测量运动的平滑度。突然之间，一个主观的临床印象被转化为一个精确、多维的特征向量。同样的原则也适用于其他运动障碍，例如可以通过分析智能手机视频来量化迟发性运动障碍的不自主运动，再次将一个可见现象转化为客观数据。

医生的新工具箱：从诊断到监测

一旦经过工程设计和验证，这些测量指标就成为临床医生手中的变革性工具。它们使得医疗方法更加精确、个性化和主动。

一个绝佳的例子是像难治性乳糜泻这样复杂、“隐藏”病症的管理。在这种情况下，患者可能严格遵守无麸质饮食，但仍然遭受痛苦。传统的血清学标志物在这种情况下可能不可靠。因此，现代方法是建立一个集成信息的“仪表盘”。这包括患者自己的陈述，通过经过验证的患者报告结局（PROs）进行量化；提供身体资源核算的营养实验室检查；用于检测无意中摄入麸质的尿液麸质肽测试，如同侦探一般；以及像血清瓜氨酸这样直接反映健康、功能性肠道细胞总量的肠道健康生物标志物。这个多模态框架让临床医生能够看到全局，并为何时真正需要进行更具侵入性的程序（如内窥镜检查）设定清晰、客观的触发条件。

然而，我们必须小心，不要神化生物标志物。当患者的陈述与客观数字冲突时会发生什么？在炎症性肠病（IBD）中，患者可能感觉非常糟糕，但他们的生物标志物和内窥镜检查看起来正常。或者相反，他们可能感觉良好，而客观测试显示存在活动性炎症。这种不一致并非测量的失败，而是一种更深层次的洞见。它告诉我们，症状可能源于多种原因：活动性炎症本身、过度敏感的神经系统中炎症的“记忆”（内脏高敏感性），或其他重叠的功能性问题。理解这一点促使我们成为更全面的医生，既治疗客观的疾病，也治疗主观的病痛。生物标志物是关键证据之一，但它不是真理的唯一仲裁者。

也许最具革命性的应用是在诊所这个人造环境之外，“在野外”监测健康和行为的能力。思考一下理解和治疗物质使用障碍的挑战。我们如何检测一次兴奋剂使用的急性发作？这是一个偶发的、私密的事件。来自可穿戴设备或智能手机的被动感知可以创造一个揭示其微妙回响的“数字表型”。通过活动记录法捕捉到的一个碎片化的睡眠之夜，通过光电容积描记法（PPG）测量到的心率加快且变异性受抑制，GPS上突然的活动爆发——这些都是神经化学事件的客观、生理足迹。当然，挑战在于用严谨的方法证明这种联系。这需要巧妙的研究设计，其中每个人都作为自己的对照组，并需要一个精确的“金标准”准则，例如每日毒理学测试，以验证数字信号确实与我们旨在检测的事件同步。

革新药物发现与公共卫生

生物标志物的影响远远超出了单个患者，有望重塑我们发现新药和保护整个人群健康的方式。

新药的开发是一个缓慢、艰巨且极其昂贵的过程。主要的瓶颈之一是证明药物有效的临床试验所需的大量规模和时间。这时，一个精心选择的数字生物标志物可以改变游戏规则。想象一下，测试一种治疗特发性肺纤维化（IPF）的新药，这是一种进行性肺部疾病。传统的终点是作为肺容量测量指标的用力肺活量（FVC）的下降。然而，FVC可能是一个“嘈杂”的测量指标。一个源自高分辨率CT扫描的数字生物标志物——一种量化纤维化组织纹理的“影像组学”特征——可能对药物的早期效果更为敏感。

这里的关键概念是标准化效应量，直观地说是“信号”（治疗效果 $\delta$ ）与“噪声”（测量值的自然变异性 $\sigma$ ）的比率。变异性更小或对变化响应更灵敏的生物标志物将具有更大的标准化效应量（ $\delta/\sigma$ ）。对于给定的统计功效，试验所需的样本量与该比率的平方成反比。通过找到一个能更清晰地捕捉到药物微弱益处信号的生物标志物，我们可以设计出更小、更快、成本更低的试验，从而加速将新疗法带给有需要的患者。

但伴随着这种巨大力量而来的是巨大的责任。并非每个易于收集的数字测量指标都能替代真正的临床结局。考虑在一个移动健康干预中使用每日步数作为预防心脏病发作的替代终点。替代终点需要遵循最高标准：它不仅必须与真实结局相关，还必须完全捕捉治疗对该结局的影响。这是一个非常高的标准。一种干预措施有可能在增加步数的同时，通过不同的生物学途径对心脏产生未知的有害影响。如果我们仅依赖步数，我们就会被严重误导。这说明了将一个生物标志物提升到经过验证的替代终点地位所需的巨大科学严谨性。

最后，我们回到一个简单而普遍的真理：一种药物只有在被服用时才有效。长期以来，测量治疗依从性一直是一个挑战，通常依赖于不可靠的自我报告。在这里，化学标志物为它们的数字表亲提供了一个绝佳的类比。例如，在艾滋病预防中，测量不同生物样本中的药物水平提供了一段客观的依从性历史。干血斑中的药物浓度反映了过去几周的用药情况，就像一本近期的日记。一小束头发样本中的浓度则反映了几个月来的平均水平，就像读取树的年轮。这些客观的测量为对话提供了非评判性的基础，帮助临床医生和患者共同理解为什么一种疗法可能无效以及如何提高其有效性。

人的因素：伦理、身份与疾病的定义

我们的旅程在技术与哲学的交汇处结束。当我们试图将生物标志物的概念应用于像精神疾病这样的状况时会发生什么？在这些状况中，没有像扫描图上的肿瘤或血液中的病毒那样的客观“金标准”。

这迫使我们直面一个关于疾病本质的深刻问题。“重度抑郁症”这样的标签是否对应于一个引起症状的真实、独立的疾病实体（实在论观点）？或者它是一套有用的规则——一个操作性定义——帮助我们识别可能从治疗中受益的人（工具主义观点）？

在精神病学等领域，由于缺乏生物学金标准，数字生物标志物具有深刻的工具性。它们的价值不在于其“真实性”，而在于其预测重要结局和指导有益干预的有用性。一个分析语言和调查问卷以标记某个学生需要心理健康咨询的AI，并不是在发现一个隐藏的真相；它是在充当一个将此人引导至护理的工具。

如果生物标志物是一个工具，我们就有道德义务成为负责任的工具使用者。首先，我们必须调整工具以实现最大的益处和最小的伤害。这意味着通过权衡假阴性（错过需要帮助的人）的危害与假阳性（不必要的评估）的危害来仔细设定决策阈值。其次，我们必须确保工具是公平的。由于不同人群中病症的基础率不同，相同的算法，即使具有相同的统计准确性，在不同人群中也可能具有非常不同的预测值。正义要求我们审查我们的系统是否存在这些差异，并努力减轻它们。

最大的危险是物化——忘记了标签是一个工具，而开始相信它是一个人的根本身份。一个数字生物标志物应该开启一场对话，而不是结束它。它应该是一个向导，而不是一个法官。

从微小加速计的物理学到人类身份的伦理学，数字生物标志物的世界证明了科学探究的统一性。这个领域要求我们成为工程师和生物学家、医生和统计学家，并最终成为人文学者。因为在学习解读这些身体的新语言时，我们不仅仅是在构建更好的工具；我们还在锻造一种对自己更深刻、更富有同情心的理解。