
在一个科学数据已从纸质日志迁移到数字系统的时代,我们如何确保电子记录是真实的、未经篡改的且值得信赖的?这个问题对于现代医学、研究和技术的完整性至关重要。其挑战在于,如何在数字领域复制乃至超越实体签名记录的可靠性。像 21 CFR Part 11 这样的法规为此提供了答案,它不仅提供了一套规则,更提供了一个将可验证的真实性构建到我们数字基础设施中的强大框架。
本文通过阐释其核心概念和现实世界中的重要性,揭开这一框架的神秘面纱。在“原则与机制”部分,我们将分解由 ALCOA+ 原则所定义的可信记录的基本属性。我们还将探讨强制执行这些原则的技术支柱,例如不可变的审计追踪、严格的访问控制和安全的电子签名。在此基础上,“应用与跨学科联系”部分将展示这些原则如何作为无形的架构,支撑着从临床实验室、全球临床试验到尖端人工智能治理等不同前沿领域的信任。
在我们理解世界的征程中,无论是在医学、物理学还是任何其他科学领域,我们的结论的可靠性都取决于其所依据的证据的强度。但证据的力量源自何处?我们如何能确定计算机屏幕上的一个数字——代表着患者的血压或化学分析的结果——是一个真实且未经篡改的事实?在过去,我们可能会依赖一本皮面装订的日志,书页上满是用不褪色墨水书写的、标注日期的整洁条目。我们信任那张纸、那种墨水以及我们所熟知的人的签名。
在数字时代,我们的日志变成了数据库,书页变成了电子记录。因此,根本的挑战在于构建一个能够赢得同等甚至更高信任度的数字系统。这正是 21 CFR Part 11 等法规的核心追求。其目的并非为了官僚主义而官僚主义,而是为了构建值得信赖、可验证的真实性。
在我们能够构建一个信任体系之前,我们必须首先定义“可信”的含义。如果要对一条数据进行盘诘,你会问什么问题来确信其完整性?随着时间的推移,科学界和监管界已将这些问题提炼为一套基本原则,并用首字母缩略词 ALCOA+ 优雅地概括。这不仅仅是一个清单,而是对任何可靠记录基本属性的描述。
可追溯性(Attributable): 谁创建了这条记录,或者谁修改了它?匿名的笔记是涂鸦,而签名的条目是事实陈述。每一条数据都必须能够追溯到一个唯一的、可识别的个人。
清晰可读性(Legible): 它能否被阅读和理解?这不仅适用于当前,也适用于记录的整个生命周期,可能长达数十年。
同步性(Contemporaneous): 信息是否在事件发生时就已记录?立即记下的测量值是记录;一周后凭记忆回想起来的则是一个故事。
原始性(Original): 这是数据的首次记录吗?如果不是,它是否为经过认证的精确副本?系统必须保留原始证据。
准确性(Accurate): 记录是否正确反映了观察或事件?它是否没有错误?
ALCOA+ 中的“+”增加了四个更符合常识的要求:记录还必须是完整的(Complete,无任何缺失)、一致的(Consistent,不与自身或其他记录矛盾)、持久的(Enduring,在需要的时间内一直存在)和可用的(Available,在需要时可以找到并审阅)。
这九项原则构成了数据完整性的“物理定律”。它们是我们设计电子系统时必须坚持的属性。
以 ALCOA+ 原则为蓝图,我们现在可以探讨强制执行这些原则的机制——即数字机器的“齿轮与杠杆”。21 CFR Part 11 为这台机器提供了技术规范。它建立在几个核心支柱之上。
想象一位不知疲倦、廉洁正直的记录员,监视着系统内执行的每一个动作。这位记录员记录每一次数据的创建、修改和删除,并精确地记下是谁(who)做的、做了什么(what)以及在何时(when)做的。这就是审计追踪的本质。它为可追溯性(Attribution)和同步性(Contemporaneity)提供了电子证据。
但是,原因(why)呢?虽然系统能自动捕获谁、什么和何时,但它无法知道更改的原因。源自 GCP 等原则的良好实践规定,当用户进行更正时,必须解释原因。因此,一个合规的系统不仅必须有自动的审计追踪,还必须提供用户记录任何更改原因的方式。
我们如何确定这位数字记录员没有被篡改过?这里,一个极其优雅的加密思想发挥了作用:哈希链(hash chain)。审计日志中的每个条目都通过一个称为加密哈希的数学函数进行处理,生成一个唯一的数字“指纹”。然后,这个指纹被混入下一个条目的数据中,再计算该条目自己的指纹。结果形成一条链,其中每个链环都通过加密方式与前一个链环绑定。
如果一个恶意行为者试图修改一个旧条目,其数字指纹将会改变。这将导致与存储在下一个条目中的指纹不匹配,从而立即破坏该链。为了掩盖罪行,他们必须重新计算从该点开始的每一个条目的指纹——这是一个明显且可检测的篡改迹象。这使得审计追踪具有篡改可见性。这种机制不依赖于隐藏数据,而是使谎报其历史成为不可能。
区分这个按时间顺序记录操作的日志与两个相关概念非常重要:数据来源(data provenance)和数据谱系(data lineage)。
这三者都至关重要。审计追踪告诉我们用户是否更改了结果。数据谱系告诉我们特定软件版本中的一个错误是否可能从一开始就产生了错误的结果。
一个安全的系统不会把万能钥匙交给每个人。这个简单的想法被正式化为两个关键原则:最小权限原则和职责分离。
最小权限原则规定,用户只应拥有完成其工作所必需的最低权限。数据录入员需要创建和编辑记录,但不能批准它们。系统管理员需要管理用户账户,但应无权查看或更改科学数据本身。这最大限度地减少了意外错误和故意滥用的可能性。
职责分离确保没有单一个人可以控制关键流程的所有方面。例如,输入数据的人必须与批准数据为最终版本的人不同。这创造了一个必要的交叉检查。让我们想象一下,数据录入员犯错的概率为 。如果他们批准自己的工作,该错误未被发现的几率仍然是 。但如果必须由一个独立的审核员批准,并且他们漏掉该错误的概率为 ,那么未被发现的错误的概率就下降到 。由于 小于 1,风险被大大降低。这个简单的概率学洞见表明,职责分离不仅是一个官僚主义的障碍,更是一个确保准确性的强大工具。
当研究者审查数据并确认其完整和准确后,他们必须在其上签字。在纸上,这是用笔完成的。我们如何创建一个具有同等法律效力和可信度的电子签名?
它不能只是一个任何人都可以伪造的键入姓名。21 CFR Part 11 规定,非生物识别电子签名必须使用至少两个不同的组成部分。这通常是一个唯一的用户 ID(代表你的身份)和一个秘密密码(你所知道的信息)。
此外,签名必须与其所签署的特定记录紧密关联。一个漂浮在独立数据库中的签名是毫无意义的;这就像在空白支票上签名。系统必须通过加密方式将签名——包括签名者姓名、日期和时间以及签名含义(例如“批准”或“审查”)——与数据绑定,确保它不能被移动、复制或否认。
一辆设计完美的汽车在未经培训的驾驶员手中仍然是危险的。同样,一个合规的电子系统只是数据完整性等式的二分之一。这就引出了技术控制和程序控制之间的关键区别。
技术控制是内置于系统中的功能。不可变的审计追踪、唯一密码的强制执行以及基于角色的访问限制都是技术控制。它们是机器的“物理定律”。
程序控制是为操作机器的人类制定的规则。这些包括标准操作程序(SOP)、培训计划和数据管理计划。它们是“交通规则”。
任何一类本身都不足够。一个系统可以有完美的审计追踪,但如果没人接受过审查培训,它们就没什么价值。这种“深度防御”方法,即技术控制和程序控制协同工作,是确保在整个生命周期内数据完整性的唯一途径。这也是 21 CFR Part 11 和优良临床实践(GCP)等框架交汇的地方。Part 11 主要定义了系统所需的技术能力,而 GCP 主要定义了进行高质量试验所需的流程。
归根结底,确保数据完整性的原则和机制并非一套随意的规则。它们是一个深刻问题的逻辑而优雅的推论:“我们如何能确定这是真的?”答案在于一个由人类程序和技术保障措施构成的、精美互联的系统,它们共同协作,为宏伟的科学大厦奠定一个可验证的真实性基础,使其能够安全地矗立。
在探讨了电子记录和签名的基本原则之后,我们可能会倾向于将它们视为一套僵化,甚至有些官僚的规则。但这就像看着一座宏伟教堂的蓝图,却只看到线条和数字,而忽略了高耸的拱门和光影的交错。这些原则不仅仅是法规,它们是在一个科学实践不再依赖纸张,而是在比特和字节的虚无领域中进行的时代里,构建信任的建筑语法。它们是我们用来确保科学家在实验记录本上签名的神圣信任在数字时代不仅没有丢失,反而得到了加强的工具。
让我们踏上一段旅程,看看这个架构在现实世界中如何体现,从最简单的实验室报告到跨越全球的人工智能治理。
我们的旅程始于现代医学的核心:临床实验室。每天,数以百万计的诊断依赖于这里产生的数据。考虑一位病理学家正在审查一份组织样本。当他们最终确定报告时,他们会签名。在纸面上,这是一种意义深远的个人和职业责任行为。我们如何在电子系统中复制这一点?
仅仅输入一个名字或点击一个按钮是不够的。一个真正可信的电子签名是一种强大的加密行为。它在特定的、经过验证的个人、一个精确的时间点以及报告的准确、未经篡改的内容之间建立了不可破坏的联系。这是通过结合唯一的凭证(通常用双因素认证加强)和加密技术来实现的,这些技术基本上“封存”了文件。报告签署后对其所做的任何改动,无论多么微小,都会明显地破坏这个封印。这不仅仅是一个数字签名;它是对真实性和问责制的可验证证明。
但是在签名之前的故事又是怎样的呢?对于一项复杂的分子检测,例如病毒测试,一个单一的结果是一段漫长而复杂旅程的终点。样本被接收、条码化,并由各种仪器处理,使用特定批次的试剂,所有这些都由不同的软件和技术人员协调完成。审计追踪是这整个过程的数字记录者。它是一个安全的、带时间戳的、不可变的日志,记录了每一个单一操作——每一次登录、每一次试剂扫描、每一次仪器运行、每一次软件转换以及每一次人为接触。这个“数字监管链”使我们能够在多年后以完美的保真度重建一个结果的全部历史,满足数据完整性中被称为 ALCOA+ 的严苛原则:确保数据是可追溯的、清晰可读的、同步的、原始的和准确的。
这种信任架构不仅仅记录历史;它能主动捍卫科学的完整性。想象一个场景,一个实验室的质量控制数据看起来有点过于完美。例如,一次运行的控制测量值与前一次运行的完全相同,精确到小数点后好几位。虽然这看似无害,但一个简单的统计分析就能揭示,这种事件偶然发生的概率极低。这种模式是数据伪造或“干实验”(dry-labbing)——即复制旧结果而不进行实际实验的做法——的一个强烈警示信号。一个建立在数据完整性原则上的强大系统,通过直接与仪器对接以自动捕获原始数据,使手动输入(和复制)成为例外而非常规,从而从一开始就帮助防止这种情况。这表明这些法规并非旨在盲目相信数据,而是要构建使数据本身值得信赖的系统。
现在,让我们从单一实验室的受控环境,转向一个庞大而复杂的多国临床试验世界。在这里,来自全球数十家医院、成百上千名患者的数据必须被汇集到一个单一、连贯的数据库中。这个电子数据采集(EDC)系统的完整性是整个试验结论所依赖的基础。
为确保每一条数据都可靠,系统必须强制执行一个共同的真理标准。例如,每个站点每台计算机上的时钟都必须与一个可靠的中央源同步。十秒钟的差异看似微不足道,但在瞬息万变的临床情况下,它可能改变对事件序列的解读。此外,对数据的每一次更改都必须记录在审计追踪中,并且这个追踪本身必须定期以足够的统计严谨性进行审查,以捕捉潜在的错误或不当行为。这不仅仅是收集数据;这是从众多来源中整理出单一的事实来源。
这个信任之网延伸至最基本的伦理义务:知情同意。在进行任何研究之前,患者必须自愿同意参与,并且这一同意必须被记录下来。一个电子知情同意(eConsent)系统所做的必须超过捕获一个复选框和一个键入的姓名。它必须创建一个安全的、不可否认的记录,证明一个特定的个人,在特定的时间,审查并同意了特定版本的同意文件。这一过程的完整性至关重要,为伦理行为提供了无可辩驳的记录。
有了这样一个可信的数字基础,我们可以彻底改变试验的进行方式。我们可以使用一种更智能的方法,即基于风险的监查(RBM),而不是派遣大批监查员到每家医院实地核实每一个数据点——这种做法被称为 100% 源数据验证。通过集中分析数据并利用无可挑剔的审计追踪来确保完整性,我们可以将注意力集中在对患者安全和试验结果最重要的站点和数据上。同样的基础也使我们能够将随机试验直接嵌入到常规临床护理的结构中,使用来自医院登记系统的数据。这使得研究更快、更高效,并且更能反映真实世界,同时保持优良临床实践所要求的数据完整性和患者保护的高标准 [@problem_-id:4609169]。
我们的旅程在现代科学的前沿达到高潮:在医学中使用人工智能(AI)和机器学习(ML)。当这些强大但往往不透明的算法开始做出临床决策时,一个全新而深刻的问题出现了:我们如何信任一台机器的判断?答案在于对我们原则的更严格应用:彻底的透明度和完美的可复现性。
想象一个分析化学品光谱以识别有机化合物的 AI 流程。要信任其输出,我们必须能够重建决策瞬间系统的确切状态。这需要创建一个完整的“来源图”——一个记录所有东西的数字地图:原始光谱文件、仪器的校准状态和设置、预处理代码的确切版本(包括其随机种子!),以及用于预测的特定训练模型的指纹。这是机器的终极实验记录本,不给偶然或模糊留下任何空间。
这一原则超越了单一决策,延伸到作为医疗设备的软件(SaMD)的整个生命周期。管理医疗 AI 的开发、验证和部署——一种称为机器学习运维(MLOps)的实践——需要一个强大的治理框架。这包括不仅对代码进行版本控制,还对用于训练模型的数据进行版本控制,维护一个包含所有模型版本及其完整来源的注册表,并强制执行严格的职责分离,以便没有单一个人可以在没有独立质量保证的情况下开发和发布模型。这些控制措施中的每一项都有助于降低发布可能危及患者的错误模型的风险,将抽象的监管原则转化为 AI 安全的具体保障。
这一挑战的最终体现是联邦学习,即多家医院合作训练一个共享的 AI 模型,而无需交换敏感的患者数据。这一非凡的壮举只有通过建立在一个共享的、不可变的、通过加密保障安全的账本之上的治理策略才可能实现。每个合作伙伴都可以看到并且必须对每一次模型更新进行数字签名。每一个决策、每一个验证结果和每一次投票都被记录在一个不可否认的审计追踪中,以供后世查阅。从本质上讲,这是一份用数据完整性语言书写的协同科学社会契约,即使在分布式、零知识的环境中也能让信任茁壮成长。
从单个病理学家的签名到临床 AI 的分布式治理,数字完整性的原则是支撑现代科学可靠性和安全性的无形架构。它们不仅仅是约束,更是推动者,提供了信任的共同语言,使我们能够提出更大胆的问题,构建更复杂的系统,并最终对我们找到的答案抱有信心。它们确保即使纸张消失了,证据依然存在——比以往任何时候都更强大、更可验证、更持久。