GDPR 与 HIPAA：健康数据隐私比较指南

玻尔百科

核心要点

HIPAA 在一个由“受保护实体”组成的明确体系内保护特定的健康数据 (PHI)，而 GDPR 则将所有个人数据作为个人的一项基本、普遍的权利加以保护。
GDPR 建立了更高的匿名化标准，并具有更广泛的域外效力，对远程医疗和研究的全球数据流产生重大影响。
将这些法规应用于人工智能和区块链等先进技术时，需要采用“设计隐私”的理念，使用联邦学习和链下数据存储等方法。
在健康数据领域的真正伦理实践，要求超越单纯的法律合规，扮演“数据受托人”的角色，将患者的最佳利益放在首位。

引言

在数字时代，患者保密这一永恒的承诺正面临前所未有的挑战。随着健康信息从实体记录转变为全球分布的数据，传统的伦理准则已不足以保护个人隐私。这种转变造成了关键的知识鸿沟，亟需强大的法律框架来监管海量且高速流动的数字信息。本文旨在通过探讨两项里程碑式的法律解决方案来满足这一需求：美国的《健康保险流通与责任法案》(HIPAA) 和欧盟的《通用数据保护条例》(GDPR)。通过剖析其核心宗旨和实际影响，您将深入了解这些法规如何重塑现代医学。旅程始于“原则与机制”部分，我们将在此比较两种框架的基本理念和规则。随后，我们将进入“应用与跨学科联系”部分，探讨这些原则如何不仅仅是法律约束，更是远程医疗、人工智能及其他领域创新的催化剂。

原则与机制

试想一下，您的人生故事——不仅是精彩片段，还包括每一个平凡的细节、每一次就医、每一个您曾在谷歌上搜索过的短暂症状——都被写在一本书里。隐私的核心，就是决定谁可以读这本书、可以看哪些章节的权利。保密则是那些您托付了某一章节的人（比如您的医生）所作出的神圣承诺，即不会与任何其他人分享。

数百年来，这一承诺依赖于职业道德和锁在文件柜中的纸质记录的物理局限性来维系。但当这本书被数字化、复制百万次，并散布于全球计算机网络中时，会发生什么呢？旧的承诺虽然仍然至关重要，但已不再足够。数字信息的巨大规模和速度要求一套新的规则——一套适用于数字世界的新物理学。正在此时，两项里程碑式的法律框架登上了舞台：美国的 HIPAA（《健康保险流通与责任法案》）和欧盟的 GDPR（《通用数据保护条例》）。它们是两种不同但都同样出色的尝试，旨在回答同一个深刻的问题：在数据无处不在的时代，我们如何保护人类的尊严？

两种理念的故事：围栏与个人

乍一看，HIPAA 和 GDPR 似乎是一堆令人望而生畏的法规缩写。但如果我们仔细观察，就会发现它们建立在两种截然不同且精妙的理念之上。

HIPAA 就像是建造了一道非常坚固的围栏。它并不试图监管所有地方的所有个人信息，而是专注于一个特定的高价值领域：健康信息。它定义了谁在围栏之内——像医院和保险公司这样的“受保护实体” (covered entities)，以及为它们服务的云供应商等“商业伙伴” (business associates)——并为这些守门人制定了一套严格的规则。该法律主要关注数据本身，将其定义为受保护的健康信息 (Protected Health Information, PHI)，并规定了必须如何保护以及何时可以共享这些信息。其理念是务实且针对特定行业的：识别最敏感的信息，并围绕它建立一座堡垒。

另一方面，GDPR 以人为本，而非以数据为本。它是一个建立在“控制个人信息是一项基本人权”这一理念之上的通用框架。无论数据是关于您的健康、购物习惯还是位置，只要是关于您的，您就对其拥有权利。处理数据的实体被称为“数据控制者” (data controllers)（决定数据处理目的和方式）和“数据处理者” (data processors)（代表控制者行事）。健康数据并没有专门的独立法律；相反，它被归类为需要比普通个人数据更严格保护的“特殊类别的个人数据” (special category of personal data)。其理念是普适且基于权利的：赋予个人权力，数据保护便随之而来。

我们在保护什么？身份的皇冠之珠

那么，我们如此热衷于保护的“数据”究竟是什么？两部法律都撒下了一张非常宽的网。

根据 HIPAA，受保护的健康信息 (PHI) 是任何“可单独识别的健康信息”(individually identifiable health information)。这不仅仅是您的姓名和诊断结果。它包括您的地址、出生日期、预约日期、病历号，甚至如果与健康数据相关联，还包括您的 IP 地址或设备标识符。这是任何一条单独或组合起来，可以在医疗保健背景下指向您的信息。

GDPR 对“个人数据” (personal data) 的概念更为宽泛。它是与可识别个人相关的任何信息。在健康方面，GDPR 设立了一个“特殊类别” (special category)，不仅包括关于您身体或心理健康的数据，还包括“关于自然人的性生活或性取向的数据”[@problem_-id:4440173]。想象一个用于糖尿病的数字治疗应用：血糖读数显然是健康数据，但用于追踪您锻炼的 GPS 坐标、显示您使用应用时间的互动时间戳以及您手机上的设备广告 ID 也都是健康数据。所有这些都是您故事的一部分，GDPR 认为它们都值得特殊保护。

游戏规则：你为何能使用我的数据？

在一个受这些法律管辖的世界里，您不能无缘无故地获取数据。您需要一张合法的入场券——一个“处理的合法基础”(lawful basis for processing)。在这一点上，两种理念再次分道扬镳。

HIPAA 的方法是为医疗保健的实际流程而构建的。它明白，为了让系统正常运作，信息必须流动。因此，它允许在没有您特定、一次性授权的情况下，将您的 PHI 用于一系列称为治疗、支付和运营 (Treatment, Payment, and Operations, TPO) 的核心活动。您的医生可以为了治疗与实验室共享信息，医院可以为了支付与您的保险公司共享信息，他们还可以在内部将其用于质量改进操作。对于基本功能而言，这是一个“默认允许”的系统。对于 TPO 之外的任何事情，比如研究，通常需要您的明确授权，除非满足特定例外情况，如机构审查委员会的豁免。

GDPR 遵循“默认禁止”的原则。您不能处理个人数据，除非您能指出其第 6 条中列出的几种合法基础之一。对于常规临床护理，最合适的依据通常是“履行合同” (performance of a contract)——即您在寻求护理时与医院形成的合同。但因为健康数据属于“特殊类别”，您需要第二把钥匙。您还必须满足第 9 条中的一个条件。对于医疗保健，这通常是第 $9(2)(h)$ 条，该条允许为“提供健康或社会护理或治疗”而进行处理。对于研究，可能是第 $9(2)(j)$ 条，即科学研究的基础，它自带一套必需的保障措施。这种双钥匙系统确保了最敏感的数据在处理时具有最充分的理由。

简约原则：仅使用必要信息

想象一下为旅行打包。您是带上整个衣柜，还是只带需要的东西？HIPAA 和 GDPR 都奉行“轻装上阵”的原则，但表达方式不同。

HIPAA 有“最小必要” (minimum necessary) 标准。除了为治疗而披露信息外，医院必须做出合理努力，仅使用、披露或请求为实现预期目的所需的最小量 PHI。这是一个实际的核查：您真的需要把病人的全部病史发送给计费部门，还是只需要那一次手术的信息？

GDPR 采纳了这一理念，并将其扩展为三项强有力的原则：

数据最小化 (Data Minimization)： 数据必须“充分、相关且仅限于必要范围”。这与 HIPAA 的最小必要标准非常相似。
目的限制 (Purpose Limitation)： 您必须为“特定、明确和合法的目的”收集数据，并且不得以与这些目的不相容的方式进一步处理。您不能为临床护理收集数据，然后决定在没有新的、相容的目的和法律依据的情况下，将其用于训练营销算法。
存储限制 (Storage Limitation)： 您不得将数据保存“超过必要期限”。数据有生命周期。一旦其目的达成，就必须删除。禁止无限期保留。

总之，这些 GDPR 原则就像一份严格的旅行日程：您只能打包绝对需要的东西，只能将其用于日程表上的活动，并且在旅行结束后必须丢弃。

隐形斗篷：从具名到虚无的光谱

如果我们可以在不知道读的是谁的故事的情况下，将数据用于有价值的研究或分析，会怎么样？这就是去识别化的承诺，但它也是数据保护中最被误解和最关键的领域之一。它不是一个从“已识别”到“未识别”的简单切换；它是一个光谱。

在一端，我们有假名化 (pseudonymization)。这就像给您的数据主体戴上面具，用一个代码替换姓名和社会安全号码等直接标识符。一个单独、安全存储的密钥可以将该代码链接回个人。HIPAA 和 GDPR 都承认这是一种有价值的安全措施。然而，它们的法律解释却大相径庭。根据 HIPAA，带有代码的数据集可能是也可能不是 PHI，具体取决于上下文。但根据 GDPR，规则非常明确：只要密钥存在，重新识别就是可能的，那么数据仍然是个人数据。它仍然完全受 GDPR 的保护。

在光谱的另一端是 HIPAA 下的去识别化 (de-identification)。这是一个特定的法律地位。如果一个数据集满足以下两个标准之一，它就被认为是去识别化的——因此不再是 PHI：

安全港 (Safe Harbor)： 您移除一个包含 18 个标识符的特定清单（如姓名、完整出生日期和 IP 地址）。
专家判定 (Expert Determination)： 由一名统计学家判定重新识别任何个人的风险“非常小”。

在光谱的最远端是 GDPR 所理解的真正匿名化 (anonymization)。这是数据隐私的圣杯。只有当您考虑到所有“合理可能被使用”的手段，不可逆地破坏了重新识别个人的能力时，数据才是匿名的。这比 HIPAA 的安全港标准要高得多。例如，要真正匿名化来自临床试验的数据，您可能需要销毁重新识别密钥，将日期泛化为年份，并将位置聚合成大区域，以确保没有人能被单独识别出来 [@problem_-id:4844364]。只有到那时，数据才能摆脱 GDPR 的引力。

全球之舞：当数据跨越国界

我们生活在同一个互联网上，但我们有许多不同的法律世界。当一名德国患者的数据由美国的云服务器处理时，会发生什么？

HIPAA 是一部国家法律。它关心美国实体如何处理 PHI，但它不监管从其他国家流入的数据。

然而，GDPR 的管辖范围很广。其域外效力 (extraterritoriality) 原则意味着，如果您是一家美国公司，有意向欧盟境内的人提供服务（例如，拥有德语网站并以欧元定价），那么即使您在欧洲没有办公室，也必须为他们的数据遵守 GDPR。

此外，GDPR 将个人数据的出口视为一项高风险活动。数据不能离开欧盟进入像美国这样的“第三国”，除非有有效的传输机制。可以把它想象成数据的护照。这可能是一个“充分性决定”（欧盟正式承认第三国法律具有同等效力），或者更常见的是，一套标准合同条款 (Standard Contractual Clauses, SCCs)。这些是法律合同，数据进口方承诺维持 GDPR 级别的保护。即使有 SCCs，数据出口方也必须评估目的地国家的法律（例如，政府监控法）是否可能削弱这些承诺，如果是，则需采取强加密等补充措施。

这场全球之舞很复杂，但其目标很简单：确保数据保护的基本权利不会在数据跨越国界的那一刻消失。这是对我们互联世界的一种肯定：无论我们的数字自我去往何方，都应受到保护。通过其不同的架构和理念，HIPAA 和 GDPR 是这项旨在保护构成我们身份的故事的现代努力的双重支柱。

应用与跨学科联系

在了解了 HIPAA 和 GDPR 的基本原则之后，我们可能会倾向于将它们视为一套静态的规则——一份供律师和合规官使用的清单。但这样做无异于只见树木，不见森林。这些法规不是终点，而是指南针。它们提供了一套强有力的第一性原理思想，指引我们探索现代医学的未知领域，从全球远程医疗到人工智能。就像物理定律一样，它们真正的美不在于背诵，而在于应用——在于它们如何塑造我们周围的世界，迫使我们构建更精妙、更周到、最终更值得信赖的系统。

现在让我们来探索这个充满活力的领域，看看这些原则如何不仅仅是约束，更是推动众多学科创新的催化剂。

全球诊所：跨越国界的数据导航

想象一下美国的一个基因组学实验室，它在诊断罕见心脏病方面处于世界领先地位。它的声誉如此之高，以至于欧盟的医生们将患者样本送过大西洋进行分析。或者想象一下，一个欧洲小镇的病人在下班后通过一个尖端的远程医疗平台，接受一位美国心脏病专家的护理。这些曾经属于科幻小说的场景，如今已成为日常现实。但它们也带来了一个有趣的难题。

患者的数据，现在是一连串原始基因序列或生命体征流，必须跨越国界。这样做，它就离开了受严格 GDPR 管辖的欧盟法律“管辖区”，进入了由不同但相关的 HIPAA 规则管辖的美国。GDPR 就像环绕欧洲的数字堡垒，其建立原则是个人数据不应离开，除非目的地国提供同等级别的保护。多年来，法律框架试图弥合这一差距，但一项名为 Schrems II 的里程碑式欧洲法院裁决宣布，这座桥梁不够坚固。

那么，我们如何解决这个问题呢？是停止进步，禁止此类合作吗？当然不是。相反，法律迫使我们变得更聪明。它迫使我们实践所谓的“设计数据保护”(data protection by design)。一个真正合规的架构不是简单地将所有数据发送到美国服务器，而是采取了更精妙的做法。

对于远程医疗平台，主要的、可识别的患者数据永远不会离开其位于欧盟数据中心的“家”。当美国医生需要查看信息进行会诊时，他们会被授予临时的、远程的访问权限——就像拿到一把钥匙可以进入一个安全房间查看，但不能带走任何东西。这种访问是经过审计的、基于角色的，并且是为治疗目的而“即时” (just-in-time) 授予的。对于任何必须发送到美国进行分析或研究的数据，它首先被“假名化” (pseudonymized)——剥离直接标识符并替换为代码。将代码链接回患者的至关重要的密钥仍然被锁在欧盟。这种源于法律必要性的设计，同时也是安全工程的杰作，在每一步都将风险降至最低。

机器中的幽灵：匿名性的难以捉摸

这将我们引向数据隐私中最微妙和最深刻的挑战之一：数据“匿名”到底意味着什么？我们有一种自然的直觉，认为只要移除一个人的姓名和地址，他们的隐私就得到了保障。数据科学的历史是这种失败直觉的坟墓。研究人员一次又一次地证明，那些所谓的“匿名”数据集——例如，仅包含邮政编码、出生日期和性别——可以被用来以惊人的简易度重新识别个人。

HIPAA 和 GDPR 从不同的哲学立场来处理这个问题。HIPAA 提供了两种途径来宣布数据“去识别化”(de-identified)。第一种称为“安全港”(Safe Harbor)，是一个规定性清单：移除 18 个特定标识符（如姓名、日期和电话号码），数据就被认为是安全的。但如果这个过程破坏了数据的科学价值怎么办？想象一下，您正在进行一项关于新药安全性的研究，您需要知道不良事件是在服药后几天（而不仅仅是几年）发生的。安全港通过移除精确日期，将使数据变得毫无用处。

这就是 HIPAA 的第二条途径“专家判定”(Expert Determination) 发挥作用的地方。它允许统计专家证明，即使保留一些标识符，重新识别任何单个人的风险也“非常小”。这是一种基于风险的科学方法，在隐私和效用之间取得平衡。

然而，GDPR 设定了更高的标准。它谈论的是“匿名化”(anonymization)，这是一种重新识别不仅不太可能，而且“任何一方都不太可能合理地”(reasonably likely by any party) 实现的状态。仅仅被“编码”的数据——GDPR 称之为假名化 (pseudonymization)——仍被视为个人数据，受其所有规则的约束。这是一个至关重要的区别。一个将电子健康记录 (EHR) 数据与生物样本库联系起来的研究联盟，不能简单地使用编码数据并声称其是匿名的。重新链接的可能性意味着数据仍然是个人数据，GDPR 的全部要求——从拥有处理的合法基础到确保国际传输的安全——仍然适用。这迫使我们在理智上诚实地面对几乎所有丰富数据集中都萦绕不去的身份“幽灵”。

数字文书：用于研究和学习机器的数据

流经现代医疗保健的浩瀚数据河流蕴藏着巨大发现的希望。但是我们如何将这些数据用于研究，尤其是在向每一位患者征求同意不切实际的情况下？法律再次提供了精妙的途径。在美国，HIPAA 允许机构审查委员会 (IRB) 授予“授权豁免”(waiver of authorization)，认定研究重要且隐私风险极小。在欧盟，GDPR 允许基于“公共利益”进行研究，前提是采取了严格的保障措施，如假名化。这些框架使我们能够从数百万人的集体经验中学习，将常规临床数据转化为拯救生命的证据。

随着人工智能的兴起，这种能力进入了一个新的维度。一个旨在检测疾病的人工智能算法是一个“学习机器”——它不是在工厂里制造出来的，而是从数据中生长出来的。而且它不会停止学习。最好的 AI 医疗设备被设计用于在真实世界中监控自身性能，并自我更新以变得更安全、更有效，这一过程由“预定变更控制计划”(Predetermined Change Control Plan, PCCP) 管控。

这带来了一个新的隐私挑战：供应商如何从全球数千家医院收集性能数据来重新训练其 AI，而不创建一个庞大的、集中的敏感信息库？答案在于法律和计算机科学的美妙融合。我们可以使用“隐私工程”(privacy engineering)，而不是将所有原始数据都拉到中央云端。一种方法是在“边缘”——即医院自己的网络内部——部署计算能力。AI 模型的性能可以在医院的数据上本地计算，只有最终的、保护隐私的、聚合的统计数据（例如，“该人群的错误率为 $0.02$ ”）被发送回供应商。没有任何单个患者的数据离开医院的围墙。

为了获得更强的保障，我们可以求助于一个名为差分隐私 (Differential Privacy) 的卓越数学思想。想象一下，我们正在一个数据集上训练我们的 AI。差分隐私确保了无论您的特定数据是否包含在训练集中，最终训练出的模型都几乎完全相同。它通过在学习过程中注入微小、经过精心校准的统计噪声来实现这一点。这使我们能够从数据中学习广泛的模式，同时在数学上不可能学习到关于任何单个个体的任何具体信息。

新前沿，旧规则

随着新技术的出现，它们常常似乎挑战我们现有的规则。考虑区块链，这种以其“不可篡改性”(immutability) 而闻名的分布式账本技术。区块链上的一个条目，一旦写入，就无法删除。这个特性非常适合创建防篡改的审计追踪。但它与 GDPR 的“被遗忘权”(right to erasure)，即删除权，直接冲突，后者是数据主体权利的基石。

这是否意味着我们不能在医疗保健中使用区块链？不。这意味着我们必须更聪明。解决方案是一种既简单又巧妙的架构模式：不要将敏感数据放在链上。个人健康信息存储在传统的、可控的，最重要的是——可删除的“链下”(off-chain) 数据库中。区块链本身只用于它最擅长的事情：存储指向链下数据的不可变记录，以及作为数字印章的加密哈希，证明数据未被篡改。

如果患者行使其删除权，医院会从链下数据库中删除他们的记录，并且为了保险起见，还会通过加密方式销毁该数据的加密密钥。区块链上的哈希仍然存在，但它现在指向空无，其加密链接已断开。审计追踪的不可篡改性得到了保留，而个人的权利也得到了尊重。这表明 GDPR 和 HIPAA 的原则足够强大，甚至可以塑造最具颠覆性的技术。

超越生命，超越合规：伦理的视野

法律告诉我们必须做什么。但伦理学问我们应该做什么。这些原则最引人入胜的应用就在于这个交叉点。考虑一个旨在帮助医生复苏临床死亡患者的 AI。为了训练这样的系统，科学家需要访问死后数据——最终的电子健康记录条目和设备读数。这引发了深刻的问题。HIPAA 的隐私保护在死后延续 $50$ 年。GDPR 虽然只适用于生者，但如果死者的数据（尤其是基因数据）揭示了其在世亲属的信息，也可以被援引。

在这里，一个真正合乎伦理的方法远不止是简单的法律分析。它涉及获得 IRB 的监督，使用所有可用的法律途径进行死者研究，并尊重在预先指示中表达的任何生前意愿。这意味着采用最先进的匿名化技术，分层使用多种方法来防止对死者或其家人的重新识别。这意味着建立一个 AI 安全计划，以确保算法在探索生命边界的过程中，不会无意中对那些徘徊在边缘的人造成伤害。

这将我们带到最后，也许也是最重要的一点。遵守 HIPAA 和 GDPR 是底线，而非上限。想象一位医生正在使用一个由 AI 驱动的决策支持工具。医院已经签订了所有正确的合同；它完全遵守法律条文。但是，如果算法代码中隐藏着偏见呢？一种通过与制药公司的收入分成协议实现的经济激励，即使存在同样有效的替代品，也会将医生的建议推向特定的品牌药。

仅靠法规遵从并不能解决这个问题。在这里，我们必须从一个数据处理者转变为一个数据受托人 (data fiduciary)。受托人有坚定不移的忠诚义务，以受益人——即患者——的最佳利益行事。这项义务要求的不仅仅是遵守规则。它要求实质性的透明度。它要求医生和机构了解他们使用的工具，披露其局限性和利益冲突，并始终、始终将机构或商业利益置于患者的临床福祉之下。

最终，这是我们所讨论原则的终极应用。它们不仅仅是数据处理的技术规范。它们是一种信任语言的语法，随着医学与数字世界日益紧密地交织在一起，这种语言将变得越来越重要。它们提供的框架不仅用于构建合规的系统，更用于恪守我们最古老、最神圣的职责：关爱患者。