数据主权

玻尔百科

定义

数据主权是指国家对其领土内数据的管辖权，以及原住民管理其集体数据的固有权利。这一概念超越了单纯的个人隐私保护，旨在通过控制数据流向、存储和公平收益分享来解决权力和公正问题。它强调在技术标准之外应用 CARE 原则，通过建立以人为本的治理框架来防止群体性损害并实现集体利益。

核心要点

数据主权既包括国家对其领土内数据的管辖权，也包括原住民治理其集体数据的固有权利。
专注于个人去标识化的传统隐私模型是不够的，因为它们无法防止群体层面的伤害和刻板印象。
CARE原则（集体利益、控制权、责任、道德）为技术性的FAIR数据原则提供了一个至关重要的、以人为本的治理层。
真正的数据主权涉及对数据流动、存储和公平利益共享的控制，超越了简单的隐私和安全措施，以解决权力和正义问题。

引言

在21世纪，数据已成为一片广阔的新领域，一种价值巨大的资源。但与土地或有形财产不同，治理这片数字景观的规则仍然充满争议且不明确。这造成了一个关键的空白，让所有权、控制权和正义问题悬而未决，并有可能以新的数字形式延续历史上的不平等。本文通过探讨数据主权——即民族和国家治理其自身数据的权利——这一多方面概念来应对这一挑战。

第一章，原则与机制，将剖析数据主权的核心理念。我们将从国家层面开始，区分主权与数据本地化和隐私等相关概念，然后深入探讨植根于集体权利和自决权的原住民数据主权这一更根本的原则。您将了解到CARE原则等关键伦理框架，并理解为何个人同意通常是不够的。在此基础上，第二章，应用与跨学科联系，将展示这些原则在现实世界中的应用。我们将审视数据主权如何重塑从医学、全球公共卫生到古基因组学和工程学等领域，表明它不是进步的障碍，而是构建一个公正且值得信赖的数字未来的基本框架。

原则与机制

想象一下您拥有一块土地。您有权决定谁可以进入，他们可以在那里做什么，以及您是否能从他们在土地上发现的任何宝藏中分一杯羹。这就是主权的本质，一个我们在物理世界中理解了几个世纪的概念。但当领土不再是土壤和岩石，而是广阔而无形的数据景观时，会发生什么？谁拥有这个新世界的权利？这不仅仅是律师和计算机科学家的技术问题，更是一个关于21世纪权力、身份和正义的深刻问题。

数字领土：国家主权

让我们从最熟悉的尺度开始：民族国家。正如一个国家治理其物质边界内的人民、资源和活动一样，数据主权的概念主张，一个国家有权对其领土内生成或存在的数据进行治理。这是领土管辖权的数字等价物。

这并不意味着一个国家要建立一堵数字墙，禁止任何数据流出。相反，它意味着国家可以制定规则。它可以决定数据如何共享、与谁共享以及为了什么目的而共享。这关乎控制，而不一定是封闭。

在这里，将主权与两个相关但不同的概念区分开来至关重要：

数据本地化：这是主权国家可能使用的一种具体策略。它是一项要求数据必须在位于该国境内的服务器上进行物理存储和处理的规则。可以把它想象成一项国家法律，规定任何加工本地矿产的工厂都必须建在本国领土上。数据本地化是主权的一种可能表现形式，但它本身不等同于主权。
隐私：这个概念以个人为中心。隐私是您控制自身信息的权利。数据主权是一个更广泛的集体概念，涉及国家对国家资源的权力。例如，一个国家可能拥有非常强的数据主权法律（坚持所有数据出口都需经政府审查），但其个人隐私保护却很薄弱，反之亦然。

想象一场快速蔓延的流行病，正如一个多国公共卫生场景中所描述的那样。A国坚持其通过正式协议批准任何跨境数据共享的主权权利。B国有一项严格的数据本地化法律，要求所有健康数据都存储在国内。C国有一项全面的隐私法，侧重于个人权利和数据最小化。这三个国家如何在不违反各自基本规则的情况下合作抗击病毒？将所有数据集中在一处是不可能的。优雅的解决方案是联邦式架构。每个国家都将自己的敏感数据保存在自己的服务器上，并在本地进行分析。只有分析的结果——经过匿名化、聚合且至关重要的部分——才会被共享。这个绝佳的解决方案在尊重每个参与方主权规则的同时，实现了至关重要的国际合作。它表明，数据主权不是进步的障碍，而是负责任参与的框架。

权力杠杆

说一个国家对数据拥有“权力”听起来可能很抽象。这种控制实际上是怎样的？在任何关于数据的谈判中，主权实体都可以运用几种具体的“权力杠杆”。思考这些杠杆能让主权的概念变得具体而实际。

我们可以想到三个主要杠杆：

对跨境数据流的控制（ $F$ ）：这是担当守门人的权力。数据是自由跨境流动，还是必须通过一个检查点？一个国家行使这一杠杆时，可能会要求其国家数据管理机构预先批准任何敏感信息的传输，以确保其用途符合国家利益。
数据本地化（ $L$ ）：这个杠杆决定了数据物理上驻留的位置。一个国家可能会通过强制规定 $L=1$ 来运用这个杠杆，意味着需要本地存储。这可能是出于安全原因，为了刺激本地科技经济，或者仅仅是为了确保法律管辖权的明确性。
利益共享（ $B$ ）：这也许是实现正义最关键的杠杆。如果一个国家的健康数据被一个国际联盟用来开发一种革命性的新药或一个有利可图的诊断AI，谁来收获回报？利益共享原则主张，提供原始资源——即数据——的社区或国家有权获得公平且经协商的利益份额（ $B>0$ ）。这些利益不一定是金钱上的；它们可以包括能力建设、科学培训、免费使用由此产生的医疗技术，或共同署名研究论文。

理解这些杠杆是关键。一个放弃对 $F$ 、 $L$ 和 $B$ 控制权的国家，实际上已经放弃了其数据主权，即使它有很强的隐私（ $P$ ）和安全（ $S$ ）措施。隐私和安全保护数据；主权决定谁能从中受益。

更深层次的主权：为了人民，而非仅为地方

然而，主权的故事并不仅限于民族国家的边界。这项权利还有一种更深层次、可以说更根本的形式：原住民数据主权。这是原住民作为本身就拥有主权的国家，对其自身数据的收集、所有权和应用进行治理的固有权利。这包括关于其成员、土地、资源、语言和文化遗产的数据。

这不是由某个国家授予的特权；这是一项植根于自决原则的权利，并得到了《联合国土著人民权利宣言》（UNDRIP）等国际宣言的确认。它旨在解决一段漫长而痛苦的“榨取式”研究历史，即科学家进入社区，拿走数据和生物样本后离开，发表的研究成果有时会污名化该社区，却很少提供任何直接的好处。

要真正掌握原住民数据主权，我们必须理解一个关键的洞见：关于一个群体的数据远不止其个体部分的总和。这就引出了群体隐私和群体伤害这两个至关重要的概念。

想象一个包含某原住民社区健康信息的数据集。即使我们 meticulous地移除所有个人标识符，如姓名和地址——这个过程称为去标识化——数据本身仍然保留着一种集体特征。一个基于这些数据训练的AI模型可能会发现一种关于整个社区的模式，一种“群体层面的推断”。例如，作为一个思想实验，假设模型发现在群体 $G$ 中与某种特定疾病相关的基因变异频率 $p_G$ 与在另一个群体 $H$ 中的频率 $p_H$ 不同（ $p_G \neq p_H$ ）。突然之间，仅仅作为群体 $G$ 的一员就成了一个统计学上的风险因素。这可能导致毁灭性的群体伤害（ $H_G$ ），这与个人伤害（ $H_i$ ）完全不同：保险公司可能会提高整个社区的保费，雇主可能不愿意雇佣其成员，或者这可能会固化有害的社会刻板印象。

这就是为什么“去标识化是解决所有伦理问题的‘万能药’”这一普遍论点从根本上是错误的原因。匿名化并不能抹去集体身份，也无法防范针对该身份的伤害。

CARE原则：数据管理的伦理规范

如果像去标识化这样的技术修复手段还不够，那么答案是什么？我们需要一个新的伦理框架。

在数据科学领域，有一套流行且有用的指导方针，即FAIR原则：可查找（Findable）、可访问（Accessible）、可互操作（Interoperable）和可重用（Reusable）。这些原则是使数据变得有用的技术性指南。它们确保数据组织良好、易于查找，并与其他数据集兼容。FAIR关注的是良好的数据管理。

但FAIR数据并不自动就是合乎伦理的数据。FAIR原则告诉你如何为数据构建管道系统，但它们没有说明谁应该控制阀门，或者谁有权使用这些水。

为了解决这一伦理鸿沟，原住民数据治理的CARE原则应运而生。它们旨在与FAIR协同工作，提供至关重要的、以人为本的治理层。

Collective Benefit（集体利益）：数据的使用必须为其来源社区创造切实的利益。
Authority to Control（控制权）：原住民必须有权控制他们的数据，包括其如何被收集、使用和共享。这是主权的核心。
Responsibility（责任）：数据管理者和研究人员有责任对社区负责，并以支持社区目标的方式使用数据。
Ethics（道德）：在整个数据生命周期中，原住民的权利、价值观和福祉必须是首要关注点。

这种结合是强大的。CARE提供了“为什么”和“谁决定”，而FAIR提供了“如何做”。它们共同创建了一个既具有科学力量又合乎伦理正义的数据管理框架。

关系之网：从同意到治理

对数据的这种更深层次的理解也迫使我们重新思考关于同意的观念。研究中的传统模式通常是广泛同意，即个人一次性签署一份表格，允许其数据用于未指定的未来研究。这对研究人员来说很高效，但给参与者提供的权力却很少。近来，出现了动态同意的模式，让个人能够持续、精细地决定其数据的使用方式。

但是，当我们处理集体数据和群体伤害时，即使是动态的个人同意也是不够的。我们必须从个人同意模式转向集体治理模式。这需要社区同意，即社区通过其合法的治理机构（如部落理事会）给予的正式授权。[@problem_-id:4853139] 它承认整个社区是一个利益相关者，有权决定是否参与研究以及在何种条件下参与。

这让我们认识到最后一个优美而复杂的真理，尤其是在基因组学时代：您的数据不仅仅关乎您自己。您的基因组是由您的祖先书写的故事，并以概率的方式与您所有的血缘亲属共享。这创造了一个新的伦理维度：亲属隐私。当您同意分享您的基因数据时，您也在透露关于您父母、兄弟姐妹和子女的信息。这一真理打破了孤立个体的幻觉。我们最个人化的数据本质上是关系性的，是庞大家庭和社区织锦中的一根线。

从一个国家的数字边界，到联结一个家庭的遗传密码，数据主权原则挑战我们，让我们将数据视为待管理的信托，而非待开采的商品。它要求我们提出一个根本性问题：在一个由信息构建的世界里，谁有权制定规则？答案并不简单，但它必须是一个倡导正义、尊重个人和集体权利，并尊崇我们身份深层关系本质的答案。

应用与跨学科联系

在探讨了构成数据主权的原则之后，我们可能会倾向于将其视为一个抽象的，甚至纯粹哲学的概念。但事实远非如此。世界不是由原则构成的；它是由真实事物构成的——由人与社区、病历与细菌基因组、工厂传感器与远古祖先的回响构成。正是在这些混乱、充满活力且相互关联的领域中，数据主权的概念才得以生动体现，它不是障碍，而是指引我们穿越现代世界复杂伦理景观的向导。这是一个贯穿医学、法律、历史和工程学的概念，揭示了我们在思考定义自身的信息时，应采取的惊人统一的方式。

人类的故事：医学与集体权利

让我们从感觉最切身相关的地方开始：医学。几十年来，医疗数据的伦理问题一直以个人为中心。像美国的《健康保险流通与责任法案》（HIPAA）等框架，都建立在一个简单而有力的理念之上：通过从您的数据中清除您的姓名和其他直接标识符来保护您的隐私。一旦“去标识化”，人们就认为数据不再与您相关，可以用于更广泛的研究公益。

但如果数据讲述的不仅是关于您的故事，而是关于您整个社区的故事呢？想象一下，一个公共卫生部门正在研究一种不成比例地影响某个特定原住民族的疾病。即使所有个人姓名都被移除，发布一张突出该社区的“风险地图”也可能导致群体层面的伤害，如污名化、住房歧视或更高的保险费。数据虽然在个体上是匿名的，但在集体上仍然是可识别的。在这里，以个人为中心的隐私模型被证明是不够的。数据不是孤立点的集合；它是一幅织锦，牵一发而动全身。

正是在这一点上，原住民数据主权提供了一个深刻而必要的视角转变。它主张，一个社区作为一个集体，拥有治理关于其自身、其土地和其资源的内在权利。这不仅仅是一个礼貌的建议；这是一项自决原则，在《联合国土著人民权利宣言》（UNDRIP）等国际文书中得到了呼应。它要求从榨取式研究模式（将社区视为纯粹的数据来源）转向真正的伙伴关系。

这种伙伴关系在实践中是什么样的呢？它始于重新思考同意。它不再是在诊所签署的一次性、广泛的同意书，而是涉及一个分层过程：每个个人仍须给予其自由且知情的同意，但与此同时，还需要通过社区合法的治理结构获得社区的集体协议。这种双重同意承认研究对个人和民族都具有影响。

这种伙伴关系以旨在建立信任和确保公平的原则为指导。您可能听说过FAIR原则（可查找、可访问、可互操作、可重用），它为使数据变得有用提供了一个出色的技术蓝图。但技术意义上的公平与人类意义上的正义并不相同。为了解决这个问题，原住民学者和领袖们发展出了CARE原则：集体利益、控制权、责任和道德。CARE作为FAIR之上的一个关键伦理层，提醒我们首要问题不仅仅是数据如何被使用，而是谁来决定以及为谁的利益服务。

将这些原则付诸行动会改变一个研究项目。这意味着要创建一个承认社区为权利持有者的有约束力的治理协议。这意味着要建立一个联合数据治理委员会，社区成员在其中拥有真正的决策权——包括对不符合其价值观或优先事项的项目说“不”的权力。这意味着要确保研究的利益，无论是新知识、能力建设，还是商业利润的一部分，都能回流到社区。这关乎建立有意识地对抗历史性权力不平衡的系统，这种实践被称为结构性能力。

全球织锦：数据、正义与世界舞台

同样的动态在全球范围内上演。想象一个联盟正在几个中低收入国家（LMICs）建立一个庞大的手术结果登记系统。目标是崇高的：为所有人改善外科护理。人们很容易想将所有数据汇集到高收入国家的服务器上，并向全球研究人员授予广泛的访问权限。但这有可能延续一种“数据殖民主义”的模式，即原始资源——在这里是数据——从全球南方被榨取，而分析、发表和职业发展的利益主要积聚在北方。

数据主权为正义提供了一个框架。这意味着中低收入国家的本地合作伙伴保留对其数据如何使用的权力。这意味着要创建本地数据访问委员会，并要求外部研究人员与本地同行合作并帮助其进行能力建设。数据泄露造成伤害的可能性不仅仅是一个抽象的概率；它是一个切实的风险，其严重性 $S$ 深度依赖于具体情境。本地治理机构在理解和减轻这些本地风险方面具有独特优势，例如通过控制数据的访问广度 $A$ 。

挑战在于平衡紧迫的公共利益与这些必要的本地权利。例如，在全球抗击抗菌素耐药性（AMR）的斗争中，快速共享细菌基因组数据对于追踪危险超级细菌的传播至关重要。一个每条数据都被锁在国家孤岛里的世界，将是一个我们所有人都更不安全的世界。解决方案不是在开放和封闭之间做简单选择。相反，数据主权指向了复杂的、分层的治理系统。想象一个全球数据库，其中核心监测数据立即共享，但原始机构被给予一个优先访问窗口，以首先分析自己的数据。一个所有用户都必须注明出处，并且任何商业产品的少量征税都会回流到一个全球基金，用于在贡献数据的地区建设实验室能力的系统。这不是科学的障碍；这是一个可持续和公平的全球科学事业的蓝图。

历史的回响，未来的代码

数据主权的触角甚至延伸到更令人惊讶的领域，将我们的数字现在与遥远的过去以及生命的基石联系起来。

古基因组学，即对古DNA的研究，为人类历史打开了一扇惊人的窗户。然而，提取这些数据的人类遗骸不仅仅是物体；他们是祖先，通常与现存的原住民社区有关。数据主权原则现在正在改变这一领域，使其从“以样本为中心”的方法——即策展人的许可就足够了——转向社区参与的模式。这意味着与后代社区协商，共同设计研究问题，并共同管理由此产生的数据，承认古老骨骼中承载的故事部分属于他们活着的亲属。

在另一个极端是合成生物学。一家公司可能会在原住民的主权土地上的地热喷口中寻找微生物，测序一种独特的酶，并利用该“数字序列信息”（DSI）设计一种新的工业产品。适用于实体微生物的利益共享协议，在其遗传密码上传到数据库的那一刻就消失了吗？国际法正在努力解决这个“DSI漏洞”。但从数据主权的视角来看，答案是明确的。价值源于资源和土地；无论信息形式如何，分享利益的义务都应伴随信息而行。这确保了数千年来管理这些生物资源的社区能够分享21世纪生物经济的成果。

数字世界的主权

最后，数据主权原则帮助我们理解我们数字世界的基础设施本身，远远超出了生物学的范畴。考虑一个“数字孪生”——一个真实世界制造系统的虚拟副本，由源源不断的传感器数据供给。如果公司是美国的，其子公司是德国的，操作员数据存储在欧盟的云端，而机器遥测数据在美国的云端处理，那么谁是负责人？适用谁的法律？

答案并不简单。它不仅仅是服务器所在地的法律（lex loci data），也不仅仅是公司总部的法律。数据主权揭示了一个复杂的、重叠的管辖权织锦。欧盟可能会根据其公民操作员的位置主张管辖权，而美国可能会根据其对母公司的管辖权主张权力。这与“公司治理主权”——即公司为自己设定的内部政策——形成鲜明对比。一个公司不能简单地制定一项政策来凌驾于公法之上；其内部治理从根本上从属于主权国家施加的法律义务网络。这表明数据主权不是特殊情况下的奇特概念；它是在数据无摩擦地跨越国界而法律却非如此的世界里，法律和秩序的一项基本原则。

从我们健康最私密的细节，到我们DNA中的古老回响，再到全球经济的齿轮，数据是连接这一切的线索。数据主权并非要在信息周围筑起高墙，而是要认识到数据中蕴含的人类故事、集体权利和历史背景。它呼吁我们建立一个更深思熟虑、更公正、更值得信赖的数字世界——在这个世界里，我们每个人都有权书写自己的数字故事。