信息流控制

玻尔百科

定义

信息流控制是通过安全格模型管理数据去向来防止信息泄露的机制，其核心目标是实现不干扰性。该技术确保高安全级别的操作不会对低安全级别的用户产生可观测的影响。信息流控制通过静态代码分析或动态污点追踪技术实现，广泛应用于计算机、信息物理系统及生物过程的安全保障。

核心要点

信息流控制通过控制数据能流向何处（而不仅仅是谁可以访问它）来防止泄漏，它使用一种称为安全格的形式化模型。
其核心安全承诺是非干涉，保证高安全级别的操作对低安全级别的用户没有可观察的影响。
在实际系统中，IFC 通过静态代码分析或动态污点跟踪来实现，这些技术在执行期间标记并跟踪敏感数据。
IFC 的原理是普适的，不仅能保障计算机安全，还能保障信息物理系统、生物过程以及数据使用的伦理框架的安全。

引言

在数据成为新货币的时代，确保其安全比以往任何时候都更为关键。传统的安全模型通常关注一个简单的问题：谁被允许访问信息？虽然这种方法至关重要，但它忽略了一个更微妙、更危险的威胁：一旦信息被访问，它能流向何处？一个受信任的用户或一个被攻破的应用程序可能会无意或恶意地将敏感数据泄露到公共渠道，这使得简单的访问控制变得不足。本文通过介绍信息流控制（IFC）来解决这一根本性问题。IFC 是一种强大的范式，它严格地管理信息在整个系统中的传播。

本次探讨分为两部分。首先，在“原理与机制”一节中，我们将深入研究 IFC 背后的精妙理论，揭示安全格的数学精度、非干涉的牢不可破的承诺，以及诸如污点跟踪等将理论付诸实践的现实机制。然后，在“应用与跨学科联系”一节中，我们将跳出计算机的范畴，探索这些相同的原理如何为理解和保护从国家电网和云平台到生命分子机器乃至我们社会治理的伦理规则等一切事物提供一个统一的框架。

原理与机制

想象你是一位艺术家，正在使用两种特殊的墨水。一种是标有“秘密”（Secret）的鲜艳不褪色的红墨水。另一种是标有“公开”（Public）的普通蓝墨水。你可以使用它们，混合它们，用它们绘画。但有一条至关重要的规则：红墨水接触到的任何东西都会永远变成红色。如果你将一支沾满蓝墨水的画笔浸入红墨水罐中，这支画笔现在就变成了红色。如果你将一滴红墨水混入一大桶蓝墨水中，整桶墨水都会变成紫色，并且为了安全起见，我们现在必须将整个混合物视为“秘密”。你再也无法真正地将红色与蓝色分离开来。

这个简单的类比正是信息流控制（IFC）的核心。这是一种思考计算机安全的根本方式，其关注点不在于谁可以访问数据，而在于数据可以流向何处。它是一种自动且严格地执行信息在系统中传播规则的方法，就像我们关于红墨水的规则一样。其目标是构建这样的系统：无论程序多么复杂，对手多么狡猾，秘密信息都绝不会泄露到公共视野中。

保密的语言：安全格

要超越类比，我们需要一种形式化的语言来描述我们的信息“颜色”以及混合它们的规则。这种语言就是安全格。

让我们想象系统中每一份数据——每个文件、每条消息、每个变量——都有一个安全标签。这个标签告诉我们数据的敏感程度。最简单的系统可能只有两个标签，公开（Public）和秘密（Secret）。信息流的基本规则是，数据可以从敏感度较低的位置流向敏感度较高的位置，但反之则不行。我们可以将其写成一个数学关系，一个用符号 $\sqsubseteq$ 表示的偏序关系。因此，对于我们简单的系统，我们有 $\text{Public} \sqsubseteq \text{Secret}$ 。这条规则通常被称为用户的“向上不读”原则和数据的“向下不写”原则：一个公开用户不能读取一个秘密文件，而秘密数据不能被写入一个公开文件。

当然，现实世界的安全策略更为细致。一家公司可能有其工程部门和销售部门的文档。两者并非严格意义上哪个比哪个“更秘密”；它们只是不同。我们需要一个能捕捉这种关系的结构。

考虑一个假设的系统，它有四个安全标签： $\ell_0$ 用于公共数据， $\ell_1$ 用于内部工程数据， $\ell_2$ 用于内部销售数据， $\ell_3$ 用于结合了两个部门信息的高度敏感的管理层数据。信息流的规则可能是：

公共数据可以流向任何地方： $\ell_0 \sqsubseteq \ell_1$ ， $\ell_0 \sqsubseteq \ell_2$ ，并可推导出 $\ell_0 \sqsubseteq \ell_3$ 。
部门数据可以流向管理层级别： $\ell_1 \sqsubseteq \ell_3$ 和 $\ell_2 \sqsubseteq \ell_3$ 。
关键的是，工程数据不能流入销售部门，反之亦然： $\ell_1 \not\sqsubseteq \ell_2$ 和 $\ell_2 \not\sqsubseteq \ell_1$ 。

这组标签和规则形成了一个称为格的数学结构。格的精妙之处在于它为我们提供了一个精确的“混合颜色”规则。如果一个程序需要处理来自两个源的数据，标签分别为 $A$ 和 $B$ ，那么结果的标签是什么？它必须是一个“至少与 $A$ 和 $B$ 一样秘密”的标签。为了在保持安全的同时尽可能宽松，我们选择“最低”的这样一个标签，称为 $A$ 和 $B$ 的最小上界或并运算，记作 $A \sqcup B$ 。在我们的例子中，如果一份管理层报告结合了工程数据（ $\ell_1$ ）和销售数据（ $\ell_2$ ），那么生成的报告必须具有标签 $\ell_1 \sqcup \ell_2 = \ell_3$ 。

这个模型极其强大。我们可以创建复杂的多维度安全标签。例如，一个标签可以是一个序对：(保密级别, {类别集合})。一个文件可能被标记为 $(L_1, \{\mathrm{ENG}, \mathrm{SAL}\})$ ，表示它具有中等保密级别（ $L_1$ ），并且工程和销售部门都可以访问。并运算变得非常直观： $(\ell_a, K_a) \sqcup (\ell_b, K_b) = (\max\{\ell_a, \ell_b\}, K_a \cup K_b)$ 混合两份数据会产生一份新数据，其保密级别是两者中最高的，类别是两者的并集。这完美地体现了我们“红墨水”规则的数学形式。

不可违背的承诺：非干涉

有了格来提供规则，我们试图实现的最终安全承诺是什么？它是一个深刻而优雅的概念，称为非干涉。

简单来说，非干涉指出高安全级别用户执行的操作不应对低安全级别用户产生任何可观察的影响。一个登录到秘密终端的用户，不应该能以任何方式影响一个在公开终端的用户所看到的内容。从公开用户的角度看，秘密世界和公开世界是完全分离的。它们互不干涉。

格如何帮助我们实现这一点？让我们将程序中的信息流可视化为一个有向图，其中从节点 $u$ 到节点 $v$ 的一条边表示信息被允许从 $u$ 流向 $v$ 。如果我们有一个高（High）安全分区和低（Low）安全分区的系统，非干涉当且仅当该图中不存在任何从高顶点开始到低顶点结束的路径时才能得到保障。“向下不写”策略正是防止此类边创建的原因。

这为我们提供了一种强大、可操作的方式来思考安全问题。想象一个系统中，不知何故存在一条从高到低的路径。安全就被破坏了。如果我们能识别并移除构成这条路径的边（即，撤销权限），我们就可以恢复非干涉。安全问题变成了一个图可达性问题。

从蓝图到现实：在实践中执行

拥有优美的理论是一回事；构建一个能执行它的真实系统是另一回事。操作系统或编程语言实际上是如何实现这些思想的呢？主要有两种方法。

第一种是静态分析，即在程序运行之前分析其源代码。一个具有安全意识的编译器可以构建一个数据流图，并检查任何执行是否可能导致违规，比如在我们之前的例子中，信息从一个标记为 $\ell_3$ 的变量流向一个标记为 $\ell_2$ 的变量。这就像在发布文件前对其进行安全缺陷的校对。

第二种更动态的方法是污点跟踪，这是 IFC 的实际应用。在这里，系统在程序运行时对其进行监视。这对于我们可能运行不完全信任的代码的现代系统至关重要。想象一个操作系统试图阻止恶意软件窃取你的个人文件。

它的工作原理如下：

标记源：操作系统将某些文件标记为敏感（例如，你的地址簿获得一个敏感污点）。
传播：当一个进程从一个敏感文件读取数据时，该进程本身也变得“被污染”。进程的安全标签会通过取其当前标签与刚读取数据标签的并运算来动态更新。
检查汇：在允许该进程执行一个可能泄漏信息的动作（一个“汇”）之前，比如通过网络发送数据，操作系统会检查其污点。如果该进程被敏感污点污染，而网络套接字是一个公开信道，则写入操作将被阻止。

这听起来很完美，但有一个问题：性能。跟踪计算机内存中每个字节的安全标签将带来天文数字般的开销，这个问题被称为状态爆炸。实际系统必须做出巧妙的近似。它们可能不会为每个字节都打上标签，而是为每个进程、每个内核对象（如文件或网络连接）跟踪一个标签。这是一个绝佳的工程权衡：我们牺牲一些精度来获得一个既足够安全又足够快以至于可用的系统。这种选择——标记底层的内核对象而不是像文件描述符这样的临时句柄——对于确保安全信息在进程间和时间上持续存在至关重要。

机器中的幽灵：隐式信道与隐蔽信道

到目前为止，我们一直关注显式流，例如直接赋值 public_var = secret_var。但信息是狡猾的；它能找到其他传播途径。

考虑一个隐式流： if (secret_bit == 1) { public_var = 1; } else { public_var = 0; }

这里没有从 secret_bit到 public_var的直接赋值，但 public_var的最终值完美地揭示了秘密。一个真正安全的系统必须能够检测并防止此类泄漏。

泄漏甚至可以变得更加离奇。一个恶意程序可以通过交替让CPU努力工作或保持空闲来发出“1”或“0”的信号，而其共谋程序则测量系统的温度。这些被称为隐蔽信道，它们利用任何共享资源——时间、磁盘空间、功耗——来绕过安全监控器偷运信息。

即使是程序崩溃的行为也可能成为一个信息信道。假设一个编译器正在优化一个程序，并决定为了效率重新排序指令。如果它将一个可能导致崩溃的操作，比如除以一个高安全级别的变量，提前执行，这可能会改变后续对一个低安全级别变量的写入是否发生。通过观察这个低安全级别变量是否被更新，攻击者可以推断出关于高安全级别变量的一些信息。这是一个终止信道。这一发现导致了更强的安全定义，如终止敏感非干涉（TSNI），并迫使我们设计的编译器不仅要正确，还要安全。安全与编译器分析之间的深层联系是一个充满深邃之美的领域，其中像 pruned SSA 这样的优化可以通过证明它们没有丢弃安全跟踪所需的信息来被证明是安全的。

堤坝决口时：遏制而非治愈

当我们尽了最大努力，但仍然犯错时会发生什么？一个用户被授予访问一个秘密文件的权限，他读取了文件，然后我们才意识到权限是错误授予的。信息已经流动了。我们能把精灵放回瓶子里吗？

坦率地说，不能。你无法从进程的内存中抹去信息，更不用说从用户的头脑中了。信息流的时间之箭是单向的。

但并非一切都无可挽回。虽然我们无法治愈最初的泄漏，但我们可以遏制损害。在发现错误的那一刻，我们可以利用 IFC 的相同原理来阻止泄漏的蔓延。策略既简单又优雅：我们动态地提高读取了该文件的进程的安全标签。我们告诉系统：“这个进程接触了秘密数据，所以从这一刻起，这个进程本身就是秘密的。”

它的新标签成为其旧标签与它不当访问的数据标签的并运算结果。从那时起，标准的 IFC 规则将适用于这个新的、更高的标签。该进程将被阻止将其受污染的知识写入任何公共文件或网络通道。我们无法撤销过去，但我们可以保障未来。这种追溯性遏制行为，再加上勤奋的审计日志记录，将 IFC 从一个预防工具转变为一个强大的事件响应机制，让我们能够以数学的优雅来管理复杂系统中不可避免的缺陷。

应用与跨学科联系

在我们迄今的旅程中，我们探索了信息流控制的优雅原理，了解了我们如何形式化地推理数据在系统中穿行的路径。我们构建了一个优美的数学格，并确立了非干涉的强大思想。但这一切是为了什么？它仅仅是计算机科学家和数学家的抽象练习吗？远非如此。

信息流控制的原理并不仅限于形式化证明的无菌环境。它们是编织我们现代技术世界之布的无形丝线，确保着安全、稳定乃至公平。一旦你学会了如何看待它们，你就会开始发现它们无处不在——从微处理器的最深处到治理我们社会的伦理框架，甚至在生命的基本过程中。现在，让我们开始一次对这些应用的巡礼，并在此过程中，见证这个单一而强大的思想所展现出的非凡统一性。

数字堡垒：保护我们的计算机

最自然的起点是你桌上的电脑。你使用它的每一刻，你都在参与一场复杂的信息流之舞，这场舞蹈由操作系统编排。

想象一下像从安全文档中复制文本并将其粘贴到聊天窗口这样简单的事情。你，作为用户，授权了这次流动。但如果你粘贴到的聊天程序并不完全值得信赖呢？如果它已被攻破，并正在秘密地试图窃取不仅仅是粘贴的文本，还有源文档中的其他机密数据呢？

一个简单的权限系统，仅仅询问“这个程序有权读取剪贴板吗？”，是完全不够的。一旦数据被读取，这样的系统就对此事洗手不理了。它没有记忆，也无法控制接下来发生什么。这正是信息流控制真正力量的闪光之处。一个复杂的操作系统可以做得更好。通过在数据被复制时附上一个“污点”或安全标签——比如说，高保密性——系统可以强制执行一条基本规则：高级别信息永远不能流向低级别目的地。当这个不值得信赖的聊天程序试图将这些被污染的数据发送到网络（一个低级别汇点）时，作为警惕守护者的操作系统可以简单地拒绝该请求。

同样的原则让我们能够构建安全的协作环境。考虑一个大学实验室，共享一个研究数据集。实验室里的每个人都应该能够读取数据进行分析，但任何人都不能将其泄露到实验室网络之外——除了有权导出的首席研究员。同样，简单的读/写权限会失败。一个研究员可以合法地将数据读入一个程序，然后让该程序将其写入外部服务器。为了防止这种情况，系统需要一个强制访问控制（MAC）策略。数据被标记为实验室秘密，研究员的程序运行在一个可以读取实验室秘密但被禁止写入任何网络套接字或USB驱动器的域中。只有一个特殊程序，只有首席研究员才能使用，运行在不受此限制的域中。系统不再仅仅是守护文件；它正在守护信息本身，无论它流向何处。

你可能会认为这种守护止步于操作系统，但这个兔子洞还要更深。用于构建软件的工具本身——编译器——可以是沉默的哨兵。在现代编程语言中，函数可以捕获其周围环境中的变量。这是一个极其强大的特性，但也可能造成微妙的信息泄露。在安全模块中定义的函数可能会捕获一个私钥，如果该函数被传递给一个安全性较低的模块，调用它可能会无意中泄露密钥。如何防止这种情况？通过教会编译器有关信息流的知识。一个具有安全意识的编译器可以使用类型系统来跟踪数据的敏感性，静态地证明一个秘密值永远不会“流”入一个导出到公共领域的函数中。

这个原则延伸到了最基本的硬件层面。编译器的任务是将我们的抽象代码转换成具体的指令，包括决定哪些临时值放入哪些物理处理器寄存器。一个聪明的编译器可能会注意到，一个秘密值 s 和一个公共值 p 从不同时需要，并决定为两者使用相同的物理寄存器以节省空间。但是，如果寄存器在被覆盖后保留了秘密值的一些“记忆”，一种微弱的电子残留呢？这种被称为数据残留的微架构侧信道，可能允许后续对公共值的操作泄露关于先前秘密的信息。解决方案再次是信息流控制。我们可以告诉编译器将寄存器划分为一个“秘密”集合和一个“公共”集合，或者在其分配算法中添加规则，禁止单个寄存器用于不同安全级别的变量。信息流的控制一直延伸到硬件层面。

编排复杂性：设计大规模系统

看过了信息流在单台计算机内部是如何管理的，让我们把视野放大。同样的原则对于编排运行我们现代世界的庞大、互联的系统至关重要。

考虑一个国家电网，一个典型的信息物理系统（CPS）。它是在发电机、变压器和输电线路的物理层与传感器、通信网络和控制中心的网络层之间的一场精妙舞蹈。信息——例如来自相量测量单元（PMU）的电压和频率测量值——从物理电网流入网络层。在这里，电网的“数字孪生”可能会分析这些数据，预测不稳定性，并计算出最佳响应。然后，控制信息——驱动指令——流回物理层，调整发电机输出或切换传输路径以维持稳定。这种信息的可靠、安全和及时流动是电网的生命线。这种流动的任何中断，无论是由于延迟还是网络攻击，都可能导致灾难性的停电。

这些大型系统的架构本身就是信息流控制的一种实践。例如，现代云平台通常采用三平面架构设计：

数据平面：处理来自设备的实时数据的“快速路径”。
控制平面：配置、扩展和编排数据平面的“大脑”。
管理平面：用于设置策略、管理用户和部署更新的管理界面。

为什么要这样分离？这完全是为了通过控制信息流来限制故障或妥协的“爆炸半径”。通过在这些平面之间创建严格、明确定义的信息流通道，我们确保了单个数据平面组件（最暴露的部分）的安全漏洞不会轻易传播到高度特权的控制或管理平面。这种架构上的分离是我们之前在单个进程和寄存器层面看到的非干涉原则的高层实例化。这不仅仅是在网络中构建防火墙，而是在系统逻辑本身中构建防火墙。从这个角度看，我们甚至可以通过信息流的视角来看待系统安全。分析复杂系统中的“最小割集”——能够导致灾难的最小组件故障组合——等同于识别“妥协流”或“不安全指令流”可以传播的关键路径 ([@problem_sds:4250684])。

超越机器：生物与人类系统中的信息流

也许最深刻的认识是，信息流控制是一个普适原则，远远超出了工程系统的范畴。事实证明，自然界是最初的信息流架构师。

分子生物学的中心法则——遗传信息从DNA流向RNA再到蛋白质——是信息流控制的终极陈述。DNA分子中的核苷酸序列被转录成RNA分子中的互补序列。然后，这个RNA通过遗传密码被翻译成形成蛋白质的氨基酸序列。中心法则所禁止的是序列信息的反向流动：蛋白质的氨基酸序列不能用作合成新的RNA或DNA分子的模板。这并不是说蛋白质不能影响DNA；它们当然可以！转录因子是一种与DNA结合并调节基因表达速率的蛋白质。但这是“生化因果关系”，而不是“序列信息传递”。蛋白质是作为催化剂或开关，而不是模板。指定产物序列的信息仍然来自DNA本身。这个微妙但关键的区别正是信息流控制的核心：影响一个过程和指定其信息内容之间的差异。

这种将影响与信息内容分开的思想，在我们的人类系统中找到了强烈的共鸣，尤其是在治理和伦理领域。

考虑一项针对新药的大规模、双盲临床试验。试验的完整性——以及未来患者的安全——取决于防止偏见。比较新药与标准疗法的期中结果是高度敏感的。如果赞助公司或参与的医生看到这些非盲数据，可能会有意识或无意识地影响他们如何招募新患者、治疗现有患者或评估结果，从而使试验无效。解决方案是一个精心设计的人员和流程驱动的信息流控制系统。一个独立的数据监察委员会（DMC）是唯一能看到非盲数据的机构。他们向赞助方传达的信息被限制在简单的、预先指定的建议上：“继续试验”、“因压倒性疗效而终止”或“因安全问题而终止”。他们不分享实际数字。一个健全的治理章程充当了系统的“安全策略”，创建了一道防火墙，保护试验的科学完整性免受过早信息的腐蚀性影响。

这把我们引向一个最终的、复杂的概念：情境完整性。在我们相互连接的世界中，“同意”这个简单的想法通常不足以管理我们数据的使用。一家智能工厂与其保险提供商共享其机器的原始振动数据，以实现动态保费定价，这是否合适？也许工厂所有者同意，但这种流动是否违反了其他规范？情境完整性提出，信息流的适当性不仅取决于同意，还取决于其是否符合特定情境下关于参与者、属性和目的的规范。数据流受到社会情境的共同理解所支配。这是将信息流控制提升到伦理和社会治理层面的体现。

从你屏幕上的剪贴板，到你使用的云服务，再到照亮你家的电网；从你细胞中的分子机器，到束缚我们社会的伦理契约——原理都是相同的。要构建安全、可靠、公平的系统，我们必须理解并掌握信息的流动。归根结底，它是科学和工程中最基本、最统一的概念之一。当我们分析复杂系统为何失败时，我们常常发现问题在于一个被破坏或被误解的信息流。有时，根本原因分析中最重要的一步是认识到“信息流”本身必须成为一个主要的调查类别，与人员、程序或设备一样基本。