
在日常生活中,信息似乎脆弱且易于丢失——一个被删除的文件、一段被遗忘的记忆、一个炒熟的鸡蛋。然而,物理学的一项基本原理表明,信息从未被真正销毁,只是被重新排列。这个明显的矛盾引出了一个深刻的问题:如果宇宙是一个完美的记录员,为什么信息丢失的感觉如此普遍?本文旨在通过探索信息的物理实在性及其支配法则来弥合这一差距。我们将揭示可逆性和熵等抽象概念如何产生具体的影响。这段旅程始于“原理与机制”一章,我们将在此剖析信息守恒的数学和物理基础。随后,我们将在“应用与跨学科联系”一章中看到这些原理在不同领域的实际应用,揭示信息流如何塑造从数字技术、人工智能到生命密码的万事万物。
想象一下,你写了一条秘密信息,将其封入信封,然后将信封烧成灰烬。信息被销毁了吗?还是它以某种极其复杂的方式,仍然编码在烟雾颗粒的运动、辐射出去的热量以及灰烬的精确化学成分中?这个问题以各种形式出现,是整个科学领域最深刻的问题之一。它触及一个基本原理:信息守恒。在这种观点下,宇宙是一个一丝不苟的记账员,它从不真正丢失任何记录。但如果真是这样,为什么我们总感觉信息在不断丢失?为什么我们无法让炒熟的鸡蛋复原,或从格式化的硬盘中恢复已删除的文件?
为了探索这一点,我们必须踏上一段旅程,从纯粹、抽象的数学世界开始,一直走向黑洞的混沌前沿。我们将看到,信息不仅仅是一个概念,它是一个具有物理后果的物理量。
信息守恒的核心在于可逆性。如果你能将一个过程逆向运行并完美地恢复到起点,那么信息就没有丢失。如果不能,信息就已被擦除。
考虑一个简单的数学运算。如果你取一个数 并加上5,你得到 。有信息丢失吗?没有,因为你总能通过减去5来逆转这个过程:。这个映射是一一对应的。那么,如果操作是 呢?如果我告诉你 ,你能告诉我 是什么吗?它可能是3,也可能是-3。这个映射不再是一一对应的,一个比特的信息——原始数字的符号——已经不可逆地丢失了。
这个原理可以延伸到远为复杂的变换。在热力学中,一个简单系统的全部状态可以用一个关于其内能 的方程来描述,该内能取决于其熵 和体积 。然而,在实验中,熵和体积可能难以控制,控制温度 和压强 往往更容易。物理学家使用一种优美的数学工具,称为勒让德变换,来转换变量,从而创建一个新的函数,如吉布斯自由能 。表面上看,我们似乎丢失了关于 和 的信息。但真的如此吗?勒让德变换的奇妙之处在于它是完全可逆的。正如你可以从 的导数得到 和 一样,你也可以从 的导数中恢复它们。信息并未消失,只是被重新包装成一种新的、更方便的形式。账本是平衡的。
现在,让我们看看另一面。想象一下,你在一家科技公司工作,试图将3D数据压缩成2D格式。你想创建一个从 到 的线性变换。你的老板有两个要求:第一,任何两个不同的3D向量都不能映射到同一个2D向量(这被称为单射,意味着没有信息丢失)。第二,每个可能的2D向量都必须是一个潜在的输出(这被称为满射,以确保你使用了整个压缩空间)。你能同时满足这两个要求吗?线性代数中的一个基本定理——秩-零度定理——给出了一个明确的“不!”。该定理指出,对于一个从维度为 的空间到维度为 的空间的变换,。对于你从 到 的映射,这意味着 。要成为满射(覆盖所有 ),秩必须为2。但这迫使零度为1。零度为1意味着有一整条线上的输入向量都被压扁到输出空间中的零向量。该变换不是单射的,信息不可避免地会丢失。这不是工程上的失败,而是一个数学上的必然。将一个高维现实挤压到一个低维表示中,总会留下一些东西。
如果信息可以丢失,我们能衡量丢失了多少吗?可以,而用于此的工具是香农熵。在20世纪40年代,信息论之父 Claude Shannon 将熵定义为衡量惊奇度或不确定性的指标,而非物理上的无序度。如果一枚硬币被加权以至于总能正面朝上,那么结果是确定的,惊奇度为零,熵也为零。如果是一枚公平的硬币,你对结果的不确定性最大,熵也达到最大值(对于一个双结果系统):1比特。
让我们来看一个实际例子。假设一个系统可以处于五种状态之一,,每种状态都有一定的概率。我们可以计算这个系统的总香农熵,称之为 。现在,想象一下我们的测量设备有故障,它只能读取状态的绝对值 。状态-1和1都被映射到输出1。状态-2和2都被映射到2。如果你的设备读数为“1”,你将无法确定原始状态是-1还是1。你对原始状态的不确定性增加了。
测量 之后,我们仍然拥有的关于 的信息比开始时要少。输出的熵 将小于输入的熵 。在这个测量过程中丢失的精确信息量就是两者的差值:。这是信息论的基石之一,并被数据处理不等式所形式化。该不等式指出,如果你有一系列事件,比如信号 通过一个中继变成 ,然后被处理成 ,你永远无法获得关于原始信号的更多信息。信源和处理后信号之间的互信息只会减少:。处理的每一步、每个噪声信道、每次不完美的测量都会削弱原始信息,如同回声渐弱至寂静。
到目前为止,我们一直将信息视为一个抽象量。但在20世纪60年代,Rolf Landauer 建立了一个革命性的联系:信息是物理的。他提出了现在被称为Landauer 原理的观点,即任何逻辑上不可逆的信息操作,例如擦除一个比特,都必须伴随着系统中不携带信息的自由度的相应熵增。通俗地说:要遗忘某些东西,宇宙必须付出代价,而这个代价就是热量。
想象一个不可逆的逻辑门,一个微小的计算元件,它接收一个3比特的输入并产生一个2比特的输出。因为它将8种可能的输入状态()映射到仅4种可能的输出状态(),所以它本质上是不可逆的。通常情况下,你无法仅通过观察输出来知道输入。这种信息擦除的行为——在这个具体案例中,每次操作平均损失1.5比特——有一个最低的物理成本。该设备每擦除一比特信息,就必须耗散至少等于 的热量,其中 是玻尔兹曼常数, 是温度。
这是一个极其深刻的思想。它告诉我们,一台完美的、可逆的计算机原则上可以在零热耗散的情况下运行。我们笔记本电脑和智能手机产生的热量不仅仅是电阻的副产品;在根本层面上,它是内部发生的所有不可逆计算——所有“遗忘”行为——的热力学代价。你键盘上的 DELETE 键在物理上与热力学第二定律相连。
有了这些原理作为武器,我们现在可以审视混乱的现实世界。这些思想在数据科学、工程学和自然界中是如何体现的呢?
当你使用主成分分析(PCA)来压缩一个大型数据集——比如一系列高分辨率图像——你是在有意地丢弃信息以节省空间。PCA 找到数据中方差最大的方向(“主成分”)并保留它们,同时丢弃方差最小的方向。被丢弃的方向形成一个子空间,在数学上称为压缩表示的零空间。信号中任何位于此零空间的部分在压缩过程中都会被彻底丢失;在简化模型中,这些方向上的方差被设为零。这个零空间的维度数 (其中你从 个原始维度中保留了 个),直接量化了你从数据中擦除的“自由度”。
但信息丢失不仅仅是无法重构原始数据,它还意味着失去了从数据中进行推断的能力。假设你有一个连续信号,比如来自传感器的电压读数,它遵循一个平均值 未知的高斯分布。你估计 的精确度由一个称为费雪信息的量来捕捉。现在,想象你必须量化这个信号,根据它是否高于或低于一个阈值将其转换为简单的0或1。这是极端的数据压缩。这对你估计 的能力有多大影响?一个优美的计算表明,即使你完美地选择阈值以最大化保留的费雪信息,你也只能保留原始信息的 。为了将数据压缩成一个比特,你永久地牺牲了超过三分之一的、用于了解其背后生成过程的能力。
也许信息丢失最令人惊讶的舞台是在混沌系统中。想想天气预报。这些系统是完全决定性的:如果你现在知道大气的确切状态,原则上你可以永远完美地预测天气。关键在于“确切”这个词。在混沌系统中,任何两个无限接近的初始状态都会以指数速度迅速分离。这就是著名的“蝴蝶效应”。这种分离的速度由李雅普诺夫指数来衡量。一个正的李雅普诺夫指数是混沌的标志。这与信息有什么关系?随着系统的演化,你最初的测量,尽管其不确定性微小但不可避免,会变得毫无用处。系统的状态可能位于可能性范围内的任何地方。Pesin 恒等式提供了一个惊人的联系:关于系统初始状态的信息丢失率,恰好等于其所有正李雅普诺夫指数之和。尽管系统本身是决定性的,不丢失任何信息,但我们关于它的知识却以可量化的速率蒸发。
我们的旅程终结于终极前沿,即信息与引力相遇之处。根据著名的“无毛”定理,黑洞惊人地简单。无论你向其中投入什么——一颗恒星、一座图书馆、一部百科全书——最终留下的黑洞仅由三个数字来表征:它的质量、电荷和角动量。所有其他信息,即所有的“毛发”,似乎都在事件视界之后消失了。
但是宇宙的记账员是一丝不苟的。Jacob Bekenstein 和 Stephen Hawking 指出,黑洞拥有巨大的熵,其大小与事件视界的面积成正比。当一颗零熵的恒星(一个纯量子态)坍缩成黑洞时,它获得了惊人数量的熵。这个熵可以被看作是所有对我们隐藏的信息的度量。信息并未被摧毁,它被锁在了一个宇宙保险箱里。
这引出了黑洞信息悖论。Hawking 发现黑洞并非完全是黑的;它们通过发射热辐射而缓慢蒸发。这种辐射是随机的,不携带任何关于掉入物质的信息。那么,当黑洞完全蒸发时会发生什么?所有被锁在里面的信息现在是否真的、最终消失了?如果真是这样,它将违反幺正性,即信息必须守恒的量子力学定律。这是现代物理学中最深刻的未解冲突之一。
这场冲突凸显了为什么物理学家对裸奇点——即未被事件视界包裹的奇点——的可能性深感不安。如果一个奇点暴露在宇宙中,它将成为物理定律失效的地方。你可以将一个处于纯量子态的粒子扔进去,由于其演化是未定义的,出来的可能是一个随机的热力学混乱状态(一个“混合态”)。这将是对幺正演化的公然、无可否认的违反。我们的理论似乎通过宇宙监督猜想禁止这类物体的存在,这一事实可以被看作是自然界保护其最基本法则的方式:账本必须永远平衡,而信息,无论如何,都必须守恒。
我们花了一些时间探讨信息的基本原理、如何测量它以及它似乎遵循的规则。但这一切究竟是为了什么?这仅仅是一段优美的抽象数学,还是它告诉了我们关于我们所居住的世界一些深刻的东西?事实证明,信息守恒和丢失的概念并不仅限于理论家的黑板。它们是一种普适的通货,通过追踪它们的流动,我们可以对从屏幕上的图片到生命本身的结构等一切事物获得更深的理解。
让我们踏上一段穿越科学和工程不同领域的旅程,你将看到这个单一的、统一的思想一次又一次地出现,每次都以新的面貌,但总是揭示一些本质性的东西。
也许我们最熟悉的信息丢失场景出现在我们的日常数字生活中。想象一张惊艳的高分辨率照片。它所捕捉的“真实世界”实际上拥有无限多的细节。当相机的传感器捕捉到这个场景时,它执行了信息丢失的第一步,将一个连续的现实转换成一个有限的像素网格。但过程并未就此停止。为了使图像文件足够小以便通过电子邮件发送或在线发布,我们对其进行压缩,通常采用像JPEG这样的格式。
这种压缩是一种明确的丢弃信息的行为。专业相机可能会用高精度的浮点数(使用24甚至32比特数据)来存储每个像素中每种颜色的亮度。然而,标准的JPEG格式仅用个整数级中的一个来粗略近似这个亮度。这种差异是惊人的。对于每一个像素,我们都丢弃了大量的精妙之处——在典型情况下,这相当于损失了16比特的精度。你是在用保真度换取便利性。
人们可能会想象一种“无损”压缩器,它不会丢弃任何东西。在这里,我们对信息的直觉可以通过物理学的语言得到极好的提炼。我们可以将信息流想象成流过管道的流体。让我们定义一个“信息密度” ,作为单位长度上的信息量。无损压缩器就像管道中的一个收缩部:流体加速,其密度改变,但每秒通过任何一点的总流体量是守恒的。其支配原理是一个守恒定律,与物理学中用来描述质量或能量流动的定律完全一样:,其中 是信息流的速度。没有信息被创造或毁灭。另一方面,有损压缩器就像一根有漏洞的管道。信息被主动且不可恢复地丢弃,这个过程由一个带有“汇项”的方程来描述:,其中 是信息丢失的速率。这个优美的类比表明,守恒定律的严谨数学同样可以应用于抽象信息的流动,就像应用于物理物质的流动一样。
这种为实现目标而故意丢弃信息的思想,正是现代人工智能的核心。当我们训练一个神经网络时,我们常常迫使数据通过一个计算“瓶颈”。例如,在处理图像的网络中,所谓的卷积可以用来减少特征图中的通道数,比如从384减少到64。在每个空间位置,这都是一个从高维空间到低维空间的线性变换。根据基础线性代数,我们知道这样的映射不可能是单射的;它必须有一个零空间。它必须丢失信息。我们为什么要这样做?为了迫使网络学习一种更高效的表示——去判断什么是信号,什么是噪声,并只保留信号。同样,在自编码器中,我们可能会使用“步进卷积”来对图像进行降采样。这是另一种形式的信息丢失。我们丢弃的信息的维度可以通过编码矩阵的零度来精确量化。随着步幅的增加,丢失的信息越多,重构原始信号的任务就变得越困难、越不稳定。从某种意义上说,设计人工智能的艺术,就是管理信息丢失的艺术。
信息丢失与守恒之舞并不仅限于我们在计算机内部构建的人工世界;它对于我们如何观察和模拟自然世界至关重要。
考虑模拟湍流——流体混沌、旋转运动——的挑战。在“直接数值模拟”(DNS)中捕捉每一个细小的涡流和漩涡,其计算量是巨大的,堪比用原子级分辨率拍摄世界。一种更实用的方法是“大涡模拟”(LES),其概念上与图像压缩相同。我们对流体动力学的控制方程应用一个滤波器,故意模糊我们的视野,并丢弃所有关于小尺度涡流的信息。但这些小涡流包含能量,它们的影响并不会就此消失。它们会反馈到我们试图建模的大尺度运动上。LES的核心问题是建立一个“亚格子尺度”模型,以解释我们丢弃的信息所产生的影响。通过使用一个简化但强大的数学类比来描述湍流场,我们可以利用信息论的工具,如微分熵,来精确量化因滤波器而丢失的信息“比特”数。更妙的是,这个框架允许我们推导出一个最优模型,该模型在给定我们对大尺度情况的了解下,能最小化关于小尺度的剩余不确定性。
当我们从现实世界收集数据时,也会遇到这个挑战。通常,我们的仪器并不完美。我们可能无法测量一个量的确切值,而只能确定它落在某个区间内。这种数据的“分组”或“分箱”是一种信息丢失形式。这对我们从事科学研究的能力有何影响?统计学中一个强大的概念——费雪信息——给了我们答案。费雪信息衡量一组数据告诉我们多少关于我们想要估计的未知参数的信息。通过将数据粗化到箱中,我们减少了费雪信息,这意味着我们做出的任何估计都将天生更不确定。该理论允许我们推导出这种信息损失的精确公式,将测量的物理行为与知识的抽象极限联系起来。另一种同样强大的看待这个问题的方式是通过互信息的视角。通过离散化一个连续变量,我们减少了它与其他相关变量共享的互信息,而这种减少正是过程中信息丢失的直接量化。
在生命这个舞台上,信息的故事最为戏剧化。从核心上讲,生物学是研究信息如何被存储、传递和处理的学科。
生命的宏伟蓝图是用DNA的语言书写的。DNA复制过程为下一代复制这份蓝图,是一个保真度高到几乎难以想象的通信信道。但它并非完美。错误,即突变,确实会发生,尽管其速率极低,大约是每复制十亿个碱基出现一个错误。我们可以将这个过程建模为一个噪声信道,并计算一轮复制过程中的平均信息损失。这个数字微不足道,大约为每碱基比特,但它不为零。这种微小而持续的信息流失是遗传变异的源泉,是自然选择作用的原材料。
信息不仅在传递中丢失,在翻译中也会丢失。中心法则告诉我们,DNA被转录成RNA,然后被翻译成蛋白质。支配这一翻译过程的遗传密码是“简并的”——有64种可能的三字母“密码子”,但只有20种氨基酸。这意味着多个不同的密码子可以指定同一种氨基酸(例如,CUU和CUC都编码亮氨酸)。翻译过程是一个多对一的映射,它本质上是有损的。当我们在蛋白质中看到一个亮氨酸时,我们无法确定是哪个密码子用来制造它的。这种信息损失,我们可以精确地计算为条件熵,在一个简化的分布模型下,每个氨基酸大约损失1.4比特。这不是系统的缺陷,而是一个特性,提供了鲁棒性和效率。
但故事并未止于DNA近乎永久的记录。生命还采用了另一个更短暂的信息系统:表观基因组。对组蛋白(DNA缠绕其上)的修饰可以控制哪些基因被开启或关闭。这种“表观遗传记忆”也通过细胞分裂传递下去,但它远不如DNA序列本身稳定。DNA复制的错误率约为,而维持一个表观遗传标记的错误率可高达。我们可以将这种信息的稳定性建模为一个指数衰减过程,甚至计算其“半衰期”,可能只有几次细胞分裂。
生命为何会使用这样一个“有泄漏的”信息信道?因为它允许快速适应。生物体可以通过改变其基因表达模式(通过表观遗传标记)来应对暂时的环境变化——如饥荒、温度变化。当环境恢复正常时,这种表观遗传记忆可以被擦除,而无需改变底层基因组中宝贵且来之不易的信息。这是一个稳定的、长期的硬盘(DNA)和一个易失性、可重写的RAM(表观基因组)的完美结合。
最终,正是这些不同层次的信息处理促成了伟大的进化飞跃,例如多细胞生物的出现。一个单一的基因组必须以某种方式协调数百种不同细胞类型的发育,每种细胞都具有稳定的特性。这一壮举不是通过增加更多基因来完成的,而是通过进化出复杂的基因调控网络(GRN)。GRN是在基因组硬件上运行的“软件”——一个复杂的相互作用网络,它能利用有限数量的基因,通过组合逻辑,生成一个巨大的可能稳定状态空间。正是GRN让生命能够增加其复杂性,用相同的基本组件构建出新的个体性层次,展示了信息不仅可以通过写入新数据来创造,还可以通过在现有数据之间建立新关系来创造。
从保存一张数码照片的平凡行为到宏大的进化织锦,信息守恒和丢失的原理是一条恒久不变、贯穿始终的主线。追踪这种无形的通货,揭示了塑造我们技术、科学乃至我们自身存在的巧妙权衡和深刻设计。