冯·诺依曼架构：现代计算的基础及其瓶颈

玻尔百科

定义

冯·诺依曼架构：现代计算的基础及其瓶颈是计算机科学中的一种设计原则，其核心是将指令和数据存储在统一的单一内存中。这种设计实现了计算机的可编程性与灵活性，但由于代码和数据共享内存通路，也产生了被称为“冯·诺依曼瓶颈”的基础性能限制。尽管将代码视为数据支持了强大的自修改程序，但这也引入了深刻的安全漏洞，需要现代系统采用硬件和软件保护措施来加以应对。

核心要点

冯·诺依曼架构的核心原理是将指令和数据存储在单一的统一内存中，从而实现了可编程和灵活的计算机。
这种统一设计造成了“冯·诺依曼瓶颈”，这是一个根本性的性能限制，源于代码和数据共享通往内存的路径。
将代码视为数据使得功能强大的自修改程序成为可能，但也引入了深层次的安全漏洞，需要像 W^X 这样的现代安全措施来防护。
现代系统通过缓存和向量处理来缓解该瓶颈，而未来的架构则探索内存计算和神经形态计算以期超越这一限制。

引言

冯·诺依曼架构几乎是所有现代数字计算机的概念支柱，这一设计原则是如此基础，以至于其影响力常常被视为理所当然。它革命性地提出将程序指令和其处理的数据存储在单一的统一内存中，将计算从一项刻板、专门化的任务转变为我们今天所知的具有通用可编程性的强大工具。然而，这种优雅的简洁性也造成了一个核心悖论：其最大的优点也正是其最显著局限性的根源，即性能瓶颈和安全漏洞。本文旨在探讨这种二元性，全面概述冯·诺依曼模型。第一部分，“原理与机制”，剖析了其核心概念，从自修改代码到臭名昭著的冯·诺依曼瓶颈及其量化。随后，“应用与跨学科联系”部分将审视这些原理如何在机器人和高性能计算等现实世界系统中体现，并探索旨在超越其历史局限性的下一代脑启发和以数据为中心的架构。

原理与机制

在你使用过的几乎每一台计算机的核心——从口袋里的智能手机到支撑互联网的庞大数据中心——都蕴含着一个极其优雅简洁的概念，可以用一句话来概括：指令及其操作的数据一同存储在同一个内存中。这便是冯·诺依曼架构的基石，这一思想将计算从刻板、硬连线的事务转变为我们今天所知的流畅、通用可编程的奇迹。但正如所有深刻的思想一样，其简洁性背后隐藏着一个充满迷人后果的世界，从惊人的能力到根本性的限制。

革命性思想：代码与数据的统一世界

想象一个宏伟的图书馆。在 John von Neumann 和他的同代人之前的时代，这个图书馆会有两个严格分开的部分。在一个部分，你会找到“数据”——小说、历史和百科全书。在另一个完全独立的建筑里，你会找到“指令”——那些不可更改、精装成册的规则手册，一步步地告诉图书管理员如何精确地处理数据。要改变处理流程，你就必须制作一本新的规则手册，这是一项困难而艰苦的任务。

冯·诺依曼架构提出了一个激进的想法：让我们把规则手册和小说放在同一个书架上。一条指令，它告诉处理器该做什么，只不过是另一条信息，另一种比特模式，与它所操作的数据在根本上并无不同。两者都驻留在单一的、统一的内存空间中。处理器，我们不知疲倦的图书管理员，有一个书签，即程序计数器 ( $PC$ )，它只是指向书架上要读取的下一个位置。处理器获取该位置的内容。如果是一条指令，它就执行指令。如果该指令需要获取一些数据，它会被给予另一个书架号以便前往。

这种统一不仅仅是工程上的便利；它触及了计算最深层的基础。在理论层面上，该模型直接映射到单带图灵机的优雅简洁性，其中程序（机器的规则）和其数据都可以编码在同一条纸带上。处理器的 $PC$ 类似于图灵机的读写头，跳转到一条新指令就像将读写头移动到纸带的不同部分。然而，与图灵机读写头顺序的缓慢移动不同，冯·诺依曼架构为我们提供了随机存取存储器 (RAM)，即几乎可以瞬间跳转到任何位置的能力。这一区别至关重要，但代码与数据的内在统一性仍然是一个共同的、强大的原则。

自引用的力量：编写代码的代码

当规则手册只是图书馆里的另一本书时，会发生什么？你可以在里面写字。一份食谱可以包含一个步骤，说：“去食谱#5，把糖的用量从一杯改成两杯。”这就是自修改代码这个令人费解的概念。

因为指令只是数据，一个程序可以包含向内存位置写入新值的指令——而这些位置恰好包含其他指令。考虑一个简单的程序序列：

将一个值加载到寄存器中。
将另一个寄存器的内容 STORE（存储）到步骤1的内存地址。
分支返回到步骤1。

STORE 操作是一个数据写入操作，但其目标是一个持有指令的内存地址。在第一轮执行中，处理器执行原始指令。但 STORE 操作用新的比特模式覆写了那条指令。当程序循环回来时，处理器在毫不知情的情况下，从同一地址获取新的比特，解码它们，并执行一条完全不同的指令。程序在运行中重写了自己。

这种能力虽然引人入胜，却是一把双刃剑。如果一个合法的程序可以修改自己，那么一个恶意的程序也可以。这是一个根本性的安全漏洞。想象一下，一个病毒使用标准的数据写入 STORE 指令，覆写了操作系统的关键部分。为了防范这种情况，软件可能会使用校验和——一种根据代码计算出的独特签名——来定期检查代码是否被篡改。但在一个纯粹的冯·诺依曼系统中，这个校验和存储在哪里？在同一个统一的内存里。一个聪明的病毒可以覆写代码，然后为现在已是恶意的代码重新计算校验和，并用新的校验和覆写旧的。防护措施被解除了，因为防护措施的参照点本身没有受到保护。

为了对抗这个根深蒂固的漏洞，现代系统实现了一个关键的安全原则，称为写异或执行 (W^X) 或数据执行保护 (DEP)。操作系统和硬件协同合作，强制执行一条简单的规则：一个内存页面可以是可写的，或者是可执行的，但绝不能同时两者皆是。这优雅地切断了促成此类攻击的联系，通过强加一种在原始、纯粹的架构概念中不存在的分离来恢复秩序。

巨大的瓶颈：通往内存的单一路径

将代码和数据统一存放在单一内存中，会产生一个深远的物理后果。如果只有一个图书馆，那么通常也只有一条主干道通向它。处理器（CPU）和主内存之间的这条单一路径必须用于每一次往返——无论是 CPU 提取指令（食谱）还是获取数据（配料）。这条共享的通道就是臭名昭著的冯·诺依曼瓶颈。

让我们追踪一条指令的生命周期，例如 LOAD R_d, [R_s]，它将存储在寄存器 $R_s$ 中的内存地址处的数据加载到寄存器 $R_d$ 中。这个过程是一系列离散的步骤，每一步至少需要一个时钟周期：

指令提取：
- 程序计数器 ( $PC$ ) 中的地址被发送到内存地址寄存器 ( $MAR$ )。
- 内存被读取；指令被检索并放入内存数据寄存器 ( $MDR$ )。
- 指令从 $MDR$ 移动到指令寄存器 ( $IR$ ) 进行解码。 $PC$ 递增。
指令执行：
- 源寄存器 ( $R_s$ ) 中的地址被发送到 $MAR$ 。
- 内存被读取；数据被检索并放入 $MDR$ 。
- 数据从 $MDR$ 移动到目标寄存器 ( $R_d$ )。

请注意，提取阶段和执行阶段都需要访问内存。在一个简单的处理器中，这两个阶段必须按顺序发生。当处理器正在使用内存总线获取数据时，它不能同时用它来提取下一条指令。这造成了结构性冒险。任何任务的总时间变成了提取指令所用时间 ( $t_{IF}$ )、访问数据所用时间 ( $t_{MEM}$ ) 和纯粹计算所用时间 ( $t_{EX}$ ) 的简单总和，没有任何重叠的机会：

$t_{\text{loop}} = t_{IF} + t_{MEM} + t_{EX}$

这个方程式是瓶颈的数学表达式。每一字节的数据和每一字节的指令都必须经过同一条拥堵的高速公路，总行程时间是它们各自旅程时间的总和。

量化限制：我们受限于思考还是流量？

这个瓶颈总是个问题吗？不一定。这完全取决于任务的性质。一个对少量数据进行大量计算的程序是计算密集型的；处理器大部分时间都在“思考”，而内存总线则常常闲置。相反，一个对大量数据进行简单操作的程序是内存密集型的；处理器不断地等待数据到达，其强大的计算单元却处于空闲状态。

我们可以用一个简单的类比来说明这一点。冯·诺依曼机器就像一个厨师，他只有一个储藏室，既放食谱也放配料。相比之下，哈佛架构提供了两个独立的储藏室：一个放食谱（指令），一个放配料（数据），各有各的门。如果一项任务需要提取 16 字节的指令和 24 字节的数据，冯·诺依曼厨师需要通过同一扇门跑两趟，耗时与 $16+24=40$ 字节成正比。哈佛厨师可以同时派助手去每个储藏室；总时间仅受限于两次行程中较长的一次，与 $\max(16, 24) = 24$ 字节成正比。在这种情况下，拥有独立的路径带来了显著的速度提升。这正是为什么现代 CPU 虽然在系统层面概念上是冯·诺依曼架构，但在处理器核心旁却实现了带有独立指令和数据缓存的哈佛式缓存层次结构。

为了专业地分析这种权衡，我们使用一个强大的工具，称为屋顶线模型 (Roofline model)。其核心思想是定义一个计算核心的运算强度 ( $I_{\text{op}}$ )，即执行的算术运算次数与从内存移动的数据字节数之比 ( $\text{FLOPs/byte}$ )。高强度意味着每字节数据有大量计算，而低强度则意味着少量计算伴随着大量数据流量。可实现的性能 ( $P$ ) 则受限于两个极限中的较小者：处理器的峰值计算速率 ( $P_{\text{peak}}$ ) 和内存系统供应数据的速率，后者是内存带宽 ( $BW$ ) 乘以运算强度。

$P \le \min(P_{\text{peak}}, I_{\text{op}} \cdot BW)$

对于一个峰值性能为 $2$ TFLOP/s、内存带宽为 $100$ GB/s 的处理器，一个运算强度仅为 $1$ FLOP/byte 的低强度核心，其性能瓶颈将不是处理器的速度，而是内存流量： $P \le \min(2000 \text{ GFLOP/s}, 100 \text{ GB/s} \times 1 \text{ FLOP/byte}) = 100 \text{ GFLOP/s}$ 。这台机器只能达到其理论峰值性能的 5%，因为它缺乏数据——这是对冯·诺依曼瓶颈作用的一个鲜明、量化的度量。在对点积这样的简单算法进行建模时也能看到这一点，其总时间是内存传输时间和算术运算时间的严格总和，不允许有重叠。

现代世界的回响：隐藏的复杂性

统一内存这一简单原则在现代计算机复杂的设计中回响，带来了需要复杂解决方案的深远挑战。

让我们在一个带有独立指令和数据缓存（一种内部哈佛式布局）的现代处理器背景下，重新审视自修改代码。一个程序向内存写入一条新指令。这个写操作被当作数据写来处理，因此它通过 D-cache（数据缓存）。片刻之后，程序分支去执行这条新指令。这是一个指令提取，它访问 I-cache（指令缓存）。但是，没有任何硬件机制来通知 I-cache，D-cache 刚刚修改了一段 I-cache 认为是不可变代码的代码！I-cache 会很乐意地提供旧的、过时的指令。为了让这个过程正确工作，程序员必须执行一场小心翼翼、多步骤的软件之舞：

确保写操作已离开处理器的内部存储缓冲区并到达 D-cache（例如，使用 SFENCE 或存储屏障）。
显式地将修改后的行从 D-cache 刷新到主内存 (DCFLUSH)。
显式地使 I-cache 中对应的行失效 (ICINV)，强制其重新提取。
刷新处理器的流水线（使用 ISB 或指令屏障）以丢弃任何推测性提取的旧指令副本。

只有在这一系列复杂的操作之后，新指令才能被安全地执行。一个纯粹简洁的概念——统一内存——为了保持正确性，给硬件-软件接口带来了巨大的复杂性。

这种复杂性在多处理器系统中呈爆炸式增长。想象一个拥有 96 个核心的系统，每个核心都有自己的内存地址转换缓存（转译后备缓冲器，或 TLB）。现在，操作系统需要更改一个内存页面的权限——例如，为了修改而临时将一个代码页设为可写。对中央页表的这一个更改，会立即让所有 96 个核心上的 TLB 条目都变得过时。为了保持一致性，发起操作的核心必须执行一次 TLB 击落 (TLB shootdown)：它必须向其他每一个核心发送一个处理器间中断 (IPI)，逐一告知它们使其过时的条目失效，并等待每一次的确认。此操作的总时间与核心数量成线性关系： $T = N \cdot t_{\text{IPI}}$ 。统一内存映射中的一个简单的逻辑变更，引发了一场跨核心通信的风暴，成为操作系统可扩展性的一个主要瓶颈。

冯·诺依曼架构诞生于对简洁性和通用性的追求，它证明了单一、优雅的原则如何能够定义一个领域的本质。它赋予了计算机非凡的灵活性，但在此过程中，也为一场对抗其自身固有局限性的持久战役埋下了伏笔——这场战役驱动了计算机架构数十年的创新，从缓存和流水线到操作系统和安全协议。

应用与跨学科联系

在我们迄今的旅程中，我们探索了冯·诺依曼架构的理论核心——一个优雅而革命性的思想，即机器的指令可以与其操作的数据存储在同一内存中。这个原则不仅仅是计算史上的一个技术注脚；它是现代计算机的灵魂，是机器中的幽灵，其存在决定了机器的行为、能力和局限。现在，让我们超越抽象的原理，看看这个幽灵如何在我们周围的世界中生存和呼吸，从你口袋里的智能手机到描绘宇宙的超级计算机，甚至到因其局限性而诞生的新计算世界。

双刃剑：灵活性与瓶颈

将指令和数据视为可互换的决定是意义深远的，它赋予了计算机一种近乎生命般的塑性。想一想一个需要即时适应的现代程序——例如，使 Java 和 JavaScript 等语言以惊人速度运行的即时 (JIT) 编译器。这些编译器是编写其他程序的程序。在运行时，它们分析正在执行的代码，生成为当前任务量身定制的、更高效的机器指令，将这些指令写入内存块，然后——以一种完美实现冯·诺依曼原则的方式——简单地将程序计数器指向这个新的代码块并命令其运行。这种自我修改和优化的行为在一个代码和数据生活在分离宇宙中的刚性系统中是不可想象的。在非常真实的意义上，机器正在重写自己的思想。然而，为了实现这一点，必须仔细编排机器的内部机制。新写入的“数据”（机器代码）位于数据缓存中，而指令缓存可能为同一内存地址保留着旧的、过时的代码。需要一个复杂的同步协议，包括缓存刷新、内存屏障和流水线序列化，以确保处理器能正确“看到”自己的新指令。

在一个更普遍的层面上，每当一个程序调用一个函数时，它都在进行同样的魔法。处理器通过将当前的程序计数器——一个代码地址——当作一条数据，并将其推入一个名为栈的数据结构中来保存它。当函数结束时，它从栈中检索这条数据并将其放回程序计数器，无缝地恢复其执行流程。这个简单的动作，在全球范围内每天重复数万亿次，实现了几乎所有现代软件所依赖的嵌套和递归逻辑。

然而，这种美丽的统一性是有代价的。通过强制两个流量——指令的提取和数据的加载与存储——都通过同一条内存路径，一个根本性的交通堵塞被制造出来。这就是著名的冯·诺依曼瓶颈。想象一条通往繁忙工厂的单行道。这条路必须同时供工人（指令）和他们需要的原材料（数据）使用。无论工人有多快，他们的生产力最终都受到那条单行道的容量限制。

在计算领域，这个瓶颈可以被量化。如果我们将冯·诺依曼机器与哈佛架构（它为指令和数据使用独立的内存路径）进行比较，性能差异可能非常显著。对于一个执行 $f$ 次指令提取和 $l$ 次数据加载的循环，哈佛机器通常可以重叠这些操作，耗时 $\max(f, l)$ 个时间单位。冯·诺依曼机器必须将它们串行化，耗时 $f+l$ 个时间单位。哈佛设计的性能增益是一个简单但有启发性的比率， $G = \frac{f+l}{\max(f, l)}$ 。这个单一的瓶颈对处理器的设计产生了深远的连锁效应。在现代流水线处理器中，指令处理的不同阶段同时进行，指令提取阶段和内存访问阶段可能会同时要求使用内存总线。这种冲突被称为结构性冒险，它迫使一个阶段停顿，在流水线中引入气泡，降低性能。用于仲裁这种冲突的控制逻辑本身也给机器增加了复杂性。这种张力甚至体现在片上缓存的设计中。一个用于指令和数据的统一缓存更简单，但可能会遭受“污染”，即大量数据流可能会将关键的指令代码从缓存中逐出，导致性能下降。

围绕瓶颈进行工程设计：生活在冯·诺依曼的世界

冯·诺依曼瓶颈并非学术上的好奇心；它是一个塑造了整个行业的严峻工程现实。以机器人技术领域为例。机器人的控制器是一个实时系统，其中感知、计算和行动必须在严格的时间预算内完成。在一个典型的控制循环中，处理器为其控制算法提取指令，从内存中读取传感器数据（通常通过直接内存访问，或 DMA），并将命令数据写入执行器（也通过 DMA）。所有这些内存传输——代码、传感器数据和执行器命令——都竞争同一个共享总线。工程师必须计算一个“总线预算”，将单个循环中每个活动消耗的总周期数相加。如果总线的总利用率超过安全阈值，控制循环可能无法按时完成，导致机器人反应过慢，可能带来灾难性后果。因此，机器人的最大安全工作频率直接受限于其冯·诺依曼总线上的流量。

在高性能计算 (HPC) 领域，与海量数据集搏斗的科学家们面临着同样的恶魔。在模拟天气模式或星系碰撞时，计算通常涉及对庞大的数字数组重复进行简单的操作。在这里，提取指令的成本可能使计算本身相形见绌。为了解决这个问题，架构师们开发了单指令多数据流 (SIMD) 或“向量”处理。这个想法非常巧妙：提取一条单一的指令，比如“加法”，但让它同时对一个包含 16、32 或更多数据元素的长向量进行操作。对于一个在大型数组上执行像 $A_i = B_i + c \cdot C_i$ 这样的操作的科学核心，宽度为 $V$ 的向量的数据流量与 $3Vw$ （其中 $w$ 是元素大小）成正比，而指令流量保持为一个小的常数。随着 $V$ 的增加，指令提取流量在总流量中的比例越来越小，有效地将指令提取的成本“淹没”在有用的数据移动的海洋中。这项技术并没有消除瓶颈，但它极大地提高了利用瓶颈的效率。

超越瓶颈：新架构的黎明

几十年来，我们设计了越来越巧妙的方法来缓解冯·诺依曼瓶颈。但是，如果我们能够完全消除它呢？这个问题正在推动计算机架构的一场革命，促使我们探索打破 75 年传统的模型。

其中一个替代方案是数据流架构。想象一条没有工头喊口号的装配线。取而代之的是，每个工人只要在必要的零件到达其工位时就立即执行他们的任务。这就是数据流的精髓。计算不是由一个中央程序计数器顺序提取指令来驱动，而是由数据本身的可获得性来驱动。对于可以表示为操作图的流式工作负载，其好处是惊人的。“指令”（每个操作的微码）被一次性加载到处理节点中。之后，数据令牌流经图，在流动过程中触发计算。对于每一个令牌，都不需要提取循环控制或条件分支指令，从而大大减少了控制开销和指令流量。与执行相同任务的冯·诺依曼机器（它必须为处理的每一项重复提取控制流指令）相比，数据流机器的指令提取成本几乎为零，从而带来了可能高达数个数量级的性能提升。

当今推动这种架构反思的最强大动力是人工智能和机器学习的爆炸式增长。受大脑启发的神经网络，其根本在于对庞大的权重矩阵执行数十亿次简单的乘法累加操作。在冯·诺依曼机器上，这涉及数据在内存和处理器之间无休止的、消耗大量能源的穿梭。移动数据所花费的能量可能超过实际计算能量的 100 或 1000 倍。

这催生了一种新的范式：内存计算 (IMC)。其理念简单而深刻：如果移动数据是问题所在，那就不要移动它。在数据所在的地方进行计算。在这种模型中，内存和处理之间的鲜明区别变得模糊。算术运算，特别是作为人工智能命脉的加权求和，被物理地在内存阵列内部执行，利用电子学的物理定律（如基尔霍夫电流定律）以大规模并行、模拟的方式对值进行求和。

当与另一个受大脑启发的原则——事件驱动操作——相结合时，结果是惊人的。在许多神经网络中，就像在大脑中一样，任何给定时刻只有一小部分神经元是活跃的。神经形态架构利用了这种稀疏性。它不是用一个全局时钟来驱动对所有数据的密集计算，而是异步运行，计算和数据移动仅由“事件”（例如神经元发放一个脉冲）触发。通过将内存和计算单元协同定位（减少数据移动距离）并仅对活跃、有意义的数据进行操作（减少移动的数据量），节能效果可以是天文数字。对于一个突触工作负载，神经形态芯片所消耗的能量可以比执行相同任务的传统冯·诺依曼芯片少一百万倍。这不仅仅是增量改进；它是一次相变，为在能源受限的设备中部署巨大的 AI 能力开辟了可能性。

冯·诺依曼架构的历程证明了单一、统一思想的力量。它给了我们可编程的、通用的计算机，并塑造了数字世界。现在，它所促成的计算的巨大成功和规模正迫使我们超越它，从最终的非冯·诺依曼计算机——人脑——中汲取灵感。这个故事远未结束，下一章注定会更加激动人心。