首页最短路径算法

最短路径算法

玻尔百科

定义

最短路径算法指图论中用于寻找节点间最优路径的一类算法，其核心逻辑建立在最优化原理之上。这类算法根据具体需求采用不同机制，例如用于非负权重边的 Dijkstra 算法和可处理负权边并检测负环的 Bellman-Ford 算法。通过将状态抽象为节点、将转移抽象为边，该领域的算法被广泛应用于人工智能、生物学和物流规划等复杂优化任务中。

核心要点

不同的最短路径算法专为特定条件而设计，例如 Dijkstra 算法用于非负权重，而 Bellman-Ford 算法用于处理负权重和检测负环。
最优性原理是实现高效解法的核心概念，它指出最短路径的任何子路径也必定是其端点之间的最短路径。
“路径”的定义可以被抽象化，这使得这些算法能够通过将状态建模为节点、将转换建模为边来解决人工智能、生物学和物流领域的问题。
变换方法，例如使用对数将乘积转换为和，或使用 Johnson 算法对图进行重加权，扩展了最短路径方法在复杂优化任务中的适用性。

引言

寻找最快、最便宜或最高效的路线是一项无处不在的基本挑战，从日常的 GPS 导航到无形的互联网流量路由。虽然目标看似简单，但最直观的方法——总是选择下一个最好的步骤——可能会导致次优的结果。局部最优和全局最优之间的这种差距，正是最短路径算法真正优雅之处的体现。本文将作为这些强大计算工具的综合指南。首先，在“原理与机制”一章中，我们将剖析驱动 Dijkstra 算法和 Bellman-Ford 算法等基础算法的核心逻辑，探索它们如何遵循不同规则在图中导航，并以数学上的确定性揭示最优路径。随后，“应用与跨学科联系”一章将揭示这些方法的真正通用性，展示生物学、人工智能和网络优化中的抽象问题如何能够被巧妙地转换并作为最短路径问题来解决。

原理与机制

想象一下，你正站在一个繁华的城市，手持地图，试图从酒店去一个著名的博物馆。地图上标示了几十个交叉路口（节点）和它们之间的道路（边），每条路都标注了通行所需的时间。你的目标很简单：找到最快的路线。这就是最短路径问题的本质，一个核心难题，涵盖了从 GPS 导航、互联网路由到物流，乃至生物网络分析等方方面面。

但是，你究竟如何找到这条路径呢？我们即将探讨的原理和机制不仅仅是一系列食谱；它们是一场深入优化逻辑的旅程，揭示了一个简单而优雅的思想如何能够适应并驾驭日益复杂的世界。

欲速则不达：为何显而易见的路并非总是最短

让我们从最自然的人类本能开始：在每个交叉口，选择看起来最快的那条路。这是一种贪心方法——在每一步都做出局部最优的选择。假设你位于起点 S，有两个选择：一条 3 分钟通往交叉口 X 的路，或一条 8 分钟通往交叉口 Y 的路。贪心的选择很明确：去 X。从 X 出发，假设唯一的出路是一条 12 分钟通往目的地 D 的路。你的总时间是 $3 + 12 = 15$ 分钟。

但如果你能抑制住不耐烦，选择了那条“更慢”的、通往 Y 的 8 分钟的路呢？如果从 Y 到 D 的路只有 4 分钟长呢？那条路径， $S \rightarrow Y \rightarrow D$ ，总共只需要 $8 + 4 = 12$ 分钟。你的匆忙让你多花了 3 分钟！这个简单的思想实验揭示了一个深刻的真理：一系列局部最优决策并不能保证全局最优的结果。以廉价、诱人的第一步开始的路径，可能会在之后将你带入一个非常“昂贵”的区域。要找到真正的最短路径，我们需要一个更聪明的策略。

智慧的原则：建立在坚实基础之上

我们天真的贪心方法的缺陷在于，它只考虑了下一步的成本，而没有考虑从起点开始的总成本。一个真正智慧的算法必须建立在更坚实的基础之上。这个基础就是所谓的最优性原理。它阐述如下：

如果从点 A到点 C 的最短路径经过一个中间点 B，那么从 A到 B 的路径片段必定是 A到 B 的最短路径，而从 B到 C 的路径片段也必定是 B到 C 的最短路径。

这听起来可能显而易见，就像说“去博物馆最快的路包括了到中途点最快的路”一样。但这是一个极其强大的思想。它告诉我们，我们可以从较短的最短路径构建出较长的最短路径。我们不必从头考虑每一条可能的路线。我们可以逐个部分地构建我们的解决方案，并确信每个部分本身都是最优的。这几乎是所有最短路径算法背后的指导原则。

Dijkstra 算法：如野火般蔓延的确定性

那么我们如何应用这个原则呢？让我们想象我们的地图是一片平坦的草地，沿着每条道路的旅行时间对应于火沿着相应长度的导火索燃烧所需的时间。如果我们在起点 S 点火，火势将如何蔓延？

火会同时沿着所有导火索前进。火的“前沿”总是从它能最快到达的点扩展。它会先到达最近的交叉口，然后是次近的，依此类推。绝不会发生火在到达一个较近的点 P 之前，先到达一个更远的点 Z 的情况，如果到达 Z 的唯一方法是经过 P。

这就是Dijkstra 算法背后的美妙直觉，它是处理所有“成本”（边权重）为非负的图的经典解决方案。它通过系统地发现从一个源点到所有其他节点的最短路径来工作，就像一个不断扩大的“已知领域”的圆圈。

该算法维护两组节点：一组是已经确定了从源点出发的最短路径的节点（“已访问”或“已确定”集合），另一组是路径仍在探索中的节点（“未访问”集合）。

将到源点的距离初始化为 $0$ ，所有其他距离初始化为无穷大（ $\infty$ ）。
在所有未访问的节点中，贪心地选择离源点已知距离最小的那个。我们称之为 u。
宣布到 u 的最短路径为最终路径。将 u 标记为已访问。
对于 u 的每个未访问的邻居 v，检查通过 u 是否能为 v 创建一条更短的路径。也就是说，如果 distance(u) + weight(u,v) distance(v)，我们就将 distance(v) 更新为这个新的、更小的值。这个步骤称为松弛。
从第 2 步开始重复，直到所有节点都被访问。

让我们通过一个实例来观察其运作过程。想象一个由服务器 A, B, C, D, E, F 组成的网络，它们之间有不同的延迟。我们从 A 开始。

初始状态： 距离为 $(0, \infty, \infty, \infty, \infty, \infty)$ 。
第 1 步：确定 A。 A 是最近的（距离为 0）。它的邻居是 B（延迟 4ms）和 C（延迟 2ms）。我们更新它们的距离。状态： $(0, 4, 2, \infty, \infty, \infty)$ 。
第 2 步：确定 C。 在未访问的节点中，C 是最近的（距离为 2）。它的邻居 E 的距离是无穷大。路径 A $\to$ C $\to$ E 的成本是 $2+3=5$ 。我们更新 E 的距离。状态： $(0, 4, 2, \infty, 5, \infty)$ 。
第 3 步：确定 B。 B 现在是最近的未访问节点（距离为 4）。它的邻居 D 的距离是无穷大。路径 A $\to$ B $\to$ D 的成本是 $4+10=14$ 。更新 D 的距离。状态： $(0, 4, 2, 14, 5, \infty)$ 。
第 4 步：确定 E。 E 是下一个（距离为 5）。它能以 $5+4=9$ 的总成本到达 D。这比我们之前到 D 的路径（14）要好，所以我们更新 D 的距离！它还能以 $5+1=6$ 的成本到达 F。状态： $(0, 4, 2, 9, 5, 6)$ 。

算法继续进行，但请注意关键事件：我们找到了通往 D 的一条更好的路径。Dijkstra 算法扩展已知领域前沿的方法确保了当我们最终选择一个节点来确定其路径时，我们已经找到了到达那里的绝对最佳方式。这种贪心策略之所以有效，是因为在非负权重的情况下，任何绕道通过一个“未访问”（因此更远）节点的路径，都不可能回头为“已访问”节点创建一条更短的路径。Dijkstra 算法是一种标签设定算法：一旦它设定了一个标签（最终距离），这个标签就固定不变了。

探索负权世界：谨慎与修正

如果我们引入一种奇怪的新可能性：负边权，Dijkstra 算法美妙的野火比喻就不再成立了。想象一条路，它非但不会花费你的时间，反而会返还你时间。或者一笔金融交易，它付钱给你而不是让你花钱。在这些世界里，最近的未访问节点不再保证位于最短路径上。一条看似很长的路径，可能会因为绕道经过一条具有很大负权重的边而突然变得异常之短。

为了驾驭这片险恶的领域，我们需要一个更谨慎、更具怀疑精神的算法。这就是Bellman-Ford 算法。与 Dijkstra 算法不同，Bellman-Ford 是一种标签修正算法。它从不完全确定。它假设当前的距离估计可能是错误的，并且始终对“修正”持开放态度。

它的策略是暴力的，但却很巧妙：

像 Dijkstra 算法一样初始化距离：源点为 $0$ ，其他所有节点为 $\infty$ 。
然后，对于图中每一条边 $(u,v)$ ，执行松弛步骤：检查 distance(u) + weight(u,v) 是否是通往 v 的一条更好的路径。
重复这个过程 $|V|-1$ 次，其中 $|V|$ 是顶点的数量。

为什么是 $|V|-1$ 次？因为在没有环路的图中，一条最短路径最多只能有 $|V|-1$ 条边。在第一轮遍历中，Bellman-Ford 找到所有长度为 1 的最短路径。在第二轮中，它利用这些路径找到所有长度为 2 的最短路径，依此类推。经过 $|V|-1$ 轮遍历后，它就找到了所有可能的最短路径。

当条件发生变化时，这种迭代松弛正是所需要的。想象一下，你有一个已知的最短路径网络，突然有一条路变快了（它的边权重减小了）。这一个变化可能会引发一连串新的捷径。你不能只修复那些使用了那条边的路径；你必须将这条更快路线的“好消息”传播到整个网络。这种更新的传播正是 Bellman-Ford 松弛过程的核心。

此外，Bellman-Ford 还有一个超能力：如果在 $|V|-1$ 轮遍历之后，你仍然可以通过再次松弛某条边找到一条更短的路径，那么你就发现了一个负权环——一个每次遍历都会使路径成本降低的循环。在这样的图中，“最短路径”是未定义的，因为你可以永远绕着它转以获得无限低的成本。Bellman-Ford 算法不仅会失败，它还会告诉你为什么问题无解。

上帝视角：从任意点到任意点

到目前为止，我们一直在寻找从单一源点出发的路径。但如果你是一家物流公司，需要知道网络中每对仓库之间的最短路线呢？这就是所有点对最短路径（APSP）问题。

一个显而易见的方法是，从每个可能的起始节点运行我们的单源算法。如果我们的图具有非负权重，我们可以运行 Dijkstra 算法 $|V|$ 次。使用标准数据结构，这总共需要的时间大约是 $O(V \cdot (E + V \log V))$ ，或者对于边数 $E$ 接近 $V^2$ 的稠密图，大约是 $O(V^3 \log V)$ 。

但是还有另一种非常优雅的方法：Floyd-Warshall 算法。它不从扩展前沿或重复松弛的角度思考。相反，它提出了一个不同的问题：“从 i 到 j 只使用前 k 个节点作为中间站点的最短路径是什么？”它通过逐渐允许越来越多的节点成为路径的一部分来构建解决方案。

该算法的核心是一行优美的逻辑。要找到从 i 到 j 使用来自 $\{1, ..., k\}$ 的中间节点的最短路径，有两种可能性：

该路径根本不使用节点 k。在这种情况下，最短路径与我们只允许使用节点 $\{1, ..., k-1\}$ 时找到的路径相同。
该路径确实使用了节点 k。在这种情况下，路径必须从 i 到 k，然后再从 k 到 j，并且只使用允许集合中的节点。

因此，最短路径就是这两种选择中的最小值。这种动态规划方法大约需要 $O(V^3)$ 的时间。那么，哪个更好呢？运行 $|V|$ 次 Dijkstra 算法还是运行一次 Floyd-Warshall 算法？答案取决于图的类型。对于稀疏图（边数少），重复运行 Dijkstra 算法通常更优。但对于稠密图，Floyd-Warshall 算法更简单的 $O(V^3)$ 复杂度可能胜过 Dijkstra 算法的 $O(V^3 \log V)$ 。再次强调，没有唯一的“最佳”算法，只有最适合特定工作的工具。

统一图景：变换之雅

当我们从宏观视角看时，会发现这些算法不仅仅是一堆随机的技巧。它们是一个家族中的相关成员，每个成员都适应于一种不同类型的世界。

对于无权图（所有道路都花费 1 分钟），问题得以简化。你不需要复杂的优先队列；一个简单的先进先出队列就足够了。这就是广度优先搜索（BFS），它能找到边数最少的路径。
对于有向无环图（DAG）——一种没有环路的图，比如项目任务列表——我们可以做得更好。通过按拓扑顺序（总是在处理一个节点之前处理它指向的所有节点）处理节点，我们可以在一次遍历所有边的情况下找到所有最短路径，时间复杂度惊人地高效，为 $O(V+E)$ 。

也许最美妙的统一思想来自于改变我们的视角。

超级源点： 如果你有多个可能的起点怎么办？你可以通过创建一个“虚拟超级源点”来解决这个问题，这是一个新节点，有指向你所有实际起点的零权重边。现在，从超级源点寻找最短路径就奇迹般地解决了你原来的多源问题。
Johnson 算法与重加权： 最优雅的变换莫过于Johnson 算法，它解决了稀疏图中带负权重的全对最短路径问题。这是一个 masterful 的综合。首先，它使用“超级源点”技巧和一次稳健的 Bellman-Ford 算法运行。它不直接使用得到的路径。相反，它使用距离来为每个节点计算一个“势”或“重加权”值。然后，它根据这些势能调整图中每条边的权重。神奇之处在于，这种变换保证了所有边的权重都变为非负，同时保留了最短路径。现在图变得“安全”了，我们就可以高效地从每个节点运行速度快得多的 Dijkstra 算法来得到最终答案。

这里的深刻见解来自于这样一个问题：如果你在一个已经具有非负权重的图上运行 Johnson 算法会发生什么？最初的 Bellman-Ford 运行会发现，从超级源点到每个节点的最短路径就是 0（通过直接的零权重边）。所有节点的“势”都为零，重加权步骤……什么也没做！权重保持不变。这不是失败；这是对算法逻辑的美妙证实。重加权的唯一目的是消除负值，如果没有负值，它就会优雅地退到一旁。

最后，至关重要的是要记住，寻找“最短路径”的目标与寻找连接网络中所有节点的最便宜方式（即最小生成树（MST）问题）是不同的。一个 MST 给你构建网络的最低总成本，但在该 MST 中两个特定节点之间的路径不保证是可能的最短路径。它们是两个不同的问题，需要两套不同但同样优美的原则。算法设计师的艺术在于知道你真正在问的是哪个问题。

应用与跨学科联系

在体验了像 Dijkstra 和 Bellman-Ford 算法这样巧妙的机制之后，人们可能会留下这样的印象：我们仅仅解决了一个地图制作者的难题。但这样想，就如同看到一套大师级的国际象棋，却只欣赏其为雕刻的木头。这些算法真正的力量和美妙之处，不在于它们能够在地图上找到两点之间的最短路线，而在于那些只需一点巧思就能被伪装成最短路径问题的惊人广泛的问题。它是一把万能钥匙，能解开那些初看之下与路径或距离毫无关系的领域的谜题。我们的探索现在转向这种转化的艺术，我们将看到这一个单一、优雅的思想如何在生物学、经济学、人工智能及更广阔的领域中回响。

变换的艺术：在意想不到之处发现路径

自然界经常向我们提出优化问题。一个生物过程可能演化得尽可能高效，一个通信网络可能寻求最大的可靠性，或者一个机器学习模型可能在寻找对一组数据最可能的解释。这些问题中许多最初并非关于成本的累加，而可能涉及概率的相乘。

考虑一个活细胞内的信号通路，这是一个将信息从细胞表面传递到细胞核的蛋白质相互作用级联。链中的每一步都有一定的成功概率。一条完整路径的总体可靠性是其所有步骤概率的乘积。我们想找到最可靠的路径。我们那些建立在和之上的最短路径算法如何能在这里提供帮助呢？这里蕴含着一个美妙的数学技巧。对数函数具有将乘法转化为加法的神奇特性： $\ln(a \times b) = \ln(a) + \ln(b)$ 。因此，最大化概率的乘积 $\prod p_i$ ，等同于最大化它们对数的和 $\sum \ln(p_i)$ 。既然我们喜欢用最小化成本来思考，我们可以反转这个问题：最大化一个值等同于最小化其负值。因此，我们寻找最大概率乘积路径的问题，就完全等同于寻找负对数之和最小的路径，即 $\sum (-\ln(p_i))$ 。通过简单地将每条边的“成本”从其概率 $p$ 重新标记为新的成本 $c = -\ln(p)$ ，我们就将一个可靠性问题转化为了一个标准的最短路径问题！

这同一个原则是现代人工智能的基石。在概率模型中，例如用于医疗诊断或机器翻译的模型，我们常常希望找到解释某些观测数据的最可能的事件或状态序列——这项任务被称为最大后验（MAP）推断。整个配置的联合概率是许多更小的局部概率（或“势”）的乘积。就像我们的生物学例子一样，我们可以取这些势的负对数将它们转化为成本。寻找最可能分配的问题变成了寻找总成本最小的分配，在许多重要情况下，这可以通过在一个巧妙构建的图中寻找最短路径来解决。一场在概率世界中寻求确定性的探索，最终变成了一场熟悉的、寻找最短回家路的搜索。

扩展宇宙：当“位置”成为“状态”

我们想象力的下一次飞跃是重新定义图中节点所代表的含义。它们不必是物理位置，可以是某个过程中的抽象状态，而边可以是它们之间的转换。这种“状态空间扩展”使我们能够处理具有复杂规则和约束的问题。

想象一个有两种旅行方式的电子游戏世界：步行和传送。假设你必须找到从城堡到龙穴的最便宜路径，但规则要求你每一步都必须交替使用旅行方式——步行之后必须是传送，传送之后必须是步行，依此类推。在一个基于位置的图上，标准的最短路径算法会被这个规则搞糊涂。解决方案是构建一个新的、更大的图。我们不再为“洞穴入口”创建一个节点，而是创建两个节点：“位于洞穴入口，刚刚步行到达”和“位于洞穴入口，刚刚传送到达”。现在，代表步行的边只能从一个“刚刚传送”的状态出发，并且必须到达一个“刚刚步行”的状态。通过将上一步的行动记忆编码到节点本身的定义中，我们将问题转化回了这个扩展状态空间图上的一个标准最短路径搜索问题。

这种技术非常强大。我们可以用它来模拟任何随时间展开的过程。例如，在计算语言学中，我们可以通过将一个句子建模为在一个图中的路径来确定其最佳解释，图中节点代表 (词语索引, 语法状态)。在生物信息学中，比对两条 DNA 序列——寻找它们之间考虑了匹配、错配和空位的最佳对应关系——这项艰巨的任务可以被建模为在一个巨大网格上寻找最短路径。网格上的每个节点 (i, j) 代表将第一个序列的前 $i$ 个字母与第二个序列的前 $j$ 个字母比对完成的状态。边对应于三种可能的操作：比对每个序列的一个字母（对角线步骤），或在其中一个序列中引入一个空位（水平或垂直步骤）。这个网格上的“最短”路径对应于总罚分最小的比对，从而揭示了两个生物体之间的进化距离。

更优雅的是，这也适用于计算理论本身。一个有限自动机在输入字符串上的运行可以展开成一个分层的有向无环图（DAG），其中从开始到接受状态的每一条路径都代表一次有效的计算。如果每个状态转换都有成本或罚分，那么寻找最高效的接受运行，就再次成为了这个 DAG 上的一个最短路径问题。因为该图是无环的，我们可以比用 Dijkstra 算法更快地解决它，只需按其自然的分层顺序处理节点即可。

巨人之器：作为构建模块的最短路径

在许多现实世界的应用中，找到一条单一的最短路径并非最终答案，而只是一个更宏大算法之舞中的一步。最短路径算法在更复杂的优化机制中充当基础、可靠的子程序。

这一点在网络流领域表现得最为明显，该领域解决物流、电信和供应链管理等问题。一个经典问题是找到将货物从多个工厂（源点）运送到多个仓库（汇点）的最便宜方式，网络中的每条道路都有容量和单位物品的运输成本。著名的“连续最短路”算法通过迭代思考来解决这个问题。它从零流量开始，然后反复提问：“在当前网络中，从源点到汇点我还能继续发送货物的最便宜路径是什么？”这条“最便宜路径”是在一个特殊的“残留网络”中找到的，其中成本可以代表向正向边增加流量或在反向边上取消流量。它找到这条路径，尽可能多地沿其发送流量，更新网络，然后重复。每一次迭代都只是一次单一的最短路径计算，但通过将它们串联起来，我们解决了一个远为复杂的最小费用流问题。在此过程中产生的节点势能与经济学中的价格理论和数学中的线性规划对偶理论有着深刻的联系。

另一个例子是寻找图中所有节点对之间的最短路径。我们可以简单地从每个节点运行 Dijkstra 算法，但如果我们的图有负边权，这会使 Dijkstra 算法失效怎么办？当“距离”不仅代表成本，还代表利润或亲和度时，这种情况很常见，例如在词语之间的语义关系网络中。Johnson 算法提供了一个惊人优雅的解决方案。它首先在一个增广图上使用较慢但更稳健的 Bellman-Ford 算法仅一次，来为每个节点计算一个“势”。然后使用这些势来重新加权图中所有的边成本，神奇地使它们全部变为非负，同时保留了最短路径的身份。有了这个经过转换的、安全可处理的图，我们就可以接着从每个节点运行快速的 Dijkstra 算法，高效地找到所有答案。这是一个利用一种算法为另一种算法创造完美条件的杰出典范。

了解边界：最长路径与可解性的极限

尽管功能强大，最短路径范式有一个引人入胜且令人谦卑的边界。如果我们不求最短路径，而是求两点之间的最长简单路径（不重复顶点的路径）呢？一家公司可能希望规划一条观光巴士的最长风景路线，或者网络中的同步脉冲可能需要传播至少一段特定时长。

这个看似微小的改变——从“最短”到“最长”——将问题从可以高效解决（在多项式时间内）的范畴， catapults 到了 NP 完全的范畴，这意味着它属于最难的一类计算问题，目前尚无已知的通用高效解法。为什么？像 Dijkstra 这样的最短路径算法的魔力依赖于一个美妙的性质：最短路径的任何子路径本身就是一条最短路径。这使我们能够逐块构建解决方案，充满信心地做出局部最优选择。当寻找最长路径时，这个性质消失了。一个开始时看起来短小、不被看好的绕路，可能对于稍后到达一长串曲折的节点至关重要。一个局部“最佳”（最长）的步骤可能会将你引入死胡同，切断你通往真正全局解的道路。没有了做出贪心选择的能力，你被迫去探索一个组合爆炸式的可能性。这种鲜明的对比并没有削弱最短路径算法；它反而阐明了使其奏效的深刻结构特性，让我们对其优雅之处有了更深的欣赏。

前沿：可微分算法

我们在计算机科学和人工智能的前沿结束我们的旅程：可微分编程领域。我们通常认为算法是一组固定的指令，接收输入并产生输出。但如果我们能问，“如果我稍微调整一下这个算法的输入，它的输出会如何改变？”这正是微积分用导数回答的问题。

令人惊奇的是，计算最短路径算法输出相对于其边权重的梯度是可能的。想象一下，权重是我们能转动的旋钮。对算法进行微分告诉我们最终最短路径距离对每个旋钮的敏感度。这是通过一种称为自动微分的技术实现的，它细致地将链式法则应用于算法内的每一个操作。

我们为什么要这样做呢？这种能力使我们能够将像 Bellman-Ford 这样的经典算法直接嵌入到现代深度学习模型中。然后，模型可以通过梯度下降法迭代地转动“旋钮”，来为给定任务学习最优的边权重。例如，一台机器可以学习一个城市道路网络的最佳成本模型以优化交通流量，不是通过编程告知，而是通过观察数据并使用最短路径算法的梯度来指导其学习过程。这将经典算法的结构化、逻辑世界与机器学习的灵活、数据驱动世界融合在一起，为人工智能驱动的设计和优化开辟了新的前沿。

从蛋白质的微观舞蹈到全球商业的流动，从语言的结构到人工智能的前沿，这个不起眼的最短路径算法证明了它是一个不可或缺的工具。它的故事有力地证明了，当用创造力和抽象的眼光看待计算机科学中一个被充分理解的概念时，它可以为我们理解和塑造世界提供一个统一的视角。