稳定排序与不稳定排序

玻尔百科

定义

稳定排序与不稳定排序是计算机科学中根据排序算法是否保留相等键值元素的原始相对顺序而进行的分类。稳定排序算法（如归并排序）是多键值字典序排序的基础，且由于其顺序内存访问模式，通常在大规模数据记录中表现出更好的缓存性能。不稳定算法（如快速排序）在不保证顺序的情况下可能导致编译器或图形处理中的非确定性行为，但可以通过向排序键添加原始索引信息来强制实现稳定性。

核心要点

稳定排序会保留关键字相等项的原始相对顺序，而不稳定排序则不提供此类保证。
稳定性是多关键字（字典序）排序的基石，它通过对重要性递增的关键字应用一系列稳定排序，从而实现复杂的分层排序。
由于其顺序内存访问模式，像Merge Sort这样的稳定算法通常比像Quicksort这样的不稳定算法表现出更好的缓存性能，尤其是在处理大型数据记录时。
缺乏稳定性可能导致各种问题，从计算机图形学中的视觉闪烁到编译器中的不确定性行为和关键的正确性错误。
任何不稳定排序算法都可以通过将每个项的唯一原始索引附加到排序关键字上，从而消除相等情况，以强制产生稳定输出。

引言

数据排序是计算中最基本的操作之一。我们排序电子表格以找到最大值，排序联系人列表以查找姓名，排序搜索结果以首先看到最相关的内容。但是，当我们排序已经具有某种内在顺序的数据时会发生什么？如果我们按地区对销售报告进行排序，那么每个地区内已有的按时间顺序排列的销售记录会怎么样？这个问题揭示了算法工作方式中一个微妙但关键的区别：稳定排序与不稳定排序之间的差异。这个看似微不足道的技术细节却具有深远的影响，从数据库查询的正确性到科学计算任务的性能，无所不包。

本文阐明了排序稳定性的概念。它探讨了为什么一个算法承诺保留或丢弃预先存在的顺序是一个决定性特征，而非一个缺陷。我们将探讨这一属性如何不仅仅是一个抽象概念，而是一种具有实际性能和可靠性影响的机制选择。在接下来的章节中，我们将首先剖析稳定性的“原理与机制”，揭示一个算法稳定意味着什么，以及这一属性如何与计算机硬件的物理现实相互作用。随后，我们将探讨其深远的“应用与跨学科联系”，展示稳定性在数据科学、计算机图形学到编译器设计等领域中如何成为一项至关重要的要求，在这些领域中，缺乏稳定性可能导致混乱和错误。

原理与机制

想象一下，你有一个文件夹，装满了过去一年的数码照片。你决定整理它们。首先，你按日期排序，创建了一个很好的时间轴。现在，你想进行第二次排序：你想按事件，比如“生日”、“假期”和“工作”来分组。你应用了第二次排序，但令你沮丧的是，每个事件组内的时间顺序完全被打乱了！你假期的第一张照片现在挨着最后一张，生日照片也全都乱了序。问题出在哪里？罪魁祸首不是你，而是你使用的排序工具的性质。你刚刚偶然发现了计算中最微妙却又最关键的概念之一：稳定排序与不稳定排序之间的区别。

稳定性的承诺

排序的核心在于施加秩序。但是当项目“相等”时会发生什么？在我们的照片示例中，当你按事件排序时，所有“假期”照片在排序器看来都是相等的。一个稳定排序算法做出了一个简单但强大的承诺：如果两个项具有相等的关键字，它们在排序后的输出中将保留其原始的相对顺序。而不稳定算法则不提供这样的保证；它可以随意打乱这些相等的项。

这不仅仅是一个小不便；它是许多常见任务的基石。想象一下排序一个联系人电子表格，先按LastName排序，再按FirstName排序。为了使最终列表完全按字母顺序排列，第二次排序（按FirstName）必须是稳定的。在第一次排序后，所有的“Smith”都被归为一组，并按其原始的FirstName排序。对FirstName进行稳定排序会把“Adam Smith”排在“Betty Smith”之前，同时将他们保留在“Smith”这个分组内。而不稳定排序可能会再次将他们打乱。这种技术，即对重要性递增的关键字（例如，先按key_3，再按key_2，最后按key_1）进行一系列稳定排序，是实现多关键字数据字典序排序的标准方法，这是从数据库到数据分析管道等所有领域中的一项基本操作。

那么，一个算法是稳定的究竟意味着什么？这是一个普适的属性。一个算法并不仅仅因为在某一次产生了看起来正确的输出就是稳定的。一个不稳定算法可能运气好，对于某个特定的输入没有重新排序相等的项。要真正做到稳定，一个算法必须为所有可能的输入保留这种相对顺序。证明一个算法不稳定的唯一方法是找到一个具体的例子，证明它违反了这一承诺。相反，要信任一个算法是稳定的，你必须理解其内部机制，才能明白为什么它必然总是信守承诺。

深入底层：秩序的机制

这个承诺是如何兑现的？这不是魔法，而是机制。让我们窥探一个简单而优雅的整数排序算法，称为Counting Sort。想象一下，我们正在根据一个小的整数关键字对项进行排序。该算法首先计算每个关键字出现的次数。然后，它使用这些计数来计算每个项组的最终位置。

稳定性的秘诀在于最后一步：将项放入一个新的、已排序的数组中。

一个稳定的实现会从右到左（反向）遍历原始的、未排序的列表。当它取出一个项时，它会将其放置在其关键字组的最右侧可用槽位，然后将该关键字的位置计数器减一。通过反向工作，输入中相等组的最后一个项被首先放置（在最高索引处），而第一个项被最后放置（在最低索引处），完美地保留了它们的原始相对顺序。
一个不稳定的变体可以通过一个微小的改变来制造：从左到右（正向）遍历输入。现在，相等组的第一个项被放置在最右侧的槽位，下一个项被放置在其左侧。这个简单的改变系统地反转了它们的原始相对顺序，从而在设计上破坏了稳定性。

这个机制上的细节正是为什么像Radix Sort（我们整理照片时试图做的事情）这样的多趟算法绝对依赖于一个稳定的排序子程序。每一趟都按一个“数字”（或关键字分量）对数据进行排序，从最低有效位开始。每一趟的稳定性确保了当按更高有效位的数字对在该新数字上相等的项进行排序时，先前在较低有效位数字上建立的顺序不会被破坏。使用一个不稳定的子程序，整个大厦就会崩塌。

秩序的物理成本

如果稳定性如此有用，为什么不是每个算法都是稳定的？因为，就像现实世界中的任何事物一样，它可能有成本。当我们考虑到现代计算机的物理特性时，这种权衡变得尤为明显。你的计算机处理器（CPU）有一个小而极快的内存，称为缓存（cache）。从缓存中访问数据就像从你的工作台上拿工具；而从主内存（RAM）中访问则像是要开车穿过整个城镇去五金店。为了快速，算法应该尽量减少去“五金店”的次数。

像Merge Sort这样的稳定算法通常通过对数据进行长的、顺序的扫描来工作。它们读取一块内存，处理它，然后写入一块内存。这就像一个车队在高速公路上高效地行驶。这对缓存非常友好，因为当你请求一块数据时，缓存会加载整个邻近区域（一个“缓存行”），正确地预测你接下来将需要相邻的数据。这被称为利用空间局部性（spatial locality）。
许多经典的不稳定算法，如Quicksort，通过交换内存中可能相距很远的元素来工作。这是一种分散的、随机访问的模式，就像在全城范围内进行数千次独立的、不可预测的汽车旅行。每一次旅行都可能需要获取一张新地图，导致缓存未命中的“交通堵塞”。

在排序具有大负载的记录时，例如高分辨率图像或大型科学数据条目，这种差异是巨大的。交换两个在RAM中相距很远的100兆字节的文件是一场性能噩梦。相比之下，稳定的Merge Sort的顺序流可以顺畅地通过缓存，在受带宽限制的系统上带来远为优越的性能。稳定性的抽象承诺通常由一种恰好与我们硬件的物理现实相协调的机制来实现。

稳定性的更深层作用

稳定性的重要性超越了简单的排序，延伸到更微妙的领域。想象一下你有两个独立的列表，比如一个学生记录数组 $X$ 和一个他们的项目提交数组 $Y$ ，两者都包含一个非唯一的学生ID。数组 $X$ 中ID为'123'的第 $k$ 个学生对应于数组 $Y$ 中ID为'123'的第 $k$ 次提交。如果你使用稳定算法按学生ID对两个数组进行排序，这种对应关系将被保留。但如果其中任何一个排序是不稳定的，第 $k$ 次出现的位置就可能错位，从而破坏了这种隐式的引用完整性（referential integrity）。

在并行计算的世界里，任务被分配到多个处理器核心上同时运行，保持顺序更具挑战性。许多直接的并行算法，特别是像Bitonic Sort这样的数据无涉排序网络，天然就是不稳定的，因为它们固定的布线模式在交换元素时并不考虑它们的原始位置。例如，在一个并行的归并排序中实现稳定性，需要一个巧妙的分区方案，该方案要小心地遵守相等关键字的“左先于右”规则，确保在并行归并过程中，概念上“较早”部分的数组数据永远不会被“较晚”的数据超越。

幸运的是，有一个通用的技巧可以强制任何排序算法变得稳定。你不用仅仅按关键字排序，而是可以增强它，转而按一个序对排序：(key, original_input_index)。由于原始索引对每个项都是唯一的，因此不再有任何相等的情况！比较 $(k_1, i_1) (k_2, i_2)$ 定义为真，如果 $k_1 k_2$ ，或者如果 $k_1 = k_2$ 且 $i_1 i_2$ 。这个简单的转换可以在任何基于比较的排序（无论稳定与否）上强制实现稳定性，通常性能开销可以忽略不计。

最终视角：作为信息的稳定性

让我们退后一步，问一个更深层次的问题。稳定性，究竟是什么？它是信息的保留。

在排序之前，你的列表存在于 $n!$ 种可能的初始顺序之一。排序算法将这个巨大的可能性空间压缩成一个更小的空间。不稳定排序会丢弃信息；具有相等关键字的项的初始相对顺序会丢失，被搅乱到算法的虚空中。

然而，稳定排序从遗忘中拯救了这部分信息的特定片段。它准确地告诉你，在每个相等组内的项最初是如何相互排序的。我们甚至可以量化这一点！如果你有大小为 $m_1, m_2, \ldots, m_k$ 的相等项组，那么稳定性所保留的信息量恰好是 $\sum_{i=1}^{k} \log_{2}(m_i!)$ 比特。这个优美的公式将一个算法设计选择与熵的基本概念联系起来。

我们也可以量化不稳定的混乱程度。不稳定排序引入的“混乱”程度的期望值，用归一化的肯德尔 τ 距离来衡量，就是简单的 $\frac{p}{2}$ ，其中 $p$ 是任意两个随机项具有相同关键字的概率。这是一个对复杂现象的优美而简单的表达。

从一个简单的文件排序问题到并行计算和信息论的前沿，稳定性的原理揭示出它不仅仅是一个特性，而是一个触及逻辑、物理学以及秩序本质的基本概念。这是一个算法做出的承诺——一个尊重其正在组织的数据历史的承诺。

应用与跨学科联系

我们已经知道，当我们对一堆杂乱的东西进行排序时，我们是在创造秩序。我们取一个混乱的列表，并按某种规则——大小、名称、价格——来排列它。但一个有趣的问题出现了：已经存在的顺序会怎么样？如果根据我们的新规则，两个项被认为是“相等的”，它们原始的关系应该如何处理？排序过程应该是一种碾压所有过往历史的暴力重排，还是可以成为一种更精细、尊重过去的操作？这不仅仅是一个哲学观点；这正是排序中稳定性概念所回答的非常实际和深刻的问题。稳定性是预先存在秩序的守护者。

分层排序的艺术

世界上的很多事物并非由单一原则组织，而是由层层叠加的原则构成。我们希望文件按名称排序，而对于同名文件，则按日期排序。这就是多关键字排序或称字典序排序的世界，也正是在这里，稳定排序首次展现了其简单的优雅。

想象一下，你正在为一本教科书创建索引。你当然希望术语按字母顺序排序。但对于像‘electron’（电子）这样出现在第 $12$ 、 $54$ 和 $103$ 页的术语该怎么办？你不会希望索引把它们列为‘electron: $54, 103, 12$ ’。那会让人抓狂！你本能地想要‘electron: $12, 54, 103$ ’。你想要一个主序（按字母排序的术语）和一个次序（升序的页码）。一个简单的排序程序如何能实现这种复杂的分层结果？

解决方案是一招漂亮的算法柔道。你不是试图一次性处理两个排序标准，而是分两趟完成。首先，你按次要标准——在这里是页码——对整个列表进行排序。现在列表在字母顺序上是混乱的，但在这份混乱中，隐藏着一种秩序。现在，是关键的一招：你对主要标准——术语——执行一次稳定排序。稳定排序将各项洗牌到它们正确的字母顺序组中。但因为它具有稳定性，在每个相同术语的组内（比如所有‘electron’条目），它拒绝改变它们的相对顺序。而那个顺序是什么？正是你刚刚通过按页码排序建立的顺序！最后一趟的稳定性保留了第一趟的工作成果。

这种优雅的多趟技术无处不在。体育联盟可以用它来先按胜场排名，然后对胜场相同的队伍按净胜分排名。电子商务网站可以用它来向你展示按价格排序的商品，但在每个价位内，优先显示最新的商品。它甚至被用于算法音乐生成中，先按音高再按起音时间排列音符，以创造出干净的琶音。

有时候，宇宙会给你一个先机。想象一个社交媒体信息流，它本质上已经是按时间倒序排列的。现在，你想根据‘参与度分数’重新排序，但对于分数相同的帖子，你仍然希望较新的帖子排在前面。你需要进行那套两趟排序的流程吗？不！次要顺序（时间）已经存在于输入中。你所需要的只是对主要关键字（参与度分数）进行一次稳定的排序。排序的稳定性将自动保留任何相等情况下的现有时间顺序，让你用一半的功夫得到完美的结果。这就是智能算法设计的精髓：识别并保留有用的、已存在的秩序。

作为历史与优先级保护者的稳定性

稳定性不仅用于创建新的、分层的排序。有时，它最关键的角色是简单地保留历史。

思考一个数据科学中的常见任务：去重。你有一个包含重复条目的巨大日志文件，你只想保留每个唯一记录的首次出现。一个简单的方法是按标识记录的关键字对文件进行排序，然后遍历，只保留在每组重复项中看到的第一个。但哪一个是‘第一个’？如果你使用不稳定排序，原始的‘首次’出现可能会被 shuffling 到其组内的某个中间位置。你保留的记录可能是后来的一个。然而，如果你使用稳定排序，你就能保证在每个相同关键字的组内，相对顺序就是原始的输入顺序。因此，排序后组中的第一个就是数据中首次出现的那个。稳定性就像一个记忆体，记住了哪个记录具有优先权。

这种保留有意义的、预先存在的顺序的想法在许多系统中至关重要。一个地理信息系统（GIS）可能会向用户呈现一个餐馆列表，最初按用户评分排序。如果用户随后要求按距离重新排序，对于那些实际上距离相同的两家餐馆应该怎么办？不稳定排序可能会随机打乱它们。然而，稳定排序会尊重它们原来的顺序，这意味着评分较高的那家将继续排在前面。稳定性确保了用户界面的行为可预测，并保留了合理的次要信息。

机器中的幽灵：当不稳定性制造混乱

到目前为止，我们已经看到稳定性是一个有用且优雅的属性。但是当它缺失时会发生什么？在某些情况下，其后果不仅仅是缺乏优雅，而是陷入混乱、不确定性，甚至是彻底的错误。

也许最直观的例子来自计算机图形学世界。在一种名为“画家算法”的简单渲染技术中，3D场景从后到前绘制，就像画家层层上色一样。物体按其深度（ $z$ -坐标）排序并按该顺序绘制。那么，那些共面——即深度相同的物体呢？它们的绘制顺序决定了哪一个显示在上面。如果排序算法是稳定的，它们的相对顺序可以在一帧到下一帧之间保持一致。但如果使用不稳定排序，它们的相对顺序可能在帧与帧之间随机地来回翻转。结果如何？当物体争夺谁在上面时，会出现一种分散注意力的、丑陋的视觉‘闪烁’。在这里，不稳定性不仅仅是理论上的不纯粹；它是一个可见的故障。

在其他领域，不稳定性引入了一种更微妙但同样有问题的混乱形式：不确定性。考虑使用 Kruskal 算法寻找连接一组网络节点的最便宜方式，该算法通过按成本对所有可能的连接（边）进行排序，并添加不形成环路的最便宜的边。如果有几条边的成本完全相同，算法应该先选择哪一条？不稳定排序可能每次运行程序或在不同机器上选择不同的边，导致不同的（尽管同样是‘最小’的）最终网络布局。而稳定排序通过保留边列表的初始顺序，确保了算法的选择是确定性的。对于测试、调试和可复现性而言，这种可预测性是无价的。

在我们软件的核心——编译器中，风险变得最高。编译器的任务是将人类可读的代码翻译成高效的机器指令。它的一个技巧是重新排序指令以保持处理器繁忙。它可能会给内存操作一个高优先级，以便尽早启动它们。但如果存在多个内存操作，比如将一个值写入位置 $*p$ 和另一个写入位置 $*q$ 呢？对调度器来说，它们可能具有相同的优先级。但对程序来说，如果 $p$ 和 $q$ 有可能指向同一内存位置，它们就不是可互换的！原始程序顺序定义了正确的行为：也许对 $*q$ 的写入应该在对 $*p$ 的写入之后发生并覆盖它。一个对这种语义依赖性视而不见的不稳定排序可能会颠倒它们的顺序。结果呢？程序计算出错误的答案。这不是一个小故障；这是对正确性的根本违反。在这样的上下文中，或者在处理必须按严格顺序访问的特殊‘易失性’（volatile）内存时，稳定性不是一个特性——它是程序正常工作的强制性要求。

一个聪明的技巧：驯服不稳定

这是否意味着不稳定排序有缺陷，应该避免使用？完全不是。它们可以有性能优势。而且，一个绝妙的算法洞见告诉我们，我们可以鱼与熊掌兼得。我们可以强制一个不稳定排序表现得稳定。

这个技巧是让排序关键字变得唯一，这样不稳定排序就没有‘相等’的元素可以错误处理。我们可以通过增强我们的数据来做到这一点。在排序之前，我们只需给每个项打上它在列表中的原始位置——即其索引 $i$ 。然后，我们不再按关键字 $k$ 排序，而是按一个复合关键字，即序对 $(k, i)$ 进行排序。比较逻辑变为：首先按 $k$ 比较，但如果 $k$ 值相同，则按 $i$ 比较。由于每个项都有一个唯一的原始索引 $i$ ，所以没有两个项可以有相同的复合关键字 $(k, i)$ 。面对没有相等情况，任何排序算法，无论稳定与否，都被迫产生相同、唯一确定的、类似稳定的顺序。我们通过将希望保留的历史直接编码到数据中，从而驯服了混乱。

结论

排序的稳定性，初看似乎是一个微不足道的技术细节，却揭示了其作为一个具有深远重要性的概念。它是让我们能够构建复杂、分层的秩序结构的工具。它是保护历史、确保公平优先权的守护者。它的缺失可能引入从烦人的视觉闪烁到计算中沉默的、灾难性的错误。理解稳定性就是理解排序不仅仅是创造一种新秩序，更是深思熟虑地管理旧秩序与新秩序之间的关系。它是一个美丽的例证，说明了一个算法中的简单属性如何在整个计算领域，从数据库查询到编译器的核心逻辑，产生深远的联系。