首次适应算法

玻尔百科

核心要点

首次适应算法是一种简单的贪心算法，它通过选择第一个足够大的可用块来满足资源请求（如内存分配）。
该算法的主要缺点是外部碎片，即内存被分割成许多小的、不可用的碎块，即使总空闲空间很充足。
虽然并非总是最优，但首次适应原则是一种通用的启发式方法，可见于各种应用中，包括装箱问题和哈希表中的线性探测法。

引言

在算法和系统设计的世界里，一些最强大的思想源于简单、直观的选择。首次适应算法便是这一原则的典型例子。这是我们本能地使用的一种策略：当面临多个选项时，我们通常会选择第一个可行的。但这种直接了当的方法会带来哪些隐藏的后果，尤其是在像计算机内存这样复杂的系统中？本文将深入探讨首次适应启发法优雅的简单性和惊人的复杂性。

我们的探索分为两部分。在“原理与机制”部分，我们将剖析首次适应算法的核心逻辑，理解为何它对内存分配等任务如此有吸引力，并揭示其致命弱点——一种被称为外部碎片的现象，它可能浪费大量资源。然后，在“应用与跨学科联系”部分，我们将拓宽视野，探索同样的基本思想如何为看似无关的问题提供有效的解决方案，从高效地装箱到在哈希表中组织数据，甚至调度宝贵的任务。读完本文，您将不仅把首次适应算法看作一种具体的技术，更会将其理解为一个基本概念，它阐释了即时效率与长期最优性之间永恒的权衡。

原理与机制

简单的诱惑

想象一下，你推着装满杂货的购物车在收银台结账。收银员打开了几个袋子。你拿起一盒牛奶，该放哪里？最简单、最直接的策略就是从左到右扫描这些袋子，然后把牛奶放进第一个有足够空间的袋子里。你不会站在那里思考如何为未来所有物品进行最佳放置；你只是快速做出一个局部决策，然后继续。这种优美简洁、几乎不假思索的策略，就是被称为首次适应算法的精髓。

在计算机科学领域，首次适应算法是一种经典的贪心算法。它解决了内存管理的基本问题：程序需要一块内存，操作系统必须找到一个空闲块来满足请求。系统维护一个空闲内存块列表，或许按其在内存中的物理地址排序。当一个例如 $100$ KB 的请求到达时，首次适应分配器会扫描此列表，并从它找到的第一个足够大的空闲块中划分出 $100$ KB。

这种方法的吸引力是不可否认的。它速度快，易于实现，而且感觉很高效。它最大限度地减少了寻找内存块所花费的时间。在一个速度至上的世界里，选择第一个可用的选项有什么问题呢？这正是我们时常做出的那种局部的、“先搞定再说”的选择。但正如我们将看到的，那些当下看起来完全明智的选择，长远来看可能会产生令人惊讶且棘手的后果。

仓促的代价：当贪心失灵时

让我们通过一个思想实验来检验我们这个简单的策略。假设我们计算机的空闲内存只有两个块：一个 $20$ MB，另一个在列表更后面的位置，是 $10$ MB。一个程序首先请求一个 $10$ MB 的块。首次适应算法从头开始扫描，看到了那个 $20$ MB 的块。它足够大，所以算法从中划分出 $10$ MB，留下一个 $10$ MB 的剩余部分。现在内存中有两个 $10$ MB 的空闲块。片刻之后，另一个程序请求一个 $20$ MB 的块。首次适应算法再次扫描。它看到一个 $10$ MB 的块——太小了。它看到下一个 $10$ MB 的块——也太小了。请求失败。该程序无法运行。

但是等等！如果我们不那么仓促会怎样？当第一个 $10$ MB 的请求到来时，如果我们跳过那个大的 $20$ MB 块，而是使用大小正好的 $10$ MB 块呢？那么内存中将留下一个完整的、原始的 $20$ MB 块。当第二个 $20$ MB 的请求到来时，它就能被立即满足。通过深思熟虑，我们本可以满足两个请求，而不仅仅是一个。

这个失败揭示了计算机科学中的一个关键概念：贪心选择性质。如果做出局部最优（“贪心”）的选择总是某个全局最优解的一部分，那么一个算法就具有此性质。我们的小场景证明了，首次适应算法通常不具备此性质。选择第一个块的“简单”做法并非最佳长期规划的一部分。

这个故事里的“反派”是一种被称为外部碎片的现象。内存被分割成小的、不连续的碎块。在我们的首次适应分配之后，我们总共有 $20$ MB 的空闲内存，但我们无法分配一个 $20$ MB 的块。空间是有的，但它们不在一起。首次适应算法急于抓住第一个机会而不顾后果，是造成这种碎片的直接原因。这就像为了小额消费而破开一张大面额钞票；你口袋里会剩下一堆零钱，之后要进行大额消费时会很不方便。

首次适应算法只有在一些微不足道的情况下才能保证最优。例如，如果所有的内存请求都是针对一个单位的内存，首次适应算法只会逐单位地填充内存块，直到所有空间耗尽，这显然是任何人能做到的最好情况。但在现实世界中，请求大小各异且不可预测，其贪心本性是一把双刃剑。

碎片剖析

这种碎片化究竟能有多严重？我们能否构建一个场景，将首次适应算法推向其病态极限？答案是肯定的。让我们构建一个“最坏情况”的内存布局。

想象我们有一大块空的内存空间。我们进行一系列精心选择的、具有对抗性的分配操作。我们先请求一个大小为 $a$ 的小块，然后一个大小为 $b$ 的大块，接着再一个大小为 $a$ 的小块，再一个大小为 $b$ 的大块，依此类推。首次适应算法会尽职地将它们排列起来： $[a][b][a][b][a][b]...$ 。现在，关键来了：我们释放所有大小为 $a$ 的小块。

我们的内存现在是什么样子？它是一系列大小为 $b$ 的已分配块，被大小为 $a$ 的空闲“洞”隔开。 $[\text{空洞}(a)][\text{块}(b)][\text{空洞}(a)][\text{块}(b)][\text{空洞}(a)]...$ 即使总内存的一半是空闲的（所有空洞的总和），我们能满足的最大单个请求的大小也只是 $a$ 。内存已经变成了一种瑞士奶酪，而洞的大小决定了什么能通过。

我们甚至可以量化内存的碎片化程度。一个常见的外部碎片度量标准是 $F_{\text{ext}} = 1 - L/T$ ，其中 $L$ 是最大空闲块的大小， $T$ 是总空闲空间。在我们构建的“最坏情况”场景中，有 $k$ 个大小为 $h$ 的空洞，总空闲空间是 $T = k \cdot h$ ，最大空闲块是 $L = h$ 。因此，碎片率为 $F_{\text{ext}} = 1 - h/(kh) = 1 - 1/k$ 。随着我们制造越来越多的空洞（ $k$ 变大），碎片度量值接近 $1$ ，这表明空闲空间对于满足任何大于最小空洞尺寸的请求几乎完全无用。

情况甚至更加微妙。分配器的内部记账方式可能会产生巨大影响。分配器如何管理其空闲块列表？如果一个块被释放时，它只是被放在列表的前面（头部插入或后进先出 LIFO 策略），首次适应算法将倾向于首先看到大的、最近释放的块。当一个小请求到来时，它会反复从这些大块上切下小片，留下一连串小的、可能无用的碎片。相反，如果列表按内存地址排序，分配器更有可能扫过小空洞，找到一个“完美匹配”的，从而保护较大块的完整性。一个简单的模拟显示，对于某些工作负载，按地址排序的列表在清理小空洞和减少碎片方面要好得多。[@problem_gid:3653451] 常言道，细节决定成败。

一个通用的思想：超越内存的首次适应

“适配第一个能用的”这个想法是如此基础，以至于它出现在科学和工程的许多领域，而不仅仅是内存分配器。思考一下装箱问题：你有一堆不同大小的物品，你想把它们装进最少数量的相同箱子（或盒子、卡车）里。这又回到了我们的杂货袋问题。

首次适应是一种自然、直观的策略。逐一处理物品，对于每个物品，将它放入（按你打开的顺序）第一个能装下它的箱子。如果没有已打开的箱子能装下，就新开一个。

让我们试试看。假设我们的箱子容量为 $10$ ，我们有六个大小为 $3$ 的物品和六个大小为 $7$ 的物品。首次适应算法首先处理六个大小为 3 的物品。它把其中三个放入箱子 1（总大小 $9$ ），接下来的三个放入箱子 2（总大小 $9$ ）。现在，六个大小为 7 的物品来了。它们能放进箱子 1 吗？不能，其剩余容量是 $1$ 。箱子 2 呢？不能，同样的原因。所以，首次适应算法被迫为六个大小为 7 的物品中的每一个都新开一个箱子。总数是： $2$ 个箱子装小物品， $6$ 个箱子装大物品，总共 $8$ 个箱子。

这是最优的吗？稍加思索就会发现一个好得多的装箱方法：将一个大小为 $7$ 的物品和一个大小为 $3$ 的物品放入每个箱子。它们的总大小是 $7+3=10$ ，完美匹配。这个策略只用了 $6$ 个箱子。首次适应算法使用了最优数量的 $8/6 = 4/3$ 倍。这个衡量算法性能与完美解决方案对比的比率，被称为近似比。

我们又可以问：情况能变得多糟？通过巧妙地构造物品序列——例如，一串大小略大于箱子容量 $1/3$ 的物品，后面跟着一串大小略小于 $2/3$ 的物品——首次适应算法可能被诱骗，使用大约为最优数量 $3/2$ 倍的箱子。它因为没有聪明地配对物品而浪费了空间，这是其贪心、短视本性的一个后果。

一个惊人的联系：哈希与空位

故事在这里发生了美丽而意想不到的转折，揭示了算法原理深层的统一性。让我们转向一个完全不同的领域：哈希表。哈希表是一种用于快速存储和检索数据的数据结构。在一个叫做带线性探测的开放定址法的简单版本中，你有一个槽位数组。要插入一个项目，你计算一个哈希函数，它给你一个起始索引。如果那个槽位被占用了，你不会放弃；你只是检查下一个槽位，再下一个，再下一个（如果需要，环绕到数组的末尾），直到你找到一个空的。

这听起来耳熟吗？应该如此。这个过程在功能上与首次适应算法是相同的。

把哈希表数组想象成一个环形的内存区域，每个槽位都是一个大小为 1 的内存单元。一次插入就是请求一个大小为 1 的块。哈希函数给你开始搜索的起始内存地址。线性探测——检查每个连续的槽位——无非就是首次适应策略！它在遇到的第一个空闲单元中“分配”该项目。

那么，与内存碎片等价的是什么呢？这是一种被称为主聚集的现象。随着项目的插入，它们会形成连续的已占用单元块。当一个新项目哈希到这些聚集的中间时，线性探测必须遍历到聚集的末尾才能找到一个空槽。这些聚集就是哈希表版本的、妨碍操作的碎片化、已分配的内存区域。正如外部碎片通过迫使更长的搜索来寻找合适的空洞从而减慢内存分配一样，主聚集也通过迫使更长的探测序列来减慢哈希表操作。

这不仅仅是一个定性的类比；其数学原理是相同的。线性探测的性能随着表的填满而急剧下降。当负载因子 $\alpha$ （已占用单元的比例）接近 $1$ 时，一次插入的预期探测次数会爆炸性增长。严格的分析表明，这个成本以 $\Theta((1-\alpha)^{-2})$ 的数量级增长。一个 99% 满的表不仅仅比 98% 满的表慢 1%；它大约慢了四倍！当空闲空间消失时成本的这种二次方爆炸，正是我们在内存分配器中看到的碎片的直接数学投影。

驯服野兽

首次适应算法在每次决策时都简单、优雅且快速，但它留下的碎片痕迹会随着时间的推移而削弱系统性能。那么，我们该如何与它共存呢？

一种暴力解决方案是紧凑。我们可以定期暂停系统，将所有已分配的内存块移动到一端，并将所有分散的空闲洞合并成一个单一的、大的、连续的块。这完全消除了外部碎片。当然，代价是移动可能达数GB数据的巨大开销。

或者，我们从一开始就可以选择不同的贪心策略。除了首次适应，我们还可以使用最佳适应，它会扫描整个空闲块列表，并选择能够满足请求的最小块。这旨在避免留下微小、不可用的内存碎片。或者我们可以使用最差适应，它总是从最大的可用块中划分请求，目的是留下大的、有用的剩余部分。每种策略都代表了在对抗碎片化斗争中的不同权衡。对于某些请求模式，最差适应通过保留 FF 会消耗掉的较小块，其性能可以显著优于首次适应。[@problem_D:3644191]

没有“一刀切”的解决方案。首次适应算法，以其全部的简单性，教给我们一个关于工程和复杂性的深刻教训。最简单的选择往往最诱人，但其长期后果可能是微妙而严重的。理解这些权衡——简单与远见、速度与浪费——是设计健壮高效系统的核心，无论我们是在管理计算机的内存、打包箱子，还是组织数据。“采用第一个可行的”这个优雅简单的想法是一个强大的工具，但我们必须睁大眼睛，清醒地认识到它可能创造的美丽混乱。

应用与跨学科联系

在我们了解了首次适应算法的原理之后，您可能会觉得它只是一个巧妙但狭隘的技巧，是解决计算机内存管理中某个特定问题的特定方案。但这就像说拱形结构只对建造罗马渡槽有用一样！实际上，首次适应背后的哲学——做出简单、快速的局部选择——是一个在众多学科中反复出现的强大主题。这是一个基本的启发式方法，是大自然、工程师和数学家一次又一次偶然发现的经验法则。

让我们开启一段探索这些联系的旅程。我们将看到这个简单的想法，从不同角度审视时，如何帮助我们组织数据、调度任务，甚至理解复杂系统的行为。

数字房地产游戏：掌握计算机内存

首次适应最经典、最直接的应用，是在几乎每一台现代计算机的核心：动态内存管理。想象一下计算机的内存（堆）就像一条长长的、连续的数字房地产。程序就像租户，不断地请求地块（malloc）来建造，之后又放弃它们（free）。操作系统或内存分配器就是房东，其工作是高效地管理这个混乱的市场。

当一个程序请求一个特定大小的内存块时，房东必须找到一个足够大的空闲地块。一个天真的房东可能会煞费苦心地勘察每一个空地块，以找到最贴合请求的那个（“最佳适应”策略），希望为未来的大请求保留较大的地块。但这很慢，而且事实证明，它也会导致自身的问题。

首次适应房东则更为务实。它维护一个可用地块的列表，并从列表顶部开始，向下查找，直到找到第一个足够大的地块。它划出请求的数量，并留下剩余部分。这种方法快速、简单、直观。这就像你开车进入停车场时使用的策略；你通常不会开到最里面去寻找“完美”的车位，而是选择你看到的第一个能停下你车的车位。

但这个简单的选择会带来令人惊讶的复杂后果。首次适应算法的性能与房东如何组织其空闲地块列表密切相关。

空闲列表的顺序：新释放的地块应该被添加到列表的开头（后进先出，LIFO）还是末尾（先进先出，FIFO）？LIFO 策略通常被证明更优越。它优先重用最近释放的内存。这对于那些快速创建和销毁临时数据的程序来说非常棒，因为相同的内存位置可以被迅速回收，从而提高速度和局部性。列表管理上的这个简单改变可以显著减少寻找内存的时间，并可能在堆的“活跃”端（大部分活动发生的地方）减少碎片。
合并的力量：当租户离开时，他们的地块变为空闲。如果他们两侧的邻居也是空地，那么拆掉栅栏，将它们合并成一个更大、更有用的地块是合理的。这被称为合并。这个过程的有效性可能取决于块被释放的顺序。程序中的一个常见模式是分配一系列块，然后以与分配相反的顺序释放它们。对于首次适应分配器来说，这种类似 LIFO 的释放模式是天赐之物。释放最近分配的块通常意味着它与堆末端的大片未使用区域相邻，从而可以立即合并，并保留一个大的、连续的空闲块。相比之下，从繁忙区域的中间释放块可能会产生孤立的“洞”，这些洞难以重用，导致我们所说的外部碎片——一种总空闲内存充足，但都碎成了小的、不可用碎块的状态。
首次适应 vs. 竞争者：最佳适应策略的直观吸引力——通过为小请求使用最紧凑的空洞来保留大块——是强烈的。然而，现实往往与直觉相反。在某些情况下，最佳适应的“节俭”可能成为其败因。通过总是选择最紧凑的匹配，它可能会留下一连串微小、无法使用的内存碎片。而首次适应，有时会“浪费地”用一个大块来满足小请求，反而可能留下一个更大、更有用的剩余片段。这揭示了系统设计中的一个深刻教训：局部最优的选择并非总是全局最优，有时一个简单、“足够好”的启发式方法，如首次适应，其表现会优于一个更复杂、看似更聪明的策略。

首次适应哲学在其他领域的应用

首次适应的真正美妙之处在于其通用性。其核心概念——扫描一系列资源并占用第一个可行的——以多种形式出现。

哈希：为数据寻找家园

想象一个有编号公寓的大型公寓楼。你想根据新住户的名字为他们分配公寓。你可以使用一个函数（哈希函数）将他们的名字转换为一个公寓号码。但是当两个不同的人的名字映射到同一个公寓号码时会发生什么？这是一个“冲突”，你需要一个策略来解决它。

最古老、最简单的解决方案之一是线性探测法，这无非是伪装的首次适应算法。如果一个人的指定公寓 $k$ 被占用了，他们就简单地尝试下一个， $k+1$ ，然后是 $k+2$ ，依此类推，直到找到第一个空公寓。这正是将首次适应算法应用于槽位数组而不是内存堆。这里的“资源”是数组索引，“搜索”则是一个简单的线性扫描。这种方法实现起来非常快，但就像它的内存管理表亲一样，它可能会遭受一个与碎片化类似的问——“主聚集”，即已占用的槽位开始聚集在一起，导致新插入项的搜索时间越来越长。

调度：分配时间，而非空间

让我们从内存和数据的数字世界转向高风险的广播电视世界。一个电视网络有一段固定的时间来播放广告。每个广告都有不同的价值（广告商愿意支付的费用）和一个必须播出的硬性截止日期。目标是创建一个能最大化总收入的时间表。

你会如何解决这个问题？这听起来比仅仅将块装入内存要复杂得多。然而，一个绝妙且可证明为最优的解决方案使用了一种基于首次适应哲学的贪心方法。策略如下：

首先，按广告支付的费用降序考虑它们。你总是想尝试安排那些利润最丰厚的广告。
对于支付最高的广告，应该把它放在哪里？这里有一个巧妙的转折。你应该把它放在其截止日期之前的最晚可能的时间槽。

这第二步是首次适应的一个优美变体。你正在寻找“第一个可用的”槽位，但你是从截止日期向后扫描。为什么这能行？通过将高价值的广告尽可能晚地放置，你为其他广告留出了所有较早的时间槽。这为其他广告，特别是那些可能有非常紧张、早期截止日期的广告，提供了最大的灵活性。这是一个精明地为未来保留选项的贪心选择。令人难以置信的是，这个简单、直观的算法保证能找到绝对最佳的时间表，这一结果植根于拟阵的深层数学理论。

简单的美

我们的巡礼结束了。我们看到了同一个基本思想在管理计算机内存中的字节、在哈希表中组织数据以及调度价值百万美元的广告活动中发挥作用。在每种情况下，首次适应策略都提供了一种快速、简单且非常有效的解决方案。

它告诉我们，有时，最优雅的解决方案不是那个穷尽分析所有可能性的方案，而是那个做出快速、合理且具有前瞻性选择的方案。首次适应算法是简单力量的证明，也是一个单一、统一的原则为各种复杂问题带来清晰和秩序的美丽范例。