二次规划 (QP)

玻尔百科

定义

二次规划 (QP) 是指在满足线性约束条件下，对凸二次目标函数进行最小化的数学优化方法。该学科领域通过二次方建模风险或成本，能够确保高效地找到全局最优解，广泛应用于金融资产组合优化、生物力学以及支持向量机（SVM）等机器学习算法。对于复杂的非线性问题，二次规划 (QP) 也是序列二次规划（SQP）算法通过迭代求解局部近似问题的核心基础。

核心要点

二次规划 (QP) 解决在线性约束下最小化凸二次目标函数的问题，确保能够高效地找到唯一的全局解。
QP 通过二次形式表示风险或成本，直接为金融领域的投资组合优化和生物力学中的力气最小化等实际问题建模。
在机器学习中，QP 是支持向量机 (SVM) 背后的核心引擎，通过解决对偶空间中的优化问题，能够创建强大的非线性分类器。
对于复杂的非线性问题，序列二次规划 (SQP) 方法通过迭代求解一系列局部 QP 近似问题，逐步逼近最优解。

引言

在广阔的数学优化领域，问题的难度从极其简单到难以处理。在建模真实世界的细微之处与保持计算可解性之间找到理想的平衡是一项核心挑战。二次规划 (QP) 作为一种强大的工具应运而生，完美地实现了这种平衡。它提供了一个足够丰富的框架，能够捕捉物理学、金融学和统计学中常见的二次关系，同时其结构又足够简单，可以非常高效和可靠地求解。

本文深入探讨二次规划的世界，探索其基础结构和深远影响。第一章 “原理与机制” 将剖析 QP 问题的构成。我们将探讨其二次目标函数和线性约束，理解凸性的关键作用，并了解 QP 如何作为解决更复杂优化挑战的基石。随后，第二章 “应用与跨学科联系” 将带领读者穿越金融、机器人到机器学习等不同领域，揭示 QP 如何为解决关键的现实世界问题提供通用语言。读完本文，您将全面理解为何 QP 是现代科学与工程中不可或缺的工具。

原理与机制

想象一下，你正站在一片广阔的丘陵地带，目标是找到最低点。这片地貌是你希望最小化的一个数学函数的物理表示。如果这片地貌是一个简单、完美光滑的碗状，你的任务就很容易：只需放下一颗弹珠，它会自然滚到唯一的最低点。这个完美的碗状世界就是二次规划 (QP)。它达到了一个美妙的平衡：既足够复杂，能够为各种现实世界现象建模，又足够简单，可以非常高效和可靠地求解。

二次规划的剖析

任何优化问题的核心都有两样东西：目标函数（我们地貌的高度）和约束（限制我们移动的围栏或墙壁）。QP 的特殊之处在于其地貌和围栏的具体性质。

二次目标函数：一个完美的抛物面碗

QP 中的地貌总是一个二次函数。对于由向量 $x$ 表示的一组变量，目标函数的一般形式为：

f(x) = \frac{1}{2} x^{\top} Q x + c^{\top} x

这个方程可能看起来很抽象，但它描述了一个我们熟悉的形状：一个多维抛物线，即抛物面。矩阵 $Q$ 控制着碗的曲率——在不同方向上的陡峭或平坦程度——而向量 $c$ 则倾斜整个碗，改变其底部的位置。

这样的函数从何而来？它无处不在。最经典的例子之一是在统计学中，当我们试图用模型拟合数据时。想象一下，你有一组数据点，想找到穿过它们的“最佳”直线。衡量“最佳”的一个常用方法是最小化每个点到直线的垂直距离的平方和。这就是著名的最小二乘法。我们希望尽可能小的平方误差之和，结果正好是直线参数的一个完美二次函数。例如，最小化平方误差 $\|Ax - b\|_2^2$ 等价于最小化 $x^{\top} (A^{\top} A) x - 2 b^{\top} A x + \|b\|_2^2$ 。这正是 QP 目标函数的形式，其中曲率矩阵为 $Q = A^{\top} A$ 。

凸性问题：碗是朝上的吗？

要使我们的地貌成为一个“行为良好”的碗，有一个至关重要的条件：它必须是凸的。直观上，这意味着如果你在曲面上的任意两点之间画一条直线，这条线本身绝不会低于曲面。一个凸的碗只有一个谷底，这确保了如果我们找到了一个局部最小值，我们也找到了全局最小值。而非凸形状，比如鸡蛋盒，可以有许多局部最小值，这使得寻找真正的最低点成为一场噩梦。

在数学上，这个性质由曲率矩阵 $Q$ 决定。要使目标函数为凸函数， $Q$ 必须是半正定 (PSD) 的。这意味着对于任何方向向量 $v$ ，曲率 $v^{\top} Q v$ 必须是非负的。如果 $Q$ 是正定的（即对于任何非零 $v$ ，都有 $v^{\top} Q v > 0$ ），则目标函数是严格凸的，并且碗有唯一的最低点。

这不仅仅是一个数学细节，它关系到一个问题是否有意义。以投资组合优化为例，这是 QP 的一个旗舰应用。投资者希望在各种资产中分配资金，以在给定目标回报下最小化风险（投资组合的方差）。投资组合的方差是投资权重的一个二次函数，其中资产的协方差矩阵扮演着 $Q$ 的角色。如果这个协方差矩阵不是半正定的，那就意味着存在一种资产组合具有负方差——这是一个荒谬的概念。它意味着你可以在某个方向上沿着“碗”滑下，以零风险获得无限回报。求解器遇到这样的问题会理所当然地失败，因为模型让它去追逐一个幻想。补救措施是“修复”该矩阵，找到最近的半正定矩阵，以恢复问题的凸性及其与现实的联系。

约束的角色：地貌中的围栏

我们很少能在一整个地貌上自由漫游。我们几乎总是受到约束的限制。在 QP 中，这些约束的形式特别简单：它们必须是线性的。这意味着我们的围栏总是直线、平面或其更高维的等价物。它们围起来的区域，称为可行集，是一个具有平坦表面的几何对象，称为多胞体。

因此，完整的 QP 问题可以非常简单地进行可视化：在一个由平坦墙壁围成的区域内，找到抛物面碗上的最低点。如果无约束碗的最低点恰好在围栏内，那么解就在那里。或者，解可能位于某个围栏上，或者多个围栏相交的角落。

这种结构与 QP 更简单的近亲——线性规划 (LP) 形成了鲜明的对比。在 LP 中，“地貌”不是一个光滑的碗，而是一个倾斜的平面。因此，在多胞体上的最小值必须总是出现在某个尖锐的角点上。当我们比较使用平方误差（L2 损失）和绝对误差（L1 损失）的回归模型时，这种差异就非常明显。L2 回归是一个 QP，其解可以位于任何地方。L1 回归可以表述为一个 LP，其解往往是“稀疏的”，对应于其可行集的某个角点。选择二次目标函数还是线性目标函数，从根本上改变了解的性质。

混沌的边缘：当问题变得困难时

优雅的凸 QP 世界有其局限性。一旦我们引入一个看似微小的复杂因素，问题就可能从“简单”转变为“不可能的困难”。

向整数选择的飞跃

如果我们的变量不能取任意连续值，而被限制为整数呢？例如，一个变量可能代表是否建造一座工厂（1）或不建造（0）。这就是混合整数二次规划 (MIQP) 的世界。

突然之间，我们美丽的连续地貌被打破了。可行集不再是一个连通的多胞体，而是一组分散的离散点。弹珠滚到底部的比喻完全失效了。为了找到最佳点，我们不能再依赖平滑的梯度；我们可能需要穷举检查数量惊人的组合。这类问题通常是 NP-hard 的，意味着没有已知的有效算法可以在大问题中保证找到最优解。

在这里，QP 提供了一个强大的工具，不是直接解决这个难题，而是为了理解它。我们可以进行连续松弛：我们暂时忽略整数要求（例如，允许“建造”变量取 0 和 1 之间的任意值），然后求解得到的凸 QP。这个松弛问题的解为我们提供了最佳整数解的一个界限。它告诉我们，“你不可能做得比这更好了。”这个值是无价的，即使它在整数世界中无法实现。正如人们可能猜到的，简单地将松弛后得到的小数解四舍五入到最近的整数，通常无法得到真正的最优整数解，但它为复杂的算法提供了一个关键的起点，这些算法系统地探索离散空间，并在每一步都使用 QP 松弛作为指导。

QP 作为主要工具：构建更大型的机器

QP 最深刻的作用或许不在于解决本质上是二次的问题，而在于它被用作解决远为复杂问题的基石。

近似不规则问题

大多数现实世界的优化问题都不是带有平坦围栏的完美二次碗。它们是非线性规划 (NLP)，具有任意颠簸的地貌和弯曲的约束。在这样的世界中找到全局最小值是一项艰巨的任务。

序列二次规划 (SQP) 的策略既巧妙又简单。在复杂、颠簸的地貌上的任何一点，我们都可以创建一个局部近似。我们用一个在该点上值、斜率和曲率都相匹配的二次碗来近似目标函数。我们用平坦的切面来近似弯曲的约束边界。换句话说，我们用一个易于处理的 QP 来代替困难的 NLP，这个 QP 是对真实问题在紧邻区域内的一个良好模型。

然后我们求解这个局部 QP。其解并不能给我们最终答案，但它告诉我们最有希望的前进方向。我们朝那个方向迈出一步，到达真实地貌上的一个新点，然后重复这个过程：建立一个新的局部 QP，求解它，再迈出一步。通过迭代求解一系列简单的二次规划，我们可以在一个一般非线性问题的复杂地形中导航。

而真正美妙之处，就像物理学家喜欢看到深刻联系一样，在于这个过程的真正本质。一个约束优化问题的一阶最优性条件是一个被称为 Karush-Kuhn-Tucker (KKT) 条件 的方程组。每一步求解 SQP 子问题，在数学上等同于对原始困难 NLP 的 KKT 系统应用一次牛顿法——微积分中求解方程组最强大的技术。因此，二次规划充当了一台精密机器内部的引擎，这台机器统一了局部近似、约束优化和微积分的基本原理，以应对广阔而富有挑战性的问题领域。

应用与跨学科联系

在了解了二次规划的原理和机制之后，我们可能会留下这样一种印象：它是一个简洁但或许有些枯燥的数学工具。我们已经看到了二次目标函数和线性约束的优雅结构。但它到底有何用？为什么这种特定结构值得我们关注？

答案，正如我们将要看到的，是自然界以及我们理解和操控自然的尝试，似乎对这种形式有着非凡的亲和力。从金融市场的冷酷算计到人类运动的微妙优雅，从自主机器人的设计到我们教机器学习的方式，二次规划不再仅仅是一种好奇心，而是表达和解决大量问题的基本语言。这样一个特定的公式能找到如此广泛而深刻的应用，正是“数学不合理的有效性”的明证。现在让我们探索这一领域，看看 QP 在各学科中所揭示的内在美和统一性。

优化的直接语言：用 QP 为世界建模

在其最直接的形式中，二次规划是一种精确的建模工具。当一个系统的成本或能量天然是二次的，而其运行规则是线性的时，QP 就不是一个近似——它就是问题本身。

金融学：对最优投资组合的探索

也许最著名的应用是在金融领域，源于诺贝尔奖得主 Harry Markowitz 的工作。想象你是一位投资者。你想要最大化回报，但又对风险保持警惕。你如何平衡这些相互竞争的愿望？Markowitz 意识到，一个投资组合的期望回报是其资产回报的简单线性加总，而风险（通常用方差衡量）则是投资权重的二次函数。

这为 QP 完美地搭建了舞台。问题变成：在达到特定目标回报并确保所有投资权重之和为一（两个线性等式约束）的前提下，最小化投资组合的方差（一个二次目标）。通过求解这个 QP，投资者可以描绘出“有效前沿”——一条代表在任何给定风险水平下可能获得的最佳回报的曲线。这是对平衡贪婪与恐惧这一古老问题的优美量化回答。更重要的是，所得方程的底层数学结构为我们提供了如何高效解决这些问题的深刻见解，即使面对数千种资产也是如此。

工程学与生物力学：最小做功原理

自然似乎也是一位精明的投资者。考虑一下举起重物这个看似简单的动作。你的大脑必须决定如何在多块肌肉之间分配负荷。它是如何选择的？生物力学中一个令人信服的假设是，身体会优化某些东西，比如最小化代谢能量或肌肉疲劳。许多模型将这种代谢成本近似为肌肉力量的二次函数。

这导致了一个与投资组合优化惊人相似的问题。我们想要最小化总力气（一个二次成本），约束条件是肌肉产生的扭矩总和必须恰好平衡你所持重物产生的扭矩（一个线性约束）。此外，每块肌肉能产生的力都有一个最大值，这为问题增加了简单的线性不等式约束。

这个框架不仅帮助我们理解人类运动控制，还提供了一个实用的工具。有时，某项任务可能无法完成——所需的扭矩可能超过了肌肉的总能力。在这种情况下，最初陈述的 QP 问题将是不可行的。但我们可以通过引入一个“松弛变量”（代表扭矩的不足）并将其惩罚项添加到我们的目标函数中来修改它。这将一个不可能的问题转变为一个可解的问题，从而找到“尽可能最好”的尝试，这是一种对现实世界工程和康复机器人至关重要的稳健方法。

数据科学：用物理约束塑造函数

在数据时代，我们不断尝试寻找能够拟合观测数据的函数。一种常见的方法是“最小二乘法”，即找到一个函数，使其预测值与真实数据之间平方误差的总和最小。这个误差度量是一个二次目标函数。但通常，仅仅拟合数据是不够的。我们可能从物理或逻辑中拥有先验知识，知道底层函数必须遵守关于其形状的某些规则。

例如，一个物理量（如密度）的模型不能为负。一个描述累积概率的函数必须总是非递减的。一条用于计算机辅助设计的曲线可能需要平滑且凸，没有任何不希望出现的摆动。

乍一看，强制实施像“单调性”或“凸性”这样的全局属性，似乎比 QP 的简单线性约束要复杂得多。但其魔力在于找到巧妙的方法来表示函数。要使多项式在某个区间上单调，其导数必须在该整个区间内非负。虽然这听起来很复杂，但通过在一个基（如伯恩斯坦基）中表示导数，可以将其转换为对多项式系数的一组线性约束，在该基中，非负系数保证了函数的非负性。为保证非负性，可以将多项式表示在一个特殊的“伯恩斯坦基”中，其中约束优雅地简化为要求所有基系数都为非负。对于三次样条，通过要求连接点的二阶导数为非负来确保凸性。

在所有这些情况下，一个复杂的功能性要求被转化为对模型参数的一组简单线性不等式。寻找最拟合、物理上合理的函数的问题变成了一个二次规划问题。这使我们能够“塑造”出不仅忠实于数据，也忠实于它们所代表的底层现实的函数。

现代科学的引擎：作为子问题的 QP

到目前为止我们所见的应用都非常深刻，但它们仅仅触及了表面。也许 QP 在现代科学和工程中最重要的作用不是作为直接模型，而是作为解决更复杂非线性问题的算法核心的强大计算引擎。

控制理论与机器人学：在非线性世界中规划路线

想象一下，为一个仿人机器人编写行走程序，或者为一个庞大的电网设计控制系统。支配这些系统的物理学——从动力学方程到交流潮流——是深度非线性的。没有简单的、一步到位的公式可以找到最优轨迹或操作点。

解决这些问题的主力方法是序列二次规划 (SQP)。其核心思想非常简单：“二次思考，线性行动”。在我们寻找解的任何给定点上，我们无法解决真实、困难的非线性问题。取而代之的是，我们创建一个简化的局部世界模型。我们用线性约束（它们的一阶泰勒展开）来近似非线性约束，并用一个二次模型来近似成本函数。这个局部的、简化的模型就是一个二次规划。我们求解这个 QP 来找到最佳的前进方向，朝那个方向迈出一小步，然后重复这个过程：建立一个新的 QP 模型，求解它，再迈出一步。通过求解一系列易于处理的 QP，我们迭代地向着难以处理的非线性问题的解前进。

一个相关的思想是模型预测控制 (MPC)，这是控制随时间演变系统（如自动驾驶汽车或化学过程）的首选策略。在每一刻，控制器都会向前看一个短暂的时间范围，建立一个系统未来演变的简化模型，并求解一个优化问题以找到最佳的行动序列。这个优化问题通常是一个 QP。然后，控制器只执行该序列中的第一个动作，观察世界的新状态，并重复整个过程。它在不断地重新规划。能够极其快速和可靠地求解 QP，是使这种强大的实时控制策略成为可能的关键。

机器学习：在高维空间中寻找模式

最后，我们来到了人工智能的前沿。现代机器学习中最优雅的思想之一是支持向量机 (SVM)，以及通过核方法的推广。其目标是对数据进行分类——找到一个边界，例如，将猫的图片与狗的图片分开。

如果数据是“线性可分”的，我们只需在两个类别之间画一条线（或在更高维度中画一个平面）。SVM 的目标是找到“最佳”平面——即在两侧留下最大可能“间隔”或空白空间的那个平面。事实证明，最大化这个间隔等价于最小化一个二次目标，其约束条件是要求所有数据点都在边界的正确一侧。这是一个 QP！

但如果数据不是线性可分的怎么办？SVM 的真正天才之处在于核技巧。我们想象将数据映射到一个维度极高的空间，在这个空间里数据确实变得线性可分。可以想象一个二维平面上纠缠在一起的红点和蓝点组成的环，无法用一条直线分开。如果我们将这些数据投影到一个三维曲面上，这个环可能会解开，从而允许一个简单的平面将颜色分开。

奇迹在于，我们实际上永远不需要计算这个天文数字般维度的特征空间中的坐标。通过将其“对偶”形式的 QP 公式化，整个优化过程仅依赖于该高维空间中数据点之间的点积。而这些点积通常可以使用一个作用于原始低维数据的“核函数”廉价地计算出来。

这是一个惊人的概念飞跃。通过在对偶空间中求解一个 QP——一个具有唯一全局解的凸问题——我们能够有效地训练一个高度复杂的非线性分类器，它隐式地在一个可能无限维的空间中运行。QP 为这种深刻的机器学习范式提供了易于处理的计算基础。

一条统一的线索

从金融投资组合的实际权衡到核方法的抽象之美，二次规划是一条连接众多不同领域的线索。它的力量在于其表达能力，能够为成本、风险和误差建模，并结合其刚性结构，从而能够得到高效可靠的解。这是一个既理论上优雅又实践上不可或缺的数学概念的完美范例，它不仅帮助我们找到最优解，也帮助我们看到所要解决问题背后的内在统一性。