多凸性

玻尔百科

定义

多凸性是非线性弹性力学中关于材料应变能函数的一种数学条件，旨在保证物理稳定解的存在性。如果材料模型的能量可以表示为变形梯度、其伴随矩阵及其行列式的凸函数，则该模型被定义为具有多凸性。这一概念在秩一凸性与拟凸性之间建立了联系，对于构建工程有限元分析及物理驱动的机器学习材料模型至关重要。

多凸性是施加于材料应变能函数上的一个数学条件，它保证了非线性弹性理论中稳定物理模型解的存在性。
它弥合了弱但必要的稳定性条件（一阶凸性）与真实但难以应用的稳定性条件（拟凸性）之间的差距。
如果一个材料模型的能量可以表示为变形梯度、其伴随矩阵及其行列式的凸函数，那么该模型就是多凸的。
这一原理对于在工程领域构建稳健的计算模型（有限元法）以及创建材料的物理信息机器学习模型至关重要。

引言

在工程和科学领域，预测橡胶或软组织等材料在应力下的变形至关重要。我们依靠数学模型和计算机模拟来设计从汽车轮胎到人造心脏瓣膜的各种物品。然而，一个根本性的挑战随之而来：我们如何能确定我们的材料数学模型在物理上是合理的？创建一个在简单测试中看似稳定，但在复杂、真实场景中却导致灾难性失效或无意义结果的模型，是出乎意料地容易的。

本文深入探讨多凸性，这是一个深刻的数学概念，为这个稳定性难题提供了答案。它如同构建稳健材料模型的黄金法则，确保我们的模拟植根于物理现实。我们将首先探索其底层的原理与机制，穿行于一系列数学稳定性条件的层级结构中，以理解为何多凸性是工程师的理想选择。随后，在应用与跨学科联系部分，我们将看到这个抽象理论如何成为不可或缺的工具，从为可靠的计算力学提供动力到塑造物理信息人工智能的前沿。

原理与机制

想象一下拉伸一根橡皮筋。你拉得越用力，它回弹的力就越大。它感觉稳定、可预测。如果你要用数学来描述这种行为，你可能会画一条简单的曲线：随着拉伸的增加，储存在橡皮筋中的能量以一种平滑的碗状形态上升。我们称这种能量函数为凸函数。在很长一段时间里，物理学家和数学家都相信，如果一个材料的能量在简单测试（拉伸、剪切、压缩）中表现出这种特性，那么在任何可能的变形下，无论多么复杂，它都会表现良好。

然而，这种直觉被证明是危险地不完整的。一个材料在你拉伸它时可能显得非常稳定，但在更复杂、多维的载荷（如扭转和弯曲）下，却可能隐藏着奇异不稳定性的潜力。在简单的实验室测试中，应力可能随拉伸单调增加，但当用于真实世界情景的计算机模拟时，该材料模型可能会完全失效。这个难题——表观稳定性与真实数学良定性之间的差距——迫使我们超越简单的直觉，深入到优雅而微妙的变分法世界。

寻求真正的最小值

当一个力作用于物体上时，比如一座桥梁承受交通的重量，或一个心脏瓣膜承受血压，物体会变形直到达到平衡状态。物理学告诉我们，稳定的平衡对应于势能最小的状态。为了找到物体将呈现的形状，我们必须找到使其总能量最小化的变形，这个总能量是储存能量密度 $W$ 在整个物体上的积分：

I(\mathbf{y}) = \int_{\Omega} W(\nabla \mathbf{y}(\mathbf{x})) \, \mathrm{d}\mathbf{x}

在这里， $\mathbf{y}$ 代表变形，其梯度 $\mathbf{F} = \nabla \mathbf{y}$ 是一个矩阵，描述了材料在每一点上是如何被拉伸、剪切和旋转的。找到使该积分最小化的变形 $\mathbf{y}$ 是变分法中的一个经典问题。

为了保证最小能量状态确实存在，我们的能量景观必须满足两个基本条件。首先，它必须是强制性 (coercive) 的：对于极端变形，能量必须无限增大，这实质上创造了一个巨大的“能量谷”，防止解“逃逸到无穷远”。这一点通常很容易确保。第二个条件则要微妙和深刻得多：能量泛函必须是弱下半连续的。

这个术语听起来很拗口，但其思想非常优美。想象一个越来越皱或振荡的变形序列。这个序列可能在“平均”意义上（一个称为弱收敛的概念）收敛到一个光滑、无皱的形状。危险在于，这些细微的皱纹可能成为材料“作弊”的方式，从而找到比它正在逼近的光滑形状更低的能量状态。如果发生这种情况，真正的最小能量可能只能通过一个无限皱褶的形状来实现，这意味着没有实际的、物理上可实现的解存在！下半连续性就是禁止这种病态行为的属性。它保证了当我们的变形序列接近一个极限时，极限形状的能量不高于能量的极限。

于是，非线性弹性的核心问题就变成了：能量密度 $W(\mathbf{F})$ 必须具备什么性质，才能保证这种至关重要的下半连续性？

稳定性的层级结构

对这个问题的探索揭示了一个优美的数学条件层级结构，每一个条件都是一个逐步更弱、更精细的稳定性概念。

凸性：简单但过于强大

最直接的条件是凸性 (convexity)。如果 $W$ 是变形梯度 $\mathbf{F}$ 的凸函数，事情就变得简单了。能量景观就像一个完美的碗。可以保证存在唯一的最小化子，并且我们可以可靠地找到它。然而，这个条件在物理上过于严格。物理学的一个基本原则是标架无关性 (frame-indifference)：如果我们只是旋转一个材料而不使其变形，其储存的能量不能改变。在数学上，这意味着对于任何旋转矩阵 $\mathbf{Q}$ ，都有 $W(\mathbf{QF}) = W(\mathbf{F})$ 。事实证明，这个简单的物理要求与凸性的严格数学定义是不相容的。真实的材料不能用凸能量函数来描述。我们需要一个更复杂的思想。

一阶凸性：必要的第一步

一个较弱的条件是一阶凸性 (rank-one convexity)。这个条件要求能量函数仅在“一阶”方向上是凸的，这些方向对应于简单的变形，如在一个方向上的纯拉伸或简单的剪切。这相当于我们简单的橡皮筋测试的数学表达。如果一个材料的能量函数不是一阶凸的，它可能会表现出不稳定性，比如材料在载荷下发生灾难性的软化。它是稳定性的一个必要条件，当用材料刚度表示时，通常称为勒让德-哈达玛条件。几十年来，人们曾希望这个条件也是充分的。

拟凸性：“真实”但难以应用的条件

Charles Morrey 发现了保证下半连续性的真正、神奇的条件。它被称为拟凸性 (quasiconvexity)。如果一个函数对于任何均匀变形的能量，永远不大于任何其他在平均意义上相同但具有细微尺度振荡的变形的平均能量，那么这个函数就是拟凸的。这个条件正是防止能量作弊的皱纹并保证最小化子存在的关键。

然而，拟凸性有一个巨大的缺陷：其定义涉及对所有可能的振荡变形检查一个不等式，这使得对于任何给定的 $W$ 公式，几乎不可能进行验证。我们找到了正确的答案，但却是一个我们无法使用的答案。

随着 Vladimír Šverák 的突破性工作，情况变得更加戏剧化。他证明了一阶凸性并不意味着拟凸性。他构建了一个数学上的“材料”，它通过了所有简单的稳定性测试（它是一阶凸的），但却不是拟凸的。这意味着一个材料在简单的实验中可能显得稳定，但仍然能够在复杂载荷下形成能量减少的微结构，导致光滑解的不存在。这一发现最终解释了像 Mooney-Rivlin 模型这类材料的谜题：它们在单一测试中的表观稳定性是一种欺骗性的平静。

这给我们留下了一个层级结构：

\text{凸性} \implies \text{拟凸性} \implies \text{一阶凸性}

在真实材料的多维世界中，每个蕴含关系都是严格的。我们被困在一个过于强大（凸性）和一个过于薄弱（一阶凸性）的条件之间，而“恰到好处”的条件（拟凸性）却无法使用。这就是多凸性作为故事主角登场的地方。

多凸性：工程师的黄金法则

突破来自数学家 John Ball，他引入了一个比拟凸性强、但比凸性弱，并且最重要的是，可以验证的条件。这个条件就是多凸性 (polyconvexity)。

其背后的直觉非常巧妙。Ball 不再将变形梯度 $\mathbf{F}$ 作为一个单一的实体来看待，而是考虑了它的基本几何作用。矩阵 $\mathbf{F}$ 告诉我们无穷小的线段是如何变换的。但是面积和体积呢？面积元素的变换由余子矩阵 $\operatorname{cof}\mathbf{F}$ 描述，而体积的变化由行列式 $J = \det\mathbf{F}$ 给出。

关键的洞见在于，虽然 $\mathbf{F}$ 本身在弱收敛序列中可以有剧烈的振荡，但对应的 $\operatorname{cof}\mathbf{F}$ 和 $\det\mathbf{F}$ 序列的行为要好得多。它们是弱连续的。这意味着“皱纹”无法在面积和体积的层面上隐藏能量的变化。

多凸性利用了这一绝佳的性质。一个函数 $W(\mathbf{F})$ 如果可以被写成一个关于这个行为良好的几何量三元组的凸函数（我们称之为 $g$ ），就被定义为多凸的：

W(\mathbf{F}) = g(\mathbf{F}, \operatorname{cof}\mathbf{F}, \det\mathbf{F}) $$。这是一个神来之笔。我们找到了一种方法，将一个可能复杂的、非凸的能量函数 $W$ 表示为一个关于一组更基本变量的简单[凸函数](/sciencepedia/feynman/keyword/convex_functions) $g$。因为 $g$ 是凸的，且其自变量（$\mathbf{F}$、$\operatorname{cof}\mathbf{F}$、$\det\mathbf{F}$）是弱连续的，所以整个能量泛函就变成了弱下半连续的。最小化子的存在性得到了保证！ 多凸性为构建物理上稳定且数学上合理的模型提供了一个实用的配方。例如，一个形式如下的各向同性能量函数：

W(\mathbf{F}) = \alpha |\mathbf{F}|^2 + \beta |\operatorname{cof}\mathbf{F}|^2 + \phi(\det\mathbf{F})

其中 $\alpha, \beta \ge 0$ 且 $\phi$ 是一个凸函数，则保证是多凸的。在这里，含 $\|\mathbf{F}\|^2 = \mathrm{tr}(\mathbf{F}^\top\mathbf{F})$ 的项惩罚长度的变化，含 $\|\operatorname{cof}\mathbf{F}\|^2$ 的项惩罚面积的变化，而 $\phi(\det\mathbf{F})$ 项惩罚体积的变化。 ### 真实世界与数字世界中的多[凸性](/sciencepedia/feynman/keyword/convexity) 这个数学框架具有深远的实际意义。其中最重要的之一是防止模拟中出现非物理行为。体积变为零或负值（$J \le 0$）的变形对应于物质被压碎为虚无或自我翻转。一个多凸能量模型可以通过选择与体积相关的部分 $\phi(J)$，使其在 $J \to 0^+$ 时能量趋于无穷大，从而设计一个内置的“屏障”。例如，在能量中加入诸如 $\kappa (J-1)^2$ 或 $-\ln(J)$ 这样的项，会强烈惩罚此类状态，迫使任何能量最小化的解都必须保持正体积 $J > 0$。 这使得多[凸性](/sciencepedia/feynman/keyword/convexity)成为**​[计算力学](/sciencepedia/feynman/keyword/computational_mechanics)​**中不可或缺的工具。当工程师使用[有限元法](/sciencepedia/feynman/keyword/finite_element_methods)（FEM）模拟车祸、设计生物[心脏瓣膜](/sciencepedia/feynman/keyword/heart_valves)或分析摩天大楼的结构时，他们依赖于保证有解的材料模型。使用多凸[应变能函数](/sciencepedia/feynman/keyword/strain_energy_function_2)可以确保底层的数学问题是良定的，从而防止模拟失败或产生物理上无意义的结果。然而，需要注意的是，多[凸性](/sciencepedia/feynman/keyword/convexity)确保了解决方案的*存在性*​，但不一定是其*唯一性*​。底层物理的非[凸性](/sciencepedia/feynman/keyword/convexity)质仍然可能导致多个稳定状态，就像在[屈曲](/sciencepedia/feynman/keyword/buckling)现象中一样。 多[凸性](/sciencepedia/feynman/keyword/convexity)的力量甚至延伸到了[材料科学](/sciencepedia/feynman/keyword/material_science)的前沿。如今，研究人员利用机器学习直接从实验数据中发现新的材料模型。一个主要的挑战是确保学到的模型尊重物理学的基本定律。多[凸性](/sciencepedia/feynman/keyword/convexity)原则为此提供了蓝图。通过设计专门的**输入凸[神经网](/sciencepedia/feynman/keyword/nerve_net)络（ICNNs）**，将三元组 $(\mathbf{F}, \operatorname{cof}\mathbf{F}, \det\mathbf{F})$ 作为输入，并在架构上约束它们成为这些输入的[凸函数](/sciencepedia/feynman/keyword/convex_functions)，我们就可以从数据中学习材料的能量响应，同时通过构造保证所得模型在物理上是稳定的，在数学上是良定的。 从一根简单的拉伸橡皮筋到自学习材料的设计，贯穿凸性层级结构的旅程揭示了力学数学中深刻而美丽的统一。多凸性证明了抽象数学概念解决具体、现实世界问题的力量，为物理原理和计算现实之间架起了一座坚固而优雅的桥梁。

应用与跨学科联系

如果你跟随我们走到了这里，你可能会认为多凸性是一个相当抽象的数学概念，是变分法深邃角落里专家们的好奇心所在。在某种程度上，你是对的。它确实是一个深刻的数学概念。但仅止于此，就好比将和声定律描述为纸上的音符，而忽略了它们所创造的交响乐。多凸性不仅仅是一个抽象概念；它是一个至关重要的、统一的原则，为我们可变形世界的模型注入了物理现实。它是确保我们的方程不会将我们引入荒谬的无声守护者，是让我们能够构建稳健模拟的总建筑师法则，也是指导我们最先进人工智能的智慧导师。

让我们走出纯粹原理的世界，看看这个思想如何在科学和工程领域产生共鸣。

稳定性的基石：存在性的保证

想象你是一位工程师，任务是设计一个橡胶发动机支架。你为橡胶创建了一个复杂的计算机模型，施加它将要经受的力，然后让计算机预测其最终形状。如果计算机回答说：“对不起，不存在这样的形状”怎么办？或者更糟，如果它向你展示一个形状，其中橡胶块的不同部分相互穿过，同时占据了同一空间？这不仅仅是一个计算故障；这是一个信号，表明你底层的材料数学模型在物理上是错误的。

非线性弹性理论将这个问题框定为寻找一个使总能量泛函最小化的变形。但最小值总是存在吗？我们能确定它对应一个唯一的、物理上合理的状体吗？没有某些数学上的护栏，答案是响亮的“不”。这就是多凸性登场的地方。它是一个充分条件，保证能量泛函“行为良好”，足以使最小值存在。它确保在寻找最低能量状态时，我们不会从数学悬崖上坠入无意义的深渊。

多凸性，连同一个强制性条件（基本上是说无限拉伸某物需要无限能量）和一个防止体积坍缩的屏障（将某物压碎至零体积需要无限能量），为证明超弹性中解的存在性提供了神圣的三位一体。它告诉我们，我们向计算机提出的问题是一个明智的问题。它是我们关于稳定性的物理直觉已正确转化为数学语言的基本检验。虽然像一阶凸性这样的较弱条件可能看起来很有吸引力，但众所周知它们是不够的；存在反例，它们被满足，却找不到稳定的解。多凸性是我们需要的严谨基础。

现实的配方：构建材料模型

那么，我们如何构建具有这种神奇性质的能量函数呢？大自然并没有给我们一个橡胶或软组织应变能的公式。我们必须自己构建它。多凸性提供了一本食谱。核心思想是，能量 $W(\mathbf{F})$ 可以写成一个凸函数，其变量不仅包括变形梯度 $\mathbf{F}$ ，还包括其数学亲属：余子矩阵 $\operatorname{cof}\mathbf{F}$ 和行列式 $\det\mathbf{F}$ 。

让我们给这些数学对象一些物理直觉。 $\mathbf{F}$ 描述了材料的局部拉伸和剪切。行列式 $J = \det\mathbf{F}$ 告诉我们局部体积的变化。余子矩阵 $\operatorname{cof}\mathbf{F}$ 更微妙一些，但它与变形过程中表面积如何变化有关。多凸性告诉我们，如果我们将这些单个物理成分的简单凸函数相加来构建我们的总能量，那么得到的模型将是行为良好的。

例如，一个简单的多凸能量函数可以构建为：

W(\mathbf{F}) = a \|\mathbf{F}\|^2 + b \|\operatorname{cof}\mathbf{F}\|^2 + U(\det\mathbf{F})

其中 $a$ 和 $b$ 是非负常数，而 $U$ 是体积变化 $\det\mathbf{F}$ 的任意凸函数。项 $\|\mathbf{F}\|^2$ 和 $\|\operatorname{cof}\mathbf{F}\|^2$ 本身就分别是 $\mathbf{F}$ 和 $\operatorname{cof}\mathbf{F}$ 的凸函数。如果我们选择 $U$ 为凸函数（比如 $c(\det\mathbf{F} - 1)^2$ 来惩罚体积变化），那么整个表达式通过构造就是多凸的。

这种构造方法非常强大。它使我们能够构建许多著名的类橡胶材料模型。例如，经典的新胡克模型和 Mooney-Rivlin 模型可以被表述为多凸函数，前提是它们的材料参数选择正确（例如，它们必须是正的）。这个配方也警示我们潜在的陷阱。建模中一个常见且物理上吸引人的技术是“乘法分解”，它将能量分为体积变化部分和形状变化部分。然而，这种分解常常导致能量函数不是多凸的，这对该领域的专家来说是一个关键且不平凡的洞见。因此，多凸性不仅仅是一个理论检验；它是一个用于创建物理和数学上稳健的本构律的实用设计指南。

从方程到洞见：驱动计算力学

一个物理理论的真正力量在于它能做出定量预测。在现代工程中，这是通过计算机模拟完成的，最常用的是有限元法（FEM）。有限元法将一个复杂的对象，如汽车车架或地质地层，分解成大量微小、简单的“单元”。然后，它求解一个庞大的方程组，以找到每个单元的变形，这些变形共同使物体的总势能最小化。

在这里，多凸性再次变得不可或缺。计算机必须解决的能量最小化问题只有在能量函数具有正确的数学结构时才是良定的。多凸性提供了这种结构。它确保计算机探索的“能量景观”中没有会使模拟崩溃的病态漏洞或无限尖峰。它保证了数值方法试图近似的底层连续问题是健全的。

然而，一个良定的连续问题并不能自动保证一个稳定的数值模拟。有限元的离散世界有其自身的挑战，如“锁定”或单元反转。但是，一个多凸能量函数，特别是带有一个强大的防止体积坍缩的屏障（即当 $\det \mathbf{F} \to 0^+$ 时 $W \to \infty$ ）的函数，提供了巨大的稳健性。它在模拟中创造了一个强大的“恢复力”，惩罚那些试图自我翻转的单元，使得有限元法中使用的非线性求解器更有可能收敛到物理上有意义的解。因此，虽然多凸性本身并不能解决所有的数值挑战，但它是构建可靠的固体力学计算工具的先决条件。

前沿：将旧物理教给新机器

也许多凸性最激动人心的应用是在科学的最前沿：力学与人工智能的交叉点。几十年来，我们 painstakingly 手工制作材料模型。如果我们能直接从实验数据中学习这些模型呢？这就是数据驱动本构建模的承诺。

一种天真的方法是训练一个通用的“黑箱”神经网络来映射应变到应力。然而，这样的模型对底层物理一无所知。它可能完美地拟合训练数据，但在被要求预测对一个新的、未见过的变形的响应时，可能会壮观地失败，甚至可能违反能量守恒或材料稳定性等基本原则。

正是在这里，多凸性提供了一个异常优雅的解决方案。我们可以设计一个神经网络来学习应变能函数本身，而不是学习一个“黑箱”应力响应。但不是任何网络。我们可以将多凸性原则直接构建到网络的架构中。

该技术涉及使用所谓的输入凸神经网络（ICNN）。ICNN 是一种特殊类型的神经网络，通过约束其内部权重，在数学上保证是其输入的凸函数。其天才之处在于：如果我们设计一个 ICNN，其输入是“多凸成分”（ $\mathbf{F}$ 、 $\operatorname{cof}\mathbf{F}$ 和 $\det\mathbf{F}$ ），那么得到的能量函数通过构造就是多凸的。

这种“物理信息”方法是一种范式转变。我们让机器从数据中学习复杂的材料响应，但我们强迫它遵守物理规则。我们甚至可以在架构上强制执行其他原则，比如将能量分为体积变化和形状变化部分。寻找最佳模型参数的过程于是变成一个良定的凸优化问题，可以被高效地解决。

我们正在见证的是一个来自 1970 年代的深刻数学原理与最先进的机器学习的美丽融合。多凸性就像一个永恒的智慧，传承给我们最现代的计算工具，确保即使它们在学习，也不会忘记物理世界的基本法则。这是对科学原理跨越学科和时代的持久力量和统一性的深刻证明。