短期利率模型

玻尔百科

核心要点

短期利率模型通过计算未来贴现支出的风险中性期望值来为债券定价，从而从单一的随机过程中推导出整个利率期限结构。
仿射模型，如 Vasicek 和 CIR 模型，通过将复杂的债券定价问题转化为求解一个更简单的常微分方程组，提供了实用的解决方案。
均值回归的概念是一个关键特征，它为收益率曲线提供了一个长期锚点，并定义了不同模型的独特“个性”。
尽管单因子模型很优雅，但它们因无法模拟收益率曲线的非平行移动而受到限制，这使得为了更强的现实性而有必要使用多因子模型。
短期利率模型的数学框架具有广泛的适用性，为描述神经科学、软件工程和社会科学中的均值回归过程提供了一种语言。

引言

利率是全球经济的命脉，但其未来走向却笼罩在不确定性之中。当价值的衡量标准本身在不断波动时，我们如何能够建立一个稳健的框架来为金融工具——从简单的政府债券到复杂的衍生品——进行估值？这一挑战是现代量化金融的核心。本文通过对短期利率模型进行全面探讨来应对这一问题，该模型是理解和管理利率风险的基础工具。第一部分“原理与机制”将揭示其核心概念，解释整个利率期限结构如何通过风险中性定价的优雅逻辑，从单一瞬时短期利率的动态中推导出来。在这一理论基础之后，“应用与跨学科联系”部分将展示这些模型的实际威力，说明它们如何用于定价、对冲和风险管理，并揭示它们在神经科学和软件工程等不同领域的惊人相关性。

原理与机制

无风险世界中的通用衡量标准

首先，我们来想象一个有点奇怪的想法。想象一个无人畏惧风险的世界。在这个世界里，每项投资，无论其波动多么剧烈，都预期以相同的通用利率——即瞬时无风险利率 $r_t$ ——增长。当然，这不是我们的世界。在我们的世界里，人们要求为承担额外风险而获得额外回报。但数学家和经济学家发现了一个绝妙的技巧：我们总能找到一种方法来调整概率——创建一个风险中性概率测度 $\mathbb{Q}$ ——使我们的世界看起来像这个无风险的天堂。

在这个构建的世界里，定价变得异常简单。任何资产的价格，当用一个通用的衡量标准来衡量时，其行为必须像一个“公平游戏”。最自然的衡量标准，或称计价单位（numeraire），是一个以短期利率增长的货币市场账户： $B_t = \exp(\int_0^t r_s ds)$ 。游戏规则是：任何资产的贴现价值 $P_t / B_t$ 在 $\mathbb{Q}$ 下必须是一个鞅（martingale）。这意味着其未来的期望值就是其今天的价值。。这单一而强大的原则——不存在免费午餐，或称“无套利”——是构建其他一切的基础。

从单点到全域

所以，我们有这样一个波动不定、难以预测的数字，即短期利率 $r_t$ ，我们可以用一个随机微分方程（SDE）来描述它，这个方程充当了它的“运动定律”。但是，这一个数字，这个用于借贷无限短时间的利率，究竟如何能告诉我们一张30年期政府债券的公允价格呢？

其中的奥秘在于鞅规则。对于一张在未来时间 $T$ 支付 $1$ 的零息债券，其在今天 $t$ 的价格，必须是其未来支付经过贴现回到今天的期望值。这就给了我们利率建模的主方程：

$P(t,T) = \mathbb{E}_t^{\mathbb{Q}}\!\left[\exp\! \left(-\int_t^T r(u)\,du\right)\right]$

让我们来解析一下这个公式。项 $\exp(-\int_t^T r(u)\,du)$ 是贴现因子——它表示在时间 $T$ 收到的 $1$ 在时间 $t$ 价值多少。但由于从 $t$ 到 $T$ 的短期利率路径是未知的，这个贴现因子是一个随机变量。定价方程告诉我们，要将这个随机因子在短期利率可能采取的所有未来路径上进行平均，并以其风险中性概率加权。。突然之间，整个利率期限结构——即所有到期日 $T$ 的债券价格 $P(t,T)$ 的集合——就从单一短期利率 $r_t$ 的动态中浮现出来。

曲线之源

我们可以将期限结构想象成一条由瞬时远期利率 $f(t,T)$ 构成的曲线，它代表了从未来时间 $T$ 开始的一笔贷款的利率。这条远期曲线的定义使得债券价格就是这些利率复利的结果： $P(t,T) = \exp(-\int_t^T f(t,u)\,du)$ 。

我们建模的短期利率与我们观察到的这条远期曲线之间有什么关系呢？让我们问一个简单的问题：一笔立刻开始的贷款的远期利率是多少？也就是说， $f(t,t)$ 是什么？通过一个简单而优雅的推导，我们发现一个优美的一致性条件：曲线最前端的瞬时远期利率恰好等于短期利率。

$f(t,t) = r_t$

这表明，短期利率不仅仅是某个抽象的建模输入；它正是整个远期利率曲线生长的“种子”。。

驯服方程：仿射模型的力量

尽管主定价方程很优美，但计算那个期望值通常是一场噩梦。这时就需要一些数学上的巧思。物理学家和数学家有一个强大的技巧：当你面对一个难解的方程时，猜测解的形式！

对于一类非常重要且流行的模型，即仿射模型（包括像 Vasicek 和 Cox-Ingersoll-Ross 这样的著名模型），我们猜测债券价格具有一种特别简单的指数仿射形式：

$P(t,T) = \exp(A(t,T) - B(t,T)r_t)$

在这里，债券价格以一种非常简单的方式——通过指数——依赖于状态变量 $r_t$ 。当我们将这个猜测代入控制债券价格的复杂偏微分方程（主方程的一个推论）时，奇妙的事情发生了。这个偏微分方程坍缩成一个关于确定性函数 $A(t,T)$ 和 $B(t,T)$ 的简单得多的双常微分方程（ODE）系统。这些常微分方程通常属于一种称为 Riccati 方程的类型，可以被快速而准确地求解。。这个技巧将一个在无限路径上求平均的棘手问题，转化为了一个求解简单常微分方程的易解问题，从而使这些模型在现实世界的金融中变得实用。

真实世界物理学与风险中性定价

到目前为止，我们一直生活在方便的、风险中性的 $\mathbb{Q}$ 世界中。但我们生活在并从中获取数据的，是真实的物理世界，由一个测度 $\mathbb{P}$ 描述。我们如何在两者之间转换呢？关键是 Girsanov 定理。它为这种转换提供了字典。它告诉我们，当我们从 $\mathbb{P}$ 切换到 $\mathbb{Q}$ 时，我们描述短期利率的随机微分方程中唯一改变的是它的漂移项——即其平均趋势。而扩散系数——乘以随机冲击 $dW_t$ 的那一项——则保持完全不变。

为什么呢？有两种方式来看待这个问题。直接的方式是代数上的：该定理为我们提供了一个改变的配方，数学计算表明只有漂移项得到了一个额外的项。。一个更深刻、更物理的直觉来自于思考过程的二次变差。这是衡量路径“颠簸程度”或总方差的指标。它是路径本身的属性，与该路径的概率无关。由于改变测度只重新加权了路径的概率，而没有改变路径本身，因此二次变差——以及产生它的扩散系数——必须保持不变。。

这种漂移项的变化不是任意的；它由风险的市场价格精确决定，这是一个函数 $\lambda(t,r_t)$ ，代表投资者为承担利率风险所要求的额外回报。例如，如果我们从真实世界中的一个 Cox-Ingersoll-Ross (CIR) 模型开始，指定一个风险的市场价格，就可以明确地计算出在定价世界中支配该过程动态的新的、风险中性的参数。。

模型的个性：均值回归

模型不仅仅是抽象的方程；它们有自己的个性，编码在其参数中。让我们以经典的 Vasicek 模型为例：

$dr_t = \kappa(\theta - r_t)dt + \sigma dW_t$

项 $\kappa(\theta - r_t)$ 定义了它的特性。这是一个均值回归项。可以把它想象成一根橡皮筋。参数 $\theta$ 是利率的长期均衡水平。如果当前利率 $r_t$ 高于 $\theta$ ，漂移项为负，将利率向下拉。如果 $r_t$ 低于 $\theta$ ，漂移项为正，将其向上推。这种拉力的强度由速度 $\kappa$ 决定。

这种个性对收益率曲线有直接影响。长期均值 $\theta$ 充当了长期到期收益率和远期利率的锚。一个将当前利率 $r_t$ 推高的冲击会对短期债券价格产生很大影响，但对于一张30年期债券，市场预期利率最终会回归到 $\theta$ 会减弱该冲击的影响。与长期锚点的偏离会随着到期日的增加而呈指数级衰减。。

这种均值回归行为至关重要。如果我们将 Vasicek 模型与一个非均值回归模型进行比较，会看到明显的差异。没有均值回归，对利率的冲击是永久性的；其影响永不消退。这意味着长期远期利率的波动性与短期远期利率一样高。而有了均值回归，冲击会逐渐消失，长期远期利率的波动性趋向于零。。均值回归正是赋予收益率曲线一个稳定长期锚点的因素。

表象下的裂痕：单因子的局限

尽管单因子模型非常优雅，但它们有一个根本的、无法回避的缺陷。因为只有一个随机性来源——一个布朗运动 $dW_t$ ——收益率曲线上的每一个点都由相同的随机冲击驱动。想象一个木偶，它所有的肢体都绑在一根线上。如果线移动，每个肢体都会以一种完全预定的方式移动。

这里也是如此。所有到期日 $T$ 的所有远期利率 $f(t,T)$ 都是完全相关的。如果一个意外的经济公告导致2年期利率跳升，那么5年期、10年期和30年期的利率也必须同步跳升。。这意味着单因子模型唯一能产生的随机运动是整个收益率曲线的平行移动。

然而，现实世界的收益率曲线要灵活得多。它们会扭转（斜率变化）、弯曲（曲率变化）和移动，其方式通常并非完全相关。单因子模型根本无法捕捉这种丰富的动态。它是一个只有一根线的木偶，而真实的市场则是一个完整的牵线木偶。

从缺陷到特点：负利率的情况

对 Vasicek 模型的另一个长期批评是其高斯性质，该性质允许短期利率 $r_t$ 变为负数。几十年来，这被认为是一个不可原谅的、不切实际的缺陷。然而，在2008年金融危机后的几年里，世界上几家主要央行将其政策利率推至零以下。“缺陷”已成为现实。

那么，模型对于一个存在负利率的世界是怎么说的呢？首先，它保持了完美的自洽性。如果预期利率为负，持有现金就意味着你的钱会缩水。在这种环境下，一张承诺一年后付给你 $1$ 的债券是一笔很划算的交易——它今天的价值应该超过 $1$ 。而这正是模型所预测的：对于负的预期利率，债券价格 $P(t,T)$ 可以也应该超过1。这不是套利；这是经济环境的逻辑结果。。

真正的问题不是逻辑上的不一致，而是实践上的问题。高斯分布的尾部延伸至无穷大，这意味着模型会为像 $-0.5$ 这样荒谬的负利率分配一个非零概率。这可能会对风险管理系统造成严重破坏。因此，尽管模型的核心逻辑是健全的，从业者通常会使用变体（如移位高斯模型）或完全不同的模型（如能自然防止负利率的 CIR 模型）来将结果保持在经济上合理的范围内。[@problem_-id:3082446]。

双重力量：更丰富的交响乐

如果一个因子不够，自然的下一步就是再增加一个。想象一个双因子模型，其中短期利率是两个独立的均值回归过程之和，每个过程都有自己的“个性”（自己的均值回归速度和波动率），并由不同的（尽管可能相关）随机源驱动。

$r_t = x_t + y_t + \phi(t)$

这第二个因子给我们带来了什么好处呢？让我们看看利率期权市场，比如利率上限期权（caplets）。这些期权的隐含波动率，当按其到期日绘制时，通常会形成一个“驼峰”形状——在短期到期时上升，然后在长期到期时下降。单因子模型，由于其单一的均值回归时间尺度，只能产生一条单调递减的乏味波动率曲线。

然而，双因子模型可以复制这个驼峰。通过将一个快速回归的因子（捕捉短期市场紧张情绪）与一个缓慢回归的因子（捕捉长期通胀预期）相结合，该模型可以生成一个更丰富、更现实的波动率期限结构。这就像给管弦乐队增加第二件乐器；两者之间以不同的节奏和相关性相互作用，创造出比任何一个单独乐器都复杂得多、优美得多的乐章。。这种更好地匹配观测到的收益率曲线及其波动率曲面动态的能力，正是多因子模型在现代金融中不可或缺的原因。

应用与跨学科联系

我们花了一些时间构建了一套相当优美的数学机器。我们学会了使用随机微分方程的语言来描述利率那不稳定、不确定的舞蹈。我们看到了像 Vasicek 和 Cox-Ingersoll-Ross 这样的模型如何在这种随机性中施加一种秩序，利用均值回归的力量将利率拉回到一个均衡点。

但一位物理学家，或者任何一个好奇的人，都理应发问：这一切到底有什么用？这只是我们在黑板上用符号玩的一种复杂游戏吗？答案是响亮的“不”。这个框架不是空中楼阁；它是一套强大的工具，用于理解和驾驭一个充满不确定性的世界。它的应用始于金融的核心，但正如我们将看到的，它延伸到了你可能从未想过的科学角落。让我们来试试我们的新工具吧。

金融的核心：定价与风险管理

金融中最根本的问题是：未来的钱在今天值多少？如果我承诺五年后给你100美元，你现在不会为此付给我100美元。你会付得更少，因为你可以今天投资一笔较小的金额，让它增长到100美元。它增长的速度就是利率。但如果这个利率本身就是一个移动的目标呢？

这就是我们模型发挥作用的地方。“零息债券”——一个在时间 $T$ 支付 $1$ 的简单承诺——的价格 $P(t,T)$ 是基本的构建模块。对于像 Vasicek 和 CIR 这样的模型，我们找到了这个价格的简洁公式。有了这些，我们就可以为更复杂的工具定价。例如，一张政府或公司债券通常只是一捆承诺：一系列小的“息票”支付和最后的本金偿还。要计算其总价值，我们只需将每个承诺的现金流视为其自己的小型零息债券进行估值，然后将它们全部加起来。关于 $P(t,T)$ 的抽象理论变成了一个具体的估值工具。

但为某物估值只是成功的一半。一旦你拥有它，它的价值会随着世界的变化而波动。我们如何衡量这种风险？我们的短期利率模型为我们提供了一种非常精确的方法。在一个仿射模型中，债券价格 $P(t,T)$ 是当前短期利率 $r_t$ 的函数。我们可以简单地问：价格对利率的微小变动有多敏感？我们只需求导！

对于任何仿射模型，我们发现价格敏感度，或称“delta”，非常简洁：

\frac{\partial P(t,T)}{\partial r_t} = -B(t,T) P(t,T)

这告诉我们，价格的变化与价格本身以及我们之前见过的函数 $B(t,T)$ 成正比。由于 $B(t,T)$ 是正的，这证实了我们的直觉：当利率上升时，债券价格下跌。更重要的是，这个公式是对冲的基石。如果你的投资组合价值对利率敏感，你可以计算其总敏感度，然后在一组债券中采取相反的头寸，使你的投资组合在局部上免受短期利率微小波动的影响。

然而，这是一个线性近似。世界很少如此直截了当。那曲率呢？为此，我们看二阶导数，这在金融中被称为凸性。同样，我们的模型给出了一个异常简洁的答案：

\frac{\partial^2 P(t,T)}{\partial r_t^2} = (B(t,T))^2 P(t,T)

注意一个非凡之处：这个值总是正的！。这意味着价格与利率的关系是一条向上弯曲的曲线。对于债券持有人来说，这是一个美妙的礼物。这意味着如果利率下降一定幅度，你的债券价格上涨的幅度会超过利率以相同幅度上升时它下跌的幅度。这种凸性就是为什么简单的、基于久期的对冲总是不完美的。它也解释了为什么投资者有时会为具有高凸性的资产支付溢价。我们的模型不仅量化风险；它们还揭示了风险隐藏的、且通常是有利的几何特性。我们甚至可以从另一个角度来看待风险，通过计算债券收益率对短期利率的敏感度，这也恰好是 $B(t,T)$ 的一个简单函数。

真正的魔力发生在我们为更复杂的工具（如期权）定价时。期权赋予你权利，但没有义务去购买或出售某物。这种“选择权”在回报中引入了一个急剧的拐点。为一张付息债券——其本身是许多零息债券的投资组合——上的期权定价，似乎极其复杂。然而，对于我们的单因子模型，有一种被称为Jamshidian 分解的数学炼金术。其逻辑出人意料地直观。在单因子模型中，整个债券价格宇宙都与单一状态变量 $r_t$ 完美地、单调地同步升降。因此，一张付息债券的总价值最终是否高于其执行价格，仅仅取决于短期利率 $r_t$ 是否低于某个单一的临界值 $r^*$ 。这一惊人的洞见使我们能够将一个关于投资组合的复杂期权分解为关于每个基础零息债券期权的简单投资组合。一个看似棘手的问题就这样分解成了若干简单问题的总和。

从理论到实践：构建与检验模型

一个优美的理论是一回事，但一个有用的模型必须与现实联系起来。简单的 Vasicek 模型，其参数是恒定的，预测的收益率曲线具有非常特定的形状。然而，真实市场的收益率曲线可能是凹凸不平、扭曲的，其方式是基本模型无法复制的。这是否意味着该模型无用？完全不是！我们只需要让它更灵活。

这就是 Hull-White 模型背后的动机。它本质上是一个 Vasicek 模型，但有一个巧妙的转折：长期均值水平 $\theta$ 不再是一个常数，而是一个关于时间的确定性函数 $\theta(t)$ 。这个随时间变化的函数就像一组“控制旋钮”。通过仔细选择 $\theta(t)$ 的路径，我们可以迫使模型完美匹配今天观察到的市场收益率曲线。这不是作弊；这是校准。我们在让模型演化到未知的未来之前，先将它锚定在已知的现在。

但是，当我们的模型变得如此复杂以至于找不到简洁的闭式解时，会发生什么呢？我们必须求助于计算机。从我们 SDE 的连续世界到计算机离散世界的桥梁是数值模拟。最简单的方法是 Euler-Maruyama 格式。其思想是在小的时间步长 $\Delta t$ 内向前推进过程。在每一步，我们的利率 $r_t$ 的变化都有两部分：一个可预测的推动，即漂移项，与 $\Delta t$ 成正比；以及一个随机的冲击，即扩散项，与时间步长的平方根 $\sqrt{\Delta t}$ 成正比。那个 $\sqrt{\Delta t}$ 缩放是布朗运动的标志性特征。它深刻地反映了随机游走的方差随时间线性增长这一事实。这个简单的配方使我们能够生成数千条利率的可能未来路径，通过对这些路径上的结果进行平均，我们几乎可以为任何衍生品定价。

最后，我们来到了最重要的问题：我们的模型好用吗？我们怎么知道？我们必须检验它。但我们不能用构建模型时使用的数据来检验它；那就像教授让学生用考题来复习一样。唯一诚实的检验是样本外回测。这个程序是科学纪律的典范。你想象自己处在过去的一个时间点，比如2010年底。你只使用到那个点为止可用的数据（一个“滚动窗口”）来校准你的模型。然后，你用这个模型来预测未来，比如2011年的收益率曲线。你存储你的预测，将你的窗口向前移动一步（例如，到2011年1月），重新校准，然后再次预测。在这样做了多年之后，你就有了一段长长的真实预测历史，可以与实际发生的情况进行比较。这个过程至关重要地区分了模型在“真实世界”（物理测度 $\mathbb{P}$ ，我们用于预测）中的动态，和它在“风险中性世界”（ $\mathbb{Q}$ ，我们用于定价）中的动态。严格的统计检验可以告诉我们哪个模型表现更好，其预测是否有偏，以及其对不确定性的预测是否可靠。这就是建模这门抽象艺术如何被锻造成一门量化科学的过程。

超越金融：一种描述波动的通用语言

也许这个数学框架最大的美妙之处在于，它最终根本不是关于利率的。它是一种通用语言，用于描述任何在随机冲击中趋向于回归平均水平的量。一旦你有了这个视角，你就会开始在各处看到这些过程。

想一想大脑中神经元的放电率。它会波动，但不能为负。此外，人们经常观察到，一个神经元越活跃，其放电模式就越具可变性。在这里，Vasicek 模型会是一个糟糕的选择，因为其高斯性质使其可以乐呵呵地变为负值。但 Cox-Ingersoll-Ross (CIR) 模型却是一个自然的选择。它的波动率项 $\sigma\sqrt{\lambda_t}$ 意味着，随着放电率 $\lambda_t$ 接近零，随机性会减弱，从而形成一个自然的下限，防止其变为负值。正是这个使 CIR 模型在建模利率（利率也不能为负）方面广受欢迎的特性，也使其成为一个看似合理的神经活动模型。

或者考虑一个大型软件项目中程序错误的“生态”。新的错误被引入，旧的错误被修复。未解决的错误总数可能会围绕某个均衡水平 $\theta$ 波动，这个水平由项目的规模和复杂性以及开发团队的规模决定。同样，错误的数量不能为负。应用 Vasicek 模型会导致一个荒谬的预测，即存在负数个错误的非零概率！这告诉我们该模型不适合这种现象。相比之下，CIR 过程以其内置的非负性，为建模这样一个系统提供了一个更明智的起点。

我们甚至可以将这些思想应用于社会科学。想象一下，将一个玩家在社区中的“声誉”建模为一个均值回归过程。声誉受到随机的流言蜚语和事件（ $\sigma dW_t$ 项）的冲击，但它也倾向于漂向一个由玩家行为历史决定的水平。如果一个玩家合作，长期均值 $\theta$ 可能会被设定在一个高水平 $\theta_C$ 。如果他们背叛，它可能会被重置到一个低水平 $\theta_D$ 。在行为之间的时间里，他们的声誉围绕这个目标波动。这个简单的 SDE 捕捉了一种丰富的行为动态：深思熟虑的行动、社会观念和随机机遇之间的相互作用。

从债券的定价到神经元的放电，从软件错误的持续存在到声誉的动态变化，相同的数学结构一再出现。最初作为驯服金融市场不确定性的工具，如今已成为一种通用语言，用以描述我们这个嘈杂、波动但最终有结构的世界的潮起潮落。这，就是一项好的科学思想的真正力量和内在之美。