try ai
科普
编辑
分享
反馈
  • 金融预测

金融预测

SciencePedia玻尔百科
核心要点
  • 金融预测使用随机微积分来为随机性建模,其中伊藤引理揭示了波动性如何能反直觉地创造其自身的表现漂移。
  • 对于波动性大的资产,期望的未来价值均值通常远高于更可能出现的中位数值,这对于风险评估而言是一个关键区别。
  • 现代预测是一个跨学科领域,应用机器学习、物理学和计算机科学的原理来创建自适应的、数据驱动的模型。
  • 由于系统对初始条件的敏感依赖性,混沌理论的原理揭示了金融领域长期预测的根本局限性。

引言

金融预测是一项复杂而又至关重要的工作,旨在预测不确定的未来,是投资、风险管理和经济政策的核心。虽然完美预测无法实现,但严谨的科学方法可以将纯粹的猜测转变为对概率和潜在结果的结构化分析。其核心挑战在于,如何在优雅的数学理论与混乱、无序的金融市场现实之间架起一座桥梁,在金融市场中,确定性趋势与随机冲击相互交织。

本文将通过两个关键部分来探讨这一挑战。在“原理与机制”部分,我们将剖析该领域的基本工具,从度量误差、为随机性建模,到支配资产价格动态的复杂语言——随机微积分。我们将探索这些工具如何揭示关于风险与回报的反直觉真理。在这一理论基础之上,“应用与跨学科联系”部分将展示这些抽象概念如何在现实世界中得到应用,并与物理学、工程学和计算机科学等领域建立起强大的联系。我们将看到微积分、机器学习和计算理论如何共同作用,以评估资产价值、模拟复杂的投资组合,并构建自我修正的预测系统。这段旅程将使读者对金融预测的强大威力及其深刻局限性有一个深入、全面的理解。

原理与机制

想象一下,你正试图预测一片羽毛在微风中的路径。你知道风大体上是向东吹的,但羽毛却以一种令人抓狂的复杂舞动方式上下左右地飘动。这正是金融预测的核心挑战。我们对大方向有一个总体概念——经济体倾向于增长,公司力求增值——但其路径充满了随机性。我们的任务不是消除这种随机性,而是理解其特性,描述其规则,并计算其概率。本章将介绍我们用于实现这一目标的工具。

犯错的艺术

每一次预测都是对未来的陈述,而未来尚未写就,因此从某种意义上说,每一次预测都是一种猜测。一个优秀预测者的首要原则是,要有一种精确的方法来衡量他们的猜测错得有多离谱。假设一个模型预测某位选举候选人将获得 48.2%48.2\%48.2% 的选票,而他/她实际获得了 46.5%46.5\%46.5%。这个差值 1.7%1.7\%1.7% 就是​​绝对误差​​。它告诉你错误的原始幅度。

但 1.7%1.7\%1.7% 是个大误差还是小误差?这取决于具体情境。再考虑另一个金融模型,它预测市场季度增长率为 1.50%1.50\%1.50%。而实际增长率为 1.75%1.75\%1.75%。这里的绝对误差仅为 0.25%0.25\%0.25%。这似乎比选举预测的误差小得多。但哪个模型真正“更好”呢?

为了进行公平比较,我们需要一个标准化的度量。这就是​​相对误差​​,它用实际值来衡量错误的大小:RE=∣预测值−实际值∣∣实际值∣\text{RE} = \frac{|\text{预测值} - \text{实际值}|}{|\text{实际值}|}RE=∣实际值∣∣预测值−实际值∣​。在选举预测中,相对误差为 ∣0.482−0.465∣∣0.465∣≈0.0366\frac{|0.482 - 0.465|}{|0.465|} \approx 0.0366∣0.465∣∣0.482−0.465∣​≈0.0366。在金融预测中,相对误差为 ∣0.0150−0.0175∣∣0.0175∣≈0.1429\frac{|0.0150 - 0.0175|}{|0.0175|} \approx 0.1429∣0.0175∣∣0.0150−0.0175∣​≈0.1429。情况突然反转了!相对于它试图预测的那个很小的量,金融模型的误差要大得多。这给我们上了第一课:在预测的世界里,情境决定一切。一个误差的重要性完全取决于你试图预测的目标的规模。

世界的模型:时钟装置与云朵

为了做出预测,我们需要一个模型——一个关于我们认为世界如何运作的简化描述。这些模型分布在一个从完全可预测到纯粹随机的光谱上。

时钟装置宇宙

在光谱的一端,我们有确定性模型。想象一个经济区域,其年复一年的增长遵循一个固定规则。例如,一个模型可能表明,第 nnn 年的区域生产总值 GnG_nGn​ 由其前两年的值决定,比如通过一个关系式 Gn=2.02Gn−1−1.0201Gn−2G_n = 2.02 G_{n-1} - 1.0201 G_{n-2}Gn​=2.02Gn−1​−1.0201Gn−2​。

这是一个​​递推关系​​。它的行为就像一个时钟装置。一旦你设定了初始条件——第0年和第1年的生产总值——整个未来就被锁定了,以数学上的确定性展开。对于这个特定的规则,如果我们以 G0=1000G_0 = 1000G0​=1000 亿和 G1=1030.2G_1 = 1030.2G1​=1030.2 亿开始,我们可以推导出适用于所有未来时间的一个精确公式:Gn=(1000+20n)(1.01)nG_n = (1000 + 20n)(1.01)^nGn​=(1000+20n)(1.01)n。这个公式捕捉了每年 1%1\%1% 的基础增长率,外加一个额外的“动量”部分,即在基数上增加 20n20n20n 亿。这就是预测的梦想:一个完美的、公式化的水晶球。

掷骰子

当然,现实世界很少如此整洁。金融市场不是时钟装置;它们更像云朵,由无数相互作用的力量塑造而成。一家公司的未来不仅仅由其过去决定,还受到利率上调、政治变动、消费者情绪以及成千上万其他“事件”的影响。因此,我们的模型必须使用概率的语言。

我们不再问“股市会下跌吗?”,而是问“股市下跌的概率是多少?”。或许我们为来年模拟三个关键可能性:利率上调(HHH)、失业率上升(UUU)和股市下跌(SSS)。我们可以利用历史数据为这些事件中的每一个分配概率,也为它们的交集——即两个甚至所有三个事件同时发生的可能性——分配概率。

利用概率规则,我们便可以回答更细致的问题。例如,经济体恰好遭受其中一个不幸事件的概率是多少?这不仅仅是它们各自概率的总和,因为这些事件有重叠。我们必须仔细地将各个独立情景(单独发生 HHH、单独发生 UUU、单独发生 SSS)的概率相加,这个过程要求我们减去被重复计算的重叠部分。这是一场逻辑与计算的游戏,但它使我们能够描绘出各种可能性及其发生几率的图景,将迷雾般的未来变成一幅统计学上的气象图。

随机性的语言

为了为金融构建这些“气象图”,我们需要一个更强大的工具包。我们不仅需要描述离散事件,还需要描述连续的随机量,它们如何相互关联,以及它们如何随时间演变。

回报率、波动率与对数正态世界

让我们考虑一只股票的价格。对其建模的好方法是什么?价格不能为负,而且对于10美元的股票来说,1美元的变化感觉比对于1000美元的股票来说1美元的变化要大得多。这表明我们应该考虑百分比变化,或者说连续复利回报率。金融学中一个非常成功的想法是,将连续复利回报率 R=ln⁡(S1/S0)R = \ln(S_1/S_0)R=ln(S1​/S0​) 建模为一个服从​​正态分布​​(经典的“钟形曲线”)的随机变量。

这个简单的假设带来了一个深远的结果:如果价格比率的对数是正态分布的,那么价格本身就服从​​对数正态分布​​。这种分布遵循了价格不能为负的规则,并捕捉了增长的乘法性质。这个模型由两个关键参数定义:回报率的均值 μ\muμ,代表预期的增长或漂移;以及回报率的标准差 σ\sigmaσ,被称为​​波动率​​。波动率是衡量风险或“随机性”的关键指标。波动率越高,可能结果的范围就越广。

这些不仅仅是抽象的参数。我们可以从市场的行为中推断它们。例如,如果分析师认为一只股票在一年内有5%的可能会损失其价值的25%或更多,我们可以利用这一条信息,再加上预期回报率,来求解该股票的隐含波动率 σ\sigmaσ。这便将抽象的恐惧和希望转化为了一个我们可以在模型中使用的具体数字。

共同起舞:协方差与分散化

资产并非孤立存在。苹果和微软的回报率是相关的;石油公司和航空公司的回报率通常朝相反方向变动。我们用来衡量两个随机变量如何一同变动的工具是​​协方差​​。正的协方差意味着它们倾向于同向变动;负的协方差意味着它们反向变动。零协方差意味着没有线性关系。

这个概念是现代投资组合理论的基石。假设你通过组合两种资产 XXX 和 YYY 来构建一个投资组合。也许你创建了一个新的工具 U=3X−YU = 3X - YU=3X−Y 和另一个 V=X+2YV = X + 2YV=X+2Y。这些新工具的风险(方差)以及它们一同变动的方式(它们的协方差),完全取决于 XXX 和 YYY 的方差,以及至关重要的,它们的协方差 Cov(X,Y)\mathrm{Cov}(X,Y)Cov(X,Y)。

通过巧妙地组合具有不同协方差的资产,人们可以构建出部分风险相互抵消的投资组合。这就是​​分散化​​的原则:不要把所有鸡蛋放在一个篮子里,特别是当这些篮子倾向于在不同时间掉落时。协方差为我们提供了量化我们可以消除多少风险的数学配方。

时间之流:从快照到动态影像

到目前为止,我们主要是在拍摄快照。但金融是一部电影。我们需要能够描述随机过程如何随时间连续演变的模型。

醉汉漫步

连续随机性的基本构建模块是​​维纳过程​​,或称​​布朗运动​​,记作 WtW_tWt​。想象一个醉酒的水手每时每刻都在迈步。每一步的方向都是随机的,并且与之前的所有步都无关。这位水手描绘出的路径就是布朗运动。它是纯粹、不可预测噪声的数学体现。

现在,让我们给这位水手一个朝某个方向的、平稳而持续的推动力。他的路径仍然会是杂乱无章的,但平均来看,它会有一个趋势。这就是一个​​带漂移的布朗运动​​:Xt=μt+σWtX_t = \mu t + \sigma W_tXt​=μt+σWt​。这里,μt\mu tμt 是确定性漂移——即平稳的推动力——而 σWt\sigma W_tσWt​ 代表随机波动,波动率 σ\sigmaσ 决定了随机步伐的大小。这个简单的模型出人意料地强大。例如,我们可以计算出该过程在未来某个时间 ttt 的值高于早期某个时间 sss 的值的确切概率。这个概率优美地取决于漂移、波动率和流逝的时间,所有这些都包含在标准正态变量的累积分布函数 Φ(⋅)\Phi(\cdot)Φ(⋅) 中。它量化了确定性趋势与随机性拉力之间的拉锯战。

一种新的微积分

在这里,我们遇到了数学中最优美也最奇特的思想之一。如果我们想要建模的量不仅仅是时间的简单函数,而是这个随机过程 WtW_tWt​ 的函数,该怎么办呢?例如,如果我们的资产价值是 Xt=sinh⁡(βWt)X_t = \sinh(\beta W_t)Xt​=sinh(βWt​),那么 XtX_tXt​ 在一个微小的时间瞬间 dtdtdt 内是如何变化的?

牛顿和莱布尼茨给我们的经典微积分在这里失效了。在经典微积分中,我们忽略 (dt)2(dt)^2(dt)2 及更高阶的项,因为它们是无穷小的。但布朗运动的本质是其波动的“粗糙度”远超于此。在一个小的时间间隔 dtdtdt 内,布朗运动移动的典型距离是 dt\sqrt{dt}dt​。这比 dtdtdt 大得多得多。所以,如果我们对变化量进行平方,(dWt)2(dW_t)^2(dWt​)2,它不是 (dt)2(dt)^2(dt)2 或 dtdtdt\sqrt{dt}dtdt​ 阶的,而是 (dt)2=dt(\sqrt{dt})^2 = dt(dt​)2=dt 阶的。它不可忽略!

这就是​​伊藤引理​​的核心。它是随机过程函数的一条新链式法则。它指出,当你观察 f(t,Wt)f(t, W_t)f(t,Wt​) 的变化时,你会得到经典微积分中的常规项,外加一个新的、额外的项:12∂2f∂x2dt\frac{1}{2} \frac{\partial^2 f}{\partial x^2} dt21​∂x2∂2f​dt。这个“伊藤项”直接来源于 (dWt)2=dt(dW_t)^2 = dt(dWt​)2=dt 这个事实。

这不仅是一个数学上的奇趣发现,它还是现代金融的引擎。它揭示了一个纯粹由波动性产生的隐藏漂移源。对于像 Xt=exp⁡(αt)sinh⁡(βWt)X_t = \exp(\alpha t) \sinh(\beta W_t)Xt​=exp(αt)sinh(βWt​) 这样的过程,伊藤微积分表明其漂移不仅仅是显而易见的 αXt\alpha X_tαXt​,而是包含了一个来自随机性的额外部分:(α+12β2)Xt(\alpha + \frac{1}{2}\beta^2)X_t(α+21​β2)Xt​。波动性通过伊藤项创造了它自己的趋势!这个原理使我们能够建立和理解远为复杂和现实的模型,例如用于股票价格的著名的​​几何布朗运动​​或具有均值回归等特征的模型。

深刻的推论与根本的局限

这些强大的工具带来了一些非常反直觉的结果,同时也揭示了我们所能期望预测的内在边界。

乐观者的均值,现实者的中位数

让我们使用我们最流行的股票价格模型——几何布朗运动,其中价格根据 St=S0exp⁡((μ−12σ2)t+σWt)S_t = S_0 \exp\left( (\mu - \frac{1}{2}\sigma^2)t + \sigma W_t \right)St​=S0​exp((μ−21​σ2)t+σWt​) 演变。参数 μ\muμ 被称为预期回报率。如果 μ\muμ 为正,你可能会认为股票上涨的可能性比下跌要大。

但让我们小心一点。“那个”价格是什么意思?有两种常见的方式来思考所有可能的未来价格路径的“中心”。一种是​​期望价格​​ E[St]E[S_t]E[St​],即所有可能性的平均值。对于几何布朗运动,这恰好是你天真猜测的结果:E[St]=S0exp⁡(μt)E[S_t] = S_0 \exp(\mu t)E[St​]=S0​exp(μt)。平均路径以速率 μ\muμ 增长。

但还有另一个中心:​​中位数价格​​ MtM_tMt​。这是一个50/50的分界点;实际价格高于或低于它的机会均等。对于对数正态分布,中位数路径由 Mt=S0exp⁡((μ−12σ2)t)M_t = S_0 \exp((\mu - \frac{1}{2}\sigma^2)t)Mt​=S0​exp((μ−21​σ2)t) 给出。注意那个额外的项!中位数路径的增长速率慢于均值路径。

均值与中位数价格的比率非常简单:R=E[St]Mt=exp⁡(12σ2t)R = \frac{E[S_t]}{M_t} = \exp(\frac{1}{2}\sigma^2 t)R=Mt​E[St​]​=exp(21​σ2t)。这个惊人简单的公式揭示了一个深刻的道理。期望价格总是高于中位数价格,而且它们之间的差距随着时间的推移呈指数级增长,这完全是由波动率 σ\sigmaσ 驱动的。

为什么呢?波动率是一把双刃剑。下行空间有限(价格不能低于零),但上行空间无限。获得巨大收益的小概率事件将平均值大幅拉高,但它不影响*中位数(典型结果)。这是​​詹森不等式​​的一种体现。这意味着,对于一个波动性大的资产,一个假设的平行宇宙集合所体验到的平均结果,要比你可能在这个*宇宙中体验到的典型结果乐观得多。

蝴蝶与预测视界

最后,即使拥有我们最复杂的模型,预测是否存在根本的局限性?答案是响亮的“是”。考虑一个简单的、确定性的宏观经济指标模型,例如​​逻辑斯蒂映射​​:xt+1=ρxt(1−xt)x_{t+1} = \rho x_t (1 - x_t)xt+1​=ρxt​(1−xt​)。对于参数 ρ\rhoρ 的某些值(例如 ρ=4\rho=4ρ=4),该系统表现出​​混沌​​。

这意味着它具有​​对初始条件的敏感依赖性​​,即著名的“蝴蝶效应”。初始值 x0x_0x0​ 中一个微小到无法察觉的差异——就像蝴蝶扇动翅膀一样——将被指数级放大,在足够长的时间后导致完全不同的结果。我们可以使用预测的​​条件数​​来量化这种放大效应。在一个混沌系统中,这个数字会随着预测视界 TTT 呈指数级增长。

这告诉我们,对于像经济或市场这样复杂的非线性系统,即使我们有一个完美的模型,长期预测也可能是徒劳的。该系统在超过某个时间视界后是内在地不可预测的。使用更强大的计算机或更高精度的数字并不能改变这一事实;它只是让你在注定分道扬镳的轨道上精确地多追踪一会儿,然后它不可避免地会偏离。

然而,并非所有系统都是混沌的。对于其他参数值,同样的逻辑斯蒂映射可能具有稳定、可预测的行为,其中小错误会随着时间的推移而减弱,所有路径都收敛到一个可预测的点 [@problem_id:2370945, option D]。因此,预测者的终极任务是双重的:首先,利用我们所探索的所有概率和随机微积分工具,建立尽可能最好的世界模型。其次,怀着谦卑之心,利用该模型来理解其自身的局限——区分时钟装置与云朵。

应用与跨学科联系

现在我们已经探索了金融预测的基本原理与机制,让我们踏上一段更激动人心的旅程。我们将看到这些抽象的数学和统计思想如何演变成实用的工具,并与其他科学和工程领域建立起令人惊奇的联系。对于物理学家来说,一条定律的真正美妙之处不仅在于其优雅的表述,还在于其广阔且常常出人意料的适用范围。我们一直在研究的概念也是如此。它们不仅仅是金融工具;它们是关于信息、变化和不确定性的更深层次原理的体现,这些原理在各个科学领域都引起了共鸣。

变化的语言:微积分与动力学

正如据传伽利略所言,自然是一本用数学语言写成的书。金融世界,一个由相互作用的代理人和流动的资本构成的动态系统,也同样如此。这种语言最有力的方言之一是微积分,即关于连续变化的数学。

想象一下试图模拟一个慈善基金随时间变化的价值。资金从两个来源流入:利息持续累积,很像放射性衰变或人口增长;捐款不断涌入。然而,捐赠活动最初的热情可能会减退,导致捐款速率随时间下降。我们可以用一个简单的一阶常微分方程(ODE)来描述这整个动态过程。通过求解这个方程,我们可以预测该基金在任何未来时间的价值,并确定达到特定目标需要多长时间()。这不仅仅是学术练习;同样的方法也被用来为养老基金、年金和复杂的项目融资建模,将一个关于金钱的故事转化为一条精确的数学轨迹。

但是,变化的特性又如何呢?知道你的投资组合价值在增加是一回事;知道这种增加是在加速还是减速则是另一回事。在期权交易的世界里,这种“加速度”有一个名字:伽马(Gamma, Γ\GammaΓ)。它衡量一个期权的价格变化率(其“德尔塔”)对标的资产价格变动的敏感度。高伽马值意味着即使市场有小幅波动,你的风险敞口也可能发生巨大变化。我们如何衡量这个关键量?当然,我们可以依赖复杂的解析模型。但通常,像实验物理学家一样行事更为实用。物理学家通过在连续的时间瞬间拍摄汽车位置的快照来测量其加速度。同样,量化分析师可以观察一个期权在三个相邻资产价格——比如 S−hS - hS−h、SSS 和 S+hS+hS+h——时的价格。使用一个被称为二阶中心差分公式的简单数值方法,Γ≈V(S+h)−2V(S)+V(S−h)h2\Gamma \approx \frac{V(S+h) - 2V(S) + V(S-h)}{h^2}Γ≈h2V(S+h)−2V(S)+V(S−h)​,他们可以得到一个非常好的伽马估计值()。这是一个美丽的例子,展示了实用的数值方法如何弥合离散的市场数据与连续的金融衍生品世界之间的差距。

机会的逻辑:概率与随机过程

虽然微积分描述了事物的平稳流动,但金融世界也充满了突然的跳跃和不可预测的转折。为了驾驭这片充满不确定性的景象,我们求助于机会的逻辑:概率论。

考虑经济状况。经济学家通常将这个庞大、复杂的系统简化为几个离散的状态:“扩张”、“衰退”或“停滞”。一个今天处于衰退中的经济,在六个月后处于扩张状态的可能性有多大?我们可以使用一个极好的工具,即马尔可夫链,来为这个问题建模。其核心假设——这是一个强大的简化——是转移到未来状态的概率只取决于当前状态,而不取决于导致我们走到这一步的漫长而复杂的历史。通过定义一个一步转移概率矩阵(例如,从衰退到扩张在一个季度内发生的概率),我们只需将这个矩阵平方就可以找到两个季度后的概率,或者将其升至任意次幂 nnn 来预测 nnn 个季度后的经济状态()。

这种为相互关联的系统建模的思想,其应用超出了单一的经济变量。在一个真实的投资组合中,资产并非孤立地运动。股票与债券,黄金与石油——它们的价格在一张复杂的相关性织锦中交织在一起。风险经理的噩梦(也是其工作职责)是理解如果市场崩盘,他们的投资组合可能会发生什么。为此,他们会运行数千次未来的蒙特卡洛模拟。但是,你如何模拟一个资产以现实方式一同运动的世界呢?你不能只为每种资产生成独立的随机数。你需要将观察到的相关性结构“印刻”到你的随机输入上。在这里,线性代数提供了一个珍宝般的工具:乔列斯基分解(Cholesky decomposition)。对于任何对称、正定的相关矩阵 RRR,我们可以找到一个唯一的下三角矩阵 LLL,使得 R=LLTR = LL^TR=LLT。这个矩阵 LLL 就像是相关矩阵的“平方根”。通过将一个独立随机数向量乘以 LLL,我们神奇地将它们转化为一组相关的随机数,这些随机数具有与我们真实世界资产完全相同的统计特性()。这是一种优雅且不可或缺的技术,将金融模拟的艺术变成了科学。

估值的艺术:编织理论与现实

金融中最基本的任务之一是估值:确定一项资产的真正价值。其指导原则是现金流折现(DCF)模型,一个极其简单的概念。它指出,任何企业的价值都是其未来预期能够产生的所有现金的总和,而未来的现金需要折现,因为今天的一美元比明天的一美元更有价值。

然而,将这个简单的原则应用于一个现代公司的混乱现实,是一门需要严谨、逻辑思维的艺术。思考一下股权激励薪酬(SBC)这个难题,即公司用股票支付员工。当公司报告其收益时,它将SBC列为运营费用,这减少了其报告的利润。然而,并没有现金真正离开公司的银行账户。那么,在为我们的DCF模型计算“自由现金流”时,我们应该加回这笔非现金费用吗?如果我们这样做,我们就有可能高估公司的价值,因为我们忽略了一个事实:向员工发放股票会稀释现有股东的所有权。这种价值转移是真实存在的。解决方案揭示了坚定不移的逻辑一致性的必要性。有两条正确的路径:你可以(1)将非现金的SBC费用加回到你的现金流计算中,但随后在你的最终每股价值计算中通过增加股数来明确地考虑未来的稀释效应;或者(2)你可以选择不加回它,从而含蓄地将SBC视为对所有者的真实经济现金成本。无论哪条路径,只要始终如一地遵循,都能得出一个无偏的估值。教训很明确:估值不仅仅是一个公式;它是一个逻辑上连贯的论证过程的构建()。

现代综合:机器学习与计算科学

近几十年来,随着计算能力的爆炸式增长和机器学习的发展,金融预测领域发生了革命性的变化。这与计算机科学形成了深刻而激动人心的综合。

从数据中学习

经典的统计方法是先假设一个模型,然后用数据去拟合它。机器学习的方法常常反其道而行之:我们能否直接从数据本身学习模型结构?假设我们有一组金融分析师的预测误差。他们之间是否存在隐藏的“群体思维”或共同偏见?通过将这些误差排列成一个矩阵并计算协方差矩阵,我们可以使用像主成分分析(PCA)这样的线性代数技术。协方差矩阵的主特征向量是一个指向最大共享方差方向的向量。换句话说,它的分量揭示了每个分析师在驱动该群体预测的单一、主导“故事”或系统性误差模式上的载荷()。这是一个用于检测羊群行为的数学显微镜。

更强大的工具比比皆是。支持向量机(SVM)可以学习一个复杂的边界,以区分(例如)市场上涨前的日子和下跌前的日子。但什么才是一个“好”的SVM模型呢?想象两个在历史数据上表现同样出色的模型。然而,其中一个非常“稀疏”——它的决策边界仅由少数几个有影响的数据点(“支持向量”)决定。另一个则很密集,依赖于数百个点。我们应该偏爱哪一个?答案在于一个与科学本身一样古老的原则:奥卡姆剃刀。更稀疏的模型更简单,而同样能解释数据的更简单的模型更可能具有鲁棒性,并能推广到新的、未见过的数据。此外,稀疏模型更具可解释性。我们实际上可以检查它识别出的少数几个关键日子,并试图理解其背后的经济逻辑()。

有时,我们希望将机器学习的力量与我们自己的经济直觉相结合。想象一下建立一个模型,根据贷款价值比(LTV)来预测贷款违约率。我们的经济常识告诉我们,在其他条件相同的情况下,更高的LTV不应导致更低的预测违约率。这是一个单调性约束。一个标准的机器学习模型可能会因为数据中的噪声而违反这个简单的逻辑。然而,我们可以设计专门的模型,比如由“保序”(单调约束)决策树构建的随机森林,这种模型在构造上就尊重这个经济原则。这种混合方法让我们两全其美:一个灵活、数据驱动且不违背常识的模型()。

计算的物理学

随着我们的模型变得越来越复杂,它们的计算需求也随之增长。在数十年的经济数据上训练一个大型神经网络可能需要数天或数周。一个自然的解决方案是使用并行计算:将工作分配给许多处理器。如果我们用八台计算机而不是一台,我们的工作完成速度不就应该是八倍吗?令人惊讶的是,答案往往是否定的。

当我们在并行模式下训练模型时,每个“工作”计算机会在其数据切片上计算答案的一部分(梯度)。但随后它们必须全部进行通信,以平均它们的结果,然后才能进行下一步。这种通信需要时间。正如一项分析所示,对于一个非常大的模型,等待巨大的梯度向量在网络上传输所花费的时间,完全可能超过在计算上节省的时间。在这种带宽受限的情形下,增加更多的“工人”实际上会减慢所有事情的速度()。这是来自计算“物理学”的一个深刻教训。我们的抽象算法最终受到网络带宽和延迟等物理约束的限制。理解这种相互作用对于大规模构建预测系统至关重要。

发现的循环

最后,让我们形成一个闭环。预测是一个假设。我们用现实来检验它。我们如何处理检验的结果?最先进的预测系统将检验结果本身融入到一个动态反馈循环中。想象一个预测风险价值(VaR)的风险模型。我们可以通过检查实际损失超过预测的频率来对其进行回测。如果模型系统性地失效(例如,过于频繁地低估风险),我们可以构建一个自适应机制——例如,一个分数驱动的更新规则——它利用这些过去失败的历史来调整模型下一次预测的参数。只要这个更新规则是预先指定的,并且只使用过去的信息,它就创建了一个有效的、自我修正的引擎()。这以其最纯粹的形式体现了科学方法:一个预测、观察和改进的持续循环。

从微积分的平滑曲线到计算的硬性限制,我们看到金融预测并非一个孤立的岛屿。它是一个繁忙的知识十字路口,从物理学、统计学、计算机科学和工程学中借鉴和输出思想。真正的从业者不是某一领域的专家,而是所有领域的学生,他们使用这个丰富多样的工具包,不仅是为了窥见未来的一角,也是为了更深入地理解我们周围的复杂世界。