
我们做出的每一个选择,从公司并购到动物觅食,都是在当下与未来之间进行的权衡。我们如何理性地评估尚未发生的事情的价值?答案在于持续价值(continuation value)这一强大概念:即我们当前决策所保留的所有未来可能性的总价值。这一思想提供了一个统一的框架,用以理解为何为了未来收益而忍受当前损失、在诱惑面前选择合作、或投资于没有即时回报的风险项目可以是最佳选择。本文通过引入一个连接看似不同领域的单一而简洁的原则,来应对做出最优序列决策的挑战。在接下来的章节中,我们将首先深入探讨持续价值的核心“原理与机制”,探索贴现和普适的贝尔曼方程等概念。然后,我们将开启一段迷人的“应用与跨学科联系”之旅,探索同样的逻辑如何支配着金融领域的战略选择、演化生物学中的生死抉择,甚至我们物理世界的基础数学。
想象一下,你是一家高风险初创公司的首席执行官,一位生命的基因工程师,或者仅仅是一个决定是否为考试而学习的学生。在每一种情况下,你都面临一个根本问题:我现在该做什么?事实证明,答案几乎总是取决于我们称之为持续价值(continuation value)的东西——即接下来发生的一切的价值。这个简单而深刻的思想如同一条金线,贯穿金融学、演化生物学和计算机科学等迥然不同的领域。这是一门洞察未来,以便在今天做出更好决策的艺术。
让我们从一个经典谜题开始。你正在管理一个高风险的研发项目。每个月,你都必须决定是否继续为其提供资金。继续的成本是 。如果你继续,项目有很小的概率 取得重大突破,这项新发明的价值将带来巨大回报 。如果没成功,你将回到起点,下个月面临同样的决策。另一种选择是关闭项目,此时其价值变为零。
你应在何时维持项目运行?你可能认为这很简单,只需检查一个时期的预期收益 是否大于成本 。但这并非全貌!如果这个月你没有成功,项目并非一文不值;它仍然拥有未来突破的潜力。这个项目具有持续价值。
我们将这个进行中项目的总价值称为 。如果你决定再为一个时期提供资金,你会立即支付成本 。你有概率 获得回报 。而在概率 下,你失败了,但你可以在下一个时期再次进行这个博弈,届时项目的价值仍然是 。因此,持续下去的价值是:
事情在这里变得有趣起来。未来的价值是不确定的,但我们可以将其考虑在内。明天的一美元或一项适应度收益,其价值通常低于今天的一美元。我们用一个折扣因子(discount factor), 来捕捉这一点,它是一个介于0和1之间的数字。较小的 意味着未来被严重低估。所以,继续这个研发项目的价值实际上是:
最优策略是只要这个价值大于停止的价值(即零),就为项目提供资金。如果继续是最佳选择,那么价值 必须等于这个表达式。稍作代数运算就会发现,只有当回报 大于 时,你才应该为项目提供资金。注意一个奇怪的现象:折扣因子 消失了!在这个特定的‘全有或全无’设定中,启动项目的决定不取决于你如何评估未来,而只取决于眼前的几率。但是,持续的价值 绝对取决于 。继续的决定取决于一场与自己未来进行的博弈。持续价值正是未来投射在当下的一道阴影。
贴现这个概念不仅是经济学家的技巧,它也是自然界的一条基本法则。
在金融学中,这是所有估值的基石。当你购买一支股票时,你购买的是对未来现金流的索取权。要计算一家公司今天的价值,你不能简单地将其未来可能赚到的所有钱加起来。你必须将那些未来的现金流贴现为其现值(present value)。一家公司的总价值可以巧妙地分为两部分:其现有业务在不发生变化的情况下永远持续下去的价值,以及增长机会的现值(present value of growth opportunities, PVGO)。这个PVGO精确地代表了公司投资于新的、有利可图的项目的战略的持续价值。它体现了市场对公司创造一个比现在更好的未来的信念。这一计算的很大一部分通常涉及估算一个终值(terminal value),这是一个简单的永续年金公式,用于捕捉从某个特定时间点开始,假设以恒定增长率延伸至无限未来的所有现金流的价值。这个单一的数字,一个纯粹的持续价值,通常可以占到公司总估值的一半以上。
在演化生物学中,通货不是金钱,而是适应度——即个体基因的传播。但时间和不确定性扮演着同样的角色。考虑一个利他行为:你现在付出一个适应度成本 ,以便在未来给一个亲属带来收益 。著名的汉密尔顿法则(Hamilton's Rule)指出,如果 ,自然选择便会青睐这种行为,其中 是亲缘关系系数。但如果收益 不是在今天实现,而是在下一代才实现呢?世界是充满风险的。无法保证你的亲属能存活下来并获得回报。这种不确定性被一个生态折扣因子 所捕捉。因此,法则必须修改:只有当 时,该行为才会被青睐。未来的收益确实被未来能否到来的概率所打了折扣。
这一原则甚至能解释非亲属之间的合作。为什么不在交易中欺骗你的伙伴?背叛的直接诱惑可能很高。但如果你珍视未来的关系,你就会选择合作。合作成为一种稳定策略的条件,关键取决于折扣因子 。如果 足够高——意味着伙伴关系的未来持续价值足够大——它将超过欺骗带来的短期收益。惩罚和排斥之所以有效,是因为它们摧毁了背叛者的持续价值。
是否存在一种通用的方法来思考这些问题?答案是肯定的,而且它是应用数学中最优美的思想之一:贝尔曼方程(Bellman equation),以其发现者 Richard Bellman 的名字命名。它基于一个简单的“最优性原则”:一个最优策略具有这样的特性,即无论你当前处于何种状况、做出何种初始决策,你接下来的决策对于你所处的新状况而言,必须构成一个最优策略。
这使我们能够为任何此类问题写下一个递归方程。用通俗的语言来说,它表示:
价值(当前状态)= 在所有可能行动上取最大值 { 即时回报(行动)+ 贴现后的期望价值(下一状态)}
“期望价值(下一状态)” 正是持续价值!
让我们在一个复杂的生物学情境中看看它的应用:一只母鸟决定将其有限的能量投入多少到当前的雏鸟中。设它的状态是其能量 和环境条件 。设其价值函数为 ,代表其预期的终生总繁殖成功率。它可以选择将数量为 的能量投入到雏鸟身上。这会带来即时的繁殖回报 ,但会消耗能量,并可能降低它存活到下一季的概率 。其决策的贝尔曼方程是:
在这里, 是预期的未来繁殖成功率——即持续价值——在所有可能的未来能量水平和环境状态上取平均。这只鸟在隐式地解决这个方程。如果它的能量很低( 值低),存活的持续价值就很高,所以它可能会选择较低的投入 以保全自己。如果它的能量很高,它就能承担更多的投入。通过从生命终点(此时终值为零)开始向后求解这个方程,我们可以为任何年龄和状态规划出最优的生活史策略。
同样的结构无处不在。一个美式股票期权的价值是其立即行权价值和持有至下一时期的预期持续价值中的最大值。研发项目的方程也是一个贝尔曼方程。这个单一而简洁的递归式是解开广阔序列决策问题宇宙的万能钥匙。
一旦你开始用持续价值的视角思考,你就会以更微妙的形式看到它。
我们通常认为过去影响现在,现在影响未来。在一个简单的时间序列模型中,今天的价值 是昨天价值 的函数。但从代数上讲,我们同样可以轻易地将今天的价值写成明天价值 的函数。这不仅仅是一个数学技巧。它反映了动态规划的深刻真理:我们常常通过从未来的目标开始,逆向推导至现在来求解最优策略。我们让未来为现在提供信息。
更重要的是,选择结束博弈的能力增加了另一层价值。一个可以随时行权的美式期权的价格,其行为不仅仅是其未来可能性的平均值。因为期权持有者会在其即时回报超过其预期持续价值的那一刻理性地行权,所以该期权今天的价格可能严格大于其明天价格的贴现期望值。用随机过程的语言来说,它是一个超鞅(supermartingale),而不是一个鞅(martingale)。放弃某个行动方案的灵活性——无论是砍掉一个失败的研发项目、行使一个期权,还是离开一个不好的伴侣——本身就具有价值,而这个价值被这个框架完美地捕捉了。
最后,如果未来不仅是充满风险,而是真正不确定的呢?如果你甚至不知道概率呢?这被称为奈特式不确定性(Knightian uncertainty)。想象一个投资者,他担心博弈的“规则”本身可能会改变。一个稳健的决策者会像在与一个敌对的自然进行博弈一样行事。当他们做出选择时,他们会假设自然的回应是选择对他们最不利的未来概率分布。贝尔曼方程发生了微妙而深刻的变化:
价值 = 在所有行动上取最大值 { 即时回报 + 贴现后的(在所有概率上取最小值 [预期未来价值])}
持续价值现在是一个最坏情况下的期望。这导致了谨慎、稳健的行为,比如持有更多现金或避免那些行为难以建模的复杂资产。在一个你并不完全理解的世界里,这是对你的策略持续性进行估值的最终体现。
从为考试而学习的简单选择,到经济学和生物学中最复杂的模型,其原理都是相同的。每一个决策都是在当下与未来之间的权衡。持续价值让我们在当下的谈判桌上为未来发声。它揭示了生物体和组织选择背后隐藏的逻辑,展现了世界运作方式中一种优美而意想不到的统一性。
在上一章中,我们探讨了持续价值的原理——一个微妙而强大的思想,即任何情况的价值不仅包括其即时回报,还包括它为未来保留的所有可能性的价值。这是不停止的价值,是保留明天行动选择权的价值。这个概念可能看起来很抽象,是金融理论家的工具。但现实远比这更优美、更令人惊讶。这种思维方式并非经济学家的发明,而是一个在截然不同的领域被反复发现的基本逻辑。它被企业战略家用于评估价值数十亿美元的项目,被野生动物用于做出攸关生死的决定,甚至其数学脉搏也能在物理学的基础方程中找到。
现在,让我们踏上穿越这些不同领域的旅程,看看这个单一而简洁的思想如何提供一个统一的视角来理解世界。
在商业世界里,决策很少是在真空中做出的。管理者不仅是今日利润的看护人,更是公司未来的管家。持续价值是让他们量化未来的工具。
想象一下你正在管理一个采矿项目。你开采的商品价格刚刚跌破了你的生产成本。从简单的会计角度看,你每天都在亏钱。幼稚的决定可能是永久关闭矿山,以止住亏损。但这样做对吗?关闭矿山是一个终结性的行为。它的即时回报是零(或者可能是一笔成本)。但是继续运营,即使有少量亏损,也保留了商品价格回升的可能性。这种未来获利期权的价值就是项目的持续价值。一个明智的管理者会将运营的即时损失与等待的持续价值进行比较。如果对美好未来的希望,在恰当贴现后,超过了当下的痛苦,那么理性的选择就是继续。持续价值将一个简单的“我们今天是否盈利?”的问题,转变为一个关于未来的更丰富、更具战略性的选择。
在像制药研发这样复杂的、多阶段的尝试中,这种逻辑变得更加关键。一个处于II期临床试验的药物远非保证成功。在每个阶段,公司都面临着一系列复杂的选择:放弃项目并冲销投资;将专利出售给另一家公司以换取即时现金;或者再投资数百万美元进入下一阶段试验。通过为下一阶段提供资金来“继续”的决定是一场赌博。回报并非立即可得。相反,公司是在为多年后获得更大回报的机会付费。这里的持续价值是成功通过所有未来试验并将药物推向市场的预期净现值。强大的 Longstaff-Schwartz 算法,一项诺贝尔奖级别的技术,使分析师即使在面临巨大不确定性的情况下也能估算这一价值,为做出这些高风险的战略赌注提供了理性依据。
这种“立即行动或等待”的困境出现在无数其他现代情境中。员工股票期权的持有者,受到行权限制期和禁止行权期的约束,必须不断权衡立即兑现的价值与为可能更高的股价而持有的持续价值。在分秒必争的在线广告拍卖世界中,算法必须决定是竞标当前的广告展示机会,还是等待,将其预算留给可能在片刻之后出现的更有价值的用户。在所有这些案例中,从矿山长达十年的视野到计算机微秒级的决策,逻辑都是相同的:比较手中的一只鸟与灌木丛中打了折扣的鸟群的期望值。
认为这种逻辑是人类的发明将是一个严重的错误。自然界通过自然选择无情的优化,早在亿万年前就发现了同样的原则。这里的通货不是美元,而是达尔文式的通货——繁殖适应度,即生物体传递给后代的基因数量。
考虑一只合作繁殖物种中的年轻从属鸟。它面临一个根本选择:“留下还是离开”。它可以散布出去,尝试寻找配偶,并立即组建自己的家庭。这是一场有直接但不确定回报的赌博。或者,它可以作为“协助者”留在父母的巢中,暂时放弃自己的繁殖。它为什么会这么做?因为“协助”策略有两个组成部分。首先,通过帮助抚养共享其基因的弟妹,它获得了间接适应度。但还有第二个关键的回报:通过留下,协助者某天可能继承鸟巢和繁殖地。这份继承是一笔巨大的未来繁殖奖赏。动物决定留下并协助,完美地对应了我们的采矿问题:它接受较低的即时(直接)回报,以换取间接收益外加可观的持续价值——继承未来的机会。
这种对未来的演算延伸到生物体最基本的生活史决策。一只雌性海鸟选择产下儿子还是女儿,可以是一个基于自身健康和资源的依状态而定的决策。在许多物种中,儿子是“高风险、高回报”的策略,需要大量投入才能成功,而女儿则是更安全的选择。母鸟的最优选择不仅取决于其后代的即时前景,还受到她自身未来繁殖价值(Future Reproductive Value, FRV)的影响。她的FRV是她个人的持续价值——她作为一个活着的、繁殖的生物体预期的未来成功。如果她状况良好,她较高的个人持续价值可能偏向一种策略;而如果她状况不佳,则可能偏向另一种。她自己未来的低语是她当前选择的一个关键因素。
同样的逻辑甚至支撑着信任与合作的演化。想象你遇到另一个人,有机会以很小的代价帮助他们。如果你们再也不会相见,这是一笔净损失。但如果这是一段关系的开始,帮助就是一种投资。如果你的伙伴是一个会在未来回报的合作者,你最初的代价性帮助行为就开启了一系列未来的收益。这种未来合作的预期净现值就是这段关系的持续价值。在一个充满不确定性的世界里,我们都在不断地扮演着贝叶斯统计学家的角色,观察他人的行为并更新我们对他们是否是值得信赖的合作者的内心概率。我们帮助的决定是该信念的函数,是对信任的持续价值是否值得付出即时成本的直接计算。
见证了持续价值在商界和生物圈中的力量之后,我们现在可以放大视野,看看它在最宏大尺度上的应用。
一片沿海红树林“价值”几何?它不出现在任何公司的资产负债表上。然而,它提供了极其宝贵的服务:它保护沿海社区免受风暴侵袭,是商业渔业的育苗场,并从大气中封存大量碳。现代环境经济学通过持续价值的视角给出了答案。这种“自然资本”的资产价值被定义为其预期提供的未来服务流的总净现值。这个价值不是静态的;当气旋破坏森林时(未来服务的损失),或者当我们社会对碳储存的重视程度增加时(未来服务的重估),它会发生变化。通过将生态系统的价值构建为其对社会的持续价值,我们可以就保护和发展做出更理性、更有远见的政策决策。
这把我们带到了最后一个,也是最惊人的联系。让我们从选择和价值的世界退后一步,进入纯物理学的领域。想象一粒尘埃在阳光下随机舞动——这是布朗运动的一个例子。它的路径是不可预测的。现在,让我们问一个听起来像是来自金融学的问题:给定粒子在时间 位于位置 ,它在未来某个固定时间 的位置的某个函数的*期望值*是多少?我们可以定义一个函数 ,来表示这个预期的未来价值。
当我们从时间上向后推导时,这个期望值是如何演化的?支配这种演化的数学规则是一个偏微分方程。令人惊叹的发现是,这个方程正是物理学中著名的热传导方程(Heat Equation),只是时间在倒退。描述热量在金属棒中扩散的数学结构,同样也描述了未来期望值沿着可能性的时间线向后“扩散”。这个深刻的联系,在所谓的费曼-卡茨定理(Feynman-Kac theorem)中被形式化,表明持续价值的概念不仅仅是一个巧妙的比喻。它的数学形式内嵌于支配我们宇宙的随机过程的基本描述之中。
从保留一座矿山运营的务实决策,到鸟类在巢中协助的本能,再到我们地球生命系统的估值,最后到扩散与机遇的方程本身——持续价值的逻辑是一条将它们全部联系在一起的线索。它证明了支配策略、生命和物理世界本身的原则之间深刻而常常隐藏的统一性。