try ai
科普
编辑
分享
反馈
  • 统计模型:原理、机制及应用

统计模型:原理、机制及应用

SciencePedia玻尔百科
核心要点
  • 统计模型是现实的数学简化,就像地图一样,旨在捕捉本质模式,同时忽略复杂性。
  • 模型的有效性关键取决于其假设,如果数据违反了模型的假设,应用该模型可能导致极具误导性的结论。
  • 最佳模型并非最复杂的模型,而是最能泛化以预测新数据的模型,这一原则由奥卡姆剃刀和交叉验证等概念形式化。
  • 高级模型不仅能做出预测,还能量化不确定性,区分固有的随机性(偶然不确定性)和知识的缺乏(认知不确定性),从而指导未来的研究。

引言

在探索理解我们世界的过程中,从亚原子粒子的行为到整个生态系统的动态,科学依赖于一个强大而实用的工具:统计模型。面对现实世界中压倒性的复杂性和固有的随机性,我们需要一种规范的方法来在噪声中寻找信号,绘制我们希望探索的领域的地图。统计模型提供了这个框架,作为数学上的简化,帮助我们描述、解释和预测自然现象。但这些模型是如何工作的?它们的力量源自何处?又有哪些局限性?本文通过探讨统计建模的基础概念和多样化应用,揭开其神秘面纱。我们将首先考察其核心的​​原理与机制​​,探索模型的谱系、假设的关键作用、模型选择的艺术以及量化不确定性的重要性。随后,我们将通过一次跨越​​应用与交叉学科联系​​的巡礼,见证这些思想的实际应用,揭示同样的建模概念如何在生态学、基因组学和物理学等千差万别的领域中,提供一种普适的发现语言。

原理与机制

在现代科学的核心,从浩瀚的宇宙到细胞内分子的复杂舞蹈,存在着一个强大而又极其务实的思想:统计模型。但模型是什么?把它想象成一张地图。伦敦的地图不是伦敦;你不会被它淋湿。但它是一种非常有用的简化。它忽略了每一块砖和每一盏灯的细节,向你展示了城市的基本结构,帮助你从帕丁顿车站导航到伦敦塔。统计模型是现实某个方面的数学地图。它刻意忽略一些复杂性,以捕捉我们数据中隐藏的基本模式、关系和结构。它是一种思考的工具,一种将我们的假设明确化并用其来检验世界的规范方法。

模型的谱系:从物理定律到数据模式

模型并非千篇一律。它们存在于一个宏大的谱系上。在一端,我们有所谓的​​机制模型​​,这些模型是基于我们对基本物理定律的理解自下而上建立的。想象一下,试图模拟湍流流体的混沌、旋转运动,比如从蜡烛升起的烟雾。​​直接数值模拟(DNS)​​正是试图通过求解完整、未经删节的流体运动Navier-Stokes方程来做到这一点,它针对每一个分子,或者至少是每一个微小的涡流和漩涡。就保真度而言,这是终极的“地图”;它几乎就是领域本身。但这种“暴力”方法在计算上极其苛刻,以至于仅对最简单的情况才可行。

对于大多数实际问题,这是不可能的。因此,我们沿着这个谱系滑动,采用一种更具统计性的方法。​​雷诺平均Navier-Stokes(RANS)​​方法退后一步,不再追踪每一个混沌的波动,而是求解平均流,然后创建一个统计模型来表示所有微小、未解析波动的净效应。它不再知道每一缕烟在每一瞬间的位置,但它对烟羽的整体形状和行为做出了非常好的预测。它用宏观的、统计的真理换取了完美的、微观的细节。

这种在详细的机制描述与务实的统计描述之间的张力无处不在。思考一下生物体的基因与其可观察性状(如身高或代谢率)之间的关系。我们可以尝试从第一性原理出发建立一个机制模型,解释一个基因如何被转录成RNA,翻译成蛋白质,该蛋白质如何折叠,以及它如何催化特定的反应,所有这些都受复杂的生物物理定律(如Hill函数和Michaelis-Menten动力学)支配。这样的模型揭示了关于系统的深刻真理。例如,它表明如果一个过程变得饱和——就像一个酶以其最大速度工作——那么控制该酶的基因的微小变化对最终性状几乎没有影响。这种关系是根本非线性的。

然而,我们通常没有足够的信息来建立如此详细的模型。相反,遗传学家经常使用一个简单的线性统计模型,该模型假设每个基因变异都会对性状增加或减少一点。这样一个简单的模型怎么可能有效呢?因为,正如微积分中的泰勒展开告诉我们的,如果你只看一小部分,几乎任何平滑、复杂的曲线都像一条直线。只要遗传变异的影响很小,线性近似就是对局部地形一个惊人地好的描绘。当然,危险在于我们忘记了它只是一个近似。线性模型对饱和等非线性现象是“盲目”的,如果系统被推入这些状态,它将产生完全的误导。

模型的灵魂:假设至关重要

一个模型由其假设所定义。这些是游戏规则,是整个逻辑结构赖以建立的原则。如果你的数据不遵守这些规则,模型给你的答案可能不仅是错误的,而且是极其诱人地错误。

一个经典的例子来自基因组学世界。多年来,科学家们使用微阵列测量基因活动,经过对数转换后,产生连续的、大致呈钟形曲线(高斯)分布的数据。为分析这些数据而建立的统计模型自然地假定了这种连续、对称的性质。然后是RNA测序,一种计数单个分子的新技术。它产生的数据是整数:0、1、2、10、1000。对于这类计数数据,一个基本的统计特性成立:方差与均值相关。平均计数高的基因其方差也高。这违反了旧的微阵列模型的核心假设,即假设方差恒定。将为微阵列数据建立的模型应用于原始RNA-seq计数,就像试图用尺子测量液体的体积一样;你用错了工具,因为你误解了你所测量东西的性质。你需要一类不同的模型,基于泊松分布或负二项分布等,这些模型“理解”计数的本质。

违反假设的后果可能是巨大的。在生物信息学中,当在一个巨大的数据库中搜索与你的蛋白质相似的蛋白质时,程序会报告一个统计上的“期望值”,即​​E-value​​。这个数字告诉你,在那么大的数据库中,纯粹偶然地找到那么多具有该分值的匹配的预期数量。计算这个E-value的统计模型,即Karlin-Altschul框架,做出了一个关键假设:查询序列和数据库中的蛋白质都由20种氨基酸的“典型”混合物组成。现在,假设你用一个奇异的、低复杂度的查询序列进行搜索,比如一长串单一的丙氨酸。你可能会得到成千上万个E-value极小的匹配,表明它们都是高度显著的亲缘序列。但这是一个统计幻觉。你的查询违反了模型关于组成的核​​心假设。该模型不是为这种有偏的序列设计的,因此,其概率估计是垃圾。模型在告诉你一个奇幻的故事,因为你喂给了它一些它本不该消化的东西。

这就引出了关于模型构建的一个美妙观点:模型的假设越能反映真实的数据生成过程,它就变得越强大。在试图识别蛋白质家族时,可以使用一种简单的、确定性的模式匹配方法,就像PROSITE数据库那样。它通过一个简短、严格的序列基序来定义一个家族。如果你匹配该模式,你就属于这个家族;如果不匹配,你就不属于。一种更复杂的方法,被Pfam数据库使用,是为整个蛋白质域构建一个概率模型——一个​​隐马尔可夫模型(HMM)​​。它从许多已知家族成员的比对中学习每个位置的统计倾向。它不是问“这个序列是否匹配一个精确的模式?”,而是问“这个序列由生成已知家族成员的同一概率过程生成的可能性有多大?”这使得它能够识别那些可能与任何单一模式有显著差异的远亲。

这种理念在冷冻电子显微镜等领域达到了顶峰。为了将分子的嘈杂2D图像分类为不同的视角,可以使用像K-均值聚类这样的简单算法,它仅仅根据像素间的相似性对图像进行分组。但一种先进的​​最大似然​​方法做了更深刻的事情。它建立了一个生成模型,明确地包含了实验的物理过程:即每个图像都是一个未知3D结构在未知角度下的2D投影,受到一个已知光学函数(CTF)的调制,并埋藏在高斯噪声中。通过在这个丰富的、基于物理的模型下最大化观测数据的概率,它可以同时求解类平均图像并推断出潜在的方向,从而获得惊人的清晰度。它之所以如此有效,是因为它的假设是对现实的忠实描摹。

选择正确的地图:模型选择的艺术

如果模型是地图,我们如何选择正确的那张?人们很容易认为“最好”的模型是能最完美地拟合我们已有数据的模型。这是一个陷阱。一个足够复杂的模型总能完美地拟合任何数据集,就像你可以画一张蜿蜒曲折的路线图,穿过城市里的每一栋房子。但这样的地图对于导航毫无用处,因为它把噪声(每栋房子的确切位置)误认为是信号(道路网络的底层结构)。这个问题被称为​​过拟合​​。

这引出了科学和统计学中最基本的原则之一:​​简约原则​​,或称​​奥卡姆剃刀​​。它指出,当面临两个解释数据几乎同样好的模型时,我们应该选择更简单的那个。一位生态学家可能会用七个环境变量为一种花的栖息地建立一个复杂的模型,并发现它在预测花的位置方面仅比一个只使用两个变量的简单模型略好一点。奥卡姆剃刀建议选择双变量模型。它更有可能捕捉到真实、稳健的关系,而不太可能是拟合了训练它的特定数据集的随机怪癖。

我们可以为这个哲学原则赋予一个数值。像​​赤池信息准则(AIC)​​这样的标准提供了一种在拟合优度与复杂性之间进行权衡的正式方法。模型的AIC分数基于其最大化对数似然(衡量其拟合数据程度的指标),但它为模型的每个参数增加了一个惩罚项。一个更复杂的模型可能会获得更好的似然值,但它必须好到足以克服其复杂性带来的惩罚。在比较一个简单的天气模型和一个更复杂的模型时,复杂模型可能更适合历史数据(更高的对数似然),但如果拟合度的提高不足以证明额外参数的合理性,AIC可能仍然偏爱更简单的模型。

最终,模型选择的黄金标准不是模型解释已有数据的能力如何,而是它预测新的、未见数据的能力如何。这就是​​交叉验证​​背后的思想。你将数据分区,用一部分数据训练你的模型,然后在你保留的那部分数据上测试它们的预测准确性。例如,在比较关于生物体性状模块化结构的两个相互竞争的假说时,胜出的模型是对保留的测试集中的个体做出最准确概率预测的模型。这是对模型泛化能力的直接、经验性的检验,而这才是其价值的真正衡量标准 [@problem-id:2736062]。

谦逊的前沿:量化我们的无知

统计模型成熟的最后一步是,它不仅要做出预测,还要告诉我们它有多自信。一个真正伟大的模型知道它不知道什么。这引出了​​不确定性量化​​的关键任务,它可以被优雅地分解为两种截然不同的类型。

首先,是​​偶然不确定性(aleatoric uncertainty)​​。这个词源于拉丁语alea,意为“骰子”,这是系统本身固有的随机性、不可简化的噪声。它是仪器读数中由于热噪声产生的抖动,或是光子探测器中的散粒噪声。即使有一个完美的宇宙模型,你也无法预测一次掷硬币的结果。这是无法通过收集更多数据来减少的不确定性 [@problem-id:2479744]。

其次,也许更有趣的是​​认知不确定性(epistemic uncertainty)​​。这个词源于希腊语episteme,意为“知识”,这是源于我们自身知识缺乏的不确定性。这是我们对模型参数或其结构本身的不确定性。它产生的原因是我们拥有有限的数据,或者我们的模型只是对现实的一个近似。例如,在量子化学计算中使用特定的近似(如DFT中的特定交换相关泛函)会引入一个潜在的系统性偏差。我们对这个偏差大小和方向的不确定性是认知性的。至关重要的是,这种类型的不确定性可以通过收集更多数据或改进我们的模型来减少。

区分这两者不仅仅是一个学术练习;它具有深远的实践意义。如果一个用于材料发现的机器学习模型预测一种新合金将具有某种强度,但报告了很高的偶然不确定性,它是在告诉我们该合金的制造过程本身可能具有内在的变异性。另一方面,如果它报告了很高的认知不确定性,它是在告诉我们:“我对这个预测不是很确定,因为我在训练数据中没有见过任何类似的合金。”第一种情况表明我们需要更好的过程控制;第二种情况则精确地告诉我们应该进行哪个新实验来让模型变得更聪明。现代贝叶斯模型,如高斯过程,提供了一个严谨的数学框架,用于将总不确定性分解为这两部分,这代表了科学谦逊的终极行为:将世界的随机性与我们自身知识的边界分离开来。

应用与交叉学科联系

既然我们已经深入了解了统计模型的原理,我们就可以开始一次盛大的巡礼。我们将看到这些思想在实践中的应用,而它们出现的地方可能会让你大吃一惊。强大的思想有一个有趣的特点:它们很少停留在原地。一个为解决特定问题而在一个领域诞生的概念,常常会进入另一个完全不同的领域,并在那里突然开启一种全新的看待事物的方式。

想想20世纪中叶的生态学家。他们看着一片森林或一个湖泊,看到的是一个宏伟、相互关联的整体,一个充满生机、繁花似锦却又令人困惑的生命集合。但他们如何能从优美的描述转向对整个系统的定量理解呢?令人瞩目的是,灵感来自一个遥远的世界:冷战时期的后勤和运筹学。军事规划者正在研究如何管理庞大、复杂的供应链——物资的输入、输出、库存和流动。像Eugene Odum这样的生态学家意识到,他们可以完全用同样的方式看待一个生态系统,以能量和营养物质作为货币。一个生态系统可以像一个巨大的工厂一样被绘制出来,有来自太阳的可量化输入,以热量形式的输出,以及在“植物”、“食草动物”和“分解者”等隔间之间的内 部转移。这种视角的转变——从收集标本到绘制流程图——是一场革命。这是现代生态系统科学的诞生,其动力源于一种从完全不同的世界引进的思维方式。

这个故事完美地说明了建模的力量和普适性。同样一个抽象结构可以描述坦克流向前线,也可以描述碳在森林中的流动。在本章中,当我们探索统计模型如何服务于科学的三大追求时,我们将看到这个故事重演:以清晰的方式​​描述​​世界,​​解释​​其机制并揭示其原因,以及​​预测​​其未来。

描述的艺术:绘制一幅连贯的现实地图

科学的首要任务是看清那里有什么。但现实往往是令人困惑的数据风暴。统计模型就像一个镜头,使潜在的模式变得清晰,让我们能够绘制出我们所见事物的连贯地图。然而,我们画什么样的地图,完全取决于领域的性质。

让我们从宇宙的基本组成部分开始。想象你有一个装满粒子的盒子。你将如何描述它们的集体行为,特别是它们如何在不同能级之间分布?事实证明,你不能只用一个“一刀切”的模型。你必须问:它们是什么样的粒子?

如果你的盒子是一个充满光子(光的粒子)的热腔,你面对的是群居的、不可区分的粒子,称为玻色子。它们的数量甚至不是固定的;它们可以被创造和毁灭。它们的统计模型,即玻色-爱因斯坦统计,考虑了这一点,并著名地导出了普朗克的黑体辐射定律。另一方面,如果你的盒子是一块金属,而你正在观察传导电子,你面对的是不可区分的、反社会的费米子。它们遵守泡利不相容原理——没有两个可以处于同一状态。这需要一个完全不同的模型,即费米-狄拉克统计,它解释了金属为何具有其特性。那么,如果你的盒子装有像霓虹灯里那样的热而稀薄的氖原子气体呢?在这里,粒子相距甚远,移动速度很快,以至于它们的量子身份几乎无关紧要。它们的行为就像经典的、可区分的个体,我们可以使用更简单的麦克斯韦-玻尔兹曼统计。关键的洞见是,正确的描述性模型不仅仅是一个选择问题;它是由被描述事物的深层物理性质所决定的。

这个原则——模型必须与系统性质相匹配——从最简单的粒子延伸到最复杂的生命系统。想象一下试图描绘人类免疫系统。现代技术如质谱流式细胞术让免疫学家能够测量一份血液样本中数百万个单个细胞上的几十种不同蛋白质标记。结果是一个极其复杂的数据集。一个关键问题可能是:如果我们用疫苗刺激免疫系统,细胞景观会如何变化?“杀伤性T细胞”会增多吗?“调节性B细胞”会减少吗?

这是一个描述性问题,一次复杂的细胞种群“前后”普查。但我们不能仅仅比较原始计数。我们捕获的细胞总数因样本而异,人与人之间也存在固有的生物学变异。为了透过这层迷雾看到真正的变化,研究人员使用像负二项广义线性模型这样的统计模型。这种模型专为处理计数数据而设计,能够将细胞群比例的真实变化与测量过程的噪声分离开来。它使科学家能够进行“差异丰度”分析,准确描述哪些细胞群在响应刺激时扩张或收缩。从光子的量子统计到免疫细胞的种群动态,统计模型为以定量严谨性描述世界提供了必不可少的语言。

探寻“为什么”:从相关到因果

描述是必不可少的,但它很少足够。我们被一种更深的好奇心所驱使:我们想知道事情为什么会发生。我们想从相关性走向因果关系。这是一条危险的道路。我们很容易被虚假的关联所欺骗。我们拥有的最强大的导航工具是随机实验,而统计模型是我们在这段旅程中必不可少的伙伴。

让我们回到生态学。一个长久以来的观点,即“生物抗性假说”,认为多样化、健康的原生生态系统更能抵抗外来物种的入侵。提出的两个机制是:原生捕食者吃掉入侵者(自上而下控制),以及原生植物在资源上胜过它们(自下而上控制)。这是一个貌似合理的故事,但你如何证明它?

你不能只调查一堆地块,看看那些捕食者更多、原生植物更多的地块是否入侵者更少。那些地块可能也更湿润,或者土壤更好,或者在一百个其他方面有所不同。为了分离捕食和多样性的影响,你必须设计一个实验。想象一下设置一系列地块。在一些地块中,你建造笼子来排除捕食者。在另一些地块中,你让它们开放。与此正交地,你在一些地块上积极种植一种原生植物,一些种植四种,一些种植八种。然后你将入侵者引入所有地块并测量其成功率。

这是一个因子设计,它之所以优美,是因为它允许你解开不同的原因。为了分析结果,你需要一个反映该设计的统计模型。广义线性混合效应模型(GLMM)非常适合这种情况。它有“固定效应”项,直接估计排除捕食者的平均因果效应、增加多样性的效应,以及最重要的是,一个“交互”项,告诉你这两个效应是否协同作用。例如,在低多样性地块中,捕食者的影响是否更大?模型可以回答这个问题。它还包括“随机效应”,以解释特定湖泊或区块内的所有地块彼此之间比与其他区块的地块更相似这一事实。这种设计和模型的结合,使科学家能够从“我们看到了一个模式”走向“我们有证据表明X导致Y”。

但是,如果你无法进行实验怎么办?有时我们必须从观测数据中推断原因。这需要更复杂的模型,这些模型体现了对数据生成过程的深刻理解。考虑一下法医遗传学的挑战。在犯罪现场,调查人员可能会发现一个来自两个或更多人的混合DNA样本。问题本质上是因果性的:混合物中是谁的DNA?

原始数据包括图表上的峰,峰的高度与特定DNA片段的数量有关。但这个过程是嘈杂的。有时一个真实等位基因的峰太低以至于“脱落”而看不见。有时实验室机器会产生小的“stutter”峰。早期的统计模型是“半连续”的;它们将数据简化为二元的“存在”或“不存在”判断,丢弃了峰高中的信息。

现代的“连续”概率基因分型模型要强大得多,因为它们构建了一个详细的、关于整个过程的机制模型。它们有混合比例、stutter比率以及作为预期峰高函数的脱落概率等参数。通过如此忠实地对观测数据的原因进行建模,这些模型能够以更高的准确性和可靠性来权衡特定嫌疑人DNA存在于混合物中的证据。一个更好的关于测量过程的因果模型,允许对证据本身的原因进行更强的推断。

预测的力量:窥探未知

科学模型的最终前沿是预测。一个真正捕捉到系统某些本质的模型,应该能告诉我们一些我们尚不知道的事情——关于未来,关于新情况,或者关于我们未曾见过的数据。

让我们从你每天都做的事情开始:压缩文件。这和预测有什么关系?一切都有关系!想象你正在使用算术编码来压缩一个符号序列,比如这篇文章中的字母。该算法的工作原理是为每个可能的下一个字母分配0和1之间数字线的一段。你的统计模型认为概率很高的字母会得到一个大段;不可能的字母会得到一个很小的段。随着消息的输入,算法不断将其焦点缩小到一个越来越小的子区间。最终的压缩文件只是一个指向该最终区间的高精度数字。

神奇之处在于:如果你的统计模型擅长预测,它会持续地为实际出现的下一个字母分配高概率(因此也是一个大的区间片)。这意味着区间收缩得更慢,最终的区间相对较大。一个较大的区间需要更少的比特来指定。所以,一个更好的预测模型直接导致了更好的压缩!每当你压缩一个文件时,你都在使用一个统计模型来对数据进行预测,而该预测的质量决定了结果的大小。

这种泛化能力是现代生物学大部分内容的核心。分子生物学家想了解蛋白质是如何工作的。蛋白质的功能,比如与另一个分子结合,是由其氨基酸序列决定的。改变其中一个氨基酸——一个突变——如何影响其功能?我们不可能制造并测试所有数百万种可能的突变。这就是深度突变扫描(DMS)的用武之地。科学家们创建一个巨大的突变蛋白库,让它们经历一个选择过程(例如,它们与目标结合得有多好),然后使用高通量测序来计算哪些变体存活下来。

结果是一个巨大的计数表。为了将其转化为知识,他们拟合一个统计模型。一个典型的模型是广义线性模型,它根据一个变体的选择前计数及其序列来预测其选择后计数。该模型为蛋白质中每个位置上每个可能的氨基酸学习一个参数。这个参数代表了该突变对结合能的贡献。一旦模型在成千上万个变体上拟合完成,它就可以预测它从未见过的突变的效果!它已经学会了游戏的规则并可以泛化。这就是我们如何能够构建一个蛋白质功能景观的预测图,而无需探索它的每一寸土地。

当然,对复杂系统进行预测是困难的,尤其是当我们的视野不完美时。想象你是一位研究鸟类种群的生态学家,拥有几十年的年度计数数据。你想预测该种群的轨迹。一种天真的方法可能只是将一条曲线拟合到观测到的计数上。但这是危险的。计数不是现实;它们是对一个未被观测到的,或称潜在的真实种群规模的嘈杂测量。你的计数波动既有由于种群的真实变化(过程误差),也有由于你没有看到每一只鸟(观测误差)的事实。一个忽略这种区别的天真模型会被噪声所欺骗,做出糟糕的预测。它甚至可能为种群调节捏造虚假的证据。

解决方案是使用一个更复杂的工具:状态空间模型。这个模型有两部分。一部分描述真实的、潜在种群的动态,包括其自身的内在随机性。另一部分描述我们的嘈杂观测是如何从那个真实状态生成的。通过拟合这个模型,我们可以将信号与噪声分离开来,并对真实的底层过程做出预测,而不仅仅是我们碰巧看到的波动数据。

这种建模种群并从有限数据中学习的思想在层级模型中达到了顶峰。想象你是一位负责确保一座桥梁安全的工程师。它的梁由一种新合金制成,你需要预测它们在疲劳裂纹增长到危险尺寸之前能持续多久。你可以测试几根样本梁,但每次测试都很昂贵。你如何基于稀少的数据为一根新梁做出可靠的预测?

层级贝叶斯模型就是答案。你不是孤立地对每根梁建模,而是建立一个模型,假设你所有的梁都来自一个更大的、由相似梁组成的种群。该模型学习这个种群的平均属性及其变异性。当需要对一个数据很少的特定梁进行预测时,模型会进行一次优美的“借力”操作。它的预测是一个加权平均值——是在那根梁的稀疏数据与来自整个种群的更丰富信息之间的一种折衷。个体的数据越少,模型就越明智地将其估计值向种群平均值“收缩”。这比单独分析每个样本得到的预测要稳定和可靠得多。这是一种形式化的、数学化的推理方式,即个体可能与其同伴没有太大不同,这一原则为从工程到医学再到生态学等领域的预测带来了稳健性 [@problem-id:2638705]。

统计模型难以置信的有效性

我们的巡礼带领我们从量子领域到森林地面,从犯罪实验室到我们细胞的核心。无论我们看向何处,我们都发现同样的智力工具在起作用。无论是描述粒子的行为,推断疾病的原因,还是预测机器的寿命,科学家们都转向统计模型的语言。

这其中有一种深刻的美。它揭示了我们理解世界的方式具有深度的统一性。数据是来自望远镜、基因测序仪还是田野笔记并不重要;建立模型、将其与证据比较、并用它来洞察未见的底层逻辑始终如一。世界是一个复杂且常常令人困惑的地方,但它似乎拥有一种在相当程度上可被理解的结构。而事实证明,对于这种理解而言,那门语言难以置信地有效,就是统计学的语言。它是我们拥有的最接近科学发现普适语法的东西。