try ai
科普
编辑
分享
反馈
  • 生物学中的统计建模

生物学中的统计建模

SciencePedia玻尔百科
核心要点
  • 统计建模将生物学叙事转化为预测性方程,例如用于描述协同过程的希尔方程和用于描述罕见事件的泊松分布。
  • 分层模型通过在不同层级间共享信息,有效地分析嵌套的生物学数据,并通过一种称为部分池化或收缩的过程来改进估计。
  • 在基因组学中,统计工具对于识别显著关联、为复杂过程创建定量评分以及构建如CRISPR等应用的预测模型至关重要。
  • 建模的一个关键方面涉及科学怀疑精神,从正确解释统计显著性到使用置换检验和实验验证来确认因果假设。

引言

统计建模是现代生物学用以破译生命巨大复杂性的透镜。面对从细胞内部运作到庞大生态系统网络的错综复杂的系统,科学家需要的不仅仅是简单的观察;他们需要一个严谨的框架来构建和检验关于这些系统如何运作的假设。本文旨在解决将定性的生物学叙事转化为定量的、可预测模型这一根本性挑战。它为理解将统计学应用于生物学问题的核心理念和实践提供了指南。

这段旅程始于第一章​​原理与机制​​,我们将在其中探索从零开始构建模型的艺术。我们将学习如何将生物学故事转化为精确的方程语言,如何通过参数估计过程倾听数据,以及如何利用强大的分层模型来拥抱生命中嵌套的复杂性。在此基础上,第二章​​应用与跨学科联系​​将展示这些模型在广阔的生物学探究领域中不可思议的有效性。从揭示免疫系统的工程原理到解码基因组这本天书,我们将看到统计思维不仅提供了答案,更提供了对生命逻辑本身的更深层次理解。

原理与机制

想象你是一位钟表匠。但你并非普通的钟表匠,而是一位从未见过钟表的人。你面前放着一个滴答作响的盒子,你的任务是弄清楚它的工作原理。你不能直接把它砸开。你必须倾听它的滴答声,或许轻轻摇晃它,测量它的温度,并从这些间接的线索中,推断出内部齿轮和弹簧的优雅之舞。这就是手持统计建模工具的生物学家的生活。细胞的宇宙、生态系统、有机体——这些都是我们滴答作响的盒子。我们的模型是我们为隐藏的机械绘制的蓝图,而统计学则是我们用来将盒子发出的微妙信号转化为一个连贯故事的语言。

在本章中,我们将踏上一段旅程,去理解这门技艺的核心原理。我们将从学习如何勾勒最初的蓝图开始,将生物学故事翻译成数学的语言。然后,我们将发现如何通过仔细倾听数据来完善这些蓝图。我们将看到如何构建能够捕捉生命宏伟、嵌套复杂性的模型。最后,我们将讨论这个过程中最重要的部分:如何成为一个好的怀疑论者,去质疑我们自己的蓝图,并参与到模型与其试图描述的真实世界之间的宏大对话中。

用方程讲故事:蓝图的艺术

从本质上讲,数学模型就是一个故事。它是一个关于事物如何运作的故事,用数学不容置疑的精确性来讲述。我们从一个生物学过程——一个用文字讲述的故事——开始,然后逐字逐句地将其翻译成一个方程。

想象一个细菌内部的基因。它的表达受一个“激活蛋白”的控制,但这个激活蛋白只有在抓住两个特定化学物质——“诱导剂”——的分子时才能起作用。当激活蛋白处于这种状态时,它能附着在DNA上,并召集机器开始转录基因。周围的诱导剂分子越多,这种情况发生的可能性就越大,基因转录的速度也越快,直至达到某个最高速度限制。

我们如何将这个故事变成一个预测模型?我们使用基本的物理原理,比如​​质量作用定律​​,该定律支配着分子如何相互碰撞和反应。所描述的过程是​​协同结合​​:激活蛋白需要不是一个,而是两个诱导剂分子,并且它是一步到位地抓住它们。这种“全或无”式的开关是生物学中常见的基序。描述这样一个过程的数学形式是一个优美而普遍存在的函数,即​​希尔方程​​。如果我们让 EEE 表示基因表达速率,III 表示诱导剂的浓度,Emax⁡E_{\max}Emax​ 表示细胞可能的最大转录速率,那么这个故事就转化为:

E(I)=Emax⁡I2K2+I2E(I) = E_{\max} \frac{I^2}{K^2 + I^2}E(I)=Emax​K2+I2I2​

突然之间,我们定性的故事变成了一个定量的预测。方程的每个部分都有其物理意义。指数“2”反映了激活所需的两个诱导剂分子;它是​​希尔系数​​,衡量响应的“陡峭程度”或开关般的行为。那么 KKK 是什么呢?如果我们将 I=KI=KI=K 代入方程,我们会发现 E(K)=Emax⁡/2E(K) = E_{\max}/2E(K)=Emax​/2。所以,KKK 不仅仅是一个抽象的字母;它是一个具体的、可测量的量:达到最大可能基因表达一半时所需的诱导剂浓度。它是系统敏感度的一个度量。通过将我们的生物学叙事翻译成这个方程,我们创造了一个可以检验的蓝图,一台我们可以拨动其杠杆(III)来看看输出(EEE)是否如我们预测般运作的机器。

但并非所有的生物学故事都如此确定性。生命在很大程度上也是随机的。想象一个mRNA分子,即携带基因指令的信使。如果它有错误——一个“无义”密码子——细胞有一个称为​​无义介导的降解(NMD)​​的质量控制系统来摧毁它。信使的尾端(3' UTR)越长,NMD机制发现错误并触发降解的机会就越多。

这不是一个发条装置;这是一场机会游戏。尾部的每个核苷酸就像一张彩票,只有少数几张是触发NMD的“中奖”彩票。我们如何为这种情况发生的概率建模?我们可以把触发机会看作是沿着mRNA尾部长自分布的罕见、独立的事件。这正是​​泊松分布​​(罕见事件定律)的完美应用场景。

如果我们说每核苷酸的平均触发事件率为 α\alphaα,那么对于长度为 LLL 的尾部,平均触发次数为 λ=αL\lambda = \alpha Lλ=αL。泊松分布告诉我们,恰好发生零次触发的概率是 exp⁡(−λ)=exp⁡(−αL)\exp(-\lambda) = \exp(-\alpha L)exp(−λ)=exp(−αL)。如果至少有一次触发,NMD就会发生。所以,NMD发生的概率就是一减去零次触发的概率:

PNMD(L)=1−exp⁡(−αL)P_{\text{NMD}}(L) = 1 - \exp(-\alpha L)PNMD​(L)=1−exp(−αL)

我们再一次将一个关于机会的故事翻译成了一个精确的数学形式。这个简单而优雅的方程告诉我们,这个关键的质量控制事件的可能性如何取决于分子的物理长度。它证明了一个观点:即使面对随机性,也存在着统计建模可以揭示的潜在规律和模式。

倾听数据的艺术:从蓝图到建筑

蓝图在开始建造之前只是一张纸。在科学中,建造意味着用真实世界的数据来检验我们的模型。这就是​​参数估计​​或“拟合”模型的过程。我们有了我们故事的形式(方程),但我们需要找到参数的具体值(如 Vmax⁡V_{\max}Vmax​、KmK_mKm​ 或 α\alphaα),使模型最好地匹配我们的观察结果。

“最好地匹配”是什么意思?它意味着最小化“误差”,即模型预测与我们实际测量值之间的差异。最常见的方法是​​最小二乘法​​,我们试图最小化预测值与观察值之差的平方和。但这里出现了一个关键的微妙之处:我们所有的测量值都同样可靠吗?

想象一下你在测量一种酶促反应的速度。在非常低的速度下,你的测量误差可能很小且恒定。但在高速下,误差可能与速度本身成比例——一个大数值的10%误差远大于一个小数值的10%误差。这被称为​​乘性误差模型​​。简单地最小化平方误差和将是一个错误;它会给高速、高误差的测量值过多的权重。

一个有统计学原则的方法要求我们适当地转换数据或加权误差。对于乘性误差,取对数通常效果显著,因为它将乘性误差转化为加性的、方差恒定的误差。或者,我们可以使用​​加权最小二乘法​​,其中每个平方误差都除以其测量值的方差。这给予了更精确的测量值更多的权重,而给予噪声较大的测量值较少的权重。

如何量化误差的选择并非随意的。它是对我们测量过程物理性质的深刻陈述。对于许多复杂的测量,比如来自质谱仪的测量,最终的噪声是许多小的、独立的随机源(电子噪声、离子计数波动等)的结果。​​中心极限定理​​——统计学的基石之一——告诉我们,许多随机效应的总和倾向于看起来像一个钟形曲线,或称​​高斯分布​​。这就是为什么作为最小二乘法基础的高斯误差假设在生物学中常常是一个合理的起点。

然而,拟合模型并不总是那么直接。有时,我们无法从数据中唯一地确定参数,这个问题被称为​​可识别性​​问题。想象一下试图为我们的酶同时估计 Vmax⁡V_{\max}Vmax​ 和 KmK_mKm​。米氏方程,v=Vmax⁡SKm+Sv = \frac{V_{\max} S}{K_m + S}v=Km​+SVmax​S​,有两个截然不同的区域。在极低的底物浓度下(S≪KmS \ll K_mS≪Km​),它简化为一条直线:v≈(Vmax⁡Km)Sv \approx (\frac{V_{\max}}{K_m})Sv≈(Km​Vmax​​)S。如果我们只在这个区域收集数据,我们可以非常精确地确定斜率,也就是比率 Vmax⁡Km\frac{V_{\max}}{K_m}Km​Vmax​​。但我们无法区分 Vmax⁡=10,Km=1V_{\max}=10, K_m=1Vmax​=10,Km​=1 和 Vmax⁡=100,Km=10V_{\max}=100, K_m=10Vmax​=100,Km​=10。两者都给出相同的斜率。这些参数无可救药地纠缠在一起,或者说是​​相关的​​。

为了解开它们,我们必须设计实验来探测系统不同的行为模式。我们需要在高等底物浓度(S≫KmS \gg K_mS≫Km​)下收集数据,此时速率饱和于 v≈Vmax⁡v \approx V_{\max}v≈Vmax​,并且也需要在 S=KmS = K_mS=Km​ 附近收集数据,此时曲线对两个参数都最敏感。这揭示了一个深刻的真理:统计建模不是一项被动的活动。它是与自然的对话,我们能回答什么问题,关键取决于我们为提问而设计的实验。

既见森林,又见树木:分层模型的力量

生物系统是按层次组织的:细胞中有基因,组织中有细胞,个体中有组织,种群中有个体。一个强大的统计模型必须尊重这种嵌套结构。它必须能够既看到个别的树木,又能看到整片森林。

让我们考虑一项关于昆虫寿命的研究。我们可能会发现,单个昆虫的寿命 TTT 服从指数分布。但假设每只昆虫都完全相同是天真的。有些天生更强壮,有些则更脆弱。这种未被观察到的“脆弱性”,我们称之为 ZZZ,在整个种群中是变化的。所以,一个个体的死亡率不是一个固定的数字;它是一个由其特定脆弱性决定的值,比如 λZ\lambda ZλZ。对于一个脆弱性为 ZZZ 的昆虫,其寿命 TTT 服从速率为 λZ\lambda ZλZ 的指数分布。但脆弱性 ZZZ 本身是一个随机变量,也许在种群中服从伽马分布。

这是一个​​分层模型​​。我们有一个针对个体的模型,它以个体的特定属性为条件;还有一个模型,描述这些属性如何在种群中分布。这种结构使我们能够理解不同层面的变异。利用​​全方差定律​​,我们可以看到寿命的总方差 Var(T)\text{Var}(T)Var(T) 是如何由两部分组成的:给定脆弱性的昆虫内部的平均方差,以及不同脆弱性昆虫平均寿命之间的方差。

Var(T)=E[Var(T∣Z)]+Var(E[T∣Z])\text{Var}(T) = \mathbb{E}[\text{Var}(T \mid Z)] + \text{Var}(\mathbb{E}[T \mid Z])Var(T)=E[Var(T∣Z)]+Var(E[T∣Z])

这种分层思维是现代统计学中最强大的思想之一,在​​分层贝叶斯模型​​中得到了最充分的体现。想象一下,我们正在研究来自几种不同组织——肝脏、肺、大脑——的细胞中的基因表达。我们可以完全独立地分析每个组织(“无池化”),但这样会损失统计功效,特别是对于细胞数量很少的组织。或者我们可以把所有细胞混在一起(“完全池化”),但这会抹去组织间真实的生物学差异。

分层模型提供了一个完美的折中方案。它假设每个组织中的平均表达水平 θg\theta_gθg​ 不是某个任意的、独立的数字。相反,每个 θg\theta_gθg​ 都是从一个代表“生物体层面”结构的更高层次的分布中抽取的。这是一个​​可交换性​​的假设:在看到数据之前,我们相信这些组织是不同的,但是从同一个共同的可能性池中抽取的。

当我们用数据拟合这个模型时,奇妙的事情发生了。肺部表达水平的估计值不仅仅基于肺细胞;它被轻微地“拉”向所有组织的总体平均值。这被称为​​部分池化​​或​​收缩​​。这种拉力的强度是数据依赖的:如果肺部数据非常一致且丰富,我们的估计值会紧贴肺部的平均值。但如果我们只有很少、充满噪声的肺细胞,我们的估计值将被更强地拉向总体均值,有效地从肝脏和大脑数据中“借力”,以获得一个更稳定、更合理的估计。这是模型既尊重组织特异性差异又聪明地共享信息的方式。它使我们能够同时看到森林(生物体范围的模式)和树木(组织特异性状态)。

健康的怀疑精神:模型与现实的对话

统计建模的最后一个,也许也是最重要的原则,是学术上的诚实。模型是对现实的简化,一种漫画式的描绘。它总是在某些细节上是错误的。目标是使它变得有用。而要做到这一点,我们必须成为自己最严厉的批评者。

首先,我们必须精确地说明我们的结果意味着什么。一家初创公司声称其算法能以“95%的显著性”预测疾病,这是一个危险的含糊声明。这是否意味着95%的准确率?还是说一个个体的风险评分有95%的可能性是正确的?都不是。在统计学中,“显著性”指的是反对一个​​零假设​​的证据强度。一个小于0.05的p值(“95%显著性”的基础)意味着,如果数据和疾病之间真的没有关系(零假设),我们观察到像我们这样强的结果的概率将低于5%。它是关于在无效应情景下我们数据的罕见性的陈述;它不是预测准确性或正确性的直接度量。

其次,我们必须抵制“p值操纵”(p-hacking)的诱惑。如果我们对数据进行了三种不同的检验——一种针对整个群体,一种仅针对男性,一种仅针对女性——并且只报告未经校正的最小p值,那我们就是在作弊。我们的行为就像一个神枪手,朝谷仓墙上开了一百枪,然后在最密集的弹孔周围画上靶心。仅凭偶然性找到“显著”结果的概率会急剧上升。正确的方法是要么预先指定一个单一的分析计划,要么在数学上调整我们的显著性阈值以考虑我们检验的多个假设。一个更好的方法通常是建立一个单一、全面的模型(例如 Effect ~ Treatment + Sex + Treatment:Sex),这样可以正式检验这些不同的效应,而无需任意地分割数据。

第三,当我们评估一个复杂模型的显著性时,我们必须小心地将其与正确的零分布进行比较。交叉验证是估计模型在新数据上表现如何的强大工具。但它本身并不能告诉我们这种表现是否具有统计显著性。为此,我们需要进行​​置换检验​​。我们通过在数据集中反复打乱标签(例如,“肿瘤”vs.“正常”)来创建一个零世界,打破特征与标签之间的任何真实关联。对于每个打乱的数据集,我们必须重新运行我们整个分析流程——包括特征选择和超参数调整。这些置换运行中得到的性能得分分布给了我们一个诚实的零分布,告诉我们仅凭偶然性能达到什么程度。

最后,我们必须记住,一个统计模型,无论多么优雅,都是一个发现相关性的机器。它生成关于世界如何运作的假设,但它本身无法证明因果关系。最终的仲裁者是实验验证。考虑一下使用单细胞RNA测序追踪胚胎发育过程中细胞谱系的巨大挑战。一个计算模型可能会提出一个美丽的分岔点,即干细胞在两种不同命运之间做出选择的点。

但这是真的吗?还是它是诸如细胞周期、测序仪的批次效应,甚至是物理混合进来的不同细胞群污染等混杂因素造成的假象?一个好的科学家,就像一个好的侦探,必须排除这些替代解释。模型的预测不是故事的结局;它是新一章调查的开始。我们必须设计新的实验来检验它:用​​克隆谱系追踪​​来观察一个亲代细胞是否真的能产生两种子代命运,用​​活体成像​​来实时观察过程的展开,以及用​​扰动实验​​来尝试我们是否能自己拨动命运的开关。

这就是科学宏大而循环的舞蹈。我们观察世界,我们建立一个模型来解释它,模型做出新的预测,我们设计一个实验来检验这个预测。然后,实验的结果迫使我们完善或抛弃我们的模型。正是在我们数学想象力与物理世界顽固现实之间这种谦逊、严谨、永无止境的对话中,我们取得进步,缓慢但确定地推断出那个滴答作响的盒子的秘密。

应用与跨学科联系

物理学家 Eugene Wigner 有一篇著名的文章,题为《数学在物理科学中不可思议的有效性》。他惊叹于数学概念——通常是出于纯粹抽象的原因而发展起来的——如何最终成为描述宇宙的完美语言。如果 Wigner 是今天的生物学家,他或许会写一篇续集。因为我们正生活在一个数学,特别是统计建模,在破译生命本身逻辑方面被证明具有不可思议有效性的时代。

这场革命并非始于生物学实验室。它最早的火花之一来自一个你可能最意想不到的地方:冷战时期的军事后勤领域。在20世纪中叶,运筹学研究人员正在开发一种名为“系统分析”的新思维方式,以管理供应链和军事战略的巨大复杂性。他们绘制带有方框和箭头的图表,量化物资的流动、生产的速率以及维持系统稳定或使其失控的反馈回路。他们在为复杂、有组织的系统构建一种数学语言。

然后,像 Eugene Odum 这样的生态学家有了一个绝妙的洞见:生态系统不就是一个复杂、有组织的系统吗?他们看到,用于模拟坦克和弹药流动的相同思维,可以用来模拟能量和营养物质在森林或湖泊中的流动。一棵橡树成了一个“区室”,有输入(阳光、水、二氧化碳)和输出(橡子、落叶)。吃橡子的鹿是另一个区室,通过可量化的能量流相连。突然之间,生态学从一门描述“这里生活着什么”的科学,转变为一门定量的、预测性的科学,研究“这个系统如何运作?”。这种智力上的借鉴行为,即看到供应链和食物链之间的统一原则,是统计和数学建模如何赋能生物学的一个完美缩影。它给了我们一种语言,不仅能描述部分,还能描述整体的动态逻辑。

方程中的生命逻辑

从本质上讲,一个生命有机体是一件工程杰作,它必须解决可靠性和决策制定的基本问题。事实证明,进化找到的解决方案可以用惊人简单而优雅的数学来描述。

想象一个杀伤性T细胞,你免疫系统的一名保安,正面对一个恶性肿瘤细胞。为了消灭目标,T细胞必须在其膜上打孔,使用一种叫做穿孔素(perforin)的蛋白质,创造出孔道,以便递送有毒的颗粒酶(granzyme)。但这个过程是一场机会游戏。会形成多少个孔道?数量足够吗?我们可以将单次遭遇中形成的有效孔道数量建模为一个随机过程,就像小雨中落在单块铺路石上的雨滴数量一样。泊松分布,一个用于计算罕见、独立事件的简单统计模型,完美地契合了这一情景。使用这个模型,我们可以计算出至少形成一个孔道的概率——这是成功攻击的条件。对于一个典型场景,这个概率可能非常高,比如95%。但是那5%的失败情况怎么办?大自然,这位终极工程师,憎恶单点故障。免疫系统有两个优美的解决方案。首先,它采用冗余:T细胞拥有一个完全独立的武器,即Fas-FasL通路,它可以在没有任何孔道的情况下触发细胞死亡。其次,它使用重复:如果第一次攻击失败,这个T细胞或另一个T细胞可以再试一次。连续十次失败的概率变得微乎其微。这里的统计建模不仅仅给了我们一个数字;它揭示了生物系统为确保关键功能成功而使用的深刻逻辑原则——重复和冗余。

生命不仅关乎可靠性;它还关乎做出清晰、果断的选择。在胚胎发育过程中,一个信号分子的梯度可能会延伸过一片细胞区域。处于精确位置的细胞如何“知道”要成为翅膀的一部分,而它们的邻居,信号浓度仅略低,却不会?它们需要将一个平滑、连续的输入(信号浓度)转换成一个急剧的、全有或全无的输出(特定基因程序,如“Hox”基因的激活)。解决方案是一种称为协同性的现象。想象一个基因,只有当四个转录因子蛋白拷贝结合到其控制区域时才会被激活。如果一个分子的结合使得下一个分子的结合变得容易得多,那么该系统的行为就像一个拨动开关。在激活物浓度低时,基因被牢牢关闭。但当浓度超过一个关键阈值时,基因突然切换到完全“开启”状态。这种行为被一个简单的生物物理模型——希尔函数——完美地捕捉。如果我们使用这个模型,我们会发现,如果一个小的变化使激活物浓度乘以一个因子 fff,基因的输出可以被放大到 fnf^nfn 倍,其中 nnn 是协同结合位点的数量。当 n=4n=4n=4 时,输入信号仅仅翻倍(f=2f=2f=2)就可以导致输出增加16倍!这种“超敏性”是一个基本的设计原则,它允许生物体从模糊的化学梯度中创造出清晰的模式和独特的组织。

解码生命之书

过去二十年基因组学的爆炸式发展,使生物学家淹没在以前无法想象规模的数据之中。基因组是一本有三十亿个字母的书,每个细胞都有自己复杂的模式,决定了哪些页面正在被阅读以及何时阅读。统计建模是理解这一切所必需的图书馆学。

基因组学家可能常问的一个问题是,两组生物学特征是否相关。例如,我们知道DNA复制不是一次性完成的;基因组的某些部分(早期复制区域)比其他部分更早被复制。我们也知道有些区域是“活跃的”,装饰着像H3K27ac这样的化学标签,标志着它们处于开放状态。这两者之间有联系吗?我们可以在基因组的一个片段中标出所有的早期复制区域和所有H3K27ac标记的区域。我们不可避免地会发现一些重叠。关键问题是:这种重叠是否比纯粹偶然预期的要多?这就像从一副牌中抽一手牌。如果牌堆里有15张人头牌,你抽了10张牌,其中有8张是人头牌,你会相当惊讶。超几何检验是一种正式的统计工具,它能精确计算出“仅凭偶然”看到8个或更多重叠的概率。当生物学家应用这个检验并发现一个极小的概率(一个低的ppp值)时,他们就更有信心认为早期复制和活跃染色质之间的关联是一种真实的生物学现象,而不仅仅是巧合。这是一种在基因组的随机噪声中寻找有意义信号的方法。

通常,我们想讲述的故事不是关于单个基因,而是关于整个生物学过程。考虑上皮-间质转化(EMT),这是一个紧密连接的上皮细胞转变为可移动、迁移的间质细胞的过程。这在发育中至关重要,并被癌细胞臭名昭著地劫持以进行转移。这个转化不是由一个基因控制的,而是由一整个基因交响乐团控制的。一些与“上皮”状态相关的基因(如E-cadherin, CDH1)被下调,而用于“间质”状态的基因(如vimentin, VIM)被上调。我们如何追踪一个细胞在这个谱系中的进展?我们可以创建一个统计模型,一个“EMT评分”。我们可以将其定义为一个简单的线性组合:间质标志物的平均表达量减去上皮标志物的平均表达量。通过分析这个评分的统计特性——它的均值和方差,这取决于基因之间的相关性——我们可以为这个复杂过程创建一个定量的标尺。然后,我们可以定义精确的、数据驱动的阈值,将单个细胞分类为上皮、间质或介于两者之间的混合状态。这是一个降维的强大例子:将成百上千个基因表达测量的令人困惑的复杂性,压缩到一个单一的、可解释的生物学轴上。

这种新的定量生物学的最终目标不仅是阅读基因组,还要书写它。像CRISPR-Cas9这样的技术使我们能够以惊人的精度编辑DNA。但一个持续的挑战是,编辑的效率在基因组的不同位置之间可能有很大差异。是什么控制着这一点?我们现在知道,“染色质环境”——DNA如何包装以及它是否可及——起着巨大的作用。我们可以建立一个预测模型来捕捉这一点。通过在数千个基因组位置测量编辑效率,并同时测量染色质可及性(来自ATAC-seq)和活性组蛋白标记等特征,我们可以使用统计回归技术来学习这种关系。一种特别强大的方法是一种称为岭回归的贝叶斯回归形式,它建立一个“谨慎”的模型,避免被数据中的噪声误导。得到的模型可以用来预测最佳的编辑靶点,或者设计更可能成功的向导RNA,从而加速基础研究和基因治疗的步伐。

用数据作画:捕捉运动中的生命

生命体不是静态的。它们是在时间和空间中展开的动态过程。统计建模提供了描绘这些动态的调色板和画笔。

想象一下刺激一个细胞,并观察其基因表达在数小时或数天内的变化。一些基因可能表现出快速、短暂的峰值。另一些可能缓慢而稳定地上升到一个新的平台。还有一些可能以24小时的节律振荡,就像一个滴答作响的生物钟。要分析来自这样一个时序实验的数据,一个“一刀切”的统计模型将是一个笨拙的工具。建模的艺术在于将工具与任务相匹配。对于短暂的峰值,我们可能会使用专门的“脉冲模型”。对于稳定上升,一个灵活但受约束的“单调样条”可能非常完美。对于时钟基因,带有正弦和余弦项的谐波回归是自然的选择。在所有情况下,我们都必须使用一个统计框架,比如负二项模型,它能正确处理测序数据的噪声、基于计数的特性。选择正确的模型不仅仅是一个技术细节;它使我们能够提出更精确的生物学问题并获得更有意义的答案,估计关键参数,如峰值表达时间或振荡周期。

几个世纪以来,生物学是通过在显微镜下观察组织来研究的,看到了生命的美丽结构,但不知道单个细胞在“说”什么。现在,通过空间转录组学,我们可以同时做到这两点:我们可以在单个组织切片内的数千个不同位置测量数千个基因的表达。挑战在于从这些极其丰富的数据中找到模式。是否存在定义组织轴的基因表达梯度?是否存在使用特定基因组进行交流的细胞邻域?是否存在从细胞间接触到组织范围组织等多个尺度的模式?为了回答这些问题,我们需要多尺度统计模型。我们可以使用从信号处理中借鉴的工具,如小波或多分辨率核,来分析每个基因的空间表达模式。然后,使用严格的统计程序,如置换检验——我们通过打乱细胞的位置来看随机模式是什么样子——并控制我们正在进行的数千次检验,我们可以识别出哪些基因具有显著的空间模式,以及这些模式存在于哪个生物学尺度上。我们正史无前例地开始阅读活体组织的建筑蓝图。

从实验室到临床及更远:因果科学

也许统计建模在生物学中最深远的影响在于它能帮助我们在复杂世界中做出更好的决策和理解因果关系。

考虑一下个性化医疗的挑战。有些人对某些药物有严重的、危及生命的过敏反应,这是由过度活跃的T细胞反应驱动的。什么决定了个体的风险?这是一个综合因素:他们的遗传(某些HLA基因变异是高风险的),他们的免疫史(先前的暴露可能已经“启动”了系统),以及他们当前的状态(并发的病毒感染会使免疫系统处于高度警惕状态)。一个优美而强大的整合所有这些信息的方法是使用贝叶斯定理,并用优势比(odds)的语言来表达。我们从普通人群中发生反应的基线优势比开始。然后,对于一个人所具有的每个风险因素,我们将其优势比乘以与该因素相关的“似然比”。一个高风险基因可能会将优势比乘以30。一个保护性基因可能会将其乘以0.4。有过暴露史可能会将其乘以4。通过将这些乘法链接在一起,我们得到了该个体发生反应的个性化后验优势比,这可以很容易地转换回概率。这是一个直接的、定量的风险分层框架,可以指导临床决策。

科学中最深刻的问题不是“什么与什么相关?”而是“什么导致了什么?”。生物学是一个纠缠不清的因果路径网络。考虑“渠道化”(canalization)现象,即发育中的胚胎即使面对遗传或环境压力也能产生正常的结果。它是如何缓冲这些扰动的?一个假设可能是,压力源 EEE 以相反的方向扰动了两个内部的分子模块 M1M_1M1​ 和 M2M_2M2​。也许它增加了 M1M_1M1​ 并减少了 M2M_2M2​。如果 M1M_1M1​ 和 M2M_2M2​ 本身对最终性状 TTT 有相反的影响,它们的影响可能会相互抵消,使 TTT 保持不变。检验这样一个因果假设是极其困难的。简单的相关性是不够的。我们需要巧妙的实验设计——比如随机分配一些胚胎到压力条件下——和复杂的统计模型的结合。像结构方程模型(SEM)或工具变量(IV)分析这样的框架允许我们绘制假设路径的因果图,并在某些假设下,从数据中估计每个因果链接的强度。这些方法使我们能够超越观察到系统是稳健的,并开始理解创造这种稳健性的具体机制。

这把我们带到了关于建模作用的最后、也是关键的一点。在像生态学这样复杂的领域,我们很少能进行一个完美的、受控的实验来证明,例如,像PCBs这样的一类污染物正在损害海洋捕食者的种群。我们不能在伦理上或实践上给整个鲸鱼种群下药。相反,我们必须从“证据权重”中构建一个案例。我们有来自相关物种的受控实验室实验的证据,这确立了生物学的合理性。我们有长期的野外数据,显示PCB暴露较高的种群繁殖成功率较低,这显示了现实世界的相关性。我们还有计算模型,可以将环境浓度与组织负担联系起来,并预测种群层面的后果。这些证据中没有哪一个是决定性的。实验室研究缺乏真实性;野外研究可能有混杂变量。但是,当所有三条证据线,每条都有不同的优点和缺点,都指向同一个结论时,我们对因果关系的信心就会大大增加。这是统计建模在生物学中的最终应用:不是作为一个提供最终“答案”的神谕,而是在一个更广泛、综合的科学推理过程中不可或缺的工具。它是我们用来理解生命美丽、复杂和不可思议逻辑的最重要的工具之一。