try ai
科普
编辑
分享
反馈
  • 接触图谱

接触图谱

SciencePedia玻尔百科
核心要点
  • 接触图谱是一个二维矩阵,它通过显示链状分子的哪些部分在折叠空间中彼此靠近,从而简化了三维结构。
  • 在蛋白质中,长程接触的模式定义了整体折叠;而在基因组中,接触图谱揭示了像TADs和区室这样的组织单元。
  • 接触图谱对于预测三维结构、验证模型、理解分子动力学以及指导蛋白质工程至关重要。
  • 这个概念超越了生物学,将网络分析的原理应用于流行病学等领域,以模拟疾病传播。

引言

我们如何才能理解生命中最基本分子的复杂三维结构?从执行细胞任务的紧密折叠的蛋白质,到压缩在微观细胞核中的数米长的DNA,结构决定功能。可视化和分析这些复杂形状是现代生物学中的一个根本挑战。问题的关键在于找到一种既足够简单易于解读,又足够丰富能捕捉最关键结构信息的表示方法。接触图谱作为这个问题的精妙解决方案应运而生,它提供了一张编码三维物体内部邻近关系的二维蓝图。本文对这个强大的概念进行了全面概述。首先,在“原理与机制”一章中,我们将探讨接触图谱的基本思想,学习如何解读其模式以破译蛋白质乃至整个基因组的结构。接下来,“应用与跨学科联系”一章将展示这一抽象蓝图如何成为跨越不同科学领域进行发现、工程和解决问题的实用工具。

原理与机制

想象你有一张藏宝图。它不会以照片般的细节向你展示连绵的丘陵或茂密的森林。相反,它做了一件更有用的事:它向你展示了关键地点之间的关系。水井在老橡树以北100步处;宝藏埋在立石以西20步处。这是一张关于邻近关系的地图,有了它,你就可以重建这片区域的基本布局并找到你要找的东西。

在分子世界里,我们有一个在精神上极为相似但功能却强大得多的工具:​​接触图谱​​。这是一个简单而精妙的想法,已成为现代生物学的基石。接触图谱是一个二维网格,一个代表三维物体的矩阵。如果我们的物体是一个长链分子,比如蛋白质或DNA链,那么网格的坐标轴就代表链上的位置。图谱上位置 (i,j)(i, j)(i,j) 处的一个标记,表示一个简单的事实:链的第 iii 部分和第 jjj 部分,尽管它们在序列上可能相距很远,但在折叠的三维空间中却是近邻。它们处于“接触”状态。正如我们将要看到的,这张简单的邻近关系蓝图是解密生命复杂结构的关键。

折叠世界的蓝图

让我们从蛋白质开始,它们是细胞的主力分子。蛋白质起始于一条长长的氨基酸线性链,但要发挥功能,它必须折叠成特定的、复杂的三维形状。我们如何捕捉这种形状?接触图谱提供了一幅极其直观的画面。

想象两个相同长度的蛋白质。一个是​​球状蛋白​​,一个稳定、紧凑结构的分子工程奇迹。另一个是​​天然无序蛋白(IDP)​​,一个不安分的实体,以多种不同形状的闪烁集合形式存在。它们的接触图谱讲述了两个截然不同的故事。

球状蛋白的图谱充满了特征。当然,沿着中心对角线满是接触点,因为每个残基都与它在链上的直接邻居接触。但真正的故事在于远离对角线的信号。这些是​​长程接触​​,是蛋白质中在序列上相距遥远,但通过折叠的魔力被拉到一起的片段之间的分子握手。这些接触形成了一种复杂而特定的模式,就像一张详细的城市地图,显示了连接不同街区的所有桥梁和隧道。

与此形成鲜明对比的是,IDP的图谱稀疏而贫瘠。它只在非常靠近对角线的地方显示出强烈的信号,代表了链的局部连接性。广阔的非对角线区域大部分是空的,这是缺乏稳定长程相互作用的无声证明。它不像一张城市地图,更像一条从一端延伸到另一端的孤零零的高速公路。

这种比较揭示了一个深刻的真理:蛋白质的整体折叠是由其长程接触决定的。它们是维系整个结构的基本支柱、扣件和系绳。这就是为什么,在从氨基酸序列预测蛋白质三维结构的巨大挑战中,预测接触图谱是关键的中间步骤。预测的接触图谱是算法关于蛋白质如何折叠的核心假设。如果图谱正确定位了关键的长程接触,最终的三维模型几乎肯定会具有正确的整体拓扑结构。如果图谱搞错了,后续再多的精修也无法挽救模型,使其免于折叠成错误的形状。图谱就是抽象形式的折叠。

解读模式:从接触到结构

接触图谱不仅仅是一张漂亮的图片;它是一种密码。经过训练的生物学家可以通过解读图谱上的模式来破译分子结构的复杂细节。这是一种分子侦探工作。

考虑一下被称为​​β-折叠​​的美丽而常见的蛋白质结构,其中蛋白质链的不同链段并排排列。这些链段可以以不同的方式排列,形成独特的基序。我们如何从接触图谱中区分它们?让我们看看链段之间的接触。

假设我们看到链段S1(残基12-20)和链段S2(残基35-43)之间的一系列接触。如果接触形式为 (14,41)(14, 41)(14,41), (16,39)(16, 39)(16,39) 和 (18,37)(18, 37)(18,37),我们注意到一个模式:随着S1上的残基索引增加,S2上的索引减少。这是两条链段反向运行的明确标志。它们是​​反平行​​的。如果索引是一起增加的,它们将是​​平行​​排列。

通过检查所有链间接触,我们可以拼凑出整个折叠片的布局。对于一个假设的蛋白质,我们可能会发现链段S1与S2反平行,S2与S3反平行,并且令人惊讶的是,链段S4(序列中的最后一个)与S1(第一个)反平行。这种S4-S1-S2-S3的特定排列,即序列上很远的链段回来与第一个链段配对,形成了一种著名而优雅的拓扑结构,称为​​希腊钥匙基序​​(Greek Key motif)。二维图谱上抽象的点阵揭示了一种特定的三维建筑风格。

这种比较原则可以更进一步。我们不仅可以看一张图谱,还可以比较两种不同蛋白质的接触图谱。通过找到“对齐”它们二维接触模式的最佳方式,我们可以建立一种衡量其结构相似性的强大方法。这有时比直接尝试叠加它们的三维结构更可靠,特别是对于没有单一刚性形状的柔性蛋白质而言。

尺度提升:绘制整个基因组图谱

接触图谱的概念是如此强大,以至于可以从单个蛋白质扩展到整个基因组。在细胞微小的细胞核内,数米长的DNA以一种高度有组织但又动态的方式被压缩。这个庞大的遗传信息库是如何组织的?通过使用一种名为​​Hi-C​​的技术,我们就能找到答案,该技术本质上是为整个基因组生成接触图谱的方法。

当我们第一次看到来自单个细胞的基因组接触图谱时,我们看到了一个令人惊讶的景象:图谱几乎是空的。这并非因为基因组是一个空洞。这是有限采样的结果。Hi-C实验就像给一个熙熙攘攘的城市拍一张快照;你只捕捉到其居民之间数十亿种可能相遇中的一小部分。在单个细胞的单个瞬间,任何给定的DNA位点只与其他少数几个位点接触。

当我们对来自数百万个细胞的接触图谱进行平均时,奇迹发生了。随机、短暂的相互作用被平均掉,一个稳定、潜在的概率图谱浮现出来。这个群体平均图谱的结构令人叹为观止。我们看到两个主要的组织层次。

首先,基因组被划分为称为​​拓扑关联结构域(TADs)​​的局部邻域。在接触图谱上,它们表现为沿对角线的致密方块。TAD是基因组中一个与自身频繁相互作用,但与其邻居隔绝的区域。这就像我们城市地图中的一个区,区内交通繁忙,但通往邻区的道路很少。我们甚至可以用一个名为​​绝缘分数​​的工具在计算上“扫描”基因组,该工具专门设计用于通过寻找相互作用的急剧下降来检测这些邻域之间的边界。

其次,在更大的尺度上,图谱揭示出一种独特的格子或棋盘状图案。这种图案反映了基因组被分隔成两个主要的​​区室​​。'A'区室与开放、活跃的染色质和基因丰富的区域相关,而'B'区室则包含封闭、不活跃和基因贫乏的染色质。就像油和水一样,这两种类型的染色质更喜欢与自身结合(A与A,B与B),而不是混合。这种分离可以通过一种强大的技术——​​主成分分析​​,从图谱中数学地提取出来。该技术将整个矩阵中最主要的模式提炼成一个单一的向量——​​区室特征向量​​——其符号告诉你给定区域属于'A'世界还是'B'世界。

从蓝图到现实,再回到蓝图

地图很有用,但我们常常想看到真实的领地。我们如何使用二维接触图谱来生成蛋白质或染色体的三维模型?这是一个引人入胜的计算挑战,存在几种策略。

一种直观的方法是​​基于约束的优化​​。接触图谱告诉我们哪几对残基应该靠近。我们可以将这些信息转化为一组“约束”——想象它们是连接一串珠子上指定珠对的虚拟弹簧或系绳。接触的强度(观察到的频率)可以用来定义弹簧的理想长度或刚度。计算机的工作就是找到珠子的三维排列,以尽可能满足所有这些约束,同时不允许链穿过自身。这就像摇动一个装有由绳子连接的珠子的盒子,直到它稳定在最稳定的构型中。

一种更复杂的方法是​​贝叶斯推断​​。在这里,我们不把接触图谱看作一套硬性规则,而是看作带有噪声的实验数据。我们将一个​​似然函数​​和一个​​先验​​结合起来。似然函数描述了在给定特定三维结构的情况下观察到我们的接触图谱的概率(例如,假设接触频率 CijC_{ij}Cij​ 与空间距离 dijd_{ij}dij​ 通过幂律关系如 Cij∝dij−αC_{ij} \propto d_{ij}^{-\alpha}Cij​∝dij−α​ 相关),而先验则编码了我们已有的物理学知识(例如,链是连接的并具有一定的刚度)。结果不是单一的三维结构,而是一个后验概率分布——一个与数据和物理定律都一致的完整结构集合。这种方法完美地承认了分子世界是动态和不确定的,提供了一系列可能的构象云,而不是单一的、静态的快照。

运行中的图谱:预测动力学和解决难题

接触图谱的力量超越了仅仅描述静态结构。它可以用来预测系统将如何行为,并解决令人费解的实验观察。

例如,接触图谱可以被解释为一个机械网络的电路图,其中残基是节点,接触是弹簧。这种​​弹性网络模型​​使我们能够预测分子的动力学。考虑两个翻译同一段mRNA的核糖体相互碰撞,启动了一个质量控制过程。我们可以通过获取两个独立核糖体的接触图谱,并在它们的界面处添加一个单一的新“接触”弹簧来对此进行建模。该模型随后做出了一个非凡的预测:这个单一的新连接创造了一条动态通路,供信号(振动)从一个核糖体上的位点 xxx 传播到另一个核糖体上的位点 yyy 。这种新发现的通讯强度与 xxx 和 yyy 在各自核糖体内部与界面点的连接程度成正比。静态接触图谱使我们能够预测长程动态耦合的出现。

最后,接触图谱是科学侦探的宝贵工具。如果来自细菌基因组的Hi-C图谱看起来很奇怪,染色体的“起点”和“终点”之间有强烈的接触,那么图谱是在告诉我们犯了一个错误。细菌有环状染色体,通过将它们表示为线性序列,我们制造了一个人为的断裂。图谱只是反映了靠近“环绕”点的位点的真实邻近性。同样,如果一张图谱上散布着奇怪、意外的长程接触,这可能是一个线索,表明样本被来自另一个物种的DNA污染了,其读段被错误地映射到参考基因组上,从而产生了“幽灵”相互作用。

从单个蛋白质到整个基因组,从静态结构到动态通讯,接触图谱提供了一种统一的语言。它证明了一个简单想法——一个三维邻近关系的二维蓝图——在揭示生命机器美丽、复杂和折叠的本质方面的力量。

应用与跨学科联系

我们已经花了一些时间来理解接触图谱的“语法”——它是什么以及它能显示的基本模式。我们看到,这张简单的二维图表是一种非常聪明的方式,可以将复杂的三维物体“压平”,同时保留关于“什么与什么接触”的基本信息。现在,我们准备看这种语言在实践中的应用。我们将踏上一段旅程,看看这个单一而优雅的想法如何在各种各样的科学故事中找到它的声音,从单个蛋白质的复杂舞蹈到整个人类基因组的宏伟结构,甚至延伸到塑造我们社会的网络。在这里,科学成为发现、工程和理解的工具。

生命机器的蓝图:蛋白质

让我们从单个分子的尺度开始。蛋白质是细胞的纳米机器,其功能由其精确的三维形状决定。但我们如何知道那个形状是什么?通常,计算方法会给我们几个相互竞争的假设。想象你是一名侦探,对一桩罪案有两种不同的理论;你需要一个关键证据来做出决断。接触图谱就是那个证据。

假设对于蛋白质的一个片段,一个模型预测它形成一个简单的、杆状的α\alphaα-螺旋,而另一个模型预测它折回自身形成一个β\betaβ-发夹。α\alphaα-螺旋是由局部相互作用构成的;位置 iii 的残基主要与像 i+3i+3i+3 和 i+4i+4i+4 这样的邻居接触。这些接触点都会紧密地聚集在图谱的主对角线周围。然而,β\betaβ-发夹是通过将链的两个遥远片段并排放置而形成的。这会产生一种显著的长程接触模式,远离对角线。如果一个预测的接触图谱——也许是根据数百万年来残基共同进化的数据得出的——显示出例如残基25和44之间,或27和42之间有一条清晰的接触线,这就提供了确凿的证据。这些不是简单螺旋的接触;它们是发夹折叠的标志性特征,使我们能够果断地选择正确的模型。

这个想法可以被推广。接触图谱可作为蛋白质整体结构的独特“指纹”。一个无监督机器学习算法,如果只给它成千上万个蛋白质接触图谱,它将自然地发现蛋白质结构的基本类别。它会学会将它们分组,因为模式是如此独特:

  • ​​全-α\alphaα蛋白​​,由堆积的螺旋构成,产生的图谱带有弥散的非对角线接触斑块。
  • ​​全-β\betaβ蛋白​​,由折叠片组成,产生的图谱以尖锐的线性条纹为主,对应于链段之间规则的长程氢键模式。
  • ​​α\alphaα+β\betaβ蛋白​​,其中螺旋区和折叠片区沿序列分隔,显示出“块对角”图谱,图谱的一部分具有螺旋状模式,另一部分具有折叠片状模式。
  • ​​α\alphaα/β\betaβ蛋白​​,其螺旋和链段交替排列,产生一种复杂、交织的两种模式类型的马赛克。

接触图谱,在其抽象的点阵中,包含了蛋白质折叠的本质。

但蛋白质不是一个静态物体。它是一台动态机器,能传递信息,通常通过一种称为变构的过程跨越长距离。分子一端的拉动如何能在另一端被感觉到?我们可以将接触图谱看作是一个通信网络的布线图。通过将残基视为节点,接触视为边,我们可以从网络理论中引入强大的思想。其中一个思想是“介数中心性”,它衡量一个节点在任意两个其他节点之间最短路径上出现的频率。具有高中心性的节点是信息流的“瓶颈”或关键枢纽。通过计算蛋白质接触网络的这个值,我们常常能精确定位对变构信号至关重要的残基——构象变化必须通过的关键连接点。

这种理解将我们从描述带向了设计。如果我们知道哪些接触对于维系蛋白质的结构至关重要,我们能否创造出新的蛋白质?这是定向进化的目标。一种名为SCHEMA引导的重组的方法,明确地使用接触图谱作为创造新酶的蓝图。当我们组合两个亲本蛋白质时,我们希望在不破坏稳定折叠的精细接触网络的情况下交换片段。SCHEMA利用接触图谱来识别蛋白质中接触稀疏区域的断裂点,这些区域充当天然的“断层线”。通过在这些结构上安全的位置进行剪切和粘贴,我们极大地增加了所得嵌合蛋白正确折叠并具有功能的几率。接触图谱不再仅仅是一张图片;它是一本设计手册。

基因组的结构

现在让我们将视野急剧拉远,从一个几百个残基的单个蛋白质,放大到包含三十亿个碱基对的人类基因组。就像蛋白质链折叠成复杂形状一样,我们的每条染色体都折叠起来以适应微小的细胞核。使用一种称为Hi-C的技术,我们可以为整个基因组创建一个接触图谱,其中“接触”是两个通常相距遥远的基因组位点之间的空间邻近点。

这个全基因组接触图谱的第一个,也许也是最实际的应用是质量控制。从数十亿个短DNA测序读段中组装一个基因组,就像拼凑一本被撕碎的百科全书。错误时有发生。一个常见的错误是错误拼接,即染色体上两个并非真正相邻的片段被缝合在一起。在Hi-C接触图谱上,正确组装的染色体的标志是一条明亮、连续的对角线,反映了邻近区域的高接触频率。一个错误拼接则表现为这条对角线上的一个惊人断裂——这是一个清晰的视觉信号,表明组装中假定的线性连续性在三维空间中被违反了。这为验证和纠正“生命之书”提供了不可或缺的工具。

一旦我们对组装有信心,图谱揭示了什么结构?Hi-C的首批惊人发现之一是,基因组被划分为两个大规模区室A和B的“棋盘”模式。通过将接触图谱转化为相关矩阵并计算其主特征向量,科学家们发现了一个优美的分离。具有正特征向量值的区域倾向于与其他正值区域相互作用,负值区域与负值区域相互作用。通过将这种数学信号与已知的基因组特征相关联,其生物学意义变得清晰:'A'区室对应于活跃的、基因丰富的常染色质,而'B'区室则与沉默的、基因贫乏的异染色质对齐。这是基因组三维结构与其功能之间的深刻联系。

进一步放大,接触图谱揭示了另一层组织:拓扑关联结构域(TADs)。它们表现为沿对角线的致密相互作用方块,就像绝缘的邻里,TAD内的基因彼此频繁相互作用,但与邻近TAD中的基因相互作用要少得多。这些边界是如何起作用的?我们可以将调控信号的传播建模为在接触图谱定义的图上的“随机游走”。TAD边界充当“防火墙”,是一个接触概率低的区域,使得随机游走者难以穿越。这为TADs如何通过防止增强子激活错误的启动子来帮助确保基因被正确调控提供了一个优雅的动态模型。

作为普适概念的接触图谱

我们讨论的原理不仅限于蛋白质和DNA。长RNA分子的折叠也可以使用类似的相互作用捕获技术进行研究,从而产生RNA接触图谱。在这里,我们也可以通过应用为DNA开发的完全相同的分箱、归一化和边界检测算法,来寻找类似TAD的结构域——连续的富集自我相互作用的区域。折叠聚合物的基本物理学是普适的。

现在来进行一次最大的飞跃。如果我们的网络中的节点不是分子,而是人呢?在流行病期间,流行病学家绘制个体的“接触网络”以理解和预测疾病传播。要阻止传播,最需要隔离或接种疫苗的是哪些人?为了回答这个问题,他们可以计算网络中每个人的介数中心性。这与用于寻找蛋白质中变构瓶颈的数学概念完全相同!一个连接两个原本独立的社群的人——比如一个在研究站两个隔离居住单元之间移动的后勤人员——具有很高的介数中心性。他们是病原体的关键桥梁。通过隔离将这个节点从网络中移除,可以切断传播途径,保护整个社群。连接性的数学不关心节点是氨基酸还是人类;它的洞见是普适的。

让我们以一个有趣而深刻的思想实验来结束。我们能否将这些算法完全重新用于生物学之外的领域?想象一下,从一个巨大的食谱数据库中创建一个共现矩阵,其中位置 (i,ji, ji,j) 的值是食材 iii 和食材 jjj 一起出现的次数。我们能否在这个“美食接触图谱”上运行一个TAD识别算法,来找到不同菜系的核心模块——比如法式烹饪的mirepoix或西班牙烹饪的sofrito?

思考这个问题迫使我们具体化我们对TAD识别算法工作原理的理解。我们立即遇到了一个障碍:TADs是沿着一维染色体的连续区块。食材的“一维染色体”是什么?是按字母顺序排列的列表?还是按食物类别排序的列表?如果没有一种有意义的方式来排序食材,算法的输出将毫无意义。此外,许多TAD识别算法被设计用来对基因组中的“距离衰减”效应进行归一化。这个假设将不得不被禁用或完全重新考虑。通过将类比推向极限,我们揭示了原始方法的核心,且常常是隐藏的假设。

从蛋白质的蓝图到基因组的结构,从疾病的传播到美食的构成,接触图谱被证明不仅仅是一张图片。它是一个基本概念,一种描述互联世界结构的通用语言。它以物理学的精神提醒我们,有时最深刻的洞见来自于将最简单的思想,以创造力和勇气跨越学科界限加以应用。