蛋白质相互作用研究：从整体到局部

2018-05-31 10:51:49

随着越来越多的物种基因组测序完成，对全蛋白质组与相互作用组的解释已经成为近期研究的热点。虽然蛋白质组研究阐述了表达蛋白质的所有组成成分，但是相互作用组包括了生物体内存在或者可能存在的成对蛋白质-蛋白质相互作用，因此，形成了庞大且稀疏的网状结构。伦敦帝国理工学院生物信息学中心的WP Kelly等人在文章中对现有数据提出的挑战进行了探讨，描绘了一幅从全局分析到更加详细的、更集中的蛋白质-蛋白质相互作用研究的路径。谨慎利用蛋白质相互作用数据，可以让我们进一步全面探索其潜能，并对生物学系统机制的假说进行评估。

在细胞和分子水平，生物学的结构和功能是蛋白质和其他分子之间复杂的相互作用的产物。因此，研究生物学网络，并且利用图表理论描述这些相互作用，已经成为阐述生物学系统的重要概念之一。虽然蛋白质-蛋白质相互作用数据噪音很多，还不完善，但已经有许多关于“利用蛋白质相互作用网络数据分析和理解复杂的分子表型”的报告发表。

本文将重点探讨和蛋白质-蛋白质相互作用网络相关的三方面内容：围绕着蛋白质-蛋白质相互作用的校对、矫正和验证的讨论；根据结构，详细描述了个别蛋白质-蛋白质相互作用关系；利用它们研究疾病的分子进程，并将其作为研究细胞系统动力学性质的有用工具。

蛋白质相互作用数据的挑战和来源

构建生物学网络的结构极具挑战性，需要大量的资源和努力。在高通量技术出现后，我们才获得了模型生物的大规模的蛋白质相互作用网络数据，每年，都产生数千个假定的相互作用网络。这与几年前数百个相互作用的总量，形成鲜明对比。对于研究较为透彻的原核、真核模型生物来说，现在已经有好几个大型的蛋白质相互作用网络数据集了。

以酿酒酵母为例，已经利用当前成熟的研究方法和可能的技术手段进行了广泛的研究。共免疫沉淀、质谱技术和酵母双杂交已经被广泛的应用于酿酒酵母假定的蛋白质相互作用关系的鉴定。曾有人采用不同的方法检测物理的相互作用，综合检查有关的生物信息学数据集。然而，这些数据集重叠量低到令人难以置信，专家建议，要谨慎处理数据。

为了预测新的蛋白质-蛋白质相互作用，研究人员除了采用实验方法，还大量采用了计算机模拟分析。单独从基因组序列数据计算预测蛋白质-蛋白质相互作用面临的困难很大，即使是最成功的方法也会遭受到很高的假阳性结果和假阴性结果。研究人员都冀望于统计学理论、生物信息学、进化生物学的技术发展水平，以及基于生物信息学数据来源的预测。

这样做的目的是将一个有机模型中的相互作用信息传递到相关的另一个物种中。这是一个很清晰合理的出发点，但是其中的弊端也很明显：相互作用数据中的不确定性也将通过物种传播，这将使得冲突数据的分析变得更加困难。

过去三年来，每年都有10000多个酿酒酵母新的相互作用关系问世。数据表述方法以及它们随着时间的推移而进行的组合方式，是我们理解蛋白质相互作用知识的一个很有用起点。

#p#

如果需要分析相互作用和时间的关系，它们都是无价之宝！例如，完整的酿酒酵母是一个稀疏的网络结构，大约有6000个节点，以及1800万个可能存在的成对相互作用关系；BIOGRID数据库报道，有70000多种不同的相互作用关系。然而，人们认为酵母相互作用组的容量要低于已存在报道的相互作用关系的数量。目前的任务是要找到有效的方法来区分假阳性报道和真阳性成对相互作用。

当可信度问题变得更为显著时，研究初期对网状结构进行解释的热情有所减弱。最近数学结果和实验研究表明，来自实际相互作用组的子集，与真实的网络结构具有不同的性质和结构特征。因此，研究蛋白质相互作用数据集可能只为相互作用组的结构提供有限的信息。此外，将不同的数据集结合在一起研究，可能忽视了在不同的生化分析中的限制和潜在的矛盾。

蛋白质-蛋白质相互作用特点

蛋白质相互作用网络的整体分析，日益被更详细的蛋白质-蛋白质相互作用、相互作用的决定因子、特征及效应分析所取代。第一，这些分析能告诉我们特殊的相互作用的功能定位；第二，这些分析有助于我们用计算机对蛋白质-蛋白质相互作用进行预测。用到的预测方法很大程度上是以统计模式为基础的，统计模式能将相互作用的蛋白质对，与不会发生相互作用的蛋白质对区别开来，计算机模拟推理的蛋白质-蛋白质相互作用，对理解蛋白质相互作用的效应和机制有很大帮助。

严格的讲，我们谈论的是蛋白质区域相互作用，而非蛋白质相互作用，结构生物信息学在蛋白质-蛋白质相互作用的预测中，扮演了越来越重要的角色。然而，蛋白质结构预测的困难，将给以结构为基础的蛋白质-蛋白质相互作用的预测带来不便，尽管目前已经取得一些进展，可以确定可能的蛋白质表面和蛋白质域的相互作用。

就参与相互作用网络的蛋白质的基因组和功能特征而言，针对蛋白质对的分析更直接。共表达、共享转录因子结合位点、基因语义分类等技术，已经用于评估网络在组成节点中的影响，并且确定相互作用的蛋白质对与不会发生相互作用的蛋白质对的区别。在这些研究中，我们通常拿真正的网络结构与具有相似统计学特征的网络相比较，随机聚类集成的定义可能对下游的统计分析产生重要影响。

人们对发生在具有相同（或生物学上相似的）注释的蛋白质之间的相互作用，有一种预期的偏见。对蛋白质相互作用中分子功能的报道有超过20%属于这一类情况。这与组分和流程注解的比例类似。然而，在BIOGRID数据库已报道的新的相互作用中，只有36097个（约占总数的一半）蛋白质之间具有已知功能。在这个数据子集中，8380个相互作用发生在相同功能的蛋白质之间。其余的相互作用包括那些对不同生物学处理过程有益的蛋白质，或者那些主要存在不同的细胞组分中的蛋白质。

#p#

这些观察结果必然对蛋白质-蛋白质相互作用在计算机中的预测产生重要的影响。科罗拉多州立大学的计算机科学系的Asa Ben-Hur和华盛顿大学基因组学系的William Stafford Noble将基于细胞定位的选择性相互作用因子负集合与随机选择的数据库中没有的蛋白质配对进行比较。他们发现，前者实际上产生了高品质的不会互相作用的蛋白质，因为任何数据集合都含有不同的注释（不同功能、不同过程，等等。）然而，对蛋白质-蛋白质相互作用预测器/分析器的结果也存在偏见，预测器/分析器可能只是预测了在不同组成部分中的蛋白质，而不是真正的相互作用蛋白质对。

在系统生物学中利用蛋白质相互作用网络

过去，对蛋白质相互作用网络的研究一直独立于其他网络之外，但是，这种状况在快速发生变化。我们知道，转录和转录调控，代谢作用过程，信号级联放大都需要并调用蛋白质-蛋白质相互作用网络。基于此，为了弄清楚生理学意义，研究中不能把调控相互作用网络、代谢网络、信号网络、蛋白质-蛋白质相互作用网络分开考虑，或者将其看作独立的实体。因此，我们必须将这些复杂的网络结构结合在一起考虑：蛋白质独自或结合在一起作为转录因子以及蛋白质丰度的调节器；作为酶类，它们催化并且协调细胞的新陈代谢过程；在信号级联放大过程中，它们作为内部、外部的刺激因子激活其他的蛋白质。所有这些过程都表明它们可以导致蛋白质相互作用和合成物的形成或者终止。

当前，我们手中的数据还无法解释这些详细情况，但是，我们能够逐步认识到，在某种相互作用实现之前，需要发生某种翻译后修饰，如磷酸化过程。随着试验方法的不断进步，我们能够收集并分析定时、定量，特定环境下的蛋白质相互作用数据。

研究人员通常利用蛋白质相互作用网络在系统数据中的分析，代替蛋白质-蛋白质相互作用网络及其动力学分析的定量和定时的方法。通常，蛋白质相互作用网络中的节点，用于解释表达数据、敲除或抑制表型数据，以及基因语义注释。这种功能数据与网络数据的组合体，能影响细胞表型中的额外基因，或者对没有进行分析的表型进行预测。

当调查复杂表型，并且是很难研究的表型，如人类时，这点尤为重要。最近，蛋白质-蛋白质相互作用网络研究重点分析已知与某种人类疾病有关的相互作用。即使这些相互作用本身并不会在表型调节中用到，追踪它们也有利于有关的生物学系统元件研究。此外，这些相互作用知识，还可以为小型生物学系统的研究，如信号途经，压力应答机制、细胞运动性，提供实验的和理论的分析依据。

在蛋白质-蛋白质相互作用的进化研究中，也可采用这种更详细的分析解决方法。整体分析只能发现一些普遍并且脆弱的内容，很难用统计学进行确定。然而，最近对bZIP转录因子家族的分析，使对蛋白质相互作用进化的详细分析达到了前所未有的高度。蛋白质-蛋白质相互作用对生物学的重要性不言而喻，如压力应答、宿主-寄生虫相互作用。为了测试模式生物以及与人类疾病有关的、发育和信号过程机械论假设，我们将看到更多小型但是高度特异性的蛋白质-蛋白质相互作用集合分析。

#p#

结论

当前，蛋白质相互作用数据集重点关注的是数据质量和数量的权衡问题。蛋白质-蛋白质相互作用数据仍然不完善，并且备受高错误率的困扰。然而，只要我们小心谨慎，并且采用先进的统计学方法，我们就能有效的利用这些信息。虽然目前来看，对于真正的相互作用组来说，它们只提供有限的性状描述，但从长远看，它们会提供更多可靠的、有用的信息。将来，研究模式生物相互作用组的关键步骤是：将蛋白质-蛋白质，蛋白质-DNA以及蛋白质-小分子相互作用整合在一起研究。

来源：实验与分析