一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统

文档序号:70744 发布日期:2021-10-01 浏览:33次 >En<

阅读说明:本技术 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统 (Protein interaction prediction method and system based on mixed membership degree random block model ) 是由 胡伦 王小娟 周喜 蒋同海 苏小芮 于 2021-07-03 设计创作,主要内容包括:本发明公开了一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统,该系统由数据处理模块、复合物隶属度计算模块和结果生成模块组成,基于随机块的蛋白质相互作用预测方法,从数据库中获取蛋白质相互作用数据,对获得的数据进行处理;应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标;基于复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果。该系统通过混合隶属度随机块模型以及复合物识别方法,分析蛋白质相互作用网络,预测蛋白质相互作用,并展示相关预测结果,提高预测准确度。(The invention discloses a protein interaction prediction method and a system based on a mixed membership degree random block model, wherein the system consists of a data processing module, a compound membership degree calculation module and a result generation module; analyzing a protein interaction network by random variational reasoning, and calculating a membership index of the compound; and predicting the protein interaction based on the calculation result of the compound membership index, and displaying the prediction result. The system analyzes a protein interaction network through a mixed membership random block model and a compound identification method, predicts protein interaction, displays a related prediction result and improves the prediction accuracy.)

一种基于混合隶属度随机块模型的蛋白质相互作用预测方法 和系统

技术领域

本发明涉及计算机数据处理

技术领域

,具体涉及一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统。

背景技术

研究蛋白质之间的相互作用对于了解生物体内各项生化反应和生命活动的机制原理具有重要意义。随着计算机技术的飞速发展,蛋白质相互作用网络不断壮大,涵盖了大量的相互作用信息,构成了复杂的网络结构,同时也吸引了越来越多基于网络的蛋白质相互作用预测研究。目前大量基于网络预测蛋白质相互作用的方法主要是利用蛋白质相互作用网络中蛋白质间拓扑结构相似性,其中主要方法就是根据两个蛋白质之间的共同邻居数量判断它们之间是否存在相互作用,该算法被称作共同邻居算法,其核心思想是如果两个蛋白质之间具有足够多的相互作用邻居,那么它们就越有可能发生相互作用。

但是,在实际应用中,现有的基于网络的蛋白质相互作用预测方法效果欠佳,主要原因是这一类方法只是考虑了蛋白质在网络中的局部信息,无法充分挖掘整个网络中的链接模式。同时,最新的研究指出如果两个蛋白质具有足够多的相互作用邻居,那么只能说明它们的相互作用位点相似度很高,而不能说明它们之间具有相互作用。相反,给定两个蛋白质,只有在它们中的一个蛋白质与另一个蛋白质的相互作用伙伴相似的情况下,这两个给定的蛋白质才会发生相互作用。显然,现有方法单纯聚焦于蛋白质相互作用网络局部信息,忽视了网络全局信息,从而无法在蛋白质相互作用预测的准确性上满足实际应用的需求。

发明内容

本发明目的在于,针对现有技术存在的缺陷,提供一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统。该方法从数据库中获取蛋白质相互作用数据,对获得的数据进行处理;应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标;基于复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果。所述系统由数据处理模块、复合物隶属度计算模块和结果生成模组成,通过混合隶属度随机块模型以及复合物识别方法,分析蛋白质相互作用网络,预测蛋白质相互作用,并展示相关预测结果,提高预测准确度。

本发明所述的一种基于混合隶属度随机块模型的蛋白质相互作用预测方法,按下列步骤进行:

a、从数据库中获取蛋白质相互作用数据,对数据进行预处理,得到由0和1构成的二维矩阵以表示蛋白质间已知的相互作用网络,在该网络中,节点表示蛋白质,节点之间的边则表示蛋白质间的相互作用关系,若两蛋白质之间具有相互作用则边为1;反之,则为0;

b、应用随机变分推理对蛋白质相互作用网络进行分析,计算蛋白质复合物隶属度指标;其中:

为每个蛋白质分配复合物隶属度向量πi,服从狄利克雷分布,πi~Dirichelet(α),具体公式为:

为网络中每个复合物分配权重βk,服从贝塔分布,βk~Beta(η),具体公式为:

使用随机变分推理对所得参数进行更新;

最终得到两个重要的复合物相关性指标:复合物隶属度向量π和复合物权重向量βk

c、基于蛋白质复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果,其中:根据两个蛋白质的复合物隶属度和所在复合物的权重计算两个蛋白质发生相互作用的概率;展示预测结果。

步骤c中计算两个蛋白质发生相互作用的概率,是基于每对蛋白质的复合物隶属度向量πi和πj,以及复合物权重向量βk计算相互作用发生的可能性,具体公式为:

通过公式(4)计算两个蛋白质发生相互作用的可能性,再通过归一化计算相互作用概率。

步骤c中展示蛋白质相互作用预测结果为:

把未知相互作用的蛋白质对按照发生相互作用的概率大小由高到低排序;

当两个蛋白质发生相互作用的概率大于0.5时,认为它们之间存在相互作用,反之,不存在相互作用。

一种基于混合隶属度随机块模型的蛋白质相互作用预测系统,该系统是由数据处理模块(101)、复合物隶属度计算模块(102)和结果生成模块(103)组成,其中:

数据处理模块(101):用于从数据库中获取蛋白质相互作用数据,对获得的数据进行处理;

复合物隶属度计算模块(102):应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标;

结果生成模块(103):根据复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果。

与现有技术相比,本发明具有以下有益的技术效果:

本发明所述的一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统,首先从数据库中获取蛋白质相互作用数据,对获得的数据进行预处理,构成蛋白质相互作用网络;然后,应用随机变分推理对该网络进行分析,计算复合物隶属度指标;最后,基于复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果,提高预测准确性。本方法可以避免只使用局部网络信息进行预测分析,同时可以利用复合物识别方法对整个蛋白质相互作用进行分析,根据分析结果精准预测两蛋白质之间是否存在相互作用。与现有的基于网络的预测算法相比,预测的准确度有了明显的改善。

本发明还公开了能够实现上述蛋白质相互作用预测方法和系统,系统功能主要由以下三部分组成:数据处理模块、复合物隶属度计算模块和结果生成模块。首先,从数据库中获取蛋白质相互作用数据,对获得的数据进行处理。然后,应用随机变分推理计算复合物相关性指标。最后,结果生成模块根据复合物隶属度指标的计算结果,进行预测,并展示预测结果。

附图说明

图1为本发明的逻辑结构图;

图2为本发明所涉及的数据处理说明图,其中A为蛋白质相互作用原始数据示意图;B为经过处理之后的蛋白质相互作用数据示意图。

具体实施方式

下面结合具体的实例对本发明作进一步的详细说明,所述是对本发明的解释而不是限定。

实施例

本发明所述的一种基于混合隶属度随机块模型的蛋白质相互作用预测方法,按下列步骤进行:

a、从数据库中获取蛋白质相互作用数据,对数据进行预处理,得到由0和1构成的二维矩阵以表示蛋白质间已知的相互作用网络。在该网络中,节点表示蛋白质,节点之间的边则表示蛋白质间的相互作用关系,若两蛋白质之间具有相互作用则边为1;反之,则为0;

b、应用随机变分推理对蛋白质相互作用网络进行分析,计算蛋白质复合物隶属度指标;其中:

为每个蛋白质分配复合物隶属度向量πi,服从狄利克雷分布,πi~Dirichelet(α),具体公式为:

为网络中每个复合物分配权重βk,服从贝塔分布,βk~Beta(η),具体公式为:

使用随机变分推理对所得参数进行更新;

最终得到两个重要的复合物相关性指标:复合物隶属度向量π和复合物权重向量βk

c、基于蛋白质复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果,其中:根据两个蛋白质的复合物隶属度和所在复合物的权重计算两个蛋白质发生相互作用的概率;展示预测结果。

步骤c中计算两个蛋白质发生相互作用的概率,是基于每对蛋白质的复合物隶属度向量πi和πj,以及复合物权重向量βk计算相互作用发生的可能性,具体公式为:

通过公式(4)计算两个蛋白质发生相互作用的可能性,再通过归一化计算相互作用概率;

步骤c中展示蛋白质相互作用预测结果为:

把未知相互作用的蛋白质对按照发生相互作用的概率大小由高到低排序;

当两个蛋白质发生相互作用的概率大于0.5时,认为它们之间存在相互作用,反之,不存在相互作用;

一种基于混合隶属度随机块模型的蛋白质相互作用预测系统,该系统是由数据处理模块、复合物隶属度计算模块和结果生成模块组成,其中:

数据处理模块101:用于从数据库中获取蛋白质相互作用数据,对获得的数据进行处理;

复合物隶属度计算模块102:应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标;

结果生成模块103:根据复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果;

如图1所示:该系统功能主要由以下三部分组成:101为数据处理模块、102为复合物隶属度计算模块和103为结果生成模块;

基于混合隶属度随机块模型的蛋白质相互作用预测方法,包括以下步骤:

步骤一,从数据库中获取蛋白质相互作用数据,对获得的数据进行预处理,获得蛋白质相互作用网络;

步骤二,应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标;

步骤三,基于复合物隶属度指标的计算结果,对蛋白质相互作用进行预测,展示预测结果;

下面对各模块工作进行具体举例说明:

数据处理模块101:

收集各大数据库中的数据,获取蛋白质相互作用数据,如图2中A蛋白质相互作用原始数据示意图中的A、B、C、D;

处理收集的原始数据,用0和1代表蛋白质之间的关系;如果两个蛋白质具有相互作用,那么他们之间的边设为1,反之,设为0,如图2中B为经过处理之后的蛋白质相互作用数据示意图所示,然后以此构建邻接矩阵;

复合物隶属度计算模块102:

应用随机变分推理对蛋白质相互作用网络进行分析,计算复合物隶属度指标,为预测相互作用作准备;

复合物隶属度指标具体计算方法是:

为每个蛋白质分配复合物隶属度向量πi,服从狄利克雷分布,πi~Dirichelet(α),具体公式如下所示:

为蛋白质相互作用网络中每个复合物分配权重βk,服从贝塔分布,βk~Beta(η),具体公式如下所示:

使用随机变分推理对上述参数进行更新;

最终得到两个重要的复合物相关性指标:复合物隶属度向量π及相应的权重向量βk

结果生成模块103:

结果生成模块基于复合物隶属度指标进行一系列计算,计算一对蛋白质发生相互作用的概率,进行相互作用预测,并展示预测结果;具体操作为:

根据两个蛋白质的复合物隶属度和所在复合物的权重计算两个蛋白质发生相互作用的概率;

具体的概率计算方法如下:

基于每对蛋白质的复合物隶属度向量πi和πj,以及复合物权重向量βk计算相互作用发生的可能性,具体公式如下所示:

根据得到的相互作用可能性,通过归一化计算相互作用概率,具体公式如下所示:

展示预测结果:

把未知相互作用的蛋白质对按照发生相互作用的概率大小由高到低排序,当两个蛋白质发生相互作用的概率大于0.5时,认为它们之间存在相互作用,反之,不存在相互作用。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于全连接网络集成深度学习模型的药物推荐系统、计算机设备、存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!