结合网络聚类方法的全局多网络比对方法

文档序号:1289186 发布日期:2020-08-28 浏览:9次 >En<

阅读说明:本技术 结合网络聚类方法的全局多网络比对方法 (Global multi-network comparison method combined with network clustering method ) 是由 陈璟 黄佳 于 2020-05-25 设计创作,主要内容包括:本发明公开了一种结合网络聚类方法的全局多网络比对方法。本发明一种结合网络聚类方法的全局多网络比对方法,包括:步骤1.读取蛋白质相互作用网络数据和不同物种间的序列相似性数据,以及设定参数α和β,构建蛋白质相互作用网络G和序列相似性网络S;步骤2.对序列相似性数据进行预处理,利用参数β将序列相似性得分较小的边删除,得到过滤后的网络S&lt;Sub&gt;β&lt;/Sub&gt;;步骤3.计算所有网络中每一个节点的权重;步骤4.在相应搜索的图中,采用网络聚类算法生成候选簇。本发明的有益效果:本发明采用的方法能够达到不错的比对效果,且能够产生在拓扑和生物功能意义上都不错的比对结果。(The invention discloses a global multi-network comparison method combined with a network clustering method, which comprises the steps of 1, reading protein interaction network data and sequence similarity data among different species, setting parameters α and β, constructing a protein interaction network G and a sequence similarity network S,2, preprocessing the sequence similarity data, deleting edges with smaller sequence similarity scores by using a parameter β, and obtaining a filtered network S β (ii) a Step 3, calculating the weight of each node in all the networks; and 4, generating candidate clusters in the corresponding searched graphs by adopting a network clustering algorithm. The invention has the beneficial effects that: the method adopted by the invention can achieve good comparison effect and can generate good comparison results in topological and biological function meanings.)

结合网络聚类方法的全局多网络比对方法

技术领域

本发明涉及全局多网络比对领域,具体涉及一种结合网络聚类方法的全局多网络比对方法。

背景技术

21世纪以来,不同研究领域,如社交网络、商业交易和分子生物学等,可获得的数据量都出现了爆炸式增长。将蛋白质及其相互作用以网络(图)的形式表示并研究新的策略对其进行分析,是目前的一个研究热点。在蛋白质相互作用网络中,节点表示蛋白质,边表示两个蛋白质之间的相互作用。

基于蛋白质相互作用网络的比对研究较为广泛,主要分为成对(两个网络)网络比对和多(三个及以上)网络比对。早期的网络比对算法多为成对比对,旨在寻找两个网络中相似度最高的映射节点。自2008年起网络比对的研究逐渐转移到多网络比对算法上,多网络比对算法可以同时得到多个网络间节点的映射关系,因此多网络比对能够获得更加深入的生物意义。

由于网络比对问题可看为子图同构问题,因此网络比对是NP-完全问题,一直以来网络比对通过采用启发式方法来解决这个问题。早期多使用贪心算法进行比对,经过多年发展越来越多的方法用于网络比对当中,例如,匈牙利算法、种子与扩展匹配方法、模拟退火算法、遗传算法等等,近几年也有采用深度学习方法用来解决网络比对问题。

传统技术存在以下技术问题:

1、蛋白质相互作用网络的全局多网络比对研究起源于2009年,由Liao(IsoRankN:spectral methods for global alignment of multiple protein networks[J].Bioinformatics,25(12):i253-i258.)等人提出的IsoRankN算法。它通过建立不同网络间节点的相似性得分矩阵,再利用频谱聚类方法生成多网络比对结果。但是作为一个早期的算法,它与近几年新提出的多网络比对算法相比,在拓扑意义和生物功能意义上大多略逊一筹。由于这是一个经典的多网络比对算法,后期提出的许多算法还是会以此方法为标准进行比较。

2、2013年Sahraeian(SMETANA:Accurate and Scalable Algorithm forProbabilistic Alignment of Large-Scale Biological Networks[J].Plos One,8(7):e67995)等人提出的SMETANA算法。首先利用半马尔科夫随机游走模型计算不同网络节点间的相似得分矩阵,再通过两次概率一致性转移提高节点间的比对概率,最后利用贪心的种子与扩展方法构建最终比对。许多数据集的实验结果表明SMETANA是一个能够获得较好拓扑结果的多网络比对算法,但是其获得较好拓扑意义(较高的保守边比例)是以部分节点间的功能相似性为代价的,也就是说SMETANA大多只能够获得拓扑意义较好而生物功能意义欠佳的比对结果。

3、2014年Ferhat A(BEAMS:backbone extraction and merge strategy for theglobal many-to-many alignment of multiple PPI networks,Bioinformatics,2014,30(4),531-539.)等人提出的BEAMS算法是一种以种子与扩展为框架的全局多网络比对算法,通过在网络中搜索加权最大团(backbone)的方式产生比对结果,它主要分为backbone提取和合并两个部分。BEAMS算法是一个能够获得较好生物功能意义的比对算法,但是比对结果的拓扑意义(保守边比例不高)却不好,且在比对过程中过渡依赖节点间的序列相似性信息,因此不能够很好地平衡拓扑和生物功能意义。

发明内容

本发明要解决的技术问题是提供一种结合网络聚类方法的全局多网络比对方法,序列相似性数据的不完整对网络比对准确性的影响;降低在较大数据规模下选择搜索比对节点的复杂度;基因复制导致的每个网络中有多个相似节点对网络比对准确性的影响;多网络比对拓扑和生物功能质量的不平衡。

为了解决上述技术问题,本发明提供了一种结合网络聚类方法的全局多网络比对方法,包括:

步骤1.读取蛋白质相互作用网络数据和不同物种间的序列相似性数据,以及设定参数α和β,构建蛋白质相互作用网络G和序列相似性网络S;

步骤2.对序列相似性数据进行预处理,利用参数β将序列相似性得分较小的边删除,得到过滤后的网络Sβ

步骤3.计算所有网络中每一个节点的权重,根据节点的度和邻居节点,将度小的节点和边的权重转移到度较大的节点和边上;

步骤4在相应搜索的图中,采用网络聚类算法生成候选簇;

步骤5计算当前候选比对簇的目标函数得分,选择得分最高的候选比对簇作为比对结果;

步骤6输出比对结果,并对比对结果进行分析。

在其中一个实施例中,步骤1具体如下:

首先,读取用户设定的用来决定拓扑和序列相似性所占比重的参数α和用来过滤序列相似性信息的参数β;其次确定输入网络个数k,并对蛋白质相互作用网络进行批次读取,并构建蛋白质相互作用网络G={G1,G2,…,Gk};并读取不同网络间的序列相似性信息;构建序列信息网络S。

在其中一个实施例中,步骤2具体如下:

根据读取的阈值系数β,对序列相似性信息进行过滤;首先由于序列相似性的信息量巨大,随着网络数增多数据量呈指数级增长,随之计算难度也会增大;其次由于目前许多真实物种的序列相似性信息不完整,某些序列信息可能会影响比对结果的准确性;因此在使用序列相似性辅助比对过程时,需要对序列信息进行过滤;对于序列信息网络S中任一条边(u,v),若其边的得分小于相应边相关的阈值,则删除网络S中的这条边,最终得到经过过滤的网络Sβ

w(u,v)<β×max(u,v) (1)

在其中一个实施例中,步骤3具体如下:

(a)为网络中的节点和节点间的边设置初始值;

(b)将节点度为1的节点的权重转移到它的邻居节点和边上;

(c)将节点度大于1且小于10的节点权重转移到它的邻居节点和边上;

(d)根据节点的权重和与之相连的边的权重计算节点在网络中的重要性得分,λ表示计算节点权重时,相关边的权重得分对于节点权重的影响大小;

计算每个节点相关的序列同源得分;

(e)计算网络中每一个节点的最终权重得分;

Weight(u)=α×importance(u)+(1-α)×B(v) (8)

(f)结合聚类方法搜索比对:

根据序列相似性信息可以构建一个加权k分完全图S,其中节点表示的是相应网络中的节点,来自不同物种网络的两节点之间边的权重为序列相似性bitscore值;在相似图S中通过网络聚类方法,将相似的节点聚集在一个簇中。

在其中一个实施例中,步骤3中,此处为基于种子与扩展方法的聚类方法,分为以下几个步骤:

(a)计算当前搜索网络中节点的加权度,并选择加权度最大的节点作为第一个种子加入集合S;

(b)将第一个种子邻居的权重归一化,并选择权重最高的作为第二个种子加入S;

(c)根据前两步生成的种子对在网络中进行扩展,选择与S中节点相接权重和最大的节点,满足两个约束条件则添加节点,否则结束扩展;当生成了新的候选簇,若簇中包含的节点来源网络数小于输入网络数,对当前簇进行扩展,提高约束条件,即增大Td,Ts的值;

在其中一个实施例中,步骤5具体如下:

对于每一次迭代中,由上一步骤产生的候选簇,计算该候选簇的目标函数得分,在候选簇中选择目标函数得分最高的作为此次迭代中产生的比对簇;目标函数公式如下:

AS(A)=α×CIQ(A)+(1-α)ICQ(A) (11)

其中,α是平衡拓扑和序列相似性信息所占比重的参数,通常取值为0.5;CIQ为衡量簇间拓扑质量的度量,ICQ为衡量簇内节点间的序列相似性的度量:

其中表示分别在不同的簇Clm,Cln中的节点之间的边的集合,cs(m,n)表示簇Clm,Cln之间保守边所占比例,计算公式如下:

其中s′m,n表示包含中的边的网络数,sm,n表示簇Clm,Cln中包含的节点的网络数;此处,当s′m,n=1时,cs(m,n)=0;否则,由公式13计算。

在其中一个实施例中,其中,下列计算ICQ的公式中,ICQ(Cli)表示仅考虑某一个簇Cli内节点的得分,ICQ(A)表示比对结果A中考虑到所有簇的得分:

其中,wmax(u)表示与节点u相接的边中权重的最大值,E(Cli)表示在簇Cli中的节点在Sβ中相接的边的集合。

基于同样的发明构思,本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一项所述方法的步骤。

基于同样的发明构思,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述方法的步骤。

基于同样的发明构思,本申请还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行任一项所述的方法。

本发明的有益效果:

本发明采用的方法能够达到不错的比对效果,且能够产生在拓扑和生物功能意义上都不错的比对结果。k-coverage为输入网络个数的蛋白质覆盖量表明,本发明采用的聚类方法能将尽可能多的相似节点比对到同一个簇中,且比对到同一个簇中的节点都具有相同的生物功能,能够证明本发明的方法的有益效果。

附图说明

图1是本发明结合网络聚类方法的全局多网络比对方法的流程图。

图2是本发明结合网络聚类方法的全局多网络比对方法中的计算节点权重后效果的一个示例图。

图3是本发明结合网络聚类方法的全局多网络比对方法中的不同算法在合成网络数据集上的实验结果示意图。

图4是本发明结合网络聚类方法的全局多网络比对方法中的合成网络中比对结果的拓扑和生物指标结果。

图5是本发明结合网络聚类方法的全局多网络比对方法中的真实网络下不同比对算法的实验结果。

图6是本发明结合网络聚类方法的全局多网络比对方法中的真实网络下不同比对算法的拓扑和生物指标结果。

图7是本发明结合网络聚类方法的全局多网络比对方法中的不同比对算法的拓扑和生物指标乘积的对比结果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。

本发明的技术方案由图2所示的流程图示出:

一种结合网络聚类方法的全局多网络比对算法ACCMNA,包括以下步骤:

步骤1.读取蛋白质相互作用网络数据和不同物种间的序列相似性数据,以及设定参数α和β,构建蛋白质相互作用网络G和序列相似性网络S;

步骤2.对序列相似性数据进行预处理,利用参数β将序列相似性得分较小的边删除,得到过滤后的网络Sβ

步骤3.计算所有网络中每一个节点的权重,根据节点的度和邻居节点,将度小的节点和边的权重转移到度较大的节点和边上;

步骤4在相应搜索的图中,采用网络聚类算法生成候选簇。

步骤5计算当前候选比对簇的目标函数得分,选择得分最高的候选比对簇作为比对结果;

步骤6输出比对结果,并对比对结果进行分析。

(1)读取输入数据:

首先,读取用户设定的用来决定拓扑和序列相似性所占比重的参数α和用来过滤序列相似性信息的参数β;其次确定输入网络个数k,并对蛋白质相互作用网络进行批次读取,并构建蛋白质相互作用网络G={G1,G2,…,Gk};并读取不同网络间的序列相似性信息。构建序列信息网络S。

(2)过滤序列相似性数据:

根据读取的阈值系数β,对序列相似性信息进行过滤。首先由于序列相似性的信息量巨大,随着网络数增多数据量呈指数级增长,随之计算难度也会增大;其次由于目前许多真实物种的序列相似性信息不完整,某些序列信息可能会影响比对结果的准确性;因此在使用序列相似性辅助比对过程时,需要对序列信息进行过滤。对于序列信息网络S中任一条边(u,v),若其边的得分小于相应边相关的阈值,则删除网络S中的这条边,最终得到经过过滤的网络Sβ:

w(u,v)<β×max(u,v) (1)

(3)计算网络中所有节点的权重:

由于网络数据中节点数目较大,为了减少在网络中搜索比对节点的复杂度,首先计算网络中每一个节点的权重,优先选取权重最大的节点进行比对。度(degree)表示一个节点在网络中与其相连的节点的数目,可以衡量一个节点在网络中的重要性,节点的度越大表示节点在网络中越重要。图二为计算节点权重后效果的一个示例图,节点的度越大在网络中的重要性越高,最终使得度较大节点的权重更大。

图2节点权重示意图。图中节点的大小和边的粗细分别表示节点和边的权重大小,此图为计算节点权重后达到的效果示意(节点的度越大权重越大)

计算节点权重的方法分为以下几个步骤:

(a)为网络中的节点和节点间的边设置初始值;

(b)将节点度为1的节点的权重转移到它的邻居节点和边上;

(c)将节点度大于1且小于10的节点权重转移到它的邻居节点和边上;

(d)根据节点的权重和与之相连的边的权重计算节点在网络中的重要性得分,λ表示计算节点权重时,相关边的权重得分对于节点权重的影响大小;

计算每个节点相关的序列同源得分;

(e)计算网络中每一个节点的最终权重得分;

Weight(u)=α×importance(u)+(1-α)×B(v) (8)

(f)结合聚类方法搜索比对:

根据序列相似性信息可以构建一个加权k分完全图S,其中节点表示的是相应网络中的节点,来自不同物种网络的两节点之间边的权重为序列相似性bitscore值。在相似图S中通过网络聚类方法,将相似的节点聚集在一个簇中。此处为基于种子与扩展方法的聚类方法,分为以下几个步骤:

(a)计算当前搜索网络中节点的加权度,并选择加权度最大的节点作为第一个种子加入集合S;

(b)将第一个种子邻居的权重归一化,并选择权重最高的作为第二个种子加入S;

(c)根据前两步生成的种子对在网络中进行扩展,选择与S中节点相接权重和最大的节点,满足两个约束条件则添加节点,否则结束扩展;当生成了新的候选簇,若簇中包含的节点来源网络数小于输入网络数,对当前簇进行扩展,提高约束条件,即增大Td,Ts的值。

(1)计算目标函数得分,选择生成簇:

对于每一次迭代中,由上一步骤产生的候选簇,计算该候选簇的目标函数得分,在候选簇中选择目标函数得分最高的作为此次迭代中产生的比对簇。目标函数公式如下:

AS(A)=α×CIQ(A)+(1-α)ICQ(A) (11)

其中,α是平衡拓扑和序列相似性信息所占比重的参数,通常取值为0.5。CIQ为衡量簇间拓扑质量的度量,ICQ为衡量簇内节点间的序列相似性的度量:

其中表示分别在不同的簇Clm,Cln中的节点之间的边的集合,cs(m,n)表示簇Clm,Cln之间保守边所占比例,计算公式如下:

其中s′m,n表示包含中的边的网络数,sm,n表示簇Clm,Cln中包含的节点的网络数。此处,当s′m,n=1时,cs(m,n)=0;否则,由公式13计算。

下列计算ICQ的公式中,ICQ(Cli)表示仅考虑某一个簇Cli内节点的得分,ICQ(A)表示比对结果A中考虑到所有簇的得分:

其中,wmax(u)表示与节点u相接的边中权重的最大值,E(Cli)表示在簇Cli中的节点在Sβ中相接的边的集合。

本发明技术方案带来的有益效果:

为了验证上述工作,分别在真实网络和合成网络上进行测试。其中,真实网络来源于IsoBase中的五个真核生物,表1为真实网络中每个物种的节点数和边数信息。合成网络来源于NAPAbench的CG、DMC和DMR三种生长模型下的三组数据集。每种数据集包含8个网络,每个网络的节点都为1000,CG模型的每个网络节点数都是3985;DMC模型的八个网络节点数分别是1919,1853,1923,1840,1867,1848,1818,1867;DMR模型中的八个网络节点数分别是2031,2092,1967,1977,1959,1998,2030,2056。

表1真实网络的具体信息

图3是合成网络下四个不同算法的蛋白质和具有生物一致的蛋白质的覆盖量结果统计对比,蛋白质覆盖表示比对结果中包含的蛋白质的数目;生物一致的含义是如果一个簇中的蛋白质都被同一个GO项注释,则认为这个簇及其簇中的蛋白质是一致的。所以一致的蛋白质覆盖量表示比对中包含一致的蛋白质的数目。通常根据簇中蛋白质的来源网络数k来对蛋白值进行区分,k越大的结果越多表示比对结果更有意义。从图3中对于蛋白质和一致的蛋白质覆盖的总数来说,除了IsoRankN其它三个算法的结果相差不大,但是可以看出相较于其他三个算法ACCMNA产生k=8的蛋白质和一致的蛋白质覆盖量数目是最多的,也能够说明ACCMNA算法生成的比对结果更具研究意义,且能够获得不错的生物意义结果。

图4是合成网络数据集下用来衡量拓扑和功能一致性的多个度量值的结果。其中CIQ是一个衡量比对结果保守边比例的度量,SPE是衡量比对结果生物特异性的指标,Sen是衡量比对结果生物敏感性的指标,MNE和nGOC是衡量比对结果生物一致性的指标。以上度量除了MNE是越小越好外,其他度量值结果都是越大越好。

图5是真实网络数据集下四个不同算法的蛋白质和一致的蛋白质覆盖量结果统计对比,从图中可以看出几个算法的结果相差不大。

图6是真实网络数据集下用来衡量拓扑和功能一致性的多个度量值的结果,由图中结果可以看出ACCMNA算法在四个算法中的各个指标都是较为优异的。

图7是一个拓扑指标和生物一致性指标乘积的结果展示。由于网络比对产生一个能够平衡拓扑和生物的结果是网络比对的一个难点,现有的多数算法只能够得到其中一种度量的较好结果,所以为了突出ACCMNA算法的优异性,采用两个指标乘积的方式,来展示本发明相较于现有技术的一个改进效果。

通过以上实验论证,本发明采用的方法能够达到不错的比对效果,且能够产生在拓扑和生物功能意义上都不错的比对结果。k为输入网络个数的蛋白质覆盖量表明,本发明采用的聚类方法能将尽可能多的相似节点比对到同一个簇中,且比对到同一个簇中的节点都具有相同的生物功能,能够证明本发明的方法的有益效果。

下面给出本发明的一个具体应用场景:

以来源于IsoBase的真核生物数据集为例,进行五个真实网络间的比对。

(1)读取输入的蛋白质相互作用网络构建网络G,读取不同物种间的序列相似性数据构建相似性加权网络S,以及设定参数α为0.5和β为0.4;

(2)对序列相似性数据进行过滤,将小于每个节点相关边阈值的边删除,得到过滤后的相似性加权网络Sβ

(3)根据网络中节点的度及其邻居节点,计算每个节点的权重:

首先初始化网络中所有节点和边的权重,所有的节点权重为0,若节点间存在边则权重为1,否则为0;

(1)从小到大遍历节点的度小于10的节点,将节点和边的权重转移到相应度较大的邻居节点和边上;

(2)将所有的节点的相关边上的权重以λ为参数添加到节点,λ设定为0.2;

(3)计算每个节点相关的序列相似性得分;

(4)将拓扑权重与序列得分相结合,得到每个节点的最终权重,以α=0.5控制比重。

(4)结合聚类方法生成比对簇:

(1)第一次迭代需要优先选择3中计算的权重大的节点生成邻域图;

(2)计算邻域图中所有节点的加权度,最大的作为第一个种子,在种子的邻居节点中选择加权度最大的作为第二个种子,两个种子构成种子集Seed;

(3)在Seed中节点的邻居节点中选择与种子集中相关边权重和最大的节点,判断其是否满足加入的限制条件,其中限制条件的Ts,Td都设置为0.5;满足则加入,否则结束搜索;

(4)之后的每一次迭代根据当前候选簇生成邻域图,重复2-3步生成新的候选簇;

(5)计算4中生成的候选簇的目标函数得分,选择得分高的作为比对结果,4、5步不断迭代,目标函数中的α取0.5,直至网络中没有新的候选簇成为止。

(6)输出比对结果,并对结果进行分析。

以上对本发明提供的结合网络聚类方法的全局多网络比对方法做了详细的描述,还有以下几点需要说明:

1、本发明在比对初始阶段,根据节点的度和邻居节地以及节点间的序列相似性信息评估不同节点在网络中的重要性,采用拓扑信息和序列相似性信息相结合的方式,能够有效解决网络比对中拓扑和生物功能质量不平衡的问题。

2、算法结合聚类方法生成比对。使用聚类方法搜索相似节点,可以有效地将将相似节点尽可能比对到同一个簇中,可以避免由于基因复制等对网络比对正确性的影响。

以上所述实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:拷贝数变异的检测方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!