一种基于高阶结构的生物网络聚类方法和系统

文档序号:70742 发布日期:2021-10-01 浏览:46次 >En<

阅读说明:本技术 一种基于高阶结构的生物网络聚类方法和系统 (Biological network clustering method and system based on high-order structure ) 是由 胡伦 张俊 周喜 蒋同海 赵博伟 于 2021-07-03 设计创作,主要内容包括:本发明涉及一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块以及结果展示模块。利用生物网络中丰富的高阶结构信息以识别其中的功能模块,结合高阶马尔可夫随机过程的优势,能够针对各种类型的网络模体进行聚类分析。本发明有着优秀的表现,基于高阶结构信息的聚类结果为生物网络分析提供了新的思路,如重叠蛋白复合物的识别和新信号通路的推断,同时也揭示了生物网络中所呈现的丰富的组织结构。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常可靠的生物网络聚类方法和系统。(The invention relates to a biological network clustering method and system based on a high-order structure. The rich high-order structure information in the biological network is utilized to identify the functional modules in the biological network, and the cluster analysis can be carried out on various types of network motifs by combining the advantages of a high-order Markov random process. The invention has excellent performance, provides a new idea for biological network analysis based on the clustering result of high-order structure information, such as identification of overlapping protein complexes and inference of new signal paths, and also discloses rich tissue structures presented in the biological network. The method directly acts on biological networks such as a protein interaction network, a gene coexpression network and the like, has high effect accuracy, and is a very reliable biological network clustering method and system.)

一种基于高阶结构的生物网络聚类方法和系统

技术领域

本发明涉及计算机数据处理

技术领域

,特别涉及到一种基于高阶结构的生物网络聚类方法和系统。

背景技术

生物网络中的聚类分析涉及到从生物学角度识别有意义的功能模块,为理解复杂的生物系统提供有价值的见解。大多数聚类算法仅在个体生物实体及其连接层使用低阶连接模式来进行聚类分析。虽然链接是网络的基本单元,但考虑低阶连接模式可能不足以充分利用生物网络中可用的结构信息,从而限制了聚类精度的进一步提高。现有的聚类技术在个体生物分子及其连接层面利用了低阶连接模式,但很少有技术能在小网络或模体结构层面考虑到高阶连接模式。

发明内容

本发明目的在于,针对目前的缺陷和不足,提供一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块,利用生物网络中丰富的高阶结构信息以识别其中的功能模块,结合高阶马尔可夫随机过程的优势,能够针对各种类型的网络模体进行聚类分析。本发明有着可靠的表现,基于高阶结构信息的聚类结果为生物网络分析提供了新的思路,如重叠蛋白复合物的识别和新信号通路的推断,同时也揭示了生物网络中所呈现的丰富的组织结构。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常优秀的生物网络聚类方法和系统。

本发明所述的一种基于高阶结构的生物网络聚类方法,按下列步骤进行:

a、在生物信息背景下,用一个包括节点和链接的二元组来表示生物网络,节点用来表示单个的生物分子,链接则用来描述它们之间的连接关系;

b、构建出用张量表示的高阶网络模体,并将随机游走理论应用到高阶结构信息的张量上,形成了一个转移概率张量,建立高阶马尔可夫链模型;

c、对一组网络模体中的每个模体分别进行聚类处理,将对应的高阶马尔可夫链用一阶马尔可夫链近似表示,使用马尔可夫聚类算法进行聚类处理,将每次聚类的结果加入到一个集合中;

d、通过步骤c得到的聚类结果,将其中冗余部分删除,利用了领域亲和力来验证聚类结果中的簇是否冗余,得到了最终的结果。

一种基于高阶结构的生物网络聚类系统,该系统包括:网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块组成,其中:

网络构建模块:将生物网络构建成图,使用一个二元组表示;

模型构建模块:根据网络构建模块中的图,构建使用张量表示的高阶网络模体,将随机游走理论推广到表示高阶结构信息的张量上,形成一个转移概率张量,构建出高阶马尔可夫链模型;

网络聚类模块:对一组网络模体中的每个模体进行聚类,根据模型构建模块中的高阶马尔可夫链,从空间性随机行走的静止分布中推导出一个等价的一阶马尔可夫链,使用马尔可夫聚类算法进行聚类,将结果放入一个集合中;

冗余删除模块:根据网络聚类模块中得到的集合,删除冗余部分,得到最终结果;

结果展示模块,根据冗余删除模块得到的结果进行输出展示。

本发明所述的一种基于高阶结构的生物网络聚类方法和系统,包括网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块。其中所述的网络构建模块将生物网络构建成图,模型构建模块基于图使用张量表示高阶网络模体,将随机游走理论应用到表示高阶结构信息的张量上,形成一个转移概率张量,构建出相应的高阶马尔科夫链模型,网络聚类模块对网络中的每个生物分子进行聚类,将高阶马尔科夫链从空间性随机行走的静止分布中推导出一个等价的一阶马尔科夫链,并使用马尔科夫聚类算法进行聚类,将结果保存到一组集合中,冗余删除模块则是针对网络聚类模块中所得到的结果,将其冗余部分删除,内容展示模块将最后的聚类结果进行输出并展示。本发明直接作用在蛋白质相互作用网络、基因共表达网络等生物网络上,效果准确度高,是一个非常优秀的生物网络聚类方法和系统。

与现有技术相比,本发明具有以下有益的技术效果:

本发明一种基于高阶结构的生物网络聚类方法和系统,其设计目标是能够有效地对生物网络进行聚类处理。提出充分利用生物网络中可用的高阶结构信息,使得聚类的精度进一步得到提升;为每个网络模体识别相应的聚类结果,然后通过后处理步骤删除冗余,增加了发现重叠簇的概率。解决现有技术在生物网络聚类分析时存在的缺陷。

附图说明

图1为本发明的逻辑结构图;

图2为本发明生物网络中的三种代表性模体图,其中a为三角形模体;b为反馈模体;c为四边形模体。

具体实施方式

为使本发明的目的、技术方案及优点更加清晰明白,以下参照附图并举实施例,对本发明作进一步详细说明。

实施例

a、在生物信息背景下,用一个包括节点和链接的二元组来表示生物网络,节点用来表示单个的生物分子,链接则用来描述它们之间的连接关系;

b、构建出用张量表示的高阶网络模体,并将随机游走理论应用到高阶结构信息的张量上,形成了一个转移概率张量,建立高阶马尔可夫链模型;

c、对一组网络模体中的每个模体分别进行聚类处理,将对应的高阶马尔可夫链用一阶马尔可夫链近似表示,使用马尔可夫聚类算法进行聚类处理,将每次聚类的结果加入到一个集合中;

d、通过步骤c得到的聚类结果,将其中冗余部分删除,利用了领域亲和力来验证聚类结果中的簇是否冗余,得到了最终的结果;

一种基于高阶结构的生物网络聚类系统,该系统包括:网络构建模块、模型构建模块、网络聚类模块、冗余删除模块和结果展示模块组成,其中:

网络构建模块:将生物网络构建成图,使用一个二元组表示;

模型构建模块:根据网络构建模块中的图构建了使用张量表示的高阶网络模体,将随机游走理论推广到表示高阶结构信息的张量上,形成一个转移概率张量,构建出高阶马尔可夫链模型;

网络聚类模块:对一组网络模体中的每个模体进行聚类,根据模型构建模块中的高阶马尔可夫链,从空间性随机行走的静止分布中推导出一个等价的一阶马尔可夫链,使用马尔可夫聚类算法进行聚类,将结果放入一个集合中;

冗余删除模块:根据网络聚类模块中得到的集合,删除冗余部分,得到最终结果;

结果展示模块,根据冗余删除模块得到的结果进行输出展示;

如图1所示:

网络构建模块:

将生物网络中的单个分子抽象成图中的节点,它们之间的联系抽象成图中的链接,使用一个二元组G={V,E}来表示,其中V={vi}(1≤i≤nV)是全部nV个节点的集合,E={ei}(1≤i≤nE)是全部nE条链接的集合;

模型构建模块:

为了能够用数学的方法描述高阶网络模体,引入张量的概念,使用带下划线的大写字母T表示张量,使用带下划线的小写字母t表示张量中的元素,一个三角形模体可以用一个三模张量表示,其中n1、n2和n3对应不同维度上元素的数量,根据二元组G,三模张量T定义为:

T=(t(i,j,k)) (1)

其中1≤i,j,k≤nV,以及

t(i,j,k)=1说明在节点vi、vj以及vk之间可以形成一个三角形,只需要相应地调整张量的定义,就可以很容易地扩展到具有任何结构的高阶网络模体;图2中,展示了生物网络中常见的三种代表性模体,其中a为三角形模体;b为反馈模体;c为四边形模体;

第二步,将随机游走理论应用到表示G中高阶结构信息的张量,获取转移概率张量,使用表示,其中P中的元素p(i,j,k)是移动到节点vi的概率,取决于当前节点vj以及前一个节点vk,定义为:

p(i,j,k)=Prob(Zt+1=vi|Zt=vj,Zt-1=vk) (3)

Zt表示t时刻访问的节点,根据二元组G,p(i,j,k)可以用下面的式子计算;

在等式(4)中,P是列随机的,因此可以被看作是状态为Zt+1、Zt和Zt-1的二阶马尔可夫链,给定当前状态Zt=vj和上一个状态Zt-1=vk,从与vj和vk形成的三角形的节点中选择下一个要访问的状态;

网络聚类模块:

网络聚类模块主要分成两个部分,首先是将高阶马尔可夫链转换成等价的一阶马尔可夫链,根据空间随机游走的理论,当一个进程在t时刻访问Zt,就不用考虑它的倒数第二个状态,即Zt-1;相反,从过去状态序列中选择一个新的状态,表示为Yt,即Ht={Z1,K,Zt}概率是:

其中Ind{·}是指示器事件,如果Zs=vk则Ind{Zs=vk}=1,否则Ind{Zs=vk}的值是0,因此,该过程过渡到Zt+1作为具有最后两个状态Xt和Yt的二阶马尔可夫链,形式上,此随机过程的转移概率定义如下:

其中α是常数,ui是隐状态概率,当(vi,vj)∈Λ(j,k)时Prob(Zt+1=vi|Zt=vj,Yt=vk)=Prob(Yt=vi|Ht)以及其他情况下Prob(Zt+1=vi|Zt=vj,Yt=vk)=p(i,j,k);需要注意的是状态(vi,vj)∈Λ(j,k)表示未定义的转换;

为了近似表示由等式(3)所定义的高阶马尔可夫链,需要从空间随机游动的平稳分布推导等价的一阶马尔可夫链;具体地,假设M和x分别是一阶马尔可夫链的转移矩阵和相应的平稳分布,则M和x的方程式为:

M=P[x]+x(eT-eT P[x]) (7)

x=αPx2+α(1-||Px2||1)x+(1-α)u (8)

其中

因此,采用迭代不动点算法分别得到式(7)和式(8)中M和x的稳定值,从而确定一阶马尔可夫链的随机过程;

然后,对一组网络模体{T m}进行聚类,对于其中的每一个模体,使用马尔可夫聚类算法,将每次产生的结果放到一个集合C中;

先初始化一个集合C用来保存对每个网络模体进行聚类操作得到的结果;

通过等式(4)设置P,并随机初始化M与x;

设置迭代次数l,进行l次迭代:通过等式(7)固定x更新M,通过等式(8)固定M更新x;

对M使用马尔可夫聚类算法获取簇CM,并将CM放入集合C中。

冗余删除模块:

由于该集合C中有冗余的部分,需要对冗余的部分进行删除;

将集合C中所有的簇按照节点的数量从大到小排序;

集合C的大小为nC,从1到nC-1开始遍历,其中ci是集合C中的第i个簇;

如果ci没有从集合C中删除,则令j=i+1,从j到nC开始遍历,cj是集合C中的第j个簇;

计算NA(ci,cj)的值,如果值大于等于设置的邻域亲和阈值ρ,则将cj从集合C中删除,其中

|ci∩cj|是ci和cj共同拥有节点的数量,|ci|和|cj|分别表示ci和cj中节点的数量;

遍历结束后,集合C中所包含的簇就是最终的结果;

结果展示模块:

根据网络聚类模块以及冗余删除模块得到的结果,将以文本的形式展示,其中每一行表示一个簇,每一行中的元素为生物网络中的单个分子。

以上显示和描述了本发明的基本原理和主要特征以及本发明的特点。本发明不受上述实验特例的限制,上述实验特例和说明书中描述的只是说明本发明的原理,在不脱离本发明原理的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!