一种基于图论和贪婪算法挖掘组学数据的方法

文档序号:1965074 发布日期:2021-12-14 浏览:28次 >En<

阅读说明:本技术 一种基于图论和贪婪算法挖掘组学数据的方法 (Method for mining omics data based on graph theory and greedy algorithm ) 是由 王敏 夏梦雷 王頔 闫欣瑶 夏艺铭 郑宇� 申雁冰 于 2021-08-19 设计创作,主要内容包括:本发明公开了一种基于图论和贪婪算法挖掘组学数据的方法。所述方法包括步骤:利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;对网络拓扑学结构进行解析。本发明整合了统计学和图论方法,实现了组学数据的有效降维和可视化,实现组学数据的准确挖掘。(The invention discloses a method for mining omics data based on graph theory and greedy algorithm. The method comprises the following steps: calculating the difference of omics objects by using a statistical method, and carrying out genome scale visualization on the path difference distribution; converting an omics object into a corresponding elementary reaction, constructing an adjacent matrix consisting of compounds by taking a reactant as a starting point and a product as an end point, and building a metabolic network; taking the obvious difference points as a center, and carrying out network simplification by using a greedy algorithm to obtain a communication relation between the difference points; and analyzing the network topological structure. The invention integrates statistical and graph theory methods, realizes effective dimension reduction and visualization of omics data, and realizes accurate mining of the omics data.)

一种基于图论和贪婪算法挖掘组学数据的方法

技术领域

本发明涉及组学数据挖掘技术领域,特别是涉及一种基于图论和贪婪算法挖掘组学数据的方法。

背景技术

随着科学研究的不断发展,当代科学越来越认识到整体或系统的重要性,有些问题不能简单成局部事件将其处理,因为当一个独立部分放在一个高级结构中时,他们之间会因产生动态的相互作用产生不同的表现。这就有了系统生物学的最新定义:不同于以往仅仅关心个别的基因和蛋白质的分子生物学,在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能。在生物学和医学研究的系统生物学方法随着高通量测序技术的应用,使人们收集到更多的分子水平相关信息,主要包括基因组学、转录组学、蛋白质组学和代谢组学等。

组学数据复杂多样,包括了参与代谢反应的反应物,产物,相应的酶,及该反应的可逆性等数据信息,构成了数据量巨大的复杂生物网络,而对于数据量巨大的组学模型和错综复杂的生物机理研究,需要借助可视化的系统,直观理解复杂代谢网络,从而观察其中隐含的生物学意义。如何有效整合多组学数据,从中抽取具有生物学意义的信息,是一个十分具有挑战性的问题。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于图论和贪婪算法挖掘组学数据的方法,利用拓扑学方法挖掘组学数据的重要特征,对后续生物学和医学领域的研究具有重要意义。

为实现本发明的目的所采用的技术方案是:

一种基于图论和贪婪算法挖掘组学数据的方法,包括以下步骤:

S1.利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;

S2.将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;

S3.以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;

S4.对网络拓扑学结构进行解析。

作为一个优选的技术方案,所述对通路差异分布进行基因组尺度可视化的方法如下:

利用统计学差异性分析计算出组学对象数据中对应基因的差异性,将差异性数据归一化处理,以基因组尺度的代谢网络总图为底板,将归一化后的差异性数据与colormap相偶联,通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性。

作为一个优选的技术方案,所述基因组尺度的代谢网络总图根据反应构成的代谢网络,提前规定每个基因、化合物的坐标,通过计算机进行绘制。

作为一个优选的技术方案,所述将差异性数据归一化处理,是将差异性数据按下式映射至0~1,设定渐变颜色,将数据和颜色一一对应,构建图形绘制的colormap;

式中,x为原始数据,xmin为一组数据的最小值,xmax为一组数据的最大值,所得结果X即为归一化后数据。

作为一个优选的技术方案,所述邻接矩阵的搭建方法如下:

通过KEGG数据库的API,获取组学数据包含的所有酶促反应,以“→”拆分反应,逐一拿出反应物和生成物,以反应中反应物为行,生成物为列,归一化的差异性数据为权重,建立邻接矩阵;

利用计算机,对邻接矩阵进行绘图,通过图论的方式将所有关联化合物进行可视化联通,搭建代谢网络,即可将所有存在联系的化合物进行可视化。

作为一个优选的技术方案,所述的贪婪算法的处理过程如下:

以差异点为起点,依次计算至其它差异点的最短路径,如果最短路径不包含差异点,则标记该两差异点为连通,并记录非差异点连通关系;所有的差异点都计算完毕后,删除所有非差异点的连通关系。

作为一个优选的技术方案,所述的拓扑学结构包括节点的pagerank系数、特征向量中心度以及差异点之间的最短路径、最大通量路径;

通过PageRank以反映每个节点在网络连接结构中的重要程度,通过所述特征向量中心度反反映一个节点的重要性取决于相邻节点的数量和重要性,通过最短路径和最大通量路径反映两个基因之间最精简的连接方式。

作为一个优选的技术方案,其中,所述的Pagerank系数的表述式如下:

p1,p2,…,pN是节点个数,q为阻尼因子;,PageRank(pj)是pi作为反应物的数量,L(pj)是pj生成物的数量;

所述的特征向量中心度计算方法如下:

式中,CECi为节点i的特征向量中心度,反应一个节点的重要性取决于相邻节点的数量和相邻节点的重要性,可将单个节点的影响力看成其它节点的线性组合,度数越高,说明该点在网络中越重要;c为比例常数;n为节点个数;aij为i相邻节点个数;j为初始值;x为原始数据。

作为一个优选的技术方案,所述的组学对象包括转录组、蛋白组。

本发明根据KEGG数据库的API,获取转录组学和蛋白组学所对应的所有基因,进行统计学差异性处理;制定差异系数与颜色的映射关系,将基因进行全基因组尺度可视化,以展示组学数据在通路尺度的差异;随后根据基因对应的酶促反应,以反应中反应物为行,生成物为列,将转录组学和蛋白组学所对应基因归一化后的数据作为为权重,搭建代谢网络,并运用贪婪算法进行网络精简,最终对网络进行结构拓扑学分析,实现组学数据的准确挖掘。

附图说明

图1是本发明实施例的基于图论和贪婪算法挖掘组学数据的方法的流程示意图;

图2为本发明实施例的对通路差异分布进行基因组尺度可视化的的流程图;

图3为本发明实施例的搭建代谢网络的流程图;

图4是本发明实施例的丙酮丁醇梭菌有糠醛胁迫VS无糠醛胁迫转录组差异分布;

图5是本发明实施例的丙酮丁醇梭菌有糠醛胁迫VS无糠醛胁迫蛋白组差异分布;

图6是本发明实施例的根据组学基元反应自动搭建的代谢网络;

图7是本发明实施例的贪婪算法精简代谢通路示意图;

图8是本发明实施例的丙酮丁醇梭菌24h转录组KEGG富集结果;

图9是本发明实施例的丙酮丁醇梭菌24h蛋白组GO富集结果。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1-图9所示,本发明实施例的基于图论和贪婪算法挖掘组学数据的方法,步骤如下:

S1.利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;

其中,所述的组学对象可以是转录组、蛋白组;

其中,对通路差异分布进行基因组尺度可视化的方法可分为如下4步实现:

S11.通过KEGG数据库的API,获取所有代谢路径的相关基因;对于返回的数据,利用正则表达式“K[0-9]{5}”,即可获得对应的基因编号;

S12.通过基因的编号,检索绘制信息数据库,确定该基因的位置信息;

S13.利用统计学差异性分析,计算出的组学对象(转录组、蛋白组)数据中对应基因的差异性,将差异性数据归一化处理,将数据映射至0~1,具体公式如下:根据归一化数据,设定渐变颜色,将数据和颜色一一对应,确定该基因的绘制颜色。

式中:x为原始数据,xmin为这组数据的最小值,xmax为这组数据的最大值,所得结果X即为归一化后数据;

作为一个可选的实施例,本步骤中所述统计学差异性分析所采用的方法为p检验,即统计学根据显著性检验方法所得到的P值,一般以P<0.05为有统计学差异。

S14.利用colormap和组学数据的对应,在基因组尺度的代谢网络总图上进行通路的可视化。

本步骤中,以基因组尺度的代谢网络总图为底板,将差异性数据与colormap相偶联,通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性,从而实现了对通路差异分布进行基因组尺度可视化处理,完成了通路差异分布可视化处理。

其中,所述的基因组尺度的代谢网络总图是,根据反应构成的代谢网络,提前规定每个基因、化合物的坐标,通过计算机进行绘制形成。

S2.将组学对象(转录组、蛋白组)转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络。

作为一个可选的实施例,搭建代谢网络的具体的方法可以如下步骤实现:

S21.通过KEGG数据库的API,获得组学数据包含的所有酶促反应;

S22.以“→”拆分反应,逐一拿出反应物和生成物,以反应物为行,生成物为列,归一化的差异性数据为权重,建立邻接矩阵;

S23.利用计算机,对邻接矩阵进行绘图,通过图论的方式将所有关联化合物进行可视化联通,搭建代谢网络;

S3.以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通。如以p<0.05确定为差异基因,此差异基因所代表的点为显著差异点;

作为一个可选的实施例,运用贪婪算法进行网络精简具体的算法可以采用如下步骤实现:

以显著差异点为起点,依次计算至其它差异点的最短路径,如果最短路径不包含差异点,则标记该两差异点为连通,并记录非差异点连通关系;所有的差异点都计算完毕后,删除所有非差异点的连通关系,即可实现代谢网络的精简。

优选的,本步骤中所计算最短路径的算法可以为Dijkstra或Floyd。

S4.对网络拓扑学结构进行解析。

最终对化合物的联通网络拓扑学结构进行解析,其中,可选的,所述的拓扑学结构包括节点的pagerank系数、特征向量中心度以及差异点之间的最短路径、最大通量路径。

其中,Pagerank系数的表述式如下:

p1,p2,…,pN是节点个数,q为阻尼因子,此处取0.85;PageRank(pj)是pi作为反应物的数量,L(pj)是pj生成物的数量。

特征向量中心度计算方法:

式中:CECi为节点i的特征向量中心度,反应一个节点的重要性取决于相邻节点的数量和相邻节点的重要性,可以将单个节点的影响力看成其他节点的线性组合,度数越高,说明该点在网络中越重要;c为比例常数;n为节点个数;aij为i相邻节点个数;j为初始值;x为原始数据。

其中,通过PageRank能看出每个节点在网络连接结构中的重要程度;特征向量中心度反应一个节点的重要性取决于相邻节点的数量和重要性;最短路径和最大通量路径可看出两个基因之间最精简的连接方式。

如以基因A为例,通过步骤S4R网络拓扑学结构解析,可以知道有多少物质在代谢通路中与它相互发生反应,它在整个代谢网络中是不是一个关键的、枢纽性质的基因。其中图5是一个分析图例。图6、图7GO分析可以看出这些基因是什么功能。

下面以丙酮丁醇梭菌ATCC824为例,首先通过糠醛梯度耐受,获得了高耐受菌株Tust-001,该菌株在固态平板上可耐受4g/L糠醛。为阐明其糠醛耐受机制,发酵液中添加4g/L糠醛,根据Illumina测序平台对Tust-001和野生菌ATCC 824在24h时进行转录组和蛋白组测序,对比两个菌株的代谢差异。采用Deseq2对两菌株的差异表达基因(DEGs)进行统计分析,以|log2FoldChange|≥log2(1.5)、p<0.05确定为差异基因,统计结果显示,Tust-001相比于ATCC 824有876个基因上调,963个基因下调,其中差异明显的有576个;在蛋白组学数据中,共鉴定到4461个蛋白质,其中Tust-001较ATCC 824差异表达的蛋白质有405个,其中上下调的差异蛋白分别有185个和220个。转录组与蛋白组同为显著差异的为67个。根据KEGG通路富集和GO分析结果可知:40个基因与膜合成有关;11个基因与金属离子转运有关;3个基因与主动运输相关;5个基因涉及糖苷水解过程;4个基因参与DNA错配修复过程;2个基因涉及甘露糖代谢;2个基因涉及氨甲酰基合成。

通过以上的分析,从而可以看出都是哪个节点差异最大,周围相互影响的节点都是什么节点,从而掌握某个点(基因)的具体信息,及其具体功能。

其中,Pagerank系数前十五的基因分别为:CA_RS09525,CA_RS10735,CA_RS13785,CA_RS13790,CA_RS05520,CA_RS09260,CA_RS11005,CA_RS11032,CA_RS11075,CA_RS1180,CA_RS11602,CA_RS11805,CA_RS08085,CA_RS08190,CA_RS08193。

通过对这些基因功能分析,发现丙酮丁醇梭菌耐受糠醛的分子机制,主要集中于DNA修复系统、中心碳代谢途径和谷胱甘肽代谢途径,CA_RS09525,CA_RS10735,CA_RS13785,CA_RS13790是代谢网络图中主要差异点。

以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于机器学习模型的堆肥腐熟度预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!