一种基于跨平台因果网络结构的基因调控网络重建方法

文档序号:1143089 发布日期:2020-09-11 浏览:9次 >En<

阅读说明:本技术 一种基于跨平台因果网络结构的基因调控网络重建方法 (Gene regulation and control network reconstruction method based on cross-platform causal network structure ) 是由 李弘� 张金喜 曾晓南 于 2020-05-12 设计创作,主要内容包括:本发明公开了一种基于跨平台因果网络结构的基因调控网络重建方法,包括:基于连续型因果网络结构建立离散型的平台节点,得到跨平台网络结构骨架;基于学习算法对所述跨平台网络结构骨架进行学习,对每个变量直接相连的变量集中的节点进行连接,得到无向图;在所述无向图中确定所述跨平台网络结构骨架中存在的v-结构,得到部分有向图;根据约束规则最大化标记所述部分有向图中剩余的无向边,得到最大化标志方向的有向图;本发明将基因调控网络视作因果图,基因测序平台视作因果图上的一个特殊节点,在重建跨平台基因调控网络过程中,将平台变量加入每一个基因表达的调控变量集中,以此消除不同基因测序平台引起的差异影响。(The invention discloses a gene regulation and control network reconstruction method based on a cross-platform causal network structure, which comprises the following steps: establishing discrete platform nodes based on a continuous causal network structure to obtain a cross-platform network structure skeleton; learning the cross-platform network structure framework based on a learning algorithm, and connecting nodes in a variable set, which are directly connected with each variable, to obtain an undirected graph; determining a v-structure existing in the cross-platform network structure skeleton in the undirected graph to obtain a partial directed graph; marking the remaining undirected edges in the partial directed graph in a maximized manner according to a constraint rule to obtain the directed graph with the maximized sign direction; the gene control network is regarded as a causal graph, the gene sequencing platform is regarded as a special node on the causal graph, and in the process of reconstructing the cross-platform gene control network, the platform variables are added into the control variable set of each gene expression, so that the difference influence caused by different gene sequencing platforms is eliminated.)

一种基于跨平台因果网络结构的基因调控网络重建方法

技术领域

本发明涉及基因调控网络领域,尤其涉及一种基于跨平台因果网络结构的基因调控网络重建方法。

背景技术

在2001年进入后基因组时代,生物学研究的方向转向了对功能基因组方向的研究。在基因组功能方面来说,一个基因的表达可能会受到其他一个或多个基因或者分子的调节控制。传统的生物实验寻找这种调控关系的方法耗费巨大,目前,通过计算机技术,利用大量的基因表达数据以及逆向工程等方法发现基因之间的调控关系,是基因调控网络研究的热点。而不同的测序平台因为技术手段、操作设备的不同,导致不同测序平台下的基因表达数据没有直接可比性。单个测序平台的基因表达数据存在“高维度、小样本”的不平衡,为了克服这个不平衡,近年来有不少研究尝试利用来自多平台的基因表达数据基因调控网络重建。

一类常见的方法为将多个平台的数据进行整合然后进行网络重建;这类方法通常是利用一定的拉伸或压缩规则,把存在批次差异的无法直接比较的基因表达数据通过某些数据转换整合的方法,把跨平台数据合并为一整个可直接比较的基因表达数据矩阵。另一类方法是分别重建各平台的基因调控网络,然后将各平台下的结果通过统计方法进行整合。但是上述这些网络重建方法中,大多数方法都是应用于单平台上的基因表达数据,不同基因测序平台引起的差异影响,导致应用因果网络算法中的条件独立性测试无法同时测量离散变量和连续变量。

发明内容

本发明提供了一种基于跨平台因果网络结构的基因调控网络重建方法,将基因调控网络视作因果图,基因测序平台视作因果图上的一个特殊节点,在重建跨平台基因调控网络过程中,将平台变量加入每一个基因表达的调控变量集中,以此消除不同基因测序平台引起的差异影响。

为了解决上述技术问题,本发明实施例提供了一种基于跨平台因果网络结构的基因调控网络重建方法,包括:

基于连续型因果网络结构建立离散型的平台节点,得到跨平台网络结构骨架;

基于学***台网络结构骨架进行学习,对每个变量直接相连的变量集中的节点进行连接,得到无向图;

在所述无向图中确定所述跨平台网络结构骨架中存在的v-结构,得到部分有向图;

根据约束规则最大化标记所述部分有向图中剩余的无向边,得到最大化标志方向的有向图。

作为优选方案,所述基于学***台网络结构骨架进行学习,对每个变量直接相连的变量集中的节点进行连接,得到无向图,具体包括:

根据d-分隔原理,当目标节点x的父子节点集PC(x)中存在变量节点fi,和目标节点x在给定变量集S的情况下条件独立,则确定变量节点fi和目标节点x之间没有直接相连的边,将变量节点fi从PC(x)中排除。

作为优选方案,所述确定变量节点的步骤为:通过算法,在三个阶段中以变量集V={v1,v2,…,vn}中的变量逐个作为目标节点,直到得到每个变量对应的父子节点集PC(x)为止。

作为优选方案,所述三个阶段包括增长阶段、剪枝阶段和精炼阶段。

作为优选方案,所述确定变量节点的算法为Parents_and_Children算法。

作为优选方案,所述基于跨平台因果网络结构的基因调控网络重建方法还包括:提出混合型条件独立性测试,检验跨平台数据间的条件独立性;具体包括:

检验给定一组连续变量作为条件集,连续变量vi与另一个连续变量vj之间的条件独立性;

检验给定一组连续变量

Figure BDA0002488233840000032

作为条件集,连续变量vi与平台变量p之间的条件独立性;

检验给定一组连续变量和p,连续变量vi与另一个连续变量vj之间的条件独立性。

作为优选方案,所述检验给定一组连续变量

Figure BDA0002488233840000034

作为条件集,连续变量vi与另一个连续变量vj之间的条件独立性,具体包括:

将Z作为给定条件变量集,用最小二乘法分别求出vi和Z的线性回归方程,以及vj和Z的线性回归方程,分别计算残差;再利用简单相关系数的方法计算偏相关系数,并进行费雪Z-转换;作出H0ij·Z=0的假设,显著性水平α的条件下,如果下面的不等式成立,则拒绝H0:

其中,Φ(·)是标准正态分布,N是样本大小,|Z|是给定条件变量的个数。

作为优选方案,所述进行费雪Z-转换的公式为:

Figure BDA0002488233840000036

作为优选方案,所述检验给定一组连续变量

Figure BDA0002488233840000037

和p,连续变量vi与另一个连续变量vj之间的条件独立性,具体包括:

对于两个连续变量vi和vj,给定条件集{vK,p},根据变量对应的平台变量,计算各平台下的偏相关系数,得到对应L个平台的L个偏相关系数;利用费雪z-转换,对所述L个偏相关系数进行转换;提出假设H0:P在总体上为零,如果接受H0的判断,则认为vi和vj在给定的条件集{vK,p}时条件独立,在显著性水平α的条件下,如果下面的不等式成立,则拒绝H0

其中,表示均值为0,均方差为L正态分布累计函数的反函数。

作为优选方案,所述偏相关系数为对所述L个偏相关系数进行转换后,得到z(i,j|k)={z1(i,j|k),z2(i,j|k),…,zL(i,j|k)}。

相比于现有技术,本发明实施例具有如下有益效果:

1、本发明将基因调控网络视作因果图,基因测序平台视作因果图上的一个特殊节点,在重建跨平台基因调控网络过程中,将平台变量加入每一个基因表达的调控变量集中,以此消除不同基因测序平台引起的差异影响。

2、可以实现跨平台因果结构学习方法以及混合型条件独立性测试。

附图说明

图1:为本发明连续型因果网络的变量存在的三种基本连接示意图;

图2:为本发明实施例中v1和v2被Zd分隔的示意图;

图3:为本发明实施例的一种跨平台因果网络示意图;

图4:为本发明实施例的一种跨平台因果网络骨架示意图;

图5:为本发明实施例的一种部分有向图;

图6:为本发明实施例的最大化标识方向图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参照图1至图6,本发明优选实施例提供了一种基于跨平台因果网络结构的基因调控网络重建方法,包括:

S1,基于连续型因果网络结构建立离散型的平台节点,得到跨平台网络结构骨架。

具体地,连续型因果网络结构是指所有变量节点对应的数据样本全都是连续分布的。其中,给定变量v1,v2,不存在直接的因果关系,通过第三个变量v3作为中间变量相连;可能存在顺连结构、分连结构以及汇连结构三种基本连接情况。如果v1和v2之间的通路上被一个节点集合Z阻塞了,当Z中变量的取值确定时,改变v1(或者v2)的取值,无法对v2(或者v1)产生影响,称v1和v2被Zd分隔。即v1和v2在给定Z时条件独立。

具体地,引入的一个离散型平台对所有变量都存在影响。其中,平台节点与其它变量之间存在一条边,这条边从平台节点指向变量节点,平台变量原因变量,变量节点是结果变量。变量与变量之间的有向边与连续型因果网络的有向边含义一样,即变量vi和变量vj存在因果关系vi→vj,vi是原因变量,vj是结果变量。

S2,基于学***台网络结构骨架进行学习,对每个变量直接相连的变量集中的节点进行连接,得到无向图。

具体地,因果网络骨架学习方法是利用d-分隔和条件独立性测试,找到每个变量直接相连的变量集,即父子节点集,然后将这些节点连接起来得到无向图,具体包括:根据d-分隔原理,如果x的父子节点集PC(x)中存在变量节点fi,和目标节点x在给定变量集S的情况下条件独立,那么变量节点fi和目标节点x之间没有直接相连的边,变量节点fi应该从PC(x)中被排除。

具体地,寻找变量的父子节点的方法,指的是通过Parents_and_Children算法,以变量集V={v1,v2,...,vn}中的变量逐个作为目标节点,直到得到每个变量对应的父子节点集PC(x)为止,具体包括三个阶段:

增长阶段,逐个将候选节点集中的变量vi与目标节点x进行条件独立性测试,若在给定当前PC(x)中的任意子集S条件下没有条件独立,则将vi加入x的父子节点集PC(x)中,同时从候选节点集C(x)中删除。

剪枝阶段,若给定刚刚加入的vi为条件集,使得在之前已经加入PC(x)中的变量节点v′与目标节点x条件独立,则将v′从PC(x)中移除。对候选节点集C(x)中剩余变量节点逐个与vi进行条件独立性测试,若C(x)中存在v″与目标节点若x,在给定刚加入的变量节点vi情况下条件独立,则将v″从C(x)中移除。

增长阶段和剪枝阶段不断重复运行,直到候选节点集C(x)中的变量全都被删除,或者PC(x)中的变量个数达到一定上限。

精炼阶段,对于PC(x)中的变量节点vj,如果存在集合使得vj与目标节点x在给定S的情况下条件独立,则将vj从PC(x)中删除。

S3,在所述无向图中确定所述跨平台网络结构骨架中存在的v-结构,得到部分有向图。具体地,v-结构是汇连结构,可通过条件独立性测试来进行边的方向的判断。

S4,根据约束规则最大化标记所述部分有向图中剩余的无向边,得到最大化标志方向的有向图。具体地,根据不产生多余v-结构、无环等约束规则,不断标记剩余无向边的方向,直到没有更多无向边可以被标记方向,得到最大化标记方向的因果网络结构图;对于部分无法通过这些约束条件判断方向的边,将其作为无向边保留在网络图中。

下面结合具体实施例,对本发明技术方案进行详细说明。

图1是连续型因果网络的变量存在顺连结构、分连结构以及汇连结构三种基本连接情况。

在具体的实施例中,如图1(a)所示顺连结构:若未知变量v3的信息,则从变量v1得到的信息会影响对v3预测的可靠性,进而对变量v2预测也会受到影响;此时信息可以在v1和v2之间传递,它们相互关联。若已知变量v3的信息,则从v1得到的信息就不会再对v3有所影响,从而对v2有影响。v1和v2之间的信息无法通过v3在两者之间进行传递,即信息通道被阻塞。因此v1和v2在给定v3的情况下相互条件独立。

如图1(b)所示分连结构,当变量v3的信息未知时,不影响信息在变量v1和变量v2之间传递,v1和v2相互关联;而当已知v3信息时,v1和v2之间的信息通路被阻塞,因此,v1和v2在给定v3的情况下相互条件独立。

如图1(c)所示汇连结构,当变量v3是未知的时候,变量v1和变量v2相互条件独立;但在变量v3是已知确定的时候,v1和v2相互关联。

图2是v1和v2被Zd分隔即为v1和v2在给定Z时条件独立。

在具体的实施例中,设Z为一个节点集合,节点v1和节点v2不包含在Z中。α为v1和v2之间的一条通路,当满足以下任意条件之一,则称v1和v2之间的通路α被Zd分隔:

(1)α上有一个在Z中的顺连节点或者分连节点,如图2(a)和图2(b)所示;

(2)α上有一个汇连节点v3,Z中不包含该汇连节点v3以及后代节点,如图2(c)所示。

图3是引入的一个离散型平台对所有变量都存在影响,在具体的实施例当中,这是一个包含4个变量节点的跨平台因果网络;每个变量节点都受到平台变量p的影响,变量v3是受到变量v1和v2的共同影响的结果变量,同时它也是变量v4的原因变量。

图4是学***台因果网络骨架,找到因果网络对应的无向图。

在具体的实施例当中,{v1,v3,v5,v6,p}是变量节点x的父子节点集,用PC(x)={v1,v3,v5,v6,p}来表示。两个变量vi和vj直接相连意味着不存在子集S将vi和vjd-分隔,那么则有vi∈PC(vj),vj∈PC(vi)。

图5是确定网络骨架中存在的v-结构,得到部分有向图。

在具体的实施例中,给定变量节点v1,v2和v3,如果存在变量节点集满足以下条件:v1和v3给定S时条件独立且v1和v3给定{S,v2}时没有条件独立,则确定v1,v2和v3构成一个v-结构,并将这三个变量之间的无向边v1-v2-v3标记为v1→v2←v3

图6是根据约束规则最大化标记网络图中剩余无向边,得到的最大化标志方向的部分有向图。

在具体的实施例当中,v1→x-v5根据不产生多余的v-结构的约束条件,可以将x-v5的无向边标识为v1→x→v5;v3-v2-v4则以无向边的方式保留在因果网络图中。

本发明通过跨平台因果发现算法构建跨平台基因调控网络,可以避免因为数据预处理过程中数据过度平滑导致的部分基因表达数据生物信息被误删除的负面影响,从而构建更普遍适用的基因调控网络。本发明在一般的因果网络模型上加入一个特殊的平台节点,用平台节点与变量之间的边来表示平台对各变量引起的影响,在学***台变量作为条件集之一,以此消除平台对变量引起的差异影响。还提出跨平台因果网络结构学***台因果关系算法中的因果网络结构学***台因果网络结构学习算法主要包括三个步骤:第一步学习网络骨架,找到因果网络对应的无向图;第二步为确定网络骨架中存在的v-结构,到的结果为部分有向图;第三步为根据约束规则最大化标记网络图中剩余无向边,得到的最大化标志方向的部分有向图。

在另一实施例中,所述基于跨平台因果网络结构的基因调控网络重建方法还包括:S5,提出混合型条件独立性测试,检验跨平台数据间的条件独立性;具体包括:

第一种情况:检验给定一组连续变量

Figure BDA0002488233840000081

作为条件集,连续变量vi与另一个连续变量vj之间的条件独立性;

第二种情况:检验给定一组连续变量

Figure BDA0002488233840000082

作为条件集,连续变量vi与平台变量p之间的条件独立性;

第三种情况:检验给定一组连续变量

Figure BDA0002488233840000083

和p,连续变量vi与另一个连续变量vj之间的条件独立性。

具体地,第一种情况是将Z作为给定条件变量集,用最小二乘法分别求出vi和Z的线性回归方程,以及vj和Z的线性回归方程,分别计算残差;再利用简单相关系数的方法计算偏相关系数,并进行费雪Z-转换:

作出H0:ρij·Z=0的假设,显著性水平α的条件下,如果下面的不等式成立,则拒绝H0

Figure BDA0002488233840000085

其中,Φ(·)是标准正态分布,N是样本大小,|Z|是给定条件变量的个数。

具体地,第二种情况已默认变量vi与平台变量p之间是相互关联的,因此不是条件独立的。

具体地,第三种情况是对于两个连续变量vi和vj,给定条件集{vK,p},根据变量对应的平台变量,计算各平台下的偏相关系数,得到对应L个平台的l个偏相关系数利用费雪z-转换,对这L个偏相关系数进行转换,得到z(i,j|k)={z1(i,j|k),z2(i,j|k),…,zL(i,j|k)}。

提出假设H0:P在总体上为零,如果接受H0的判断,则认为vi和vj在给定的条件集{vK,p}时条件独立。在显著性水平α的条件下,如果下面的不等式成立,则拒绝H0

Figure BDA0002488233840000092

其中,表示均值为0,均方差为L正态分布累计函数的反函数。

本发明提出混合型条件独立性测试,为了判断跨平台数据变量间的条件独立性,我们在偏相关系数用于条件独立性测试的基础上设计出混合型条件独立性测试,将离散型的平台变量作为判断变量间条件独立性的条件集之一。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:含二硫键多肽的结构预测方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!