神经网络提取调控dna组合模式的训练和可视化方法及系统

文档序号:685293 发布日期:2021-04-30 浏览:10次 >En<

阅读说明:本技术 神经网络提取调控dna组合模式的训练和可视化方法及系统 (Training and visualization method and system for neural network extraction regulation and control DNA combination mode ) 是由 汪小我 魏征 于 2021-01-18 设计创作,主要内容包括:本发明公开了一种神经网络提取调控DNA组合模式的训练和可视化方法及系统,该方法包括:获取具有特定功能的DNA序列和不具有特定功能的DNA序列;对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示;搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;使用NeuronMotif算法将训练后的卷积神经网络解耦,获得基因调控元件组合模块,并使用调控元件语法树进行表示和存储。该方法提供了一种解耦卷积神经网络的通用神经网络解释算法NeuronMotif,以发掘和可视化卷积神经网络所识别的模式。(The invention discloses a training and visualization method and a system for extracting and regulating a DNA combination mode by a neural network, wherein the method comprises the following steps: obtaining a DNA sequence with a specific function and a DNA sequence without the specific function; labeling two DNA sequences, and representing the DNA sequences with specific functions and the DNA sequences without specific functions by using unique heat codes; building a convolutional neural network, taking the unique hot code of the labeled DNA sequence as input, labeling the corresponding DNA sequence as a fitting value output by the convolutional neural network, and training the convolutional neural network so as to enable the convolutional neural network to identify the DNA sequence; decoupling the trained convolutional neural network by using a NeuronMotif algorithm to obtain a gene regulatory element combination module, and expressing and storing by using a regulatory element syntax tree. The method provides a general neural network interpretation algorithm NeuronMotif for decoupling a convolutional neural network to discover and visualize patterns identified by the convolutional neural network.)

神经网络提取调控DNA组合模式的训练和可视化方法及系统

技术领域

本发明涉及基因调控技术领域,特别涉及一种神经网络提取调控DNA组合模式的训练和可视化方法及系统。

背景技术

基因表达与调控决定着细胞的生长和分化,控制基因的转录调控过程可在一定程度上控制基因表达的水平进而控制细胞的各种状态。在基因的转录调控过程中,基因组DNA上各种调控元件的组合排布逻辑是最关键的因素之一。在基因编辑和改造的应用中,可以针对特定基因功能的需要,根据多个调控元件的碱基偏好、距离位置、先后顺序、出现数量等逻辑进行设计和调整,以达到对基因转录水平的控制。但如此复杂的调控模块和逻辑很难用当前的浅层机器学习方法和模型进行提取和表示。深度学习模型因其复杂的表现能力和优秀的特征自动提取能力在很多基因组功能注释任务中表现卓越,但其习得的基因调控元件组合模块难以被解读和提取。

最近几年大量工作在研究神经网络中基因调控元件组合模块的提取方法,取得了一定的进展,但这些进展并没有使问题得到解决。目前,在DNA序列预测的问题中解释神经网络的思路基本上是一致的,都是研究神经元输入的碱基与神经元输出之间的关系,方法基本改进自计算机视觉领域,也可应用于计算机视觉或其它领域中神经网络的可视化。这些方法基本可以分为三大类:(1)改变输入查看输出值的变化;(2)反向梯度传播算法;(3)激活值最大化的序列输入分布。它们从一定水平上解释了神经网络,但都忽略了神经网络是一个混合模型,没有方法设法去打开神经网络黑盒以解决这个问题。

改变输入查看输出值的变化这种方法的典型代表是DeepSEA。这种方法的优点是最简单和直白,便于理解。若输入的碱基发生了改变,而输出的神经元没有发生改变,则该碱基不是关键的碱基,反之则说明该碱基非常重要。这种方法的主要的缺点是计算量特别大,每个碱基位置发生改变的组合数量是随着DNA序列长度指数增长的。这种方法多适用于研究单核苷酸多态性问题,它关心的是一段序列中,少数位点的突变对功能所带来的影响,而不是研究所有碱基位置,所以能够基本满足用户需求。这种解析似乎并不能展现神经网络所学习到的知识全貌,大部分对神经网络解析的工作都没有局限在此方法上,因此它的应用不是特别广泛。

对于另外两种方法,它们都借鉴了近几年图像领域中常用的方法,可以用来解析每个样本中所有碱基的重要性。实现这两种方法利用的都是反向梯度传播算法,但具体使用方法不同。Saliency Map和DeepLIFT是基于反向梯度传播算法的解析方法中的典型代表,它们使用的是神经元输出值对输入值的偏导数或者类似变形作为输入位置的重要性评价。这种方法可以使用反向梯度传播算法来进行方便的求解,因此可以容易地应用于任何神经元,使用者只需要提供一段待研究的序列,输入神经网络,正向传播一次,再计算某种梯度反向传播一次,即可完成序列中对应位置的重要性注释。因为它的计算成本较低,所以使用起来要相对更广泛一些,但它也存在相当多的问题。其中一个问题是它不能直接计算出Motif,Motif是针对于多个序列具有的所有碱基位置的概率分布统计,而这种方法仅仅提供一个序列对应位置的重要性评价,因此不具有统计意义。为了满足这种需求,基于DeepLIFT算法的研究组又开发了TF-MoDISco,它的基本思路是将一些关心的序列中的关键子序列进行匹配对齐、切割、聚类等一系列后处理,最终将多个序列各个碱基位置的重要性评分进行合并。但存在的问题是,每条序列对应位置的重要性评分并不具有可比性,相对大小没有绝对的意义,而且计算操作过程很依赖于人工设定,结果不是特别稳定,因此计算得到或发现的所谓“Motif”也就没有得到广泛的应用。

激活值最大化的序列输入分布主要是出于神经网络本身的特性来考虑的。任意一个神经元只有在激活状态下才能影响下一层神经元发挥自身的作用,这说明它所识别的序列就是能够使得它能够被激活的序列,因此只要收集这些序列,然后就可以根据序列集合计算出PPM(PositionProbabilityMatrix)和PWM(PositionWeightMatrix)。但其中也存在大量问题,比如这些序列的阈值应当如何选取,并没有人给出合理的解释,在解释Basset模型的实例中,作者为了解释第一层神经元所学习到的Motif,使用对应卷积核扫描所有样本,选择激活值为所得到最大值一半以上的序列作为被激活的序列集合,使用这个集合计算了PWM并绘制了Motif对应的WebLogo图,这些Motif与标准数据库中的Motif相似度令人满意,但阈值取最大值一半的原因并没有进行解释,其它工作也有类似问题。虽然Basset模型在第一层神经元解释上有了良好的结果,但到目前为止,鲜有工作使用这种方法合理地解析出第二层及以上的神经元究竟学到了什么Motif。这说明此方法在第二层或更深层可能不再直接适用。

综合以上三个方面来看,当前神经网络中基因调控元件组合模块的提取方法已经遇到了瓶颈,需要更好的方法来提取神经网络中学习到的基因调控元件组合模块。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明的一个目的在于提出一种使用神经网络提取调控DNA组合模式的训练和可视化方法,该方法提供一种解耦神经网络的通用解释算法NeuronMotif,NeuronMotif可解耦用于注释DNA是否具有特定功能的卷积神经网络模型,发掘其中所识别的基因调控元件组合模块并进行可视化,该算法也可用于任意卷积神经网络在其它问题或领域应用中所识别模式的发掘和可视化。

本发明的另一个目的在于提出一种使用神经网络提取调控DNA组合模式的训练和可视化系统。

为达到上述目的,本发明一方面实施例提出了一种神经网络提取调控DNA组合模式的训练和可视化方法,包括:

S1,获取具有特定功能的DNA序列和不具有所述特定功能的DNA序列;

S2,对两种DNA序列进行标注,并将所述具有特定功能的DNA序列和所述不具有所述特定功能的DNA序列使用独热编码表示;

S3,搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;

S4,通过NeuronMotif算法将训练后的卷积神经网络解耦,获得基因调控元件组合模块,并利用调控元件语法树进行表示和存储。

本发明实施例的神经网络提取调控DNA组合模式的训练和可视化方法,通过获取具有特定功能的DNA序列和不具有特定功能的DNA序列;对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示;搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;设计和使用NeuronMotif算法将训练后的卷积神经网络解耦,从而发掘出每个神经元对应的Motif和Motif组合模块,获得基因调控元件组合模块,并使用调控元件语法树进行表示和存储,为神经网络中基因调控元件组合模块提取,提供了一套新的思路和方案。

另外,根据本发明上述实施例的神经网络提取调控DNA组合模式的训练和可视化方法还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,S1进一步包括:

S11,在使用生物实验手段标注的生物基因组上截取具有所述特定功能的DNA序列片段和不具有述特定功能的DNA序列片段。

进一步地,在本发明的一个实施例中,S1进一步包括:

S12,通过人工合成DNA序列片段分子,做任意类型的生物功能验证实验,确定其中具有所述特定功能的片段分子和不具有所述特定功能的片段分子。

进一步地,在本发明的一个实施例中,所述对DNA序列进行标注,包括:

将所述具有特定功能的DNA序列标注为正样本,所述不具有所述特定功能的DNA序列标注为负样本。

进一步地,在本发明的一个实施例中,S4进一步包括:

S41,对于卷积神经网络中的一个神经元,采集一个DNA序列新集合,所述DNA序列新集合中的不同DNA序列具有各种大小的神经元激活值;

S42,分别计算所述DNA序列新集合中的DNA序列在神经网络各层能够影响该神经元的所有神经元激活值;

S43,对所述DNA序列新集合进行划分得到多个DNA序列子集合;

S44,计算每个DNA序列子集合对应的基因功能元件组合模块的数学表示形式,并利用调控元件语法树对基因功能元件组合模块进行表示和存储。

进一步地,在本发明的一个实施例中,S41进一步包括:

根据神经元接收域大小随机生成DNA序列,使用遗传算法优化所述DNA序列,优化目标为所述DNA序列的神经元激活值,遗传算法中对DNA序列的突变根据神经元激活值对DNA序列的独热编码输入的梯度大小作为概率进行抽样,除了保持DNA序列的交叉互换以外,还需要根据神经网络池化层结构进行循环位移,对遗传算法优化的中间结果DNA序列进行采样,采样的DNA序列不重复,采样的DNA序列组成各种激活的DNA序列集合。

进一步地,在本发明的一个实施例中,S43进一步包括:

S431,对于所述DNA序列新集合,从所述神经元所在层开始,从深层到浅层进行检测,若遇到最大池化层,则根据池化大小K,使用Kmeans算法根据所述DNA序列新集合的序列对应的该池化层浅一层神经元激活值特征,将所述DNA序列新集合聚成K类,每一类对应被划分的DNA序列子集合;

S432,将划分的DNA序列子集合都作为一个DNA序列新集合,从聚类发生层开始,再从深层到浅层进行检测,若遇到最大池化层,则根据池化大小K,使用Kmeans算法根据DNA序列新集合的序列对应的该池化层浅一层神经元激活值特征,将DNA序列新集合聚成K类,每一类对应被划分的DNA序列子集合;

S433,重复步骤S432直到第一层,得到所述多个DNA序列子集合。

进一步地,在本发明的一个实施例中,所述基因功能元件组合模块的计算表达式为E[E(X|Y)],其中,X为采样序列的one-hot编码对应的随机变量,Y是采样序列对应的激活值所表示的随机变量,Y与X之间的关系Y=f(X)由对应的神经元确定,其中随机变量Y的分布需要给定,是自由变量,随机变量X依赖于随机变量Y。

为达到上述目的,本发明另一方面实施例提出了一种神经网络提取调控DNA组合模式的训练和可视化系统,包括:

获取模块,用于获取具有特定功能的DNA序列和不具有所述特定功能的DNA序列;

标注模块,用于对两种DNA序列进行标注,并将所述具有特定功能的DNA序列和所述不具有所述特定功能的DNA序列使用独热编码表示;

训练模块,用于搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;

解耦模块,用于通过NeuronMotif算法将训练后的卷积神经网络解耦,获得基因调控元件组合模块,并利用调控元件语法树进行表示和存储。

本发明实施例的神经网络提取调控DNA组合模式的训练和可视化系统,通过获取具有特定功能的DNA序列和不具有特定功能的DNA序列;对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示;搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;设计和使用NeuronMotif算法将训练后的卷积神经网络解耦,从而发掘出每个神经元对应的Motif和Motif组合模块,获得基因调控元件组合模块,并使用调控元件语法树进行表示和存储,为神经网络中基因调控元件组合模块提取,提供了一套新的思路和方案。

另外,根据本发明上述实施例的神经网络提取调控DNA组合模式的训练和可视化系统还可以具有以下附加的技术特征:

进一步地,在本发明的一个实施例中,获取具有特定功能的DNA序列和不具有所述特定功能的DNA序列,包括:

在使用生物实验手段标注的生物基因组上截取具有所述特定功能的DNA序列片段和不具有述特定功能的DNA序列片段;或

通过人工合成DNA序列片段分子,做任意类型的生物功能验证实验,确定其中具有所述特定功能的片段分子和不具有所述特定功能的片段分子。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本发明一个实施例的神经网络提取调控DNA组合模式的训练和可视化方法流程图;

图2为根据本发明一个实施例的数学形式的PPM示意图;

图3为根据本发明一个实施例的转录因子匹配示意图;

图4为根据本发明一个实施例的语法树示意图;

图5为根据本发明一个实施例的神经网络提取调控DNA组合模式的训练和可视化系统结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的神经网络提取调控DNA组合模式的训练和可视化方法及系统。

首先将参照附图描述根据本发明实施例提出的神经网络提取调控DNA组合模式的训练和可视化方法。

图1为根据本发明一个实施例的神经网络提取调控DNA组合模式的训练和可视化方法流程图。

如图1所示,该神经网络提取调控DNA组合模式的训练和可视化方法包括以下步骤:

步骤S1,获取具有特定功能的DNA序列和不具有特定功能的DNA序列。

进一步地,在本发明的实施例中,提供了两种收集DNA序列的方法。第一种,从使用各种生物实验手段标注的生物基因组上截取带有功能的DNA序列片段和不带功能的DNA序列片段,比如ATAC-seq标注的染色质开放区域DNA序列和染色质不开放区域的DNA序列,ChIP-seq标注的核小体修饰或转录因子绑定位点的DNA序列和没有核小体修饰或转录因子绑定位点的DNA序列。

第二种,人工合成DNA序列片段分子,做任意类型的生物功能验证实验,确定其中带有功能的片段分子和不带功能的片段分子,比如说SELEX技术,合成设计的DNA序列,提取其中具有蛋白结合的序列和不具有蛋白结合的序列。

步骤S2,对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示。

进一步地,对DNA序列进行标注,包括:

将具有特定功能的定长DNA序列标注为正样本,在数值上记为1;不具有特定功能的DNA序列标注为负样本,在数值上记为0。对于每个DNA序列,允许有多个功能,因此可以出现多个标注,分别对应是否具有相应功能。

步骤S3,搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列。

具体地,将带有功能的DNA序列标注为正样本,不带有功能的DNA序列标注为负样本,同时将DNA序列使用独热编码表示。搭建任意卷积神经网络,结构可以包括卷积层、池化层、全连接层等,输入维度应匹配DNA序列长度以及独热编码格式,输出维度应匹配DNA功能数量,使用DNA序列的独热编码作为输入,对应DNA序列标注为神经网络输出的拟合值,训练神经网络,使得神经网络能够尽可能准确识别DNA序列是否为正样本。

步骤S4,通过NeuronMotif算法将训练后的卷积神经网络解耦,获得基因调控元件组合模块,并利用调控元件语法树进行表示和存储。

NeuronMotif算法为一种用于解耦卷积神经网络的通用算法,该算法可解耦用于注释DNA是否具有特定功能的卷积神经网络模型,发掘其中所识别的基因调控元件组合模块并进行可视化,该算法也可用于卷积神经网络在其它问题应用中所识别模式的发掘和可视化。

进一步地,S4进一步包括:

S41,对于卷积神经网络中的一个神经元,采集一个DNA序列新集合,所述DNA序列新集合中的不同DNA序列具有各种大小的神经元激活值;

S42,分别计算所述DNA序列新集合中的DNA序列在神经网络各层能够影响该神经元的所有神经元激活值;

S43,对所述DNA序列新集合进行划分得到多个DNA序列子集合;

S44,计算每个DNA序列子集合对应的基因功能元件组合模块的数学表示形式,并利用调控元件语法树对基因功能元件组合模块进行表示和存储。

可以理解的是,对于卷积神经网络中的每一个神经元,从浅层到深层都需要完成S41-S44的过程。

进一步地,在本发明的一个实施例中,S41进一步包括:

根据神经元接收域大小随机生成DNA序列,使用遗传算法优化所述DNA序列,优化目标为所述DNA序列的神经元激活值,遗传算法中对DNA序列的突变根据神经元激活值对DNA序列的独热编码输入的梯度大小作为概率进行抽样,除了保持DNA序列的交叉互换以外,还需要根据神经网络池化层结构进行循环位移,对遗传算法优化的中间结果DNA序列进行采样,采样的DNA序列不重复,采样的DNA序列组成各种激活的DNA序列集合。

可以理解的是,若采样的DNA序列数量过大,则根据最大激活值,分为20个或更多的激活值区间,对每个区间内的DNA序列进行非重复随机选择,丢弃未被选择的DNA序列样本。

进一步地,在本发明的一个实施例中,S43进一步包括:

S431,对于DNA序列新集合,从神经元所在层开始,从深层到浅层进行检测,若遇到最大池化层,则根据池化大小K,使用Kmeans算法根据DNA序列新集合的序列对应的该池化层浅层神经元激活值特征,将DNA序列新集合聚成K类,每一类对应被划分的DNA序列子集合;

S432,将划分的DNA序列子集合都作为一个DNA序列新集合,从聚类发生层开始,再从深层到浅层进行检测,若遇到最大池化层,则根据池化大小K,使用Kmeans算法根据DNA序列新集合的序列对应的该池化层浅一层神经元激活值特征,将DNA序列新集合聚成K类,每一类对应被划分的DNA序列子集合;

S433,重复步骤S432直到第一层,得到多个DNA序列子集合。

进一步地,在本发明的一个实施例中,所述基因功能元件组合模块的计算表达式为E[E(X|Y)],其中,X为采样序列的one-hot编码对应的随机变量,Y是采样序列对应的激活值所表示的随机变量,Y与X之间的关系Y=f(X)由对应的神经元确定,其中随机变量Y的分布需要给定,是自由变量,而随机变量X依赖于随机变量Y,在这里推荐选取Y的分布对应的概率密度函数为p(y)=2y/(A*A),A为DNA序列集合中所有序列激活值的最大值。E[E(X|Y)]表示在给定激活值分布的条件下所采DNA序列样本的one-hot编码的期望值。对于每一个划分好的DNA序列样本子集合计算E[E(X|Y)],即可得到该神经元所表示的基因功能元件组合模块。

对于所有得到的基因功能元件组合模块,找到其中相同的功能元件模式集合表示为{A,B,C…},确定每个组合模块中功能元件的长度、排列和相对位置,一般而言,在组合模块中,它们的排列是固定的,比如都是ABCABC,相邻两个元件之间间隔的碱基数目不一致。若在所有组合模块中,相邻元件中的距离为固定碱基数,则在排列中两个相邻元件中间插入碱基数目,比如A-6N-B,6N代表6个碱基长度的间距,而对于距离不确定的,可以写明区间,用括号予以分割,比如A-[6±2N]-B。对于功能相对固定或者相关的功能子模块可以用括号予以标记,模块中可以嵌套模块,比如:[A-6N-[B-C]]-[A-6N-[B-C]],根据括号即可表示出功能模块的语法树。

具体地,描述解耦神经网络中任意一个卷积神经元的方法:

1)对于一个神经元,采集一个DNA序列新集合,它具有足量各种激活值的DNA序列新集合。

根据神经元接收域大小随机生成DNA序列,使用遗传算法优化所述DNA序列,优化目标为所述DNA序列的神经元激活值,遗传算法中对DNA序列的突变根据神经元激活值对DNA序列的独热编码输入的梯度大小作为概率进行抽样,除了保持DNA序列的交叉互换以外,还需要根据神经网络池化层结构进行循环位移。对遗传算法优化的中间结果DNA序列进行采样,不允许重复的DNA序列,得到各种激活的DNA序列集合,若数量过大,则根据最大激活值,分为20个或更多的激活值区间,对每个区间内的DNA序列进行非重复随机选择,丢弃未被选择的DNA序列样本。

2)分别计算所述DNA序列新集合中的DNA序列在神经网络各层能够影响该神经元的所有神经元激活值。

对于该神经元所在层及更浅的层,每层只有部分神经元的激活结果会影响到该层神经元。对每条DNA序列计算所有这些神经元的激活值。

3)对新集合进行划分。

对于新集合DNA序列,从该神经元所在层开始,从深层到浅层进行检测,当遇到最大池化层就根据池化大小K,使用Kmeans算法根据新集合的序列对应的该池化层浅一层神经元激活值特征,将新集合DNA序列聚成K类,每一类对应被划分的DNA序列子集合。将划分的DNA序列子集合都作为一个新集合DNA序列,从聚类发生层开始,再从深层到浅层进行检测,当遇到最大池化层就根据池化大小K,使用Kmeans算法根据新集合的序列对应的该池化层浅一层神经元激活值特征,将新集合DNA序列聚成K类,每一类对应被划分的DNA序列子集合,重复这个过程直到第一层,得到大量集合。

4)最后计算每个子集合对应的基因功能元件组合模块的数学表示形式。

PPM的计算表达式为E[E(X|Y)],即在激活值条件下的,采样序列的one-hot编码的期望值。X为采样序列的one-hot编码对应的随机变量,Y是采样序列对应的激活值所表示的随机变量,Y与X之间的关系Y=f(X)由对应的神经元确定,其中随机变量Y的分布需要给定,是自由变量,而随机变量X依赖于随机变量Y,在这里推荐选取Y的分布对应的概率密度函数为p(y)=2y/(A*A),A为DNA序列集合中所有序列激活值的最大值。E[E(X|Y)]表示在给定激活值分布的条件下所采DNA序列样本的one-hot编码的期望值。对于每一个划分好的DNA序列样本子集合计算E[E(X|Y)],即可得到该神经元所表示的基因功能元件组合模块。具体计算方法如下:

对于任意其中一个子集的DNA序列,计算它们的该神经元的激活值,获取其中的最大激活值A,根据最大激活值大小等分成N份,在每一个区间i(i=1,2,…,N)内[A*(i-1)/N,A*i/N]做如下操作:

找出该子集中满足激活值在区间[A*(i-1)/N,A*i/N]的序列;

计算这些序列激活值的平均值Vi;

计算这些序列的独热码每个位置的平均值得到平均矩阵PPMi;

完成每个区间内的计算以后,计算该子集合的基因组功能元件模块为:

PPM=(PPM1*V1+PPM1*V2+…+PPM*VN)/(V1+V2+…+VN);PPM即是子集合对应的基因组功能元件模块。数学形式表示的PPM可以绘制WebLogo图如图2所示。

5)对于这个神经元所有的DNA序列子集计算得到的PPM,归纳存储语法。

对于所有得到的基因功能元件组合模块,找到其中相同的功能元件模式集合表示为{A,B,C…},确定每个组合模块中功能元件的长度、排列和相对位置,一般而言,在组合模块中,它们的排列是固定的,比如都是ABCABC,相邻两个元件之间间隔的碱基数目不一致。若在所有组合模块中,相邻元件中的距离为固定碱基数,则在排列中两个相邻元件中间插入碱基数目,比如A-6N-B,6N代表6个碱基长度的间距,而对于距离不确定的,可以写明区间,用括号予以分割,比如A-[6±2N]-B。对于功能相对固定或者相关的功能子模块可以用括号予以标记,模块中可以嵌套模块,比如:[A-6N-[B-C]]-[A-6N-[B-C]],根据括号即可表示出功能模块的语法树。

在一个具体实例中,可以根据已知数据库中的Motif进行匹配,得到相关模式对应的基本元件,其中部分已知存在于数据库,部分未知,不存在于数据库,如图3所示,包括了CTCF,DDIT3::CEBPA,ZEB1和某未知转录因子。

根据这些基本元件以及他们在WebLogo图中的相对位置可以总结出如下关系[CTCF-[6N]-DDIT3::CEBPA]-[59±1N]-[CTCF-[6N]-DDIT3::CEBPA]根据括号关系可以生成图4所示的语法树的表示方法。

若对结果不满意,可以在已经有的集合基础上,重复3)、4)和5)的过程,直到结果满意。对每个神经元的每个子集合都做类似操作,即可得到大量基因组功能元件模块。通过使用该方法可提取大量以PPM表示的基因组功能元件模块。

可以理解的是,本发明的实施例提出了一种用于解耦卷积神经网络的通用算法NeuronMotif,该算法可解耦用于注释DNA是否具有特定功能的卷积神经网络模型,发掘其中所识别的基因调控元件组合模块并进行可视化,该算法也可用于卷积神经网络在其它问题应用中所识别模式的发掘和可视化。在NeuronMotif算法中,首先定义了神经元对应的Motif的数学统计形式。随后将每个神经元看作是一个隐变量模型,分类解析其中隐变量的来源、含义。根据这些对神经网络和神经元的全新分析和理解,设计了NeuronMotif以实现神经元混合模型的解耦,从而发掘出每个神经元对应的Motif和Motif组合模块(使用PPM表示),即基因调控元件组合模块的表示形式。为神经网络中基因调控元件组合模块提取建立了理论基础。

根据本发明实施例提出的神经网络提取调控DNA组合模式的训练和可视化方法,通过获取具有特定功能的DNA序列和不具有特定功能的DNA序列;对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示;搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;设计和使用NeuronMotif算法将训练后的卷积神经网络解耦,从而发掘出每个神经元对应的Motif和Motif组合模块,获得基因调控元件组合模块,并使用调控元件语法树进行表示和存储,为神经网络中基因调控元件组合模块提取,提供了一套新的思路和方案。

其次参照附图描述根据本发明实施例提出的神经网络提取调控DNA组合模式的训练和可视化系统。

图5根据本发明一个实施例的神经网络提取调控DNA组合模式的训练和可视化系统结构示意图。

如图5所示,该神经网络提取调控DNA组合模式的训练和可视化系统包括:获取模块201、标注模块202、训练模块203和解耦模块204。

获取模块201,用于获取具有特定功能的DNA序列和不具有特定功能的DNA序列。

标注模块202,用于对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示。

训练模块203,用于搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列。

解耦模块204,用于通过NeuronMotif算法将训练后的卷积神经网络解耦,获得基因调控元件组合模块,并利用调控元件语法树进行表示和存储。

进一步地,在本发明的一个实施例中,获取具有特定功能的DNA序列和不具有特定功能的DNA序列,包括:

在使用生物实验手段标注的生物基因组上截取具有特定功能的DNA序列片段和不具有述特定功能的DNA序列片段;或

通过人工合成DNA序列片段分子,做任意类型的生物功能验证实验,确定其中具有特定功能的片段分子和不具有特定功能的片段分子。

需要说明的是,前述对方法实施例的解释说明也适用于该实施例的系统,此处不再赘述。

根据本发明实施例提出的神经网络提取调控DNA组合模式的训练和可视化系统,通过获取具有特定功能的DNA序列和不具有特定功能的DNA序列;对两种DNA序列进行标注,并将具有特定功能的DNA序列和不具有特定功能的DNA序列使用独热编码表示;搭建卷积神经网络,将标注后的DNA序列的独热编码作为输入,对应DNA序列标注为卷积神经网络输出的拟合值,对卷积神经网络进行训练,以使卷积神经网络识别DNA序列;设计和使用NeuronMotif算法将训练后的卷积神经网络解耦,从而发掘出每个神经元对应的Motif和Motif组合模块,获得基因调控元件组合模块,并使用调控元件语法树进行表示和存储,为神经网络中基因调控元件组合模块提取,提供了一套新的思路和方案。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种筛选种母鸡贮精能力性状候选位点的方法和应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!