基于词向量与卷积神经网络的dna复制起始区域识别方法

文档序号:1289192 发布日期:2020-08-28 浏览:7次 >En<

阅读说明:本技术 基于词向量与卷积神经网络的dna复制起始区域识别方法 (DNA replication initial region identification method based on word vector and convolutional neural network ) 是由 杨润涛 吴峰 张承进 陈金桂 张丽娜 于 2020-04-24 设计创作,主要内容包括:本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中,首先通过连续三分序列分词将DNA序列进行分词,得到各个三联核苷酸,然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量,所有的词向量合并后得到预训练特征向量矩阵,预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量,将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层,词嵌入层将三联核苷酸序列特征向量化,然后经过卷积、池化训练得到卷积神经网络,通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别,最终识别出ORI;本申请的识别准确度大大提高。(The method for recognizing the DNA replication initiation region based on the Word vector and the convolutional neural network comprises the steps of firstly segmenting a DNA sequence by continuous three-segment sequence segmentation to obtain each triplet nucleotide, then carrying out negative sampling on the triplet nucleotides after segmentation and vectorizing the triplet nucleotides by Word2vec iterative training to obtain Word vectors, merging all the Word vectors to obtain a pre-training characteristic vector matrix, wherein the pre-training characteristic vector matrix comprises pre-training characteristic vectors of each triplet nucleotide, vertically arranging the triplet nucleotides after segmentation and embedding the pre-training characteristic vectors of each triplet nucleotide to obtain a Word embedding layer, vectorizing the triplet nucleotide sequence characteristics by the Word embedding layer, then carrying out convolutional and pooling training to obtain the convolutional neural network, and carrying out deep mining and classification recognition on ORI characteristics by the convolutional neural network added with the Word embedding layer, finally, identifying the ORI; the identification accuracy of the application is greatly improved.)

基于词向量与卷积神经网络的DNA复制起始区域识别方法

技术领域

本申请涉及生物技术和基因工程技术领域,尤其涉及一种基于词向量与卷积神经网络的DNA复制起始区域识别方法。

背景技术

DNA复制作为传递基因信息的首要步骤,有着很深刻的生物学研究意义。DNA复制指的是DNA双链在细胞分裂之前以一个DNA链作为母链进行半保留复制,从而产生两个与原DNA双链相同的子链的生物学过程。因此,研究DNA复制是研究生物学其他方面的基础,也是研究生命进程的首要任务。众多生物学实验表明,DNA复制时从特殊的区域位置开始的,该位置称为ORI(Origin of Replication,复制起始区域)。

基于目前生物技术的发展,利用生物学实验进行测量实验可以检测出某个生物DNA的复制起始区域位置。如染色体免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP)、染色质免疫共沉淀-芯片技术(ChIP-chip),以及表面离子共振技术(SurfacePlasmon Resonance)。尽管这些方法都能精确地识别ORI,但是在后基因组时代,大量的基因序列被检测出来,试验方法检测凸显出耗时和高成本的缺点。为此,如何脱离生物实验并且使用计算机进行快速准确地识别出ORI是当前研究的热点。

为此,人们做出了很多努力来解决ORI识别问题。对于细菌,环状DNA中仅仅只有一个ORI,有很多的算法可以进行识别。但是对于真核生物,为了提高DNA复制效率会同时从多个位置进行复制,这也大大增加了识别的难度。近些年,人们提出了一些方法来解决酵母细胞ORI识别的问题。例如,Chen等发现ORI区域的DNA可弯曲度和可裂解性比非ORI区域要低很多,并基于此提出了一个计算模型来识别酿酒酵母细胞中的ORI。Li等从样本序列中生成k-tuple伪核苷酸组成(Pseudo K0tuple Nucleotide Composition,PseKNC),将伪氨基酸组成从蛋白质/肽链发展到了DNA/RNA领域。以伪核苷酸组成作为特征并且输入到支持向量机中进行识别,成功开发了“iORI-PseKNC”预测器并且达到了83.72%的准确度。为了剔除冗余特征以及特征维度,Dao等使用F-score和最小冗余-最大相关(minimum-Redundantand Maximum-Relevance,mRMR)进行特征选择并使用支持向量机进行识别,开发了一种名为“iORI-PseKNC2.0”的预测器对酵母基因组进行识别。Xiao等人将二核苷酸位置特异性倾向信息加入到伪核苷酸组成,提出了一种基于随机森林的预测器“iRO-gPseKNC”。Liu等考虑了ORI中GC不对称性以及不定长序列,以3-窗口的形式进行特征提取结合随机森林算法提出了“iRO-3wPseKNC”预测器,从而可以对四种酵母基因组进行更加全面的识别预测,实现对不定长序列的ORI预测。基于iRO-3wPseKNC,计算序列中的GC偏移值并结合PseKNC,将序列中的G和C作为特征进行提取,成功组建了“iRO-PsekGCC”预测器。

以上预测器各有优势,对于酵母细胞的ORI识别效果也逐步提升,对于推动ORI识别具有很大的意义,但是这些方法的准确度等指标仍然不能够满足实际要求。此外,这些方法都是基于机器学习的,无法深入挖掘到ORI序列与非ORI序列的特征。

发明内容

本申请提供了一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,以解决识别精度低的技术问题。

为了解决上述技术问题,本申请实施例公开了如下技术方案:

本申请提供了一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,包括:

从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集;

通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸;

对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵;

将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层;

将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层;

所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型;

将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。

可选的,所述通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,还包括:

通过间隔三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集。

可选的,所述对所述三联核苷酸负采样,包括:

将各三联核苷酸的长度非等距划分至第一[0,1]区间,其中两个节点间的区间为相应三联核苷酸的位置Li=(Ii-1,Ii),i=1,2,...,64;

为节点等距划分第二[0,1]区间;

投影到所述第一[0,1]区间上,建立之间的映射关系;

从所述第二[0,1]区间内随机抽取任一目标三联核苷酸根据所述映射关系映射到所述第一[0,1]区间内获得非目标三联核苷酸;

将所述目标三联核苷酸和所述非目标三联核苷酸合并后完成对三联核算干的负采样。

可选的,所述将各三联核苷酸的长度非等距划分至第一[0,1]区间,包括:

根据获取各三联核苷酸的长度,其中counter(·)代表某个三联核苷酸出现的次数。

可选的,所述基于Word2vec迭代训练得到预训练特征向量矩阵,包括:

根据目标函数得到以上下文中的三联核苷酸最大化概率预测中心三联核苷酸时对应的所述中心三联核苷酸的词向量;

通过迭代将所述中心三联核苷酸表示为300维的特征向量;

对所有的三联核苷酸进行特征向量训练得到所述预训练特征向量矩阵。

可选的,所述根据目标函数得到以上下文中的三联核苷酸预测中心三联核苷酸的最大化概率包括:

所述目标函数为其中w表示中心三联核苷酸向量,代表上下文中的各个三联核苷酸向量,代表在处理时对中心三联核苷酸进行负采样后的集合,u代表w与w的负采样集合取并集后的集合中的三联核苷酸向量集合,表示以当前下文中的三联核苷酸去预测中心三联核苷酸的概率。

可选的,所述将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,包括:

所述独热编码矩阵的结构为

可选的,所述将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层,包括:

将经过连续三分序列分词后的DNA序列竖向排列后得到自上而下的三联核苷酸组合;

对各三联核苷酸一一从所述预训练特征向量中查询对应的特征向量;

将查询到的各所述特征向量合并得到不可训练词嵌入层。

可选的,所述将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层,还包括:

将经过连续三分序列分词后的DNA序列竖向排列后得到自上而下的三联核苷酸组合;

对所述三联核苷酸组合中的各三联核苷酸对应的独热编码矩阵中值为1的位置所链接的权值被使用,得到所述三联核苷酸对应的预训练特征向量;

完成全部三联核苷酸的特征向量预训练后得到可训练词嵌入层。

可选的,所述将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层,还包括:

所述词嵌入层包括两层,一层为可训练嵌入层,另一层为不可训练嵌入层。

与现有技术相比,本申请的有益效果为:

由上述技术方案可见,本申请提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法中,首先通过三分序列分词将DNA序列进行分词,得到各个三联核苷酸,然后将分词后的三联核苷酸负采样后通过Word2vec迭代训将三联核苷酸进行向量化得到词向量,所有的词向量合并后得到预训练特征向量矩阵,预训练特征向量矩阵中包括各个三联核苷酸的预训练特征向量,将分词后的各三联核苷酸竖向排列后嵌入各个三联核苷酸的预训练特征向量得到词嵌入层,词嵌入层将三联核苷酸序列特征向量化,然后经过卷积、池化训练得到卷积神经网络,通过加入词嵌入层的卷积神经网络进行ORI特征的深度挖掘和分类识别,最终识别出ORI。

本申请中将DNA序列看作“语句”,其中ORI序列视为正确的语句,非ORI序列视为不正确语句,并对DNA序列进行分词处理,保持生物学意义的同时凸显出各个核苷酸之间的位置关系,然后利用Word2vec架构对“正确的语句”中的各个“词”进行向量化得到词向量以作为“词”的特征向量,从而构建出后续词嵌入层所需要的预训练特征向量矩阵,最后使用卷积神经网络架构深度挖掘了ORI序列与非ORI序列的特征及之间的差异特征并执行识别任务;因此本申请的识别准确度会大大提高。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法的流程示意图;

图2为本申请实施例提供的间隔三分序列分词的应用示意图;

图3为本申请实施例提供的负采样的应用示意图;

图4为本申请实施例提供的基于词向量与卷积神经网络的DNA复制起始区域识别方法采用的网络框架示意图;

图5为本申请实施例提供的不可训练词嵌入操作过程示意图;

图6为本申请实施例提供的可训练词嵌入操作过程示意图;

图7为本申请实施例提供的双通道词嵌入操作过程示意图;

图8为本申请实施例提供的基于连续三片序列分词方法在三种词嵌入操作模式下的实验结果示意图;

图9为本申请实施例提供的基于间隔三片序列分词方法在三种词嵌入操作模式下的实验结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请提供的一种基于词向量与卷积神经网络的DNA复制起始区域识别方法,如图1所示,包括:

S110:从酵母生物DNA序列数据库中随机选取ORI序列和非ORI序列,构建DNA序列样本集。

在本申请实施例中,从酵母基因序列数据库中选取DNA样本,构建包含DNA样本的基准数据集。

从DeORI6.0数据库中获得四种酵母生物(酿酒酵母、粟酒裂殖酵母、乳酸克鲁维酵母、毕赤酵母)的DNA复制起始区域位置,再利用Genebank获得各个区域的核苷酸组成即DNA序列。对四个物种分别随机选取非ORI序列。首先删除长度低于50dp的序列样本防止过短的基因序列可能表现出的片面性质,再利用CD-HIT技术删除序列相似度高于80%的序列样本从而降低样本冗余度造成的模型训练时间长以及效果不佳的情况。将ORI序列作为正样本,非ORI序列作为负样本,为了防止数据不平衡,将数据集中正负样本的数量进行删减以达到平衡。至此,构建出了四种酵母生物的基准数据集,具体组成如下:

其中S1包含340个正样本和342个负样本,S2包含342个正样本和338个负样本,S3包含147个正样本和147个负样本,S4包含305个正样本和302个负样本。

S120:通过连续三分序列分词分别对所述ORI序列和非ORI序列进行分词得到正样本集和负样本集,其中所述正样本集和所述负样本集均包括各三联核苷酸。

本申请实施例中,将DNA序列视为一个自然语句进行处理,因此直观上可以将DNA序列看作是由四种核苷酸组成的一句话。很显然,仅仅由ACGT进行表示无法完全表达序列的特征信息。因此需要对序列进行更合理的分割,从而获得更有效的序列组成成分表示。本申请中使用两种序列分词方法,分别为连续三片序列分词和间隔三片序列分词,也可以称为连续三分序列分词和间隔三分序列分词。

在一实施例中,根据DNA的转录、翻译等过程都是基于三联密码子的信息传递过程,使用三联核苷酸作为序列的组成单元。利用大小为3的滑动窗口以步长为1在序列上移动,得到DNA序列样本就是对应的三联核苷酸集合,从而一个序列可以用43=64种三联核苷酸组成进行表示,为方便描述以“连续三片序列分词”命名。

一个DNA序列可表示为:

D={R1,R2,...Ri,...,RL}(i=1,2,...,L)

上式中,D表示DNA样本,L代表DNA样本的长度,R1表示DNA样本的第一个核苷酸,R2表示DNA样本的第二个核苷酸,Ri表示DNA样本的第i个核苷酸,以此类推。用大小为3的滑动窗口在序列上以步长为1进行移动选取,得到每个DNA序列对应的三联核苷酸集合为:D={(R1R2R3),(R2R3R4),...,(RL-2RL-1RL)}

对于一个DNA序列片段为“ACGTCGTA”,经过连续三片序列分词后形成的分词序列为“ACG CGT GTC TCG CGT GTA”,可以看出分词序列中连续四个三联核苷酸相当于是原始序列中两个相邻三联核苷酸整体和部分的全部联系。

在另一实施例中,采用间隔三片序列分词,具体为将一个序列表示为3个分词好的序列,综合所有样本后可以知道DNA序列由单核苷酸、二联核苷酸、三联核苷酸共同组成,共可以分为4+16+64=84种“词”,如图2,对于一个DNA序列片段为“CAATCGAACAGTCTGC”,为了减少重复性,经过间隔三分序列分词操作后可以形成图2-中(1)、(2)、(3)三个分词序列。可以看出,三个分词序列由单核苷酸、二联核苷酸和三联核苷酸组成,而且这三个分词序列其实都代表的原始序列,只是划分的位置不同。

综上,通过连续三片序列分词或间隔三片序列分词可以实现DNA序列的分词,其中通过连续三片序列分词可得到各三联核苷酸,通过间隔三片序列分词可得到单核苷酸或二联核苷酸或三联核苷酸。

S130:对所述三联核苷酸负采样后基于Word2vec迭代训练得到预训练特征向量矩阵。

本申请实施例中有64种三联核苷酸,若对某个三联核苷酸(目标三联核苷酸)要进行负采样,则需要生成一个不包括该核苷酸的样本(称为非目标三联核苷酸)集合,再将该目标三联核苷酸和非目标三联核苷酸形成该目标三联核苷酸的负采样集合。

其中64个三联核苷酸在数据集中出现的次数不同,对于高频三联核苷酸被选为负样本的概率就大,对于低频三联核苷酸被选中的概率就小,所以需要面对的是带权采样问题,即如何保证各个三联核苷酸被选中的概率都一样大。

首先通过三联核苷酸比例作为各个三联核苷酸的长度,所以64个三联核苷酸会分布在[0,1]之间,公式如下

其中,counter(·)代表某个三联核苷酸出现的次数。为了防止出现某三联核苷酸的比例很低的情况,所以对其求取次幂。

其次,将64个三联核苷酸分别引入到第一[0,1]区间,具体做法是,记此处wj表示64个三联核苷酸中的第j个三联核苷酸,则以为划分节点可以得到[0,1]区间的非等距划分,两个节点之间的区间就是相应的三联核苷酸位置Li=(Ii-1,Ii],i=1,2,...,64。再引入第二[0,1]区间的等距划分,划分节点为具体如图3。

投影到非等距划分上,如图中虚线所示,则可以建立之间的映射关系:

Table(n)=wk,wheremj∈Li,n=1,2,...,M-1

当确定某个三联核苷酸作为“目标三联核苷酸”,只需要随机生成一个[1,M-1]之间的随机整数,就可以获得一个“非目标三联核苷酸”。

在一实施例中,64种三联核苷酸的数量已经确定为“除了AAA的数量为2以外其余63种三联核苷酸各有1个。为了实现负采样,首先求取每个三联核苷酸的长度,共64个,此处只展示四个长度计算公式:

序列中很明显,64个三联核苷酸长度之和为1。对CCC负采样时(负采样的数量可以指定,假设为30),设置M为1000,所以[0,1]区间等距划分为1000份,每一个子区间长度为0.001,通过设置从[1,1000]抽取随机数,映射到非等距划分的[0,1]区间获得30个核苷酸(若获得了CCC则跳过,重新选择),因此负采样的结果为NEG(CCC),其中包含的元素为30个非目标三联核苷酸,具体是什么核苷酸,有种组合方法。

在完成分词和负采样后,基于目标函数将分词后的三联核苷酸特征向量化,具体包括:

其中,目标函数为其中w表示中心三联核苷酸向量,代表上下文中的各个三联核苷酸向量,代表在处理时对中心三联核苷酸进行负采样后的集合,u代表w与w的负采样集合取并集后的集合中的三联核苷酸向量集合,表示以当前下文中的三联核苷酸去预测中心三联核苷酸的概率。

在本申请实施例中,对于一个DNA序列片段“ACGTCGTA”,经过连续三片序列分词后形成的分词序列为“ACG CGT GTC TCG CGT GTA”,每一个三联核苷酸都赋予了随机初始化的向量表示。如果此时中心三联核苷酸w为TCG,上下文范围设置为2即Context(w)为CGT,GTC,CGT和GTA。使用上下文逐个去预测中心三联核苷酸的概率,并使其最大化,当用CGT预测中心三联核苷酸TCG时,设置M为1000,对TCG进行负采样,获得相应负采样集合NEGCGT(TCG),计算出CGT预测TCG的概率。同理对于另外三个上下文的三联核苷酸分别进行同样操作NEGGTC(TCG),NEGCGT(TCG)(由于负采样的随机性,该集合与第一个NEGCGT(TCG)可能是不同的)和NEGGTA(TCG),可以分别求出各自预测TCG的概率。通过让四个上下文三联核苷酸预测中心三联核苷酸TCG的概率最大化,实质就是进行矩阵运算和概率相乘,从而可以获得让概率最大的三联核苷酸的300维向量表示。

通过多次迭代训练,每一个三联核苷酸都会被表示为一个300维的特征向量,从而获得64*300维的特征向量矩阵

综上所述,根据目标函数得到以上下文中的三联核苷酸最大化概率预测中心三联核苷酸时对应的所述中心三联核苷酸的词向量;通过迭代将所述中心三联核苷酸表示为300维的特征向量;对所有的三联核苷酸进行特征向量训练得到所述预训练特征向量矩阵。

S140:将所述正样本集各序列包含的三联核苷酸竖向排列后经过独热编码得到序列的独热编码矩阵,其中竖向排列后相应的三联核苷酸的独热编码作为输入层。

本申请中采用的卷积神经网络结构如图4所示,包括输入层、词嵌入层、卷积层和全连接与输出层,具体内容如下述,其中:

经过连续三片序列分词可以产生64种三联核苷酸作为序列组成成分,经过独热编码(one-hot encoding)后可以产生一个维度为64*64大小的独热编码矩阵,向量维度固定为三联核苷酸的种类数,只有一个位置是1其余都是0,且任意两个向量之间是不相关的,如下式:

网络的输入是经过序列分词操作后的序列,并且从上至下进行排列,每一个三联核苷酸都映射为相应的独热编码并进行竖向排列。

S150:将所述正样本集中各序列包含的三联核苷酸竖向排列后嵌入所述预训练特征向量矩阵后得到词嵌入层。

本申请实施例中通过使用Word2vec可以训练出各个三联核苷酸的特征向量,并生成了预训练的特征向量矩阵。当进行到网络的词嵌入层时,每一个三联核苷酸通过查询操作都可以映射为相应的特征向量,与输入层的结构一致都是自上而下排列。

其中词嵌入操作可以分为不可训练模式、可训练模式和双通道模式,其中双通道模式包括一个为不可训练模式的通道,另一个为可训练模式的通道;这三种模式具体为:

其中不可训练模式词嵌入操作,如图5,包括:

将经过连续三分序列分词后的DNA序列竖向排列后得到自上而下的三联核苷酸组合;

对各三联核苷酸一一从所述预训练特征向量中查询对应的特征向量;

将查询到的各所述特征向量合并得到不可训练词嵌入层。

其中可训练模式词嵌入操作,如图6,还包括:

将经过连续三分序列分词后的DNA序列竖向排列后得到自上而下的三联核苷酸组合;

对所述三联核苷酸组合中的各三联核苷酸对应的独热编码矩阵中值为1的位置所链接的权值被使用,得到所述三联核苷酸对应的预训练特征向量;

完成全部三联核苷酸的特征向量预训练后得到可训练词嵌入层。

其中双通道模式,如图7包括两层,一层为可训练嵌入层,另一层为不可训练嵌入层。词嵌入层有两层,分别进行后续的卷积、池化等操作。一个词嵌入层是可以训练的,参数设置与可训练模式的网络参数一致;一个词嵌入层是不可训练的,参数设置与不可训练模式的网络参数一致。因此后续的卷积核数量变为另外两个模式的两倍,卷积操作后的特征向量个数为2*3*128个,如果是在训练过程则反传概率误差值更新网络参数,可训练通道的词嵌入层也进行更新,不可训练通道的词嵌入层不更新。

S160:所述词嵌入层经过卷积、池化及损失函数训练得到卷积神经网络模型。

本申请实施例中进行卷积操作时进行竖向卷积,即卷积核的宽度设置为300。对于高度需要进行一定选择。还是只考虑连续三分序列分词方法,可以知道,两个分词后得到的三联核苷酸有两个核苷酸组成是重复的但是位置不同,所以当卷积核高度设置为2时是对两个三联核苷酸特征向量进行卷积操作可以用来提取原始序列中第一个三联核苷酸和下一个单核苷酸之间的关系。同理,当卷积核设置为3时是可以用来提取原始序列中第一个三联核苷酸和接下二联核苷酸之间的关系,当卷积核设置为4时是可以用来提取原始序列中第一个三联核苷酸和接下三联核苷酸之间的关系。

本申请使用的卷积核的高度分别设置为2,3,4。同时每个尺寸的卷积核都设置128个,可以提取到卷积区域中更多的信息,即原始序列中两个相邻三联核苷酸之间的更多信息。

本申请实施例中在卷积层之后进行池化操作,可以降低卷积后形成特征向量的维度,从而降低过拟合的问题以及提高训练速度。本申请中使用的池化操作是最大值池化,进行最大值池化之后,进行拼接当作后面全连接层的输入。全连接层输出的维度为2,进行Softmax操作得到输入的样本的分类结果。

S170:将待测DNA序列输入到所述卷积神经网络模型中,输出所述待测DNA序列为ORI序列的概率。

进入词嵌入层时根据三联核苷酸的竖向排列顺序嵌入各个三联核苷酸的预训练特征向量,构建出一个4*300维的矩阵作为词嵌入层。网络的卷积层共设置3种尺寸的卷积核(2,3,4),每个大小的设置128个,随机初始化后对4*300维的词嵌入层进行竖向卷积,获得3*128个特征图作为池化层的输入。每个特征图经过最大值池化后拼接为一个特征向量作为全连接层的输入。全连接层输出的维度为2,即本申请的分类数“ORI序列”和“非ORI序列”。全连接层输出并不是在0到1之间,所以经过Softmax后将两个分类概率化,转化为0到1之间的两个数字作为概率值(和为1)。若得到的正样本概率大于0.5,则输出1,把“ACG CGAGAA AAC···”即“ACGAAC···”预测为ORI序列正样本,若得到的正样本概率小于0.5,则输出0,把“ACG CGA GAA AAC···”即“ACGAAC···”预测为非ORI序列负样本。

在本申请实施例中使用5个测量指标评估卷积神经网络的预测质量:Acc(Accuracy,准确性)、Sn(Sensitivity,敏感性)、Sp(Specificity,特异性)、Mcc(MatthewsCorrelation Coefficient,马修斯相关系数)和AUC(Area Under Curve,曲线下面积)。其中,AUC是指ROC(Receiver Operating Characteristic Curve,工作特性曲线)的曲线下面积,横坐标为1-Sp,纵坐标为Sn。一般地,曲线位于y=x直线上方意味着性能较好,随着横坐标增加,纵坐标接近1更佳。除了直观表现之外,AUC为ROC曲线下方面积,0<AUC<1,当AUC越接近1表示预测器性能越好,这也与刚刚所说的ROC的图形性质对应。Acc、Sp、Sn和Mcc定义为以下公式:

上式中TP代表ORI序列被成功预测的数量,TN代表非ORI序列被成功预测的数量,FP代表非ORI序列被错误预测为ORI序列的数量,FN代表ORI序列被错误预测为非ORI序列的数量,P表示数据集中ORI序列的总数量,N表示数据集中非ORI序列的总数量。

本申请使用的是十折交叉验证算法,通过将整个数据集划分为是个部分,每次实验一次使用某个部分作为测试集,另外九个作为训练集,并得到十组TP、TN、FP、FN,综合十组数据进行评估指标的一系列计算以及ROC曲线的绘制。

在一实施例中,基于连续三分序列分词下3种词嵌入模式的ORI识别结果如表1,ROC曲线如图8。

表1基于连续三分序列分词的四种酵母ORI识别结果

由表1可以看出,对于这四个物种的识别效果都很好,基于不同的模型模式下的结果也有一定的变化。尤其是对毕赤酵母来说,基于双通道模式下的识别结果准确度达到了96.7%。各个物种的ORI识别的ROC曲线如下图。

由图8可以看出,四个物种的ROC曲线的饱和度都比较高,AUC值也都比较好。

由表可以看出,用Word2vec构建词向量后输入到卷积神经网络种进行识别,本模型可以以相当出色的性能识别出ORI序列。分析原因,就在于使用Word2vec深度挖掘了序列中各个三联核苷酸之间的关系,用数字表达出生物学意义。使用加入了词嵌入层的卷积神经网络时,词嵌入层可以反映出三联核苷酸相对位置,即加入了位置信息。最后使用卷积神经网络对序列的特征进行深度挖掘,通过配合序列分词方法,使用合适的卷积核大小并赋予生物学意义,提取原序列中单个核苷酸、二核苷酸、三联核苷酸出现的前后特征。因此,本模型可以较好的对序列进行学习,并且有很好的识别效果。综合表格数据和ROC曲线,以准确度(Acc)为首要标准,AUC值为第二标准选择出各个物种的ORI序列识别结果最好的模型,即酿酒酵母(S1)——双通道模式、粟酒裂殖酵母(S2)——双通道模式、乳酸克鲁维酵母(S3)——不可训练模式、毕赤酵母(S4)——双通道模式。

在另一实施例中,当使用间隔三分序列分词时,每个序列表示为4个单核苷酸、16个二联核苷酸、64个三联核苷酸组成的,得到特征向量后进行不同模式下的对比实验,具体的结果如表2,ROC曲线如图9所示。

表2基于间隔三分序列分词的四种酵母ORI识别结果

由表2可以看出,对于这四个物种的识别效果都很高,基于不同的模型模式下的结果也有一定的变化。对于不同物种的ORI序列识别的结果有一定的改变,有的提升了有的下降了,尤其是基于可训练模式的酿酒酵母的ORI识别准确度达到了97.5%,基于双通道模式的粟酒裂殖酵母ORI序列识别也准确度达到了76.5%。

由图9可以看出,四个物种的ROC曲线的饱和度都比较高,AUC值也都比较好。

综合基于不同模型模式以及分词方法得到的结果,选择出最优组合作为本申请的ORI识别结果并用于和其他技术作性能对比,分别为酿酒酵母(S1)——间隔三分序列分词+可训练模式、粟酒裂殖酵母(S2)——间隔三分序列分词+双通道模式、乳酸克鲁维酵母(S3)——连续三分序列分词+不可训练模式、毕赤酵母(S4)——连续三分序列分词+双通道模式。

本申请使用的是基于深度学习的方法,与其他现有技术中所用的基于机器学习的方法有很大不同。上述已经分析了本模型的性能,为了而更好的说明本模型性能上的优势,本申请实施例中与其他方法作比较。

Liu等提出了一种预测器“iRO-3wPseKNC”来识别本申请中所使用的四个物种的进行识别。Dao等提出了一种名为“iORI-PseKNC2.0”的预测器”,使用两步特征选择对提取到的特征进行进一步选择后输入到分类器进行识别。此外,刘等提出了“iRO-PsekGCC”,通过加入GC不对称分布作为特征,获得两种真核生物的识别结果。为了比较的公平性,基于相同数据集,本申请的实验结果分别与iRO-3wPseKNC、iRO-PseKGCC和iORI-PseKNC2.0作对比以获得本申请的ORI识别方法的性能优越性,如表3。

表3本申请与其他现有技术的性能对比

根据上表3可以得出,本申请的ORI识别方法在酿酒酵母、乳酸克鲁维酵母和毕赤酵母的ORI序列识别任务中的表现明显优于其他方法,不仅是在准确度上,其他指标也是如此。综合来看,本申请有着明显的性能上的优势,并且在一定程度上可以进行实用。

综上本模型可以较好的对序列进行学习,并且有很好的识别效果。

由于以上实施方式均是在其他方式之上引用结合进行说明,不同实施例之间均具有相同的部分,本说明书中各个实施例之间相同、相似的部分互相参见即可。在此不再详细阐述。

本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本申请的其他实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求的内容指出。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种测序数据的分类单元组分计算方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!