一种酿酒酵母菌中dna复制起点的预测方法

文档序号:1044853 发布日期:2020-10-09 浏览:22次 >En<

阅读说明:本技术 一种酿酒酵母菌中dna复制起点的预测方法 (Method for predicting DNA replication origin in saccharomyces cerevisiae ) 是由 樊永显 王婉茹 于 2020-07-03 设计创作,主要内容包括:本发明公开了一种酿酒酵母菌中DNA复制起点的预测方法,步骤为:获取酿酒酵母菌中的正样本序列和负样本序列;使用二进制编码法和PSEKNC-I两种方法提取特征;使用F-score和IFS方法对PSEKNC-I法得到的特征进行筛选,得到预筛选特征;将二进制编码法得到特征和预筛选特征进行组合,获得特征组合后的样本数据集;构建CNN预测模型并训练,输入数据获得初步预测结果;调整训练后CNN预测模型中参数,对训练后的CNN预测模型进行优化;使用五折交叉验证法对优化后的CNN预测模型进行评估最终得到最优的CNN预测模型,将数据输入最优模型中,得到最终的预测结果。该方法提取多种DNA信息中的特征,减少了计算时间,避免过拟合现象,选出最优的分类模型,提高了预测复制起点预测的准确率。(The invention discloses a method for predicting a DNA replication origin in saccharomyces cerevisiae, which comprises the following steps: acquiring a positive sample sequence and a negative sample sequence in the saccharomyces cerevisiae; extracting features by using a binary coding method and a PSEKNC-I method; screening the characteristics obtained by the PSEKNC-I method by using an F-score and IFS method to obtain pre-screening characteristics; combining the features obtained by the binary coding method and the pre-screening features to obtain a sample data set after the features are combined; constructing and training a CNN prediction model, and inputting data to obtain a preliminary prediction result; adjusting parameters in the trained CNN prediction model, and optimizing the trained CNN prediction model; and (4) evaluating the optimized CNN prediction model by using a five-fold cross-validation method to finally obtain an optimal CNN prediction model, and inputting data into the optimal model to obtain a final prediction result. The method extracts features in various DNA information, reduces calculation time, avoids overfitting, selects an optimal classification model, and improves the accuracy of predicting the replication origin.)

一种酿酒酵母菌中DNA复制起点的预测方法

技术领域

本发明涉及生物信息学中序列相互作用的分类预测技术领域,具体是一种酿酒酵母菌中DNA复制起点的预测方法。

背景技术

近年来,生物信息学和计算机科学相结合而衍生出一个新的研究方向,即以核苷酸、蛋白质、基因序列数据集作为主要研究对象,并利用数学、信息学、计算机科学等手段,以计算机硬件、软件和计算机网络为主要工具,对数量极其庞大的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、探索、比较、分析,从中获取基因编码、基因调控、核苷酸和蛋白质结构功能机器相互关系等理性知识。在大量的信息和知识的基础上,探索生命起源、生物进化以及细胞器官和个体的发生、发育病变、衰亡等生命科学重大的问题,搞清他们的基本规律和时空联系。最终通过对生物实验数据的获取、加工、存储检索和分析,进而达到节食数据所蕴含的生物学意义的目的。就基因组来说,得到序列仅仅是第一步,后一步工作是所谓基因组时代的任务,及收集、整理、检索和分析序列中表达的结构和功能信息,找出规律。

生命的传承以及基因的传递依靠的主要方式就是DNA的复制,而复制起点 (ORI)决定着复制的开始,准确地识别复制起点不仅有助于优化基因的表达,并且可以给遗传病中的新药研究提供新的策略。复制起始在时间、位置上的错误以及复制过程中核苷酸的错配,均会导致DNA序列突变、基因组重组等事件的发生,增加错误遗传信息的传递,增强细胞基因组的不稳定性。这样就会直接影响到细胞的正常***和胚胎的正常发育,也与癌症以及众多遗传疾病的发生密切相关因此,准确鉴定DNA复制起点在基因研究中至关重要。

迄今为止,已经有很多针对于ORI的研究,这些研究都取得一定的成果。 2004年,Cozzarelli课题组利用复制起始区富含AT碱基的自复制一致性序列 (ACS)和富含A碱基的3'区域作为序列特征,通过Oriscan算法对酵母复制起始位点进行了预测。2014年,Li通过计算GC profile和GC skew的值去分析酿酒酵母基因的组分偏差,利用一型伪核苷酸组分来提取序列信息并构建了一个在线预测器iORI-PseKNC去识别酿酒酵母的复制起始位点序列。2016年,Zhang 初次尝试构建人类ORI数据集,并基于随机森林分类器用一型伪核苷酸组分提取信息构建iOri-Human在线预测器来识别人类ORIs。

发明内容

本发明的目的在于解决现有的DNA复制起点的预测准确率的问题,而提供一种酿酒酵母菌中DNA复制起点的预测方法,该预测方法可以提取多种DNA 信息中的特征,还减少计算时间,避免出现过拟合现象,同时还构建出最优的分类模型,提高预测复制起点的准确率。

实现本发明目的的技术方案是:

一种酿酒酵母菌中DNA复制起点的预测方法,包括如下步骤:

1)获取样本数据集:获取酿酒酵母菌中的正样本序列和负样本序列;

2)特征提取:使用二进制编码法和PSEKNC-I两种方法表示样本序列,即使用一个向量表示每一条NDA序列;

3)特征选择:使用F-score方法和增量特征选择方法(Incremental FeatureSelect,IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选,得到预筛选特征;

4)特征组合:将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合,使用二项分布对组合后的特征进一步筛选,获得特征组合后的样本数据集;

5)构建模型:构建CNN预测模型,将步骤4)获得的样本数据集进行五折交叉验证实验,将五折交叉实验选出的数据集随机分为5组,其中1组作为测试集,剩余4组作为训练集,利用训练集对构建的CNN预测模型进行训练,得到训练后的CNN预测模型,将测试集输入训练后的预测模型分类器中,得到的分类结果即为预测的复制起点的初步结果;

6)参数调优:根据步骤5)得到的初步结果,调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长,以及输出层概率,对训练后的 CNN预测模型进行优化;

7)模型评估:使用五折交叉验证法对优化后的CNN预测模型进行评估,并使用敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量,最终得到最优的CNN预测模型,将DNA序列输入最优的CNN预测模型中,即得到最终的DNA复制起点预测结果。

步骤2)中,所述的二进制编码法,是利用0、1表示DNA序列中的核苷酸,把每个DNA序列转化为特征向量,DNA序列中的核苷酸表示方式如下:

Figure RE-GDA0002618045430000031

公式(1)中,A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。

步骤2)中,所述的PSEKNC-I法,包括如下步骤:

2-1)计算DNA序列中不同k-元组核苷酸组分的出现频次,利用如下公式(2) 表示每条由腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本R,其中k的取值为1,2,3,…,k,…,n,n趋近无穷大;

R=R1 R2 R3 R4 R5 R6 … Ri … RL (2)

Ri为DNA序列中第i个位置上的寡核苷酸;

2-2)任意先后取k个核苷酸为一组,共有4k种组合,通过k-元组核苷酸组分方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取k个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的k个核苷酸,重复上述操作L-k+1次就遍历整条DNA序列对,L为每个样本DNA序列对的长度,统计整条DNA序列对中每一种k-元组核苷酸组分出现的频率;

2-3)将4k种组合出现的频率转化为4k维的向量,得到矩阵D中第1至第 4k维向量,矩阵D表达式为:

公式(3)中,

Figure RE-GDA0002618045430000033

为每个k-元核苷酸组分在DNA序列中出现的频率。

步骤3)中,所述的F-score方法,是对步骤2)提取的特征Xk进行排序,k=1,2,3,…,m,若正样本和负样本数目分别是n+和n-,则第i个特征的F分数被推断为:

其中分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,是第k个正样本中第i个特征的特征值,是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,则使用公式(10)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集。

步骤3)中,所述的使用增量特征选择方法,是对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量。

步骤4)中,所述的二项分布方法,是使用如下公式对特征集进行排序:

qi=mi/M (11)

其中,qi为先验概率,mi表示在第i类样品中出现的给定数据值的数目,M 是特征集中所有数据值的总数,

Figure RE-GDA0002618045430000045

nij代表第j类样本中出现第i种特征的次数,Nj代表所有数据中出现第i中特征的次数,

Pj=min(P(n1j),P(n2j)) (13)

CLij=1-P(nij) (14)

CLj=max(CLi1,CLi2) (15)

CLij为置信水平,然后对置信水平进行降序排序,选取置信水平大于0.5的特征集来训练模型,以及进行测试。

本发明提供的一种酿酒酵母菌中DNA复制起点的预测方法,该方法提取多种DNA信息中的特征,减少了计算时间,避免出现过拟合现象,同时还选出最优的分类模型,提高了预测复制起点预测的准确率。

附图说明

图1为一种酿酒酵母菌中DNA复制起点的预测方法的流程图;

图2为实施例中基准数据集的分布图;

图3为卷积神经网络预测流程图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。

实施例:

如图1所示,一种酿酒酵母菌中DNA复制起点的预测方法,包括如下步骤:

1)获取样本数据集:收集了酿酒酵母菌中405条包含复制起点的的正样本序列和406条不包含复制起点负样本序列,如图2所示;

2)特征提取:使用二进制编码法和PSEKNC-I两种方法表示样本序列,即使用一个向量表示每一条NDA序列;

所述的二进制编码法,是利用0、1表示DNA序列中的核苷酸,把每个DNA 序列转化为特征向量,DNA序列中的核苷酸表示方式如下:

公式(1)中,A(0,0,0,0)为DNA序列中的腺嘌呤、C(0,1,0,1)为DNA序列中的胞嘧啶、G(0,0,1,0)为DNA序列中的鸟嘌呤、T(0,0,0,1)为DNA序列中的胸腺嘧啶。

PSEKNC-I法,包括如下步骤:

2-1)计算DNA序列中不同k-元组核苷酸组分的出现频次,利用如下公式(2) 表示每条由腺嘌呤A、鸟嘌呤G、胞嘧啶C、胸腺嘧啶T这4类L个寡核苷酸组成的DNA序列样本R,其中k的取值为1,2,3,…,k,…,n,n趋近无穷大;

R=R1 R2 R3 R4 R5 R6 … Ri … RL (2)

Ri为DNA序列中第i个位置上的寡核苷酸;

2-2)任意先后取k个核苷酸为一组,共有4k种组合,通过k-元组核苷酸组分方法,对基准数据集中每个样本DNA序列对,从第一个核苷酸开始,从左到右取k个相邻的核苷酸,然后右移一个核苷酸,取后面相邻的k个核苷酸,重复上述操作L-k+1次就遍历整条DNA序列对,L为每个样本DNA序列对的长度,统计整条DNA序列对中每一种k-元组核苷酸组分出现的频率;

2-3)将4k种组合出现的频率转化为4k维的向量,得到矩阵D中第1至第 4k维向量,矩阵D表达式为:

Figure RE-GDA0002618045430000061

公式(3)中,

Figure RE-GDA0002618045430000062

为每个k-元核苷酸组分在DNA序列中出现的频率。

除了以上的核苷酸组分特征,本例还使用了核苷酸的物理化学性质,通过使用Ⅰ-伪核苷酸组分方法,也称为平行关伪核苷酸组分方法,将核苷酸组分和伪核苷酸组分结合起来,这种伪核苷酸组分方法不仅考虑了DNA序列的全局或长程顺序信息,并且计算了DNA序列的生物化学信息,提取伪核苷酸组分特征集如下所示:

Figure RE-GDA0002618045430000063

其中,

Figure RE-GDA0002618045430000064

Figure RE-GDA0002618045430000065

为第i种k-元组核苷酸组分在DNA频率,与公式(3)中意义相同,ω为权重因子,用于权衡核苷酸组分和DNA局部结构性质的影响,θj为j-阶关联因子,反应每条DNA序列中所有相邻二核苷酸的j-阶序列顺序关联性,θj定义为:

Figure RE-GDA0002618045430000071

其中λ是一个整数值,反应序列顺序关联阶数,(RiRi+1,Ri+jRi+j+1)定义如下:

Figure RE-GDA0002618045430000072

μ是当前研究中认为等于6的局部DNA结构性质的数量,这6种结构性质如下所示:

Figure RE-GDA0002618045430000073

Pv(RiRi+1)为位置i处二核苷酸RiRi+1的第v(v=1,2,3,4,5,6)种DNA 局部结构性质的数值,Pv(Ri+jRi+j+1)为位置i+j处二核苷酸Ri+jRi+j+1的第v种 DNA局部结构性质的数值,具体定义如下:

其中,符号<>是指取由A,C,G,T组成的16种二核苷酸的平均值,SD指标准差,运用公式(9)转化后的得到的标准值,对于每一类物化性质,16种二核苷酸的均值为零,如果再次进行相同的转换,均值依旧为零。表1展示了16中核苷酸性质的标准值。

表1核苷酸物化性质标准值

本例中,k=4,5,6,共提取3种特征集,如表2所示:

表2提取的3种特征集

Figure RE-GDA0002618045430000082

3)特征选择:使用F-score方法和增量特征选择方法(Incremental FeatureSelect, IFS)对步骤2)中使用PSEKNC-I法得到的特征进行筛选,得到预筛选特征;具体是对步骤2)提取的特征xk进行排序,k=1,2,3,…,m,若正样本和负样本数目分别是n+和n-,则第i个特征的F分数被推断为:

其中分别为第i个特征分别在整个数据集、正样本集、负样本集中的平均特征值,

Figure RE-GDA0002618045430000085

是第k个正样本中第i个特征的特征值,

Figure RE-GDA0002618045430000086

是第k个负样本中第i个特征的特征值,分子表示正集合和负集合之间的区别,分母表示两个集合中的每个集合中的一个样本,Fi的值越大,表明第i个特征包含识别度信息越高,对分类的影响越大,则使用公式(10)得到的分数作为特征选择标准,将Fi按照从大到小的顺序排名,选择对分类影响大的特征集作为样本数据特征集。

使用增量特征选择方法,是对每一个特征集进行特征选择,即先使用一个特征集作为训练集进行训练模型,再逐个将步骤3)中的采用二项分布方法得到的特征集加入训练集然后训练模型,直至找到分类准确率最高的特征集数量。

4)特征组合:将步骤2)中采用二进制编码法得到特征和步骤3)得到的预筛选特征进行组合,使用二项分布对组合后的特征进一步筛选,获得特征组合后的样本数据集;

所述的二项分布方法,是使用如下公式对特征集进行排序:

qi=mi/M (11)

其中,qi为先验概率,mi表示在第i类样品中出现的给定数据值的数目,M 是特征集中所有数据值的总数,

Figure RE-GDA0002618045430000091

nij代表第j类样本中出现第i种特征的次数,Ni代表所有数据中出现第i中特征的次数,

Pj=min(P(n1j),P(n2j)) (13),

CLij=1-P(nij) (14)

CLj=max(CLi1,CLi2) (15)

CLij为置信水平,然后对置信水平进行降序排序,选取置信水平大于0.5的特征集来训练模型,以及进行测试。

5)构建模型:构建CNN预测模型,将步骤4)获得的样本数据集进行五折交叉验证实验,将五折交叉实验选出的数据集随机分为5组,其中1组作为测试集,剩余4组作为训练集,利用训练集对构建的CNN预测模型进行训练,得到训练后的CNN预测模型,将测试集输入训练后的预测模型分类器中,得到的分类结果即为预测的复制起点的初步结果;CNN的预测流程如图3所示。

6)参数调优:根据步骤5)得到的初步结果,调整训练后的CNN预测模型中的卷积层数、卷积个数、滤波器大小、步长,以及输出层概率,对训练后的 CNN预测模型进行优化;

如下表3中列出了上述参数的范围,根据最小的验证损失选择了性能最佳的参数,其中预测较好的前三个模型如表4所示。

表3模型调参

表4模型展示

Figure RE-GDA0002618045430000102

Figure RE-GDA0002618045430000111

7)模型评估:使用五折交叉验证法对优化后的CNN预测模型进行评估,并使用如下公式计算(14)敏感性(Sn)、特异性(Sp)、准确率(Acc)、马修斯相关系数(MCC)四个评估系数对优化后的CNN预测模型的进行衡量,最终得到最优的CNN预测模型,将DNA序列输入最优的CNN预测模型中,即得到最终的DNA复制起点预测结果。最后将本申请的预测方法与现有的方法作了比较,对比结果如表5所示。从表5中的对比结果可知,本例的方法预测的准确率明显优于其他方法的准确率。

表5对比结果

Figure RE-GDA0002618045430000113

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:对免疫组库高通量测序样本间序列污染进行过滤的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!