一种基于序列频率信息识别dna增强子元件的方法

文档序号:193424 发布日期:2021-11-02 浏览:57次 >En<

阅读说明:本技术 一种基于序列频率信息识别dna增强子元件的方法 (Method for identifying DNA enhancer element based on sequence frequency information ) 是由 郭菲 吕一诺 何文颖 唐继军 曹晶 于 2021-08-09 设计创作,主要内容包括:本发明公开了一种基于序列频率信息识别DNA增强子元件的方法,所述方法基于支持向量机构建的双层DNA增强子元件预测模型,所述预测模型通过如下步骤生成:步骤(1):通过细胞系的染色质数据库信息构建DNA增强子序列数据集;步骤(2):通过PSTNP算法对DNA增强子序列数据集进行处理获得具有位置特异性的三核苷酸序列的DNA增强子信息;步骤(3):通过Kullback-Leibler散度算法对DNA增强子信息的三核苷酸序列信息进行优化;步骤(4):采用LASSO算法对DNA增强子信息的三核苷酸序列的特征数据进行降维处理;本发明解决了DNA增强子及其强度的预测问题,采用特征优化、特征筛选方法对提取的序列频率信息进行改进,明显提高了预测精度。(The invention discloses a method for identifying a DNA enhancer element based on sequence frequency information, which is a double-layer DNA enhancer element prediction model constructed based on a support vector machine, wherein the prediction model is generated by the following steps: step (1): constructing a DNA enhancer sequence data set from the chromatin database information of the cell line; step (2): processing the DNA enhancer sequence data set by a PSTNP algorithm to obtain DNA enhancer information of a trinucleotide sequence with position specificity; and (3): optimizing trinucleotide sequence information of DNA enhancer information by a Kullback-Leibler divergence algorithm; and (4): performing dimensionality reduction on the characteristic data of the trinucleotide sequence of the DNA enhancer information by adopting an LASSO algorithm; the invention solves the prediction problem of the DNA enhancer and the strength thereof, improves the extracted sequence frequency information by adopting the methods of feature optimization and feature screening, and obviously improves the prediction precision.)

一种基于序列频率信息识别DNA增强子元件的方法

技术领域

本发明属于生物信息学中的功能元件预测算法领域,尤其涉及一种基于序列频率信息识别DNA增强子元件的方法。

背景技术

转录是基因表达的第一步也是关键一步,受启动子和增强子等调控元件的控制。其中,增强子是DNA上的一段短序列(50-1500bp),具有募集转录因子及其复合物的能力,因此增加了某些基因转录发生的可能性。通过预测DNA序列中的增强子可以帮助生物领域研究人员寻找转录水平异常提高的原因,而不同强度的增强子使转录水平编程调控成为可能。因此,增强子的预测分类具有重要的现实意义。但是,由于增强子是顺式作用的,它们相对于靶基因的位置高度可变,这使增强子的识别和功能注释变得十分复杂。

发明内容

本发明的目的在于提供了一种能够准确高效的预测DNA增强子元件及其强度的方法,本发明使用的PSTNP算法能够很好地提取三核苷酸的位置特异性信息,并进一步使用Kullback-Leibler(KL)散度对PSTNP进行改进,更清楚地描述正样本与负样本之间的频率矩阵差异;然后,使用LASSO来减少特征的尺寸;最终构建出一个基于支持向量机的两层预测模型:第一层判断序列是否为增强子,第二层进一步预测识别出的增强子的强度水平,并且获得了很好的预测性能。

本发明的特点在于解决了DNA增强子元件的识别及其强度预测的问题,依次含有以下步骤:

一种基于序列频率信息识别DNA增强子元件的方法,所述方法基于支持向量机构建的双层DNA增强子元件预测模型,所述预测模型通过如下步骤生成:

步骤(1):通过细胞系的染色质数据库信息构建DNA增强子序列数据集;

步骤(2):通过PSTNP算法对DNA增强子序列数据集进行处理获得具有位置特异性的三核苷酸序列的DNA增强子信息;

步骤(3):通过Kullback-Leibler散度算法对DNA增强子信息的三核苷酸序列信息进行优化;

步骤(4):采用LASSO算法对DNA增强子信息的三核苷酸序列的特征数据进行降维处理。

进一步,所述步骤(2)中获取增强子序列具有位置特异性的三核苷酸组成信息采用如下步骤生成:

2.1、对于每一个200bp的序列样本S,有:

S=N1N2…Nl…N200

其中,Nl代表第l个位置的核苷酸,由A,C,G,T组成;

2.2、使用k-mer方法提取增强子序列的位置特异性信息,并取k=3;

2.3、通过如下公式计算增强子序列的三核苷酸位置特异性的正样本频率信息F+

其中,表示出现在序列中第200-k+1个位置的第4k个三核苷酸(3meri)的频率(正样本),而3meri表示AAA,AAC,…,TTT。

2.4、通过如下公式计算增强子序列的三核苷酸位置特异性的负样本频率信息F-

其中,表示出现在序列中第200-k+1个位置的第4k个三核苷酸(3meri)的频率(负样本),而3meri表示AAA,AAC,…,TTT。

进一步,所述步骤(3)中对DNA增强子信息的三核苷酸序列信息进行优化过程:

3.1、使用KL散度对序列信息进行优化的过程表示为:

其中,F+和F-分别表示由正负样本频率信息获得频率矩阵的分布情况;表示出现在序列中第200-k+1个位置的第4k个三核苷酸 (3meri)的正负样本频率差异度,而3meri表示AAA,AAC,…,TTT。

3.2、则最终每个序列样本S可以表示为:

S=[φ12,…,φw,…,φ200-k+1]T

其中,T是转置运算符,而φw定义如下:

其中,表示出现在序列中第w个位置的第4k个三核苷酸(3meri)的正负样本频率差异度,而3meri表示AAA,AAC,…,TTT。

有益效果

本发明利用序列频率信息进行DNA增强子元件识别及其强度预测;其中,三核苷酸可以很好地表达序列信息,使用PSTNP算法提取增强子序列的三核苷酸位置特异性信息的特征,并利用Kullback-Leibler(KL)散度对PSTNP进行改进,扩大了正样本与负样本之间的频率矩阵的离散分布差异。LASSO算法用以去除特征冗余,最大限度的保留有用的特征信息。最终,本方法构建了一个基于支持向量机的两层预测模型:第一层判断序列是否为增强子;第二层进一步预测识别出的增强子的强度水平,并且获得了很好的预测性能。本发明的预测准确率高于其他现有的模型,对DNA增强子元件的识别及其分类预测问题的研究有重要意义。

附图说明

图1.本发明的计算过程的流程图;

图2.六种特征提取方法在不同分类算法上的性能比较;

图3.改进PSTNP方法时采用的两种信息论算法的性能比较;

图4.五种特征选择算法的性能比较;

图5.LASSO算法进行数据降维时的维度选择;

图6.五种分类算法在降维后的特征上的性能比较;

图7与现有的三种增强子预测模型的性能比较。

具体实施方式

下面结合附图对本发明作出详细说明

本发明涉及的增强子是一段短DNA片段,在转录过程中可通过募集转录因子、形成转录复合体并结合在启动子位点上,起到调节转录水平的作用。通过预测 DNA序列中的增强子可以帮助生物领域研究人员寻找转录水平异常提高的原因,而不同强度的增强子使转录水平编程调控成为可能。目前对增强子的识别还主要依赖于生物实验,但实验方法往往费时费力;相比之下,使用机器学习方法来预测增强子则更加简便快捷。

该发明的基本思想是:提取增强子序列的位置特异性信息,并对特征进行优化改进,构建一个基于支持向量机的两层预测模型。第一层判断序列是否为增强子;第二层进一步预测识别出的增强子的强度水平。

该发明主要包含以下步骤:首先构建DNA增强子序列数据集,然后利用PSTNP 算法获取DNA增强子序列具有位置特异性的三核苷酸组成信息,通过 Kullback-Leibler(KL)散度对提取的序列信息进行优化,并采用LASSO算法对提取的序列特征进行数据降维。最后使用支持向量机算法构建预测模型,识别增强子及其强度水平。本发明整个计算过程的流程图如图1所示。利用这个双层预测模型,可以获得比其他现有模型更优的预测结果。具体过程为:

步骤(1):通过细胞系的染色质数据库信息构建DNA增强子序列数据集;所述细胞系的染色质数据库信息包括H1ES,K562,GM12878,HepG2,HUVEC,HSMM,NHLF, NHEK和HMEC等9个细胞系的染色质状态信息构建DNA增强子序列数据集;步骤(2):通过PSTNP算法获取DNA增强子序列具有位置特异性的三核苷酸组成信息;其中包括如下步骤:

2.1、对于每一个200bp的序列样本S,有:

S=N1N2…Nl…N200

其中,Nl代表第l个位置的核苷酸,由A,C,G,T组成;

2.2、使用k-mer方法提取增强子序列的位置特异性信息,并取k=3;

2.3、通过如下公式计算增强子序列的三核苷酸位置特异性的正样本频率信息F+

其中,表示出现在序列中第200-k+1个位置的第4k个三核苷酸(3meri)的频率(正样本),而3meri表示AAA,AAC,…,TTT。

2.4、通过如下公式计算增强子序列的三核苷酸位置特异性的负样本频率信息F-

其中,表示出现在序列中第200-k+1个位置的第4k个三核苷酸(3meri)的频率(负样本),而3meri表示AAA,AAC,…,TTT。

步骤(3):通过Kullback-Leibler(KL)散度对提取的序列信息进行优化;

所述使用Kullback-Leibler(KL)散度优化PSTNP算法的步骤如下:

3.1、使用KL散度对序列信息进行优化的过程表示为:

其中,F+和F-分别表示由正负样本集得到的频率矩阵的分布情况;

表示出现在序列中第200-k+1个位置的第4k个三核苷酸 (3meri)的正负样本频率差异度,而3meri表示AAA,AAC,…,TTT。

3.2、通过如下公式将每个序列样本S进行表示为:

S=[φ12,…,φw,…,φ200-k+1]T

其中,T是转置运算符,而φw定义如下:

其中,表示出现在序列中第w个位置的第4k个三核苷酸(3meri)的正负样本频率差异度,而3meri表示AAA,AAC,…,TTT。

步骤(4):采用LASSO算法对提取的序列特征进行数据降维;

按照上述计算方法,本发明所有预测实验都进行了5折交叉验证。首先,在提取序列信息时,尝试了PSTNP、PseEIIP、pseKNC等六种不同的特征提取方法,图2是它们在KNN、RandomForest、SVM、GBDT、XgBoost等几种不同分类算法上的性能比较结果。可以看出,PSTNP方法在所有模型上具有最佳的表现,总体准确率明显高于其他五种策略。因此,我们最终选择了PSTNP方法进行特征提取。之后,本发明在改进PSTNP算法时,采用了两种信息论方法,如图3 所示。可以发现,与原始PSTNP方法相比,使用KL散度处理后的特征的预测结果表现最好(Acc:82.28%),与其他策略相比具有明显的优势。本发明在进行特征选择时尝试了LASSO、Ridge、Elastic Net、MRMR、MRMD五种不同的方法。如图4、5所示,设计使用LASSO算法将数据降维至52维时,获得了最佳预测结果(Acc:84.23%)。

按最优解处理特征后,本发明又在5倍交叉验证的基础上,使用不同的分类算法进行预测,如图6所示。可以看出,SVM在MCC上表现最好(0.68),同时在Acc上也有极好的预测结果(84.23%)。

通过5倍交叉验证,比较了不同分类器解决增强子分类问题的性能。本发明与其他3种分类方法在同样的数据集上进行了比较,如图7所示。结果表明,本发明提出的iEnhancer-KL分类器表现明显优于其他模型。尤其是在第二层识别增强子强度水平时,Acc几乎高出30%。显然,该方法是极为有效且有意义的。

综上所述,本发明基于PSTNP提出了一种改进的特征提取算法,有效描述了增强子序列的三核苷酸位置特异性信息。随后,本发明还使用LASSO算法进行特征选择,去除数据冗余。最后,本发明利用一个支持向量机预测模型识别 DNA增强子序列及其强度水平,为解决增强子预测识别问题提供了一个有用的方法,计算过程简单且易于实现,具有广泛的可使用性。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种坡耕地垄沟布局对微生物影响机理的识别方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!