一种基于深度卷积神经网络的dna绑定残基预测方法

文档序号:1075098 发布日期:2020-10-16 浏览:7次 >En<

阅读说明:本技术 一种基于深度卷积神经网络的dna绑定残基预测方法 (DNA binding residue prediction method based on deep convolutional neural network ) 是由 胡俊 白岩松 樊学强 郑琳琳 张贵军 于 2020-06-12 设计创作,主要内容包括:一种基于深度卷积神经网络的DNA绑定残基预测方法,首先,根据输入的残基数为L待进行配体绑定残基预测的蛋白质序列信息,使用psi-blast程序和PSSpred程序获取矩阵PSSM和PSS;然后,将两个矩阵组合为一个特征矩阵F;其次,我们将蛋白质序列处理成残基样本;再次,搭建深度卷积神经网络,利用已知绑定残基的蛋白质序列构建数据集,并将数据集划分为M组数据子集,利用这十组数据子集训练出M个网络模型;最后,将待进行预测的蛋白质序列处理成残基样本,并输入到被训练过的M个网络模型中,综合这M个模型的预测结果,预测蛋白质序列中的残基是否为绑定残基。本发明计算代价小、预测精度高。(A DNA binding residue prediction method based on a deep convolutional neural network comprises the steps of firstly, obtaining matrixes PSSM and PSS by using a psi-blast program and a PSSpred program according to input protein sequence information with the residue number L to be subjected to ligand binding residue prediction; then, combining the two matrixes into a characteristic matrix F; secondly, we processed the protein sequence into residue samples; thirdly, building a deep convolutional neural network, building a data set by utilizing the protein sequence of the known binding residues, dividing the data set into M groups of data subsets, and training M network models by utilizing the ten groups of data subsets; and finally, processing the protein sequence to be predicted into residue samples, inputting the residue samples into the M trained network models, and predicting whether residues in the protein sequence are binding residues or not by integrating the prediction results of the M models. The method has the advantages of low calculation cost and high prediction precision.)

一种基于深度卷积神经网络的DNA绑定残基预测方法

技术领域

本发明涉及生物信息学、模式识别与计算机应用领域,具体而言涉及一种基于深度卷积神经网络的DNA绑定残基预测方法。

背景技术

蛋白质与配体相互作用在生命过程中是普遍存在且不可或缺的,这种相互作用在生物分子的识别和信号传递过程中起着非常重要的作用。其中DNA分子属于配体分子中的一类,准确识别蛋白质序列中DNA分子的绑定残基,有助于理解蛋白质功能、分析蛋白质与DNA分子之间的相互作用机制及设计药物靶蛋白,具有重要的生物学意义。

调研文献发现,许多用于预测蛋白质序列中DNA绑定残基的方法已被提出,如:DISPLAR(Tjong H,Zhou H.an accurate method for predicting DNA-binding sites onprotein surfaces[J].Nucleic Acids Research,2007,35(5):1465-1477.即:Tjong H等.一种准确预测蛋白质表面上的DNA绑定残基的方法[J].核酸研究,2007,35(5):1465-1477)、DELIA(Xia C,Pan X,Shen H,et al.Protein-ligand binding residueprediction enhancement through hybrid deep heterogeneous learning of sequenceand structure data[J].Bioinformatics,2020.即:Xia C等.通过对序列和结构数据的混合深度学习提高蛋白质配体绑定残基的预测性能[J].生物信息学,2020)、CNN(Zeng H,Edwards M D,Liu G,et al.Convolutional neural network architectures forpredicting DNA–protein binding[J].Bioinformatics,2016,32(12):121-127.即:ZengH等.基于卷积神经网络预测DNA蛋白质绑定残基[J].生物信息学,2016,32(12))、ENSEMBLE-CNN(Zhang Y,Qiao S,Ji S,et al.Predicting DNA Binding Sites inProtein Sequences by an Ensemble Deep Learning Method[C].internationalconference on intelligent computing,2018:301-306.即:Zhang Y等,通过集成深度学习方法预测蛋白质序列中的DNA结合位点[C].国际智能计算会议,2018:301-306)。尽管已有方法可以用于预测蛋白质序列中的DNA绑定残基,但是普遍使用了大量实验数据和机器学习算法,所以代价较大,同时由于训练集合中的噪音信息没有得到足够的关注,预测精度并不能保证是最优的,有待进一步提升。

综上所述,已有的DNA绑定残基的预测方法在计算代价、预测精度两个方面距离实际应用的要求还有很大差距,迫切地需要改进。

发明内容

为了克服已有的DNA绑定残基预测方法在计算代价、预测精度两个方面的不足,本发明提出一种计算代价小、预测精度高的基于深度卷积神经网络的DNA绑定残基预测方法。

本发明解决其技术问题所采用的技术方案是:

一种基于深度卷积神经网络的DNA绑定残基预测方法,所述方法包括以下步骤:

1)输入一个残基数为L的待进行DNA绑定残基预测的蛋白质序列S;

2)对蛋白质序列S,使用psi-blast(https://toolkit.tuebingen.mpg.de/tools/psiblast)程序搜索蛋白质序列数据库swissprot(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)生成一个大小为L×20的位置特异性评分矩阵,记作PSSM;

3)对蛋白质序列S,使用PSSpred(https://zhanglab.ccmb.med.umich.edu/PSSpred)程序搜索蛋白质序列数据库nr(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr)生成一个大小为L×3的蛋白质二级结构矩阵,记作PSS;

4)将步骤3)、4)中获得的二维矩阵组合为一个L×23的特征矩阵,记作F;

5)将F的前后加上8行0数据,从F的第9行开始,到F的第L-9行结束,将中间一行所对应的残基作为预测目标,前后相邻的8行数据作为该残基的特征矩阵,以残基为样本,蛋白质序列S的残基样本个数为L;

6)搭建深度卷积神经网络预测蛋白质序列S的DNA绑定残基,该网络共有八层,前七层为卷积层,最后一层为全连接层,每一个卷积层中又包含一个二维卷积层、一个归一化层和一个池化层,每一层的输出作为下一层的输入,全连接层使用sigmoid激活函数使卷积层的输出值在(0,1)范围内;

7)使用已知绑定残基的蛋白质序列经过步骤2)-5)生成残基样本,重复此方式构建训练集,将该训练集划分为M组训练子集,每一组训练子集中的残基正样本包含训练集中全部正样本,以正负样本比例1:2为每一组训练子集随机添加负样本;

8)使用7)中的十组训练子集训练6)中搭建的深度卷积神经网络,每一组训练都采用二分类交叉熵损失函数调整网络中的参数,共获取M个深度卷积神经网络模型,二分类交叉熵损失函数记作:

Figure BDA0002536258330000031

u表示蛋白质序列中待测残基的真实标签,表示网络模型的预测输出值,Y表征预测输出与真实标签的差距;

9)将蛋白质序列S生成的残基样本输入到8)中获取的M个模型中,每一个模型设定输出概率阈值为threshold,当输出的值中大于threshold的位置即为模型预测的绑定残基,S中每一个残基样本经过M个模型的预测,产生M个预测结果,该M个预测结果中多数预测情况即为最终的预测结果。

本发明的技术构思为:首先,根据输入残基数为L的待进行配体绑定残基预测的蛋白质序列信息,使用psi-blast程序和PSSpred程序获取矩阵PSSM和PSS;然后,将两个矩阵组合为一个特征矩阵F;其次,我们将蛋白质序列处理成残基样本;再次,搭建深度卷积神经网络,利用已知绑定残基的蛋白质序列构建数据集,并将数据集划分为十组数据子集,利用这十组数据子集训练出十个网络模型;最后,将待进行预测的蛋白质序列处理成残基样本,并输入到被训练过的十个网络模型中,综合这十个模型的预测结果,预测蛋白质序列中的残基是否为绑定残基。

本发明的有益效果表现在:一方面,从序列信息的特征矩阵出发,将蛋白质序列处理成残基样本,并搭建深度卷积网络模型,为提高预测的精度做好了准备;另一方面,构建十组数据子集用于训练出十个网络模型,综合这十个网络模型的预测结果,进一步提高了DNA绑定残基的预测效率与精确性。

附图说明

图1为一种基于深度卷积神经网络的DNA绑定残基预测方法的示意图。

图2为使用一种基于深度卷积神经网络的预测方法对蛋白质序列1X3C进行DNA绑定残基预测的结果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2,一种基于深度卷积神经网络的DNA绑定残基预测方法,包括以下步骤:

1)输入一个残基数为L的待进行DNA绑定残基预测的蛋白质序列S;

2)对蛋白质序列S,使用psi-blast(https://toolkit.tuebingen.mpg.de/tools/psiblast)程序搜索蛋白质序列数据库swissprot(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)生成一个大小为L×20的位置特异性评分矩阵,记作PSSM;

3)对蛋白质序列S,使用PSSpred(https://zhanglab.ccmb.med.umich.edu/PSSpred)程序搜索蛋白质序列数据库nr(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr)生成一个大小为L×3的蛋白质二级结构矩阵,记作PSS;

4)将步骤3)、4)中获得的二维矩阵组合为一个L×23的特征矩阵,记作F;

5)将F的前后加上8行0数据,从F的第9行开始,到F的第L-9行结束,将中间一行所对应的残基作为预测目标,前后相邻的8行数据作为该残基的特征矩阵,以残基为样本,蛋白质序列S的残基样本为L;

6)搭建深度卷积神经网络预测蛋白质序列S的DNA绑定残基,该网络共有八层,前七层为卷积层,最后一层为全连接层,每一个卷积层中又包含一个二维卷积层、一个归一化层和一个池化层,每一层的输出作为下一层的输入,全连接层使用sigmoid激活函数使卷积层的输出值在(0,1)范围内;

7)使用已知绑定残基的蛋白质序列经过步骤2)-5)生成残基样本,重复此方式构建训练集,将该训练集划分为M(M取10)组训练子集,每一组训练子集中的残基正样本包含训练集中全部正样本,以正负样本比例1:2为每一组训练子集随机添加负样本;

8)使用7)中的十组训练子集训练6)中搭建的深度卷积神经网络,每一组训练都采用二分类交叉熵损失函数调整网络中的参数,共获取M个深度卷积神经网络模型,二分类交叉熵损失函数记作:

u表示蛋白质序列中待测残基的真实标签,

Figure BDA0002536258330000042

表示网络模型的预测输出值,Y表征预测输出与真实标签的差距;

9)将蛋白质序列S生成的残基样本输入到8)中获取的M个模型中,每一个模型设定输出概率阈值为threshold,当输出的值中大于threshold的位置即为模型预测的绑定残基,S中每一个残基样本经过M个模型的预测,产生M个预测结果,该M个预测结果中多数预测情况即为最终的预测结果。

本实施例以蛋白质序列1X3C的DNA绑定残基预测为实施例,一种基于深度卷积神经网络的DNA绑定残基预测方法,包括以下步骤:

1)输入一个残基数为73的待进行DNA绑定残基预测的蛋白质1X3C,记作S;

2)对蛋白质序列S,使用psi-blast(https://toolkit.tuebingen.mpg.de/tools/psiblast)程序搜索蛋白质序列数据库swissprot(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/)生成一个大小为73×20的位置特异性评分矩阵,记作PSSM;

3)对蛋白质序列S,使用PSSpred(https://zhanglab.ccmb.med.umich.edu/PSSpred)程序搜索蛋白质序列数据库nr(https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr)生成一个大小为73×3的蛋白质二级结构矩阵,记作PSS;

4)将步骤3)、4)中获得的二维矩阵组合为一个73×23的特征矩阵,记作F;

5)将F的前后加上8行0数据,从F的第9行开始,到F的第64行结束,将中间一行所对应的残基作为预测目标,前后相邻的8行数据作为该残基的特征矩阵,以残基为样本,蛋白质序列S的残基样本为73;

6)搭建深度卷积神经网络预测蛋白质序列S的DNA绑定残基,该网络共有八层,前七层为卷积层,最后一层为全连接层,每一个卷积层中又包含一个二维卷积层、一个归一化层和一个池化层,每一层的输出作为下一层的输入,全连接层使用sigmoid激活函数使卷积层的输出值在(0,1)范围内;

7)使用已知绑定残基的蛋白质序列经过步骤2)-5)生成残基样本,重复此方式构建训练集,将该训练集划分为十组训练子集,每一组训练子集中的残基正样本包含训练集中全部正样本,以正负样本比例1:2为每一组训练子集随机添加负样本;

8)使用7)中的十组训练子集训练6)中搭建的深度卷积神经网络,每一组训练都采用二分类交叉熵损失函数调整网络中的参数,共获取十个深度卷积神经网络模型,二分类交叉熵损失函数记作:

Figure BDA0002536258330000051

u表示蛋白质序列中待测残基的真实标签,

Figure BDA0002536258330000052

表示网络模型的预测输出值,Y表征预测输出与真实标签的差距;

9)将蛋白质序列S生成的残基样本输入到8)中获取的十个模型中,每一个模型设定输出概率阈值为threshold,当输出的值中大于threshold的位置即为模型预测的绑定残基,S中每一个残基样本经过十个模型的预测,产生十个预测结果,该十个预测结果中多数预测情况即为最终的预测结果。

以上说明是本发明以蛋白质序列1X3C的DNA绑定残基预测为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种结肠腺癌基因组变异与肿瘤进化关系的研究方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!