一种基于图神经网络的乳酸菌抗菌肽预测方法

文档序号:170922 发布日期:2021-10-29 浏览:35次 >En<

阅读说明:本技术 一种基于图神经网络的乳酸菌抗菌肽预测方法 (Lactic acid bacteria antibacterial peptide prediction method based on graph neural network ) 是由 董改芳 孙志宏 翟冰 左永春 刘江平 扎木苏 于 2021-09-14 设计创作,主要内容包括:本发明公开了一种基于图神经网络的乳酸菌抗菌肽预测方法,通过搜索已知乳酸菌抗菌肽建立正样本,通过从蛋白质数据库中收集长度5-255的序列建立负样本,去冗余序列与相似;依据正负样本进行特征提取得到特征向量及初始输入图,在此基础上建立图神经网络模型;通过对图神经网络模型进行训练、评估与循环优化,确定图神经网络最佳层数、最佳训练轮数和学习率等参数;最后,依据图神经网络模型对疑似具有抗菌活性的菌株数据进行预测。本发明采用上述乳酸菌抗菌肽预测方法,以计算机模型预测代替实验室湿实验筛选,缩短乳酸菌抗菌肽类蛋白质序列的判断时长,实现准确高效批量识别,为具有抗菌特性的乳酸菌菌株筛选提供了有效替代方法。(The invention discloses a lactic acid bacteria antibacterial peptide prediction method based on a graph neural network, which comprises the steps of searching known lactic acid bacteria antibacterial peptide to establish a positive sample, collecting a sequence with the length of 5-255 from a protein database to establish a negative sample, and removing redundant sequences and similarity; extracting features according to the positive and negative samples to obtain feature vectors and an initial input graph, and establishing a graph neural network model on the basis; parameters such as the optimal number of layers, the optimal training rounds, the learning rate and the like of the graph neural network are determined by training, evaluating and circularly optimizing the graph neural network model; and finally, predicting the suspected bacterial strain data with the antibacterial activity according to the graph neural network model. According to the invention, the prediction method of the lactobacillus antibacterial peptide is adopted, and the computer model prediction is used for replacing the laboratory wet experiment screening, so that the judgment time of the lactobacillus antibacterial peptide protein sequence is shortened, the accurate and efficient batch recognition is realized, and an effective replacement method is provided for the screening of lactobacillus strains with antibacterial characteristics.)

一种基于图神经网络的乳酸菌抗菌肽预测方法

技术领域

本发明涉及生物抗菌肽的识别领域,尤其是涉及一种基于图神经网络的乳酸菌抗菌肽预测方法。

背景技术

在现有生物抗菌肽的识别技术中,主要采用如下两种技术:

一、采用琼脂孔穴扩散法抑菌实验,耗时长,且不能高通量识别;二、采用机器学习技术或者深度学习中的长短期记忆和卷积神经网络技术进行识别,虽可以一次处理多个氨基酸序列,但是只能捕获抗菌肽序列局部语义信息,不容易从整体结构角度把握抗菌肽的特征信息,所以识别的准确率等指标有待提升。

发明内容

为解决上述问题,实现抗菌肽准确识别和高通量识别,本发明提供了如下技术方案:

一种基于图神经网络的乳酸菌抗菌肽预测方法,包括如下步骤:

S1、数据采集,建立正样本和负样本,正样本为已知国际上20多个抗菌肽数据库中分离的乳酸菌抗菌肽序列集合,负样本为国际上蛋白质数据库(如Uniprot)中满足长度5-255且相似性低于80%的不重复蛋白质序列集合,依据正样本和负样本建立样本集;

S2、数据预处理,对肽序列进行分词处理,根据分词和肽序列本身建立两类结点,根据词共现关系、词与序列的所属关系建立边,结点、边共同构成神经网络的初始输入图;使用词嵌入技术建立分词的特征向量,特征向量作为图神经网络的输入特征向量;

S3、图神经网络模型的构建,计算初始输入图的邻接矩阵,依据邻接矩阵、输入特征向量构建多层图卷积神经网络;

S4、图神经网络模型的训练,通过交叉熵损失函数计算损失,根据损失值结合优化函数调整图神经网络模型的各层权重矩阵,利用调整后的权重矩阵重新计算损失,重复这个过程,直到损失值达到最小;

S5、图神经网络模型的评估与调优,依据评估指标对图神经网络模型进行评估,根据各个评估指标调整图神经网络模型的模型层数、训练轮数及学习率参数,重复训练模型,直到找到达到图神经网络模型的最高准确率、以及相对较优的其它评估指标的最佳参数组合;

S6、菌株识别,采用上述模型批量对疑似乳酸菌菌株进行蛋白质测序,然后进行是否具有抗菌活性的筛选识别。

优选的,所述步骤S2中词嵌入技术包括但不限于Bert、FastText、ELMo。

优选的,所述步骤S4中评估指标包括但不限于敏感性、特异性、准确率、马修相关系数。

优选的,所述步骤S5的具体过程如下:

S51、固定模型层数到2,学习率到0.001,将模型训练轮数从50到500间,以步长为10依次变化,绘制评估指标变化曲线,找到此次最好的模型训练轮数;

S52、固定模型层数到2,学习率在0.0001到0.01之间,以步长为0.0001依次变化,并且将模型训练轮数从50到500间,以步长为10依次变化,绘制评估指标变化曲线,找到每次最好的模型训练轮数;

S53、将模型层数从3到6逐渐变化,重复如上过程;

S54、通过总结如上三个步骤的结果找到最佳模型层数、最佳训练轮数和学习率。

本发明采用上述预测方法,图神经网络技术将抗菌肽序列的氨基酸保守结构表达为图上结点,将保守结构之间的共现关系表达为图中的边,巧妙的将抗菌肽的识别问题转化为图上结点的分类问题。由于图结构是一个整体结构,该结构可以从整体角度捕获挖掘抗菌肽序列的特征信息,从而实现图中结点的精确分类。与现有技术相比,识别准确率指标得到很大提升,且实现了批量识别。

附图说明

图1为本发明实施例的流程示意图;

图2为本发明实施例中数据采集的执行过程;

图3为本发明实施例中正样本的部分数据。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

如图所示的一种基于图神经网络的乳酸菌抗菌肽预测方法,主要分为数据采集、模型建立、模型调优、模型预测四方面。

具体地,可以细分为如下几个步骤:

S1、数据采集,建立正样本和负样本

正样本为调研所得的综合和专题抗菌肽数据库中分离的乳酸菌抗菌肽序列集合,负样本为满足5-255长度要求的蛋白质序列集合,依据正样本和负样本建立样本集。

如图2所示,在APD3、ADAM、DRAMP等抗菌肽数据库分离出乳酸菌抗菌肽,建立正样本;在PDB、UniProt等公开数据库分离5-255序列长度的蛋白质序列,建立负样本。正样本与负样本均需要使用CD-HIT、CD-HIT-2D软件删去冗余序列和相似性大于80%的序列,然后将二者合并入样本集。模型采用10折交叉验证方法进行评估。

S2、数据预处理

统计分析乳酸菌抗菌肽数据序列长度范围、各氨基酸占比分布,研究各种自然语言处理中文分词技术,可以采用多序列比对、单氨基酸、二肽等方法确定氨基酸保守结构组合,综合以上信息确定分词方案。

使用Bert、FastText、ELMo等词嵌入技术对词进行向量化处理,形成词的特征向量,特征向量作为图神经网络的输入特征向量。根据肽序列的词和肽序列本身建立结点,根据词的共现关系、词与序列的所属关系建立边,结点、边共同构成神经网络的初始输入图。

此处的词是依据一个蛋白质序列中的可能保守结构域构建的。自然界中存在20种氨基酸(详见氨基酸单字母缩写表),多个氨基酸形成一条肽链,一条或者多条肽链可以形成一个蛋白质。可以以单个氨基酸构成一个词,也可以两个氨基酸一组组成一个词,还可以根据抗菌肽序列结构中可能的保守序列构成词,词和序列本身作为图神经网络的结点,并且建立结点间关系,从而可以采用图神经网络模型进行识别处理。

S3、图神经网络模型的构建

计算初始输入图的邻接矩阵,依据邻接矩阵、特征向量构建多层图卷积神经网络。

可以根据公式(1)构建多层图卷积神经网络。

Z(A,X)=softmax(A'…(ReLU(A'XW0))…Wn) (1)

其中,A为邻接矩阵,X为特征向量,ReLU为激活函数,W0、Wn为权重矩阵,权重矩阵的个数依据图卷积神经网络的层数确定。

A′是A经过拉普拉斯变换(2)而得。

D为图的度矩阵,I为单位矩阵,D的计算公式如(3)所示。

S4、图神经网络模型的训练

通过交叉熵损失函数计算损失值,根据损失值通过Adam优化器调整权重矩阵W1到Wn,利用调整后的权重矩阵重新计算损失值,重复这个过程,直到损失值达到最小。

S5、图神经网络模型的评估与调优

(1)评估

依据评估指标对神经网络模型进行评估,验证图神经网络模型的准确率。评估指标包括敏感性、特异性、准确率、马修相关系数。

本方案依据四个指标进行评估。

敏感性(Sensitivity,SN)表示所有抗菌肽被正确预测的比例;特异性(Specificity,SP)表示所有非抗菌肽被正确预测的比例;准确率(Accuracy,ACC)表示所有样本被正确预测的比例。因这个指标被认为是评价指标中最重要的指标,所以它可以被认为是模型表现预测模型效果的指标;马修相关系数(Mathew's Correlation Coefficient,MCC)来评估分类性能,它是利用统计方法衡量预测结果与真实结果间的相关性。

真阳性(True Positive,TP)表示抗菌肽被预测为抗菌肽的个数;真阴性(TrueNegative,TN)表示非抗菌肽被预测为非抗菌肽的个数;假阳性(False Positive,FP)表示抗菌肽被预测为非抗菌肽的个数;假阴性(False Negative,FN)表示非抗菌肽被预测为抗菌肽的个数。

(2)调优

通过如下步骤,对模型层数、轮数Epoches、学习率Learning Rate等参数进行调优。

S51、根据深度学习模型构建经验,固定模型层数到2,学习率到0.001,将模型训练轮数从50到500间,以步长为10依次变化,绘制评估指标变化曲线,找到此次最好的模型训练轮数;

S52、固定模型层数到2,学习率在0.0001到0.01之间,以步长为0.0001依次变化,并且将模型训练轮数从50到500间,以步长为10依次变化,绘制评估指标变化曲线,找到每次最好的模型训练轮数;

S53、将模型层数从3到6逐渐变化,重复如上过程;

S54、通过总结如上三个步骤的结果找到最佳模型层数、最佳训练轮数和学习率。

S6、菌株识别

采用上述模型对蛋白质测序后的疑似具有抗菌活性的乳酸菌株序列进行筛选识别。当然,上述模型也可以通过APP、客户端、H5小程序、Web等多种形式加载入智能设备中,以方便随时对非确定菌株的筛选识别。

以上是本发明的具体实施方式,但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内,因此本发明的保护范围应以权利要求书所限定的保护范围为准。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于骨干粒子群算法的基因数据特征选择方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!