基于深层神经网络的脑脊液蛋白质的预测方法

文档序号:1536704 发布日期:2020-02-14 浏览:34次 >En<

阅读说明:本技术 基于深层神经网络的脑脊液蛋白质的预测方法 (Deep neural network-based cerebrospinal fluid protein prediction method ) 是由 邵丹 王岩 黄岚 何凯 崔薛腾 张双全 于 2019-11-06 设计创作,主要内容包括:基于深度神经网络的脑脊液蛋白质的预测方法属于人工智能与大数据技术领域。本发明将现有文献和数据库的脑脊液中已经被生物实验验证的蛋白质列表作为模型训练的正样本;在Pfam蛋白质家族信息数据库中删除正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过10个的蛋白质家族,从这些蛋白质家族中随机选取10个蛋白质信息作为模型训练的负样本。将正样本和负样本数据分成训练集、验证集和测试集。对蛋白质特征进行特征选择,搭建模型,用训练集训练模型,验证集进行调参,测试集进行性能评价。输入为蛋白特征,输出为预测结果。提高了脑脊液预测的准确率,最终实现脑脊液蛋白的预测。(A deep neural network-based cerebrospinal fluid protein prediction method belongs to the technical field of artificial intelligence and big data. The invention takes a protein list which is verified by biological experiments in cerebrospinal fluid of the existing literature and database as a positive sample of model training; deleting the protein family information corresponding to the positive sample from the Pfam protein family information database, searching the protein families with more than 10 proteins in the families from the rest protein family information database, and randomly selecting 10 protein information from the protein families as the negative sample of model training. The positive and negative sample data are divided into a training set, a validation set, and a test set. And (3) carrying out feature selection on the protein features, building a model, training the model by using a training set, carrying out parameter adjustment by using a verification set, and carrying out performance evaluation by using a test set. The input is protein characteristics, and the output is a prediction result. The accuracy of cerebrospinal fluid prediction is improved, and the prediction of cerebrospinal fluid protein is finally realized.)

基于深层神经网络的脑脊液蛋白质的预测方法

技术领域

本发明属于大数据、人工智能技术领域,特别是涉及到一种基于深层神经网络的脑脊液蛋白质的预测方法。

背景技术

脑脊液是由脑室内脉络丛产生的一种无色透明的液体,它循环流动于脑和脊髓表面,经脑内静脉系统与体循环相关联。主要功能是①保护大脑和脊髓免受外界震荡损伤;②调节颅内压力变化;③供给大脑、脊髓营养物质并运走代谢产物;④调节神经系统碱储量,维持正常PH值等。

当脑组织或脊髓发生病变和外伤时,脑脊液也会发生各种改变。通过对脑脊液中的蛋白预测,找到疾病相关蛋白进行病理分析,能够促进疾病的早期诊断,如神经退行性疾病,多发性硬化症和创伤性脑损伤等。但是目前,公知的关于可计算的方法预测脑脊液蛋白质仍为空白。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是:提供一种基于深层神经网络的脑脊液蛋白质的预测方法用于解决目前公知的关于可计算的方法预测脑脊液蛋白质仍为空白的技术问题。

基于深层神经网络的脑脊液蛋白质的预测方法,包括以下步骤,并且以下面步骤顺次进行,

步骤一、将脑脊液中已经被生物实验验证的蛋白质作为模型训练的正样本并存储正样本的蛋白质信息数据;

步骤二、在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过10个的蛋白质家族,从这些蛋白质家族中随机选取10个蛋白质信息作为模型训练的负样本并存储负样本的蛋白质信息数据;

步骤三、将正样本和负样本信息数据均按照80%训练集、10%验证集、10%测试集进行分割;

步骤四、将蛋白质特征进行分类,初步获得蛋白质特征向量;

步骤五、用t检验方法过滤步骤四中初步获得的蛋白质特征向量,过滤后的蛋白质特征向量用支持向量机联合特征去除算法(SVM-RFE)进行特征选择,获得模型拟合训练用的蛋白质特征向量;

步骤六、通过深层神经网络建立分类器模型,所述分类器模型的输入为步骤五中获得的特征向量,分类器模型的输出为是入脑脊髓蛋白质或非入脑脊髓蛋白质;

步骤七、用训练集采用线性整流函数ReLU激活函数和交叉熵的损失函数拟合分类器模型,获得训练后的分类器模型;

步骤八、对分类器模型进行评估

将验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特征向量输入步骤七训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthewscorrelation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve),作为评价模型验证效果的评估指标,

获得的AUC小于90%,重复步骤七重新拟合训练分类器模型直至AUC达到90%以上;

步骤九、用测试集对步骤八中验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重复步骤七和步骤八直至分类准确性达到90%以上,分类器模型建立完成;

步骤十、向步骤九中建立完成的分类器模型中输入预测蛋白质的特征向量,通过输出的预测结果实现基于深层神经网络的脑脊液蛋白质的预测。

所述步骤四中蛋白质特征按照4个大类进行分类,分别为:1)序列性质,2)结构性质,3)域和基序性质,4)物理化学性质。

所述步骤五中t检验方法中采用显著水平阈值p-value<=0.005。

所述步骤五中支持向量机联合特征去除算法(SVM-RFE)的选择判断函数DJ(i)定义如下:

Figure BDA0002261750080000031

yi是样本xi的标签,yj是样本xj的标签,K(xi,xj)是测试xi和xj相似度的核函数,α是通过SVM训练后得到的值,T代表矩阵的转置,H代表矩阵。

所述步骤六中深层神经网络定义如下:

Y=W·X+b

其中Y表示隐含层的输出,X表示隐含层的输入值,W表示隐含层和上一层输出之间的连接权重,b表示全连接层的偏置项。

所述步骤六中的深度神经网络的结构包括输入层、隐含层和输出层;所述隐含层共有4层,隐含层的神经元数量均为500个,隐含层使用的激活函数为ReLU;所述输出层的神经元数量为1,输出层使用的激活函数为Sigmoid。

所述激活函数ReLU和Sigmoid的定义分别如下:

ReLU(z)=max(0,z)

Figure BDA0002261750080000032

其中z为神经元的权重和,max为最大值函数,e为自然常数。

所述深度神经网络的结构定义如下:

Output=Out(Hidden(Hidden(Hidden(Hidden(X)))))

其中Hidden表示隐含层,Out表示输出层。

所述交叉熵的损失函数为二分类交叉熵(binary cross entropy),其定义如下:

其中yi表示第i个样本的真实类别,

Figure BDA0002261750080000041

表示第i个样本的预测类别,log为对数函数,m为样本的个数。

所述步骤八中敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:

Figure BDA0002261750080000042

Figure BDA0002261750080000043

Figure BDA0002261750080000044

Figure BDA0002261750080000045

其中TP表示真阳性样本数量,TN表示真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量,N表示所有训练样本数量。

通过上述设计方案,本发明可以带来如下有益效果:

本发明将现有文献和数据库的脑脊液中已经被生物实验验证的蛋白质列表作为模型训练的正样本;在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过10个的蛋白质家族,从这些蛋白质家族中随机选取10个蛋白质信息作为模型训练的负样本。利用t检验和SVM-RFE的方法对蛋白质特征进行特征选择,去掉噪音和无关的特征。搭建基于深层神经网络的模型,输入为蛋白特征,输出为预测结果,训练集训练模型,验证集进行调参,测试集进行性能评价,提高了脑脊液预测的准确率,最终通过可计算的方法实现脑脊液中的蛋白质预测。

具体实施方式

基于深层神经网络的脑脊液蛋白质的预测方法,包括以下步骤:

1.数据集的建立

(1)正样本数据集收集

通过查找生物学相关文献和现有数据库获取将脑脊液中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。

(2)负样本数据集收集

在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息,在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过10个的蛋白质家族,从这些蛋白质家族中随机选取10个蛋白质信息作为模型训练的负样本。

(3)模型训练数据集分割

将所有正样本和负样本的样本数据均按照80%训练集、10%验证集、10%测试集进行分割。

2.蛋白质特征选择

(1)特征收集

将蛋白质特征按照4个大类进行分类,可以得到接近3000个特征向量。如表1:

表1蛋白特征分类

Figure BDA0002261750080000051

Figure BDA0002261750080000061

Figure BDA0002261750080000071

(2)特征选择

首先用t检验方法过滤这些特征元素,去掉无关特征,采用显著水平阈值p-value<=0.005;然后用支持向量机联合特征去除算法(SVM-RFE)进行特征选择,得到模型训练用的特征向量。判断函数DJ(i)定义如下:

Figure BDA0002261750080000072

其中,yi是样本xi的标签,yj是样本xj的标签,K(xi,xj)是测试xi和xj相似度的核函数,α是通过SVM训练后得到的值,T代表矩阵的转置,H代表矩阵。

3.基于深层神经网络分类器的训练

(1)神经网络模型拟合训练

通过深层神经网络建立分类器模型,用训练集训练模型,验证集进行调参,测试集进行性能评价。

所述深层神经网络由输入层、隐含层和输出层组成,其中输入层仅仅表示对数据的输出,隐含层的定义如下:

Y=W·X+b

其中Y表示隐含层的输出,X表示隐含层的输入值,W表示隐含层和上一层输出之间的连接权重,b表示全连接层的偏置项。

隐含层共有4层,隐含层的神经元数量均为500个,激活函数为ReLU;输出层的神经元数量为1,激活函数为Sigmoid。

激活函数ReLU和Sigmoid的定义分别如下

ReLU(z)=max(0,z)

Figure BDA0002261750080000073

其中z为神经元的权重和,max为最大值函数,e为自然常数。

训练深度神经网络所采用的损失函数为二分类交叉熵(binary cross entropy),定义如下:

Figure BDA0002261750080000081

其中yi表示第i个样本的真实类别,

Figure BDA0002261750080000083

表示第i个样本的预测类别,log为对数函数,m为样本的个数。

深度神经网络的结构定义如下:

Output=Out(Hidden(Hidden(Hidden(Hidden(X)))))

其中Hidden表示隐含层,Out表示输出层。

4.模型性能评估

将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证,输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve),作为评价模型验证效果的指标,获得的AUC小于90%,重新拟合训练分类器模型直至AUC达到90%以上。

其中,敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为:

Figure BDA0002261750080000084

Figure BDA0002261750080000086

Figure BDA0002261750080000091

Figure BDA0002261750080000092

其中,TP表示真阳性样本数量,TN标识真阴性样本数量,FP表示假阳性样本数量,FN表示假阴性样本数量,N表示所有训练样本数量。

最后,用测试集对验证后的分类器模型进行分类准确性验证,分类准确性小于90%,重新进行分类器拟合训练和模型验证,直至分类准确性达到90%以上,基于深层神经网络的脑脊液蛋白质的预测模型建立完成。

模型输入为蛋白特征向量,输出为预测结果。提高了脑脊液预测的准确率,最终实现脑脊液蛋白的预测。通过可计算的方法实现脑脊液中的蛋白质预测,并通过预测的蛋白质,找到与疾病相关的蛋白。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基因数据的查询方法、系统、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!