一种分泌入支气管肺泡灌洗液蛋白质预测方法

文档序号：1244128 发布日期：2020-08-18 浏览：34次 >En<

阅读说明：本技术 一种分泌入支气管肺泡灌洗液蛋白质预测方法 (Prediction method of protein secreted into bronchoalveolar lavage fluid ) 是由邵丹黄岚王岩何凯于 2020-04-26 设计创作，主要内容包括：一种分泌入支气管肺泡灌洗液蛋白质预测方法,属于人工智能检测技术领域,将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本,以蛋白质序列作为模型输入,利用RNN和LSTM构建运算模型,对入支气管肺泡灌洗液蛋白进行预测。本发明通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测,并通过预测的蛋白质,找到疾病相关蛋白进行病理分析,促进疾病的早期诊断。(A method for predicting proteins secreted into bronchoalveolar lavage fluid belongs to the technical field of artificial intelligence detection, and comprises the steps of taking a protein list which is verified by biological experiments in bronchoalveolar lavage fluid of existing documents and databases as a sample for model training, taking a protein sequence as model input, and constructing an operation model by utilizing RNN and LSTM to predict the proteins entering the bronchoalveolar lavage fluid. The invention realizes the protein prediction in the bronchoalveolar lavage fluid by a calculable method, finds the disease-related protein for pathological analysis by the predicted protein, and promotes the early diagnosis of the disease.)

技术领域

本发明属于人工智能检测技术领域，特别是涉及到一种分泌入支气管肺泡灌洗液蛋白质预测方法。

背景技术

支气管肺泡灌洗液是应用纤维支气管镜对支气管以下肺段和亚肺段进行灌洗后，采集肺泡表面衬液来获得。临床用于诊断多种肺部疾病，如肺泡炎、肺纤维化、石棉肺、肺癌、肺囊虫病、肺泡蛋白沉积症等的临床诊断、鉴别诊断以及研究肺部疾病的病因、发病机制、评价疗效和预后等。

通过对支气管肺泡灌洗液中蛋白质标志物进行分析，达到肺部疾病进行早期诊断。但是目前，公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是：提供一种分泌入支气管肺泡灌洗液蛋白质预测方法，解决了目前公知的关于可计算的方法预测支气管肺泡灌洗液蛋白质仍为空白的技术问题。

一种分泌入支气管肺泡灌洗液蛋白质预测方法，其特征是：包括以下步骤，且以下步骤顺次进行，

步骤一、将支气管肺泡灌洗液中被生物实验验证的蛋白质作为模型训练的正样本，并存储正样本蛋白质信息数据；

步骤二、在Pfam蛋白质家族信息数据库中删除所述步骤一的正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中提取家族中蛋白质数量超过5个的蛋白质家族，选取其中5个蛋白质信息作为模型训练负样本，并存储负样本的蛋白质信息数据；

步骤三、采用随机欠采样方法，对正样本和负样本数量进行均衡，获得均衡的正负样本；

步骤四、将正样本和负样本的蛋白质信息数据按照80％训练集、10％验证集、10％测试集随机进行分割；

步骤五、利用位置相关的迭代BLAST计算样本中蛋白的序列位置特异权重矩阵PSSM；

步骤六、通过卷积神经网络RNN结合长短期记忆LSTM建立分类器模型，所述分类器模型的输入为所述步骤五中获得的特异权重矩阵PSSM，分类器模型的输出为入脑脊髓蛋白质或非入脑脊髓蛋白质；

步骤七、所述步骤四中的训练集采用激活函数和交叉熵的损失函数拟合分类器模型，获得训练后的分类器模型；

步骤八、将所述步骤四验证集中正样本和负样本的蛋白质信息以及步骤五中获得的特异权重矩阵PSSM输入步骤六训练后的分类器模型进行验证，获得验证后的分类器模型；输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC，作为评价模型验证效果的评估指标；

步骤九、采用所述步骤四中的测试集对所述步骤八中验证后的分类器模型进行分类准确性验证，分类准确性小于90％，重复所述步骤六和步骤七至分类准确性达到90％以上，分类器模型建立完成；

步骤十、向所述步骤九中建立完成的分类器模型中输入独立的验证集蛋白序列，通过输出的预测结果实现分泌入支气管肺泡灌洗液蛋白质预测方法。

所述步骤六中的卷积神经网络RNN与长短期记忆LSTM结合建立分类器模型的方法为，

其中Y_(t)为t时刻当前层的输出值，φ为激活函数，X_(t)为当前层的输出值，W_x为当前输入值的权重，Y_(t-1)为上一时刻当前层的输出，W_y为上一时刻输出值的权重，b为当前层的偏置项，W为由W_x和W_y合并组成的矩阵；

长短期记忆LSTM采用双向长短期记忆LSTM。

所述步骤七中激活函数包括Tanh和Sigmoid，其模型分别为，

其中z为神经元的权重和，e为自然常数；

所述步骤七中的交叉熵的损失函数模型L为，

其中y_i表示第i个样本的真实类别，表示第i个样本的预测类别，log为对数函数，m为样本的个数。

所述步骤八验证后的分类器模型输出的验证结果采用敏感性Sensitivity、特异性Specificity、查准率accuracy、准确率Precision、马修斯相关性系数MCC及ROC曲线下面的面积AUC，作为评价模型验证效果的评估指标。

所述分类器模型输出的验证结果中

敏感性Sensitivity的模型为，

特异性Specificity的模型为，

准确率Precision的模型为，

查准率accuracy的模型为，

马修斯相关性系数MCC的模型为，

其中，TP为真阳性样本数量，TN为真阴性样本数量，FP为假阳性样本数量，FN为假阴性样本数量，N为所有训练样本数量。

通过上述设计方案，本发明可以带来如下有益效果：一种分泌入支气管肺泡灌洗液蛋白质预测方法，将现有文献和数据库的支气管肺泡灌洗液中已经被生物实验验证的蛋白质列表作为模型训练的样本，以蛋白质序列作为模型输入，利用RNN和LSTM构建运算模型，对入支气管肺泡灌洗液蛋白进行预测。通过可计算的方法实现支气管肺泡灌洗液中的蛋白质预测，并通过预测的蛋白质，找到疾病相关蛋白进行病理分析，促进疾病的早期诊断。

具体实施方式

以下结合具体实施方式对本发明作进一步的说明，一种分泌入支气管肺泡灌洗液蛋白质预测方法，包括以下步骤，

1.数据集的建立

(1)正样本数据集收集

通过查找生物学相关文献和现有数据库获取将支气管肺泡灌洗液中已经被生物实验验证的蛋白质信息作为模型训练的正样本录入计算机。

(2)负样本数据集收集

在Pfam蛋白质家族信息数据库中删除步骤一的正样本对应的蛋白质家族信息，在剩余的蛋白质家族信息数据库中查找家族中蛋白质数量超过5个的蛋白质家族，从这些蛋白质家族中随机选取5个蛋白质信息作为模型训练的负样本。

(3)模型训练数据集分割

将所有正样本和负样本的样本数据均按照80％训练集、10％验证集、10％测试集进行分割。

2.正负样本均衡

考虑到正负样本存在数量上的差异导致预测结果不准确的问题，拟采用随机欠采样(RU)方法，对正负样本的数量进行均衡，对样本数量过多的集合进行删除，得到均衡的正负样本。

3.计算蛋白序列的PSSM

利用位置相关的迭代BLAST(PSI-BLAST)计算样本中蛋白的序列位置特异权重矩阵(PSSM)，作为模型运算的输入。

4.基于卷积神经网络结合长短期记忆建立分类器模型

(1)神经网络模型拟合训练

所述卷积神经网络由输入层、卷积层加LSTM层和输出层组成，其中输入层仅仅表示对数据的输出，卷积层的定义如下：

其中Y_(t)代表t时刻当前层的输出值，φ为激活函数，X_(t)代表当前层的输出值，W_x代表当前输入值的权重，Y_(t-1)代表上一时刻当前层的输出，W_y代表上一时刻输出值的权重，b代表当前层的偏置项，W代表由W_x和W_y合并组成的矩阵。

LSTM采用双向LSTM。

激活函数Tanh和Sigmoid的定义分别如下

其中z为神经元的权重和，e为自然常数。

模型输出为二分类交叉熵(binary cross entropy)，定义如下：

其中y_i表示第i个样本的真实类别，表示第i个样本的预测类别，log为对数函数，m为样本的个数。

5.模型性能评估

将验证集中正样本和负样本的蛋白质信息以及上述步骤中获得的模型训练用的特征向量输入训练后的分类器模型进行验证，输出的验证结果使用敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under RocCurve)，作为评价模型验证效果的指标，获得的AUC小于90％，重新拟合训练分类器模型直至AUC达到90％以上。

其中，敏感性(Sensitivity)、特异性(Specificity)、查准率(accuracy)、准确率(Precision)、马修斯相关性系数MCC(Matthews correlation coefficient)及ROC曲线下面的面积AUC(Area Under Roc Curve)公式分别为：

其中，TP表示真阳性样本数量，TN标识真阴性样本数量，FP表示假阳性样本数量，FN表示假阴性样本数量。N表示所有训练样本数量。

最后，用测试集对验证后的分类器模型进行分类准确性验证，分类准确性小于90％，重新进行分类器拟合训练和模型验证，直至分类准确性达到90％以上，分泌入支气管肺泡灌洗液蛋白质的预测模型建立完成。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于高通量测序的物种鉴定系统和方法

一种分泌入支气管肺泡灌洗液蛋白质预测方法

相关技术

网友询问留言