一种基于胶囊神经网络和集成学习的关键蛋白质识别方法

文档序号:1273790 发布日期:2020-08-25 浏览:16次 >En<

阅读说明:本技术 一种基于胶囊神经网络和集成学习的关键蛋白质识别方法 (Key protein identification method based on capsule neural network and ensemble learning ) 是由 彭玮 李霞 戴伟 于 2020-04-01 设计创作,主要内容包括:本发明公开了一种基于胶囊神经网络和集成学习的关键蛋白质识别方法,包括:步骤1:利用Cytoscape工具提取蛋白质在蛋白质相互作用网络中的八种生物学特征;步骤2:使用胶囊神经网络提取八种生物学特征的更深层的增强特征;步骤3:将生物学特征和蛋白质增强特征进行连接;步骤4:将步骤3得到的连接后的特征放入到集成模型Multi-ensemble中,对模型进行训练,并利用训练好的集成模型预测新的关键蛋白质;步骤5:输出结果。本发明通过胶囊神经网络提取的增强特征比初始的生物学特征更能提高一些机器学习模型预测关键蛋白质的准确性。并且通过融合初始生物学特征和增强特征能进一步提高机器学习模型预测关键蛋白质的准确性。(The invention discloses a key protein identification method based on a capsule neural network and ensemble learning, which comprises the following steps: step 1: extracting eight biological characteristics of the protein in a protein interaction network by using a Cytoscape tool; step 2: extracting deeper enhancement features of the eight biological features using the capsule neural network; and step 3: linking the biological feature and the protein enhancing feature; and 4, step 4: putting the connected features obtained in the step 3 into an integrated model Multi-ensemble, training the model, and predicting new key protein by using the trained integrated model; and 5: and outputting the result. The invention can improve the accuracy of predicting key protein by some machine learning models through the enhanced features extracted by the capsule neural network compared with the initial biological features. And the accuracy of predicting key proteins by the machine learning model can be further improved by fusing the initial biological characteristics and the enhanced characteristics.)

一种基于胶囊神经网络和集成学习的关键蛋白质识别方法

技术领域

本发明涉及一种基于胶囊神经网络和集成学习的关键蛋白质识别方法,属于系统生物学领域。

背景技术

生物体的生命活动往往需要蛋白质的深度参与。关键蛋白质是指将其通过基因剔除式突变移除后,会导致相关蛋白质复合物功能丧失,并导致细胞死亡的蛋白质。关键蛋白质是细胞生命活动中必不可少的一部分。因此,如何准确的预测关键蛋白质成为了蛋白质组学领域的研究重点。

早期研究关键蛋白质时,生物学家主要通过生物实验来观察生物在丢失了某些蛋白质时对生物的影响,并以此来判断该蛋白质是否为关键蛋白质。虽然取得了不错的效果,但是存在耗时长,耗费大等局限。为此,部分研究人员以计算机的思维来解决此类问题,再加上高通量蛋白质组技术的快速发展和蛋白质相互作用数据的日益完善,这就使得使用计算方法识别关键蛋白质成为了可能。Jeong等人提出了“中心性-致死性”法则,该法则将蛋白质网络结构中的度数即相邻蛋白质节点比较多的节点称为hub点,hub点通常处于网络中心的位置,对于整个网络的拓扑结构影响重大。而hub点的缺失对于整个网络可能是毁灭性的,这也是在一定程度上暗示着如果hub点的缺失如同关键蛋白质缺失一样,可能会对生物活动产生巨大的影响。基于该“中心性-致死性”法则和蛋白质相互作用数据,衍生了一批基于蛋白质相互作用网络的中心性度量方法来度量蛋白质在网络中的特性从而识别关键蛋白质。这些中心性包括节点的度中心性(Degree centrality,DC)。度中心性指的是网络中某节点的领域的个数,该方法简单易用,但是预测出的关键蛋白质数量较少。节点的介数中心性(Betweenness centrality,BC)指某节点出现在其他节点之间的最短路径的个数,它反映了节点位置的枢纽程度,但计算的复杂度高。节点的接近中心性(Closenesscentrality,CC)考察的是节点对于其他节点信息传播的依赖程度。节点的子图中心性(Subgraph centrality,SC)利用了网络中某节点与别的节点形成的闭合回路的总数来衡量蛋白质的节点的关键性。节点的特征向量中心性(Eigenvector centrality,EC)是利用在网络邻接矩阵的主向量中每个顶点的分量来衡量对应蛋白质节点的关键性。节点的信息中心性(Information centrality,IC)是利用每个顶点为端点的路径的平均总和来衡量每个蛋白质节点的关键性。这些中心性度量方法虽然考虑了蛋白质在蛋白质相互作用网络中的拓扑特性,但是却忽略了蛋白质本身的生物特性。

为了能更好地预测关键蛋白质,Li和Tang等人结合蛋白质相互作用网络和基因表达信息,提出了名为PeC和WDC的关键蛋白质预测方法。Peng等人结合蛋白质相互作用网络和蛋白质同源信息提出了ION方法。同时,又有一部分的研究采用有监督的学习方法,运用机器学习算法,如SVM、决策树、朴素贝叶斯等来进行预测关键蛋白质。Gustafson等人通过将具有不同预测能力的基因组特征和蛋白质特征组合,并采用朴素贝叶斯进行关键蛋白质预测。Hwang等人基于开放式阅读框、蛋白质保守性等生物学特征和DC、BD、CC等蛋白质在蛋白质相互作用网络中的特征构建了SVM分类器来进行关键蛋白质预测。Zhong等人通过整合蛋白质在蛋白质相互作用网络中的特征(DC、BC、CC、EC、IC、SC、NC)和结合生物特性计算出来的特征(PeC、WDC和ION),提出了一种基于GEP的关键蛋白质预测方法。同时还有一些集成学习算法应用到识别关键蛋白质中,Deng等[2]集成朴素贝叶斯分类器,C4.5决策树,CN2规则和逻辑回归模型来预测关键蛋白质。Chen等[3]集成了支持向量机(SVM)和ANN来预测关键蛋白质。Zhong等[4]融合多个XGboost分类器来预测关键蛋白质。虽然以上方法融合了一些蛋白质的生物特性,也使用了集成学习算法来识别关键蛋白质,但是所使用的特征还是过少,没有挖掘深层次的特征。此外集成算法只是仅仅将几个弱分类器的结果加权平均得到最后输出。

因此需要开发更有效的特征提出方法和更有效的集成学习方法来提高关键蛋白质的预测性能。

发明内容

本发明提供了一种基于胶囊神经网络和集成学习的关键蛋白质识别方法,该方法基于胶囊神经网络能有效提取关键蛋白质的深层次特征,并结合Multi-ensemble集成模型能有效提高关键蛋白质识别的准确性、敏感性。

本发明的技术方案是:一种基于胶囊神经网络和集成学习的关键蛋白质识别方法,所述方法步骤如下:

步骤1:利用Cytoscape工具提取蛋白质在蛋白质相互作用网络中的八种生物学特征;其中,蛋白质分为非关键蛋白质和关键蛋白质两类;

步骤2:使用胶囊神经网络提取八种生物学特征的更深层的增强特征,选取胶囊神经网络最终层获取的矩阵的第二行作为蛋白质的增强特征;其中胶囊神经网络卷积层设置32个1×2卷积内核,步长为1,激活函数选择ReLU函数;胶囊神经网络胶囊层选取32个卷积8维胶囊通道,胶囊神经网络从胶囊层到最终层采用了非线性激活函数执行动态路由过程;

步骤3:将步骤1得到的初始生物学特征和步骤2得到的蛋白质增强特征进行连接;

步骤4:将步骤3得到的连接后的特征放入到集成模型Multi-ensemble中,对模型进行训练,并利用训练好的集成模型预测新的关键蛋白质;

步骤5:输出结果:将蛋白质按照由集成模型Multi-ensemble得到的打分进行降序排序,并输出排序结果。

所述步骤2中非线性激活函数为squashing函数。

所述步骤4采用的集成模型Multi-ensemble步骤包括数据划分、挑选样本和集成弱分类器;其中数据划分步骤将划分的训练集分为数据集P和数据集R,对数据集P进行了可放回抽样,从而生成m个不同的数据集{P1,P2…Pm},作为m个弱分类器的初始训练集;数据集R被划分为n个互斥子集{R1,R2…Rn},作为迭代过程的测试集,在每轮迭代过程中,如果大多数其它弱分类器将Rj中的样本视为高质量样本,则将其添加到该弱分类器下一轮迭代的训练集中;其中,大多数其它分类器指的是将样本视为高质量样本的其它分类器数量达到弱分类器总个数的三分之二,j=1,2,…,n。

本发明的有益效果是:本发明使用了蛋白质在蛋白质相互作用网络中的初始生物学特征,通过胶囊神经网络提取了这些生物学特征的增强特征,进而将初始生物学特征和增强特征结合,并在此基础上使用有效的集成方法来进行关键蛋白质的预测。本发明方法的实验结果表明和之前基于机器学习、集成学习预测关键蛋白质的方法相比,本发明方法提出的方法能提高识别关键蛋白质的准确性,能为生物学家进行关键蛋白质识别的实验和进一步研究提供有价值的参考信息。胶囊神经网络提取的增强特征比初始的生物学特征更能提高一些机器学习模型预测关键蛋白质的准确性。并且通过融合初始生物学特征和增强特征能进一步提高机器学习模型预测关键蛋白质的准确性。

附图说明

图1为本发明方法CapsME的流程图;

图2为本发明方法CapsME中集成模型Multi-ensemble的结构图。

具体实施方式

实施例1:如图1-2所示,一种基于胶囊神经网络和集成学习的关键蛋白质识别方法,所述方法步骤如下:

步骤1:利用Cytoscape工具提取蛋白质在蛋白质相互作用网络中的八种生物学特征;其中,蛋白质分为非关键蛋白质和关键蛋白质两类;

关键蛋白质往往是蛋白质相互作用网络的核心节点,因为将它们移出会导致蛋白质相互作用网络的崩溃。蛋白质在蛋白质相互作用网络中的生物学特征主要包括:介数中心性(Betweenness Centrality,BC),接近性中心性(Closeness Centrality,CC),度中心性(Degree Centrality,DC),特征向量中心性(Eigenvector Centrality,EC),信息中心性(Information Centrality,IC)等。利用软件Cytoscape来提取出蛋白质的BC、CC、DC、EC、IC、NC、SC和ION八种生物学特征特征。

步骤2:使用胶囊神经网络提取八种生物学特征的更深层的增强特征,选取胶囊神经网络最终层获取的矩阵的第二行作为蛋白质的增强特征;其中胶囊神经网络卷积层设置32个1×2卷积内核,步长为1,激活函数选择ReLU函数;胶囊神经网络胶囊层选取32个卷积8维胶囊通道,胶囊神经网络从胶囊层到最终层采用了非线性激活函数执行动态路由过程;

其中,进一步地非线性激活函数为squashing函数;

胶囊神经网络是Hinton等人在2017年提出的一种新的深度学习算法。它最初用于手写数字识别。胶囊神经网络中的胶囊指的是一个包含多个神经元的载体。其中的神经元表示图像中的特定实体的各种属性,如位置、形状、速度等。胶囊输出向量的长度表示实体存在的概率。胶囊输出向量的方向表示实体的属性的迭代。在本发明中,一个胶囊中包含若干的神经元,每个神经元是蛋白质八种生物特征的组合。所使用的胶囊神经网络是一个浅层网络,只有一个卷积层,一个胶囊层和一个最终层。

第一层卷积层(也叫Conv1层)具有32个1×2卷积内核,步长为1,激活函数选择ReLU函数。该层的功能是提取蛋白质八种生物特征的更深的局部特征,将其作为初级胶囊的输入。我们选取1*2的卷积内核,步长为1的原因是前一步得到的每个蛋白质八种生物特征组成一个1*8的向量输入到胶囊神经网络中。在这一层,通过1*2的卷积核,步长为1的操作可以获得相邻特征的组合特征。第二层胶囊层(也叫PrimaryCaps层)具有32个卷积8维胶囊通道,即每个基本胶囊都包含8个具有1×2大小内核并且步长为1的卷积单元。这里我们仍然选取1×2大小内核并且步长为1的卷积单元,是为了更好地获得蛋白质的局部特征。最后一层最终层(也叫DigitCaps层)为每个分类结果获得了一个16维胶囊,每个胶囊接收来自低一层中所有胶囊的输入。由于在本发明中蛋白质只会分为两类,即为非关键蛋白质和关键蛋白质。因此我们在DigitsCaps层中获得了一个[2×16]的矩阵。矩阵中第一行为识别该样本为非关键蛋白质的长度为16的向量,第二行为识别该样本为关键蛋白质的长度为16的向量。本发明中将关键蛋白质的那一行长度为16的向量作为提取出的增强特征。在胶囊神经网络中,从胶囊层到最终层会执行动态路由过程。它采用了非线性激活函数“squashing”函数来确保长向量收缩到略低于1的长度,短向量收缩到接近0的长度。“squashing”函数公式为:

其中,vj是胶囊j的输出向量,而sj是胶囊j的总输入。对于除了第一层之外的所有胶囊,胶囊sj的总输入是来自低一层胶囊中所有“预测向量”的加权总和。而通过将低一层中胶囊输出的ui乘以权重矩阵Wij得到。

其中,cij是由迭代动态路由过程所确定的耦合系数。胶囊i与高一层中所有胶囊之间的耦合系数之和为1,并由“routing softmax”函数确定。“routing softmax”函数公式如下:

其中bij是对数先验概率,也就是胶囊i与胶囊j的耦合度。这个对数先验概率可以和其他权重一起学习。他们由两个胶囊的位置和类型决定,而不是由当前的输入数据决定。在迭代动态路由过程中,bij初始化为零,最初以相同的概率cij将胶囊输出ui发送到它所有的父胶囊。之后,通过测量每个高一层的胶囊j的当前输出vj和低一层的胶囊i的预测值之间的一致性。一致性由简单的点积计算得到,即:bij的值由以下公式更新:然后基于更新后的bij计算出所有将胶囊i连接到更高层胶囊的新的耦合系数。

胶囊网络采用squashing函数的动态路由机制,能得到更大区域的特征组合,而不限余局部特征组合,从而能挖掘蛋白质更深层的增强特征;

步骤3:将步骤1得到的初始生物学特征和步骤2得到的蛋白质增强特征进行连接;

第一步得到的初始生物学特征(长度为8的向量)和第二步中获得的分类为关键蛋白质的那一行长度为16的向量合并起来,组成一个长度为24的向量。这个向量存储了蛋白质初步特征和增强特征。

步骤4:将步骤3得到的连接后的特征放入到集成模型Multi-ensemble中,对模型进行训练,并利用训练好的集成模型预测新的关键蛋白质;

其中,进一步地所述步骤4采用的集成模型Multi-ensemble步骤包括数据划分、挑选样本和集成弱分类器;其中数据划分步骤将划分的训练集分为数据集P和数据集R,对数据集P进行了可放回抽样,从而生成m个不同的数据集{P1,P2…Pm},作为m个弱分类器的初始训练集;数据集R被划分为n个互斥子集{R1,R2…Rn},作为迭代过程的测试集,在每轮迭代过程中,如果大多数其它弱分类器将Rj中的样本视为高质量样本,则将其添加到该弱分类器下一轮迭代的训练集中;其中,大多数其它分类器指的是将样本视为高质量样本的其它分类器数量达到弱分类器总个数的三分之二,j=1,2,…,n。

集成模型Multi-ensemble包括三个关键步骤:数据划分、挑选样本和集成弱分类器。第一步数据划分是将原始数据划分为训练集和测试集。接着将训练集进一步随机划分为P和R,其中数据集P样本数量可以由用户设置。本发明推荐的数量为训练集样本数量的四分之一,R是训练集除去P的剩余数据。为了让多个弱分类器的初始训练集存在差异,我们对数据集P进行了可放回抽样,从而生成m个不同的数据集{P1,P2…Pm},作为m个弱分类器的初始训练集,其目的是通过让弱分类器的训练集不同从而导致弱分类器的预测结果不同,这样集成模型Multi-ensemble可以更好地学习到多个弱分类器的差异。同时,数据集R被划分为n个互斥子集{R1,R2…Rn},作为迭代过程的测试集,同时部分会被挑选作为下一次迭代过程的训练集。第二步是挑选样本。m个弱分类器h1,h2…hm,它们最初分别使用P1,P2…Pm作为训练集。训练之后,每个弱分类器对数据集Rj中的数据进行预测,其中Rj∈{R1,R2…Rn}。重复此操作n次,在每轮迭代过程中,如果大多数其它弱分类器将Rj中的样本视为高质量样本,则将其添加到该弱分类器下一轮迭代的训练集中。在下一轮迭代过程中,每个弱分类器使用新的训练集再次训练。随着高质量训练样本的不断增加,每个弱分类器的识别效果都得到提升。满足以下条件的样本被认为是高质量样本:

其中hi(x)表示弱分类器hi识别该样本x为关键蛋白质的输出概率。μi是弱分类器hi识别所有样本为关键蛋白质的输出概率的均值和方差。ξ是一个自定义系数,根据实验数据来设定。之所以不使用所有的样本作为训练集,是因为并非所有的样本都可以对弱分类器的识别效果起到提升作用,部分低质量的样本反而会降低弱分类器的识别效果。因此,Multi-ensemble丢弃了与输出正样本概率均值相近的样本。我们希望负样本被识别为关键蛋白质的概率接近于0,正样本被识别为关键蛋白质的概率接近于1。对于弱分类器hi,如果大多数其它弱分类器将样本视为高质量样本,则将该样本添加到弱分类器hi的训练集中。在此,大多数其它分类器指的是指将样本x视为高质量样本的其它分类器数量达到弱分类器总个数的三分之二。集成模型Multi-ensemble的第三步是集成多个弱分类器。在使用高质量样本训练好弱分类器之后,采用逻辑回归(LR)模型来集成多个弱分类器的输出概率从而得到最终预测结果。为了训练逻辑回归模型中的系数,我们收集了训练过程中每个弱分类器对{R1,R2…Rn}数据集中样本的预测结果。然后将预测结果和相应的真实标签作为逻辑回归模型的训练集,从而学习到逻辑回归模型中的系数。最后,将测试数据放入训练好的弱分类器中,并且使用逻辑回归模型将这些弱分类器预测的m个输出概率值集成起来得到最终的预测结果。

步骤5:输出结果:将蛋白质按照由集成模型Multi-ensemble得到的打分进行降序排序,并输出排序结果。

对于需要预测的蛋白质,将其由步骤3得到的特征输入到集成模型Multi-ensemble中,得到他们是否是关键蛋白质的打分,然后对所有蛋白质按照得分排序并输出排序结果,得分高的预测为关键蛋白质。

蛋白质相互作用网络的数据从DIP获得,关键蛋白质数据从MIPS、SGD、DEG和SGDP获得,同源数据从INPARANIOD获得。

实施例2:

(1)为了测试我们发明方法的有效性,我们将其应用于酿酒酵母数据集和大肠杆菌数据集。因为它们已经过充分研究,并且在所有物种中都具有最完整和可靠的关键蛋白质组和蛋白质相互作用网络数据。酿酒酵母关键蛋白质来自MIPS数据库,SGD数据库,DEG数据库和SGDP数据库的综合。酿酒酵母蛋白质相互作用网络数据来自DIP数据库。酵母的蛋白质相互作用网络由5093个蛋白质和24743个边组成。在酵母的5093个蛋白质中,有1167个关键蛋白质和3926个非关键蛋白质,关键蛋白质与非关键蛋白质的比例达到1:3.36。大肠杆菌关键蛋白质来自DEG数据库。从DIP数据库下载了大肠杆菌的蛋白质相互作用网络数据,其中包括2727个蛋白质和11803条边。大肠杆菌的2727个蛋白质中,有254个关键蛋白质和2473个非关键蛋白质,比例为1:9.74。

(2)基于胶囊神经网络和集成学习识别关键蛋白质

图1和图2分别描述了基于胶囊神经网络和集成学习识别关键蛋白质的基本流程和其中集成学习算法的结构图。

步骤1:利用Cytoscape工具提取蛋白质在蛋白质相互作用网络中的生物学特征;

我们分别将酿酒酵母的蛋白质相互作用网络和大肠杆菌的蛋白质相互作用网络输入到Cytoscape工具中,分别计算两个物种蛋白质在各自蛋白质相互作用网路中的BC、CC、DC、EC、IC、NC、SC和ION八种生物学特征。

步骤2:利用胶囊神经网络提取上述生物学特征更深层的增强特征;

将上一步的到生物学特征组成长度为8的向量输入到胶囊神经网络中。胶囊神经网络分为三层。第一层卷积层具有32个1×2卷积内核,步长为1,激活函数选择ReLU函数。该层的功能是提取更深的局部特征,将其作为初级胶囊的输入。第二层胶囊层PrimaryCaps是一个卷积胶囊层,具有32个卷积8维胶囊通道,即每个初级胶囊都包含8个具有1×2大小内核且步长为1的卷积单元。最终层DigitCaps为每个分类结果获得了一个16维胶囊,每个胶囊接收来自下面一层中所有胶囊的输入。因此我们在DigitsCaps层中获得了一个[2×16]的矩阵。矩阵中第一行为识别该样本为非关键蛋白质的16维特征向量,第二行为识别该样本为关键蛋白质的16维特征向量。识别为关键蛋白质的那一行16维特征向量作为我们提取出的增强特征。

步骤3:将生物学特征和增强特征两种特征进行连接;

将把识别为关键蛋白质的那一行16维向量作为增强特征和步骤1中提取出的长度为8的初始生物学特征融合起来形成蛋白质的特征。

步骤4:将步骤3得到的融合后的特征放入到集成模型Multi-ensemble中,对模型进行训练,并利用训练好的集成模型预测新的关键蛋白质;

集成模型Multi-ensemble包括三个关键步骤:数据划分、挑选样本和集成弱分类器。第一步是数据划分,其目的是为弱分类器生成不同的初始训练样本和迭代过程中的测试样本。在本实例中,我们将酿酒酵母的蛋白质和大肠杆菌的蛋白质分别按照各自关键蛋白质和非关键蛋白质的比例,将数据平均分成五份。其中四份用来做训练,1份用来做预测。也就是说对于每一份数据酵母的关键蛋白质与非关键蛋白质的比例保持1:3.36,大肠杆菌的关键蛋白质与非关键蛋白质的比例保持1:9.74。本实例中我们集成三个弱分类器,本方法可以扩展到集成若干个分类器。我们把训练数据分成两部分P和R。其中数据集P样本数量在酿酒酵母中选取1000个蛋白质,大肠杆菌中选取530个蛋白质(实验验证较好的结果),R是训练集除去P的剩余数据。为了让多个弱分类器的初始训练集存在差异,我们对数据集P进行了可放回抽样,从而生成3个不同的数据集作为3个弱分类器的初始训练集。同时,数据集R被划分为3个互斥子集作为迭代过程的测试集,同时部分会被挑选作为下一次迭代过程的训练集。第二步是挑选样本,通过逐渐添加满足其他弱分类器挑选条件的高质量样本到每个弱分类器的训练集,使用新的训练集训练每个弱分类器。在某弱分类器中某样本有三分之二个其它弱分类器认为其为高质量样本,则将该样本添加到该分类器的训练集中,满足以下公式则认为该样本是高质量样本:

其中hi(x)表示弱分类器hi识别该样本x为关键蛋白质的输出概率。μi是弱分类器hi识别所有样本为关键蛋白质的输出概率的均值和方差。ξ是一个自定义系数,在酵母数据集上设置为3,在大肠杆菌数据集上设置为1。第三步是集成弱分类器,在对多个弱分类器进行了3次训练之后,使用了逻辑回归算法来集成多个弱分类器的预测概率,从而获得对样本的最终预测。

步骤5:输出结果:将蛋白质按照由集成模型Multi-ensemble得到的打分进行排序,并输出排序结果。

通过集成模型Multi-ensemble得到对每个蛋白质的打分,然后对所有蛋白质按照得分排序并输出排序结果。

(3)基于胶囊神经网络和集成学习的关键蛋白质识别方法的性能评估。

为了评估CapsME的性能,将提出的CapsME方法同以前提出的单个弱分类器、集成学习算法、深度学习方法和Multi-ensemble进行了比较。将各个模型输出的蛋白质打分进行降序排序,酿酒酵母数据将前1167个蛋白质认为是关键蛋白质,大肠杆菌数据将前254个蛋白质认为是关键蛋白质,并计算了有多少蛋白质是真正对的关键蛋白质。酿酒酵母数据的实验结果如表1所示,大肠杆菌数据的实验结果如表2所示。

从表1、表2中可以看出,CapsME方法的SN、SP、FPR、PPV、NPV、F-measure、ACC、MCC和AUC这些指标都比别的预测方法好。可以看出本发明方法CapsME比起其余现有的方法在预测关键蛋白质的性能上优势非常明显。

表1

表2

(4)CapsME的中胶囊神经网络提取增强特征方法性能比较。

为了验证CapsME的中将胶囊神经网络所提取的特征与初始特征融合作为模型的输入能提升模型的性能,我们选取了四类特征作为模型的输入来比较各算法的识别结果。分别是初始特征、卷积神经网络所提取的特征、胶囊神经网络所提取的特征、胶囊神经网络和原始数据的融合特征。将它们分别作为一些机器学习和集成学习算法的输入,来分析所提取出的特征的有效性。其中算法上标为1的输入是初始特征,算法上标为2的输入是卷积神经网络提取的16维特征,算法上标为3的输入是胶囊神经网络提取的16维特征,算法上标为4的输入是初始特征和胶囊神经网络的融合特征。表3和表4可以看出使用卷积神经网络提取出的特征对关键蛋白质的识别并没有太大的帮助,识别性能较差。与其相比,胶囊神经网络所提取的特征能有效的识别关键蛋白质,其识别效果与原始特征相近,部分模型的性能有一定的提高。但将其与胶囊神经网络所提取的特征相融合起来作为模型的输入时,从表中可以发现,模型的性能得到了明显的提升。

表3

表4

综上所述,在与其他预测方法比较之后,证明了基于胶囊神经网络和集成学习的关键蛋白质识别方法的有效性。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:面向基因比对的细粒度并行负载特征抽取分析方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!