一种对蛋白质二级结构进行半监督学习预测方法

文档序号:1393483 发布日期:2020-02-28 浏览:32次 >En<

阅读说明:本技术 一种对蛋白质二级结构进行半监督学习预测方法 (Semi-supervised learning prediction method for protein secondary structure ) 是由 宫秀军 赵兴海 于 2019-10-16 设计创作,主要内容包括:本发明公开一种对蛋白质二级结构进行半监督学习预测方法,包括以下步骤:(1)获取蛋白质序列数据集;(2)对获取的数据集进行数据清洗和特征提取;(3)搭建Semi-GAN神经网络模型;(4)对Semi-GAN神经网络模型进行训练:(5)对Semi-GAN神经网络模型进行调整参数;(6)对Semi-GAN神经网络模型进行评估。本发明可以在有着大量缺失值标签的数据的情况下对蛋白质二级结构建立一个半监督预测模型。节省了大量的人力和财力。(The invention discloses a method for predicting the secondary structure of protein by semi-supervised learning, which comprises the following steps: (1) acquiring a protein sequence data set; (2) carrying out data cleaning and feature extraction on the acquired data set; (3) building a Semi-GAN neural network model; (4) training a Semi-GAN neural network model: (5) adjusting parameters of the Semi-GAN neural network model; (6) the Semi-GAN neural network model was evaluated. The invention can establish a semi-supervised prediction model for the secondary structure of the protein under the condition of a large amount of data with missing value labels. A large amount of manpower and financial resources are saved.)

一种对蛋白质二级结构进行半监督学习预测方法

技术领域

本发明涉及了生物信息学和深度学习领域,利用深度学习模型,对蛋白质二级结构进行半监督学习预测,属于生物信息学预测的一个重点研究问题。具体涉及一种对蛋白质二级结构进行半监督学习预测方法,该方法利用有缺失标签的蛋白质数据集训练深度学习分类模型,来对蛋白质二级结构进行预测。

背景技术

蛋白质二级结构预测是蛋白质片段基于其氨基酸序列的二级结构推断。在生物信息学和理论化学中,蛋白质二级结构预测对于医学和生物技术非常重要,例如药物设计和新型酶的设计。由于二级结构可用于找到具有不可对齐的一级结构的蛋白质的远距离关系,因此结合二级结构信息和简单的序列信息可以提高其比对的准确性。最后,蛋白质二级结构预测也在蛋白质三级结构预测中起重要作用。蛋白质二级结构可以确定蛋白质局部片段的结构类型,因此可以降低三级结构中蛋白质局部片段的自由度。因此,准确的二级结构预测有可能提高蛋白质三级结构预测的准确性。

蛋白质二级结构预测的目标,就是预测某一个氨基酸序列片段中心的残基是处于α螺旋、β折叠或是无规则卷曲。虽然人们之前普遍认为拥有足够多的氨基酸序列的信息就足够能确定蛋白质的三维结构,但是实际上这是一件困难的事情,特别是对于缺失蛋白质二级结构label的情况下。目前有很多学者提出了很多方法对蛋白质二级机构进行预测的方法,但都是基于监督学习的训练方法。而且当需要根据已有的数据去建立一个预测模型的时候,往往在现实中得到的数据是大量没有被标注标签的。如果按照传统的方法(监督学习)去训练一个模型。那么就需要对这些没有被标记的数据做数据标注的工作。而标注蛋白质二级结构标签这项工作,需要花费大量的人力和财力,甚至时间。而提出这个模型的目的是去除这一项繁琐的工作,并且也能使得这些没有标签的数据发挥他们的作用。

发明内容

本发明的目的是为了克服现有技术中的不足,尽管已经开发了几种用于二级结构预测的深度学习方法,二级结构的半监督分类问题之前从来没有被研究过。因此提供一种对蛋白质二级结构进行半监督学习预测方法,将利用对抗式生成网络(GAN)的判别器改造成分类器对蛋白质二级机构进行半监督预测。

本发明的目的是通过以下技术方案实现的:

一种对蛋白质二级结构进行半监督学习预测方法,包括以下步骤:

(1)获取蛋白质序列数据集;

(2)对获取的数据集进行数据清洗和特征提取;

(3)搭建Semi-GAN神经网络模型;Semi-GAN神经网络模型包括生成器、鉴别器和损失函数,生成器中包括三个反卷积神经网络,并对三个反卷积神经网络分别进行归一化处理,激活函数采用leaky ReLU函数,防止过拟合;鉴别器结构使用了卷积神经网络、归一化处理和ReLU激活函数的网络结构;损失函数中将鉴别器损耗分为两部分:一个代表GAN问题,无监督损失;另一个是计算单个真实类概率,监督损失;对于无监督损失,鉴别器必须从生成器中区分真实的训练样本和虚假样本;在这两种情况下,都在处理二进制分类问题;由于希望真实样本的概率值接近1,而非真实样本的概率值接近0,因此使用sigmoid交叉熵函数来计算损失;对于来自训练集的样本,通过分配1的标签以最大化它们的真实概率;对于来自生成器的合成样本,通过给它们贴上0的标签以最大限度地提高它们的伪概率;

(4)对Semi-GAN神经网络模型进行训练:

(5)对Semi-GAN神经网络模型进行调整参数;

(6)对Semi-GAN神经网络模型进行评估。

进一步的,步骤(1)中使用的数据集是CullPDB数据集,由6133个蛋白质组成,每个蛋白质具有39900个特征;6133蛋白质×39900特征能够重塑为6133种蛋白质×700种氨基酸×57种特征。

与现有技术相比,本发明的技术方案所带来的有益效果是:本发明是第一次将半监督学习应用到蛋白质二级结构预测的领域。本发明可以在蛋白质数据集有大量缺失标签的情况下对蛋白质二级结构建立一个半监督预测模型,这样可以避免了去对蛋白质对有缺失标签的蛋白质数据集进行数据标注,蛋白质序列的数据标注是一项比较困难的工作,需要大量的人力和财力。

附图说明

图1是本发明的流程示意图。

图2是本实施例中Semi-GAN神经网络模型的结构示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种对蛋白质二级结构进行半监督学习预测方法,如图1所示,具体如下:

一、获取蛋白质数据集

首先,需要获取数据集。在本实施例中,使用的数据集是CullPDB数据集,由6133个蛋白质组成,每个蛋白质具有39900个特征。6133蛋白质×39900特征可以重塑为6133种蛋白质×700种氨基酸×57种特征。下表是蛋白质二级结构类别和每个类别出现的频率:

蛋白质二级结构类别和类别频率在数据集中的描述.

本实施例中,氨基酸链由700×57矩阵描述,以保持数据大小一致。700表示肽链,57表示每个氨基酸中的特征数。当到达链的末端时,向量的其余部分将简单地标记为“NoSeq”(未标记的填充)。在57个特征中,22个代表一级结构(其中包含20种氨基酸,1种表示未知氨基酸,另一种表示“No Seq”(未标记的填充),22个蛋白质谱(与一级结构相同),9个是二级结构(8个)可能的状态,另外一个同样表示“No Seq”(未标记的填充)。CB513是一个公共测试数据集,作为独立测试集。对于CB513的测试,CB6133用作训练数据集。由于CB513和CB6133之间存在冗余,因此通过去除与CB513中的序列具有超过25%序列相似性的序列来过滤CB6133。过滤后,留在CB6133中的5534种蛋白质用作训练样品。由于具有进化信息的蛋白质序列谱已经成为蛋白质二级结构预测的突破。因此,这里使用了位置特异性评分矩阵(PSSM)特征,这些特征是可以通过定义蛋白质二级结构(DSSP)和位置特异性迭代基本局部比对搜索工具(PSI-BLAST)从蛋白质谱中提取的广泛使用的特征。用于训练的数据包含56个通道中的特征和标签(PSSM为22,氨基酸序列为22,碳端和氮端为2,溶剂可及性标签为2,二级结构标签为8))。训练数据包括700个氨基酸。它被认为在效率和覆盖率之间提供了良好的平衡,因为大多数蛋白质链短于700个氨基酸。在训练和测试时,较短的序列(少于700个氨基酸)用0填充。

二、对数据进行清洗,特征提取

在本实施例中为了每次仅输出一个蛋白质二级结构标签,并对氨基酸序列进行特殊的处理。假设拥有一条数据库中一条长为700的氨基酸序列,想要预测蛋白质二级结构,需要设置一个滑动窗口,通过滑动窗口返回模式批处理矩阵。窗口是完整蛋白质串的一小部分。这个滑动窗口其实和一维卷积类似。

而窗口的大小选择应该大于11,因为α螺旋的平均长度大约是11个残基,而β链的平均长度大约是6个。测试了从11到23的多个均匀尺寸,其中17个产生了最佳结果(性能/训练时间权衡)。该窗口每次移动一个单位,预测中心氨基酸。也就是说若选择17长度窗口。那么第九个氨基酸对应当前所预测的二级结构标签。

对cullpdb+profile_6133数据集进行以上方法进行处理,并将最终结果划分80%作为集,10%作为交叉验证集,10%作为测试集。对CB513数据集采取同样的操作作为模型的独立测试集。

三、搭建Semi-GAN神经网络模型

在构建用于生成样本的GAN时,同时训练了生成器和鉴别器。经过训练后,可以丢弃生成器,因为只用它来训练判别器/分类器。本实施例中,生成器只用于训练时帮助鉴别器。换句话说,生成器充当不同的信息源,鉴别器从中获取原始的未标记训练数据。可以看出,这些未标记数据是提高鉴别器性能的关键。此外,对于常规样本生成GAN,鉴别器仅具有一个角色。计算其输入是否真实的概率。

首先,要做的工作是:为了将鉴别器变为半监督分类器,除了GAN问题之外,鉴别器还必须学习每个原始数据集类的概率。换句话说,对于每个输入数据,鉴别器必须知道它的具体的分类概率。对于生成GAN鉴别器,设置一个sigmoid单位输出。此值表示输入数据为真实(值接近1)或伪造(值接近0)的概率。换句话说,从鉴别器的角度来看,接近1的值意味着样本可能来自于训练集。同样,接近0的值意味着样本来自于生成器网络的变化更高。通过使用该概率,鉴别器能够给生成器发送一个信号。该信号允许发生器在训练期间调整其参数,从而可以提高其创建逼真数据的能力。

其次,假设要对蛋白质二级结构做8态分类,必须将鉴别器(从之前的GAN)转换为9类分类器。为此,可以将其sigmoid输出转换为具有9类输出的softmax。蛋白质二级结构数据集(0到9)的各个类概率的前8个,以及来自发生器的所有伪数据的第9个类。如果将第9类概率设置为0,然后,前8个概率的和表示使用sigmoid函数计算的相同概率。

最后,需要设置损失,以便鉴别器可以同时执行以下两种操作:

(i)帮助生成器学习生成逼真的样本。为了做到这一点,必须指示鉴别器区分真实样本和虚假样本。

(ii)使用生成器的样本以及标记和未标记的训练数据来帮助对数据集进行分类。

总之,鉴别器有三个不同的训练数据来源。

带有标签的真实数据。这些是数据标签对就像任何常规监督分类问题一样;没有标签的真实数据。对于这些,分类器只知道这些数据是真实的;来自生成器的数据。对于这些,鉴别器学习将它们分类为假样本。

本发明的目标是在蛋白质二级结构标签有缺失的情况下,能够足够精确的预测二级结构属于哪一类。不仅仅关注3态的预测,同样需要关注8态预测,8态预测解释了更多的结构信息,see Table 1。目前,位置特异性评分矩阵(PSSM)的进化信息已经是公认的的最适合作为研究的信息特征

具体的,本实施例中Semi-GAN神经网络模型的整体结构见图2;

生成器,遵循DCGAN论文中描述的非常标准的实现。这种方法包括以一个随机向量z作为输入。将它重塑为一个4D张量,然后将它输入进一系列反卷积神经网络,这里设置了三个反卷积神经网络,对它们分别进行了Batch Normalization(归一化处理)为了加快梯度的优化,紧接着的激活函数采用的是leaky ReLU函数,防止过拟合。

鉴别器,为了需求改造成了一个多类分类器。在这里,本发明设计了一个类似的DCGAN体系结构,结构使用了卷积神经网络+BN(归一化处理)和ReLU激活函数的若干组网络。并使用跨越卷积来减少特征向量的维数。不是所有的卷积都执行这种类型的计算。当想保持特征向量的维数不变时,卷积核用1的步长,否则用2的步长。最后,为了稳定学***均池化(GAP)。在GAP中,取特征向量的空间维数的平均值。这个操作导致将张量维压缩到一个值。

损失函数:作为本发明的一个核心内容,将鉴别器损耗分为两部分。一个代表GAN问题,无监督损失。另一个是计算单个真实类概率,监督损失。对于无监督损耗,鉴别器必须从生成器中区分真实的训练样本和虚假样本。对于普通GAN,有一半的时间鉴别器接收来自训练集的未标记样本,另一半时间接收来自生成器的虚构未标记样本。在这两种情况下,都在处理二进制分类问题。由于希望真实样本的概率值接近1,而非真实样本的概率值接近0,所以使用sigmoid交叉熵函数来计算损失。对于来自训练集的样本,通过分配1的标签来最大化它们的真实概率。对于来自生成器的合成样本,通过给它们贴上0的标签来最大限度地提高它们的伪概率。

四、对模型进行训练调参;

最后采用网格搜索的方法对网络结构中的,网络层数,学习率,dropout系数,adma的参数,等超参数进行了选取,并对不同有标签占比的蛋白质数据集的结果进行预测。结果如下:

使用cullpdb对上述研究进行做半监督训练,使用cb513进行实验测试,为了达成半监督学习的数据集,以将噪声注入标签中,设置一个参数来指定训练集中的标签数据比例。通过执行几组实验评估了深度网络(semi-GAN)的总体性能。在第一组实验中,对cullpdb+profil_6133数据集进行了训练和测试。已经训练了80%,60%,40%,20%,并且所有数据都分别参见表1、表2和表3。

表1:Q8蛋白质二级结构的预测表现

Figure BDA0002235572850000061

表2:Q3蛋白质二级结构的预测表现

Figure BDA0002235572850000062

表3:蛋白质二级结构的预测整体趋势表

Figure BDA0002235572850000071

根据本实施例最终的实验结果,和实验开始的预想的一样,虽然随着被标记标签的比例的升高,蛋白质二级结构预测的精度也在提高,但是精度差距不是很大,这样可以在有着大量缺失值数据的情况下对蛋白质二级结构建立一个半监督预测模型。节省了大量的人力和财力。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:蛋白质数据获取方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!