一种基于深度学习的蛋白质-配体结合位点预测算法

文档序号:1629540 发布日期:2020-01-14 浏览:24次 >En<

阅读说明:本技术 一种基于深度学习的蛋白质-配体结合位点预测算法 (Protein-ligand binding site prediction algorithm based on deep learning ) 是由 夏春秋 杨旸 沈红斌 于 2019-09-18 设计创作,主要内容包括:本发明公开了一种基于深度学习的蛋白质-配体结合位点预测算法,对于待预测的蛋白质,首先提取其序列特征和距离矩阵,然后将序列特征通过滑动窗口方法分配到每个残基上,然后将残基所对应的特征逐个输入到残差神经网络和混合神经网络中,并将残差神经网络和混合神经网络的输出结果输入到Logistic回归分类器中,最终结果即为蛋白质中每个残基对应的结合概率。本发明将经典的双向长短时记忆网络和残差神经网络进行了融合,融合后的网络可以同时处理异构的蛋白质序列和结构数据,并挖掘出了序列特征和结构特征的互补性。与现有方法相比,有着更高的预测精度,且针对不同配体的数据集都有着不错的泛化性能。(The invention discloses a protein-ligand binding site prediction algorithm based on deep learning, for a protein to be predicted, sequence characteristics and a distance matrix of the protein are firstly extracted, then the sequence characteristics are distributed to each residue through a sliding window method, the characteristics corresponding to the residues are input into a residual neural network and a mixed neural network one by one, the output results of the residual neural network and the mixed neural network are input into a Logistic regression classifier, and the final result is the binding probability corresponding to each residue in the protein. According to the invention, a classical bidirectional long-time and short-time memory network and a residual neural network are fused, the fused network can simultaneously process heterogeneous protein sequences and structural data, and the complementarity of sequence characteristics and structural characteristics is excavated. Compared with the existing method, the method has higher prediction accuracy, and has good generalization performance aiming at data sets of different ligands.)

一种基于深度学习的蛋白质-配体结合位点预测算法

技术领域

本发明涉及蛋白质生物学与模式识别领域,具体地说,特别涉及到一种基于深度学习的蛋白质-配体结合位点预测算法。

背景技术

蛋白质与配体的相互作用在生物过程中起着重要的作用,例如信号的传导,翻译后修饰以及抗原-抗体的相互作用。此外,药物发现和设计也非常依赖于对蛋白质与配体相互作用的机制分析。对于蛋白质-配体相互作用背后机制的进一步探索,结合位点的识别是非常关键的一步。随着蛋白质设计技术的出现,将会由更多新的蛋白质出现,它们有着未发掘的性质和功能,因此对于快速、准确的结合位点识别工具的需要也变得更为迫切。目前有通过湿实验的方法来识别蛋白质的结合位点,其缺陷在于:费时且代价高昂。

根据配体类型的不同,蛋白质-配体相互作用可以分类为蛋白质-蛋白质相互作用,蛋白质-DNA/RNA相互作用以及蛋白质-小分子相互作用。现阶段,已经有不少基于序列信息(蛋白质一级结构)或结构信息(蛋白质三级结构)的计算方法可以对蛋白质-配体结合位点进行预测。

基于序列的方法可以对三维结构未知的蛋白质进行位点预测,其使用一些纯基于序列的特征例如进化信息和预测得到的二级结构。但是由于结合位点的位置主要由蛋白质的三级结构决定,所以基于序列的方法的预测精度相对较低。

基于结构的方法都需要蛋白质中每个原子的三维空间坐标作为输入,但它们遵循着不同的评价标准,例如POCKET假设结合位点更有可能位于蛋白质表面凹陷的区域,SITEHOUND使用能量函数来计算蛋白质与配体之间的力场,TM-SITE则是一种基于模板匹配的方法。

发明内容

本发明的目的在于针对现有技术中的预测算法精度不高的现状提供一种基于深度学习的蛋白质-配体结合位点预测算法,以解决现有技术中存在的问题。

本发明针对蛋白质-配体结合位点识别的应用场景,将深度学***衡问题、三维结构之间配准存在困难等。

本发明所解决的技术问题可以采用以下技术方案来实现:

一种基于深度学习的蛋白质-配体结合位点预测算法,包括如下步骤:

步骤1)首先提取蛋白质结构数据集的序列特征,然后从蛋白质各残基的三维空间坐标计算出每个残基对之间的欧氏距离,并构建距离矩阵;最后利用滑动窗口方法对每个残基截取特征张量;

步骤2)将每个结合位点作为正样本,非结合位点作为负样本,使用随机下采样的方法从负样本中抽取一个子集与所有的正样本构建一个训练子集,重复多次后获得多个训练子集;在构建mini-batch时,对正样本作随机上采样;

步骤3)利用残差模块构建残差神经网络,并在所述距离矩阵上进行训练;

步骤4)将建残差神经网络与双向长短时记忆网络通过全连接层进行整合,构建混合神经网络,并在所述序列特征和距离矩阵上进行训练;

步骤5)根据所述残差神经网络和混合神经网络的输出结果训练一个Logistic回归分类器;

步骤6)对于待预测的蛋白质,首先提取其序列特征和距离矩阵,然后将序列特征通过滑动窗口方法分配到每个残基上,然后将残基逐个输入到残差神经网络和混合神经网络中,并将残差神经网络和混合神经网络的输出结果输入到Logistic回归分类器中,最终结果即为蛋白质中每个残基对应的结合概率。

进一步的,所述步骤1)中序列特征与距离矩阵的提取方法如下:

步骤1.1)对于长度为L的蛋白质,通过PSI-BLAST算法获得其位置特异性打分矩阵PSSM;PSSM的大小为L×20,其中第i行第j列元素pij表示第i个残基突变为j种氨基酸的可能性,氨基酸共有20种;

然后对每个pij作如下式的归一化处理:

Figure BDA0002205573860000031

步骤1.2)对于长度为L的蛋白质,通过HHblits算法获得打分矩阵HHM,HHM标识蛋白质序列的进化信息;HHM的大小为L×20,其中前20列为20种氨基酸的发射概率,第21-27列为转移概率,第28-30列为局部多样性;

对HHM中的元素hij作如下式的归一化处理:

Figure BDA0002205573860000032

步骤1.3)对于长度为L的蛋白质,通过SCRATCH算法预测其二级结构信息和相对溶剂可及性;二级结构信息表示为一个L×3的矩阵,其中每一行si以one-hot向量的形式表示第i个残基的二级结构为helix,strand或其它;溶剂可及性表示为一个L×2的矩阵,其中每一行ri以one-hot向量的形式表示第i个残基的状态为exposed或buried;

步骤1.4)对于长度为L的蛋白质,通过S-SITE算法预测其每个残基的结合倾向,结果表示为一个L×2的矩阵;其中每一个元素qi0和qi1分别表示该第i个残基结合的概率和不结合的概率,qi0和qi1的和为1;

步骤1.5)对于长度为L的蛋白质,若其每个原子在空间中的坐标是已知的,通过计算第i个残基与第j个残基的Cα之间的欧氏距离,记为dij

按照序列的顺序构建一个距离矩阵D={dij}L×L,然后通过插值的方法将其缩放到L×400的大小;

步骤1.6)将步骤1.1)-步骤1.4)中得到的序列特征矩阵,按行拼接为一个L×57的序列特征矩阵,再以大小为W的滑动窗口对每个残基进行截取,最终得到大小为W×57的特征矩阵;再以大小为W的滑动窗口对距离矩阵进行截取,得到每个残基对应的大小为W×400的距离矩阵。

进一步的,所述步骤2)中随机下采样与mini-batch中的上采样需满足如下的条件:

1)在随机下采样中,每个负样本以20%的概率随机地从原始数据集中选取,选取的负样本与所有的正样本组合成一个训练子集;用相同的方法获得Nset个训练子集;

2)在mini-batch中的上采样中,循环地从所有正样本组成的集合和所有负样本组成的集合中选取Np个正样本和Nn个负样本,根据Np下式得到:

Np=[0.3×Nb]

其中,Nb为mini-batch的大小,[·]为取整符号,且Nn=Nb-Np

进一步的,所述残差块的定义和残差神经网络的构建过程如下:

在神经网络中,卷积层可以表示为Conv(X,W,H,D),其中X为输入变量,W和H分别为卷积核的宽度和高度,D为卷积核的数量;所述残差块由三个卷积层堆叠而成,如下式所示:

Res(X)=σ(Conv(σ(Conv(σ(Conv(X,1,1,D)),3,3,D)),1,1,4×D)+X)

其中,σ为激活函数;残差神经网络由多个残差块堆叠而成,并通过Adam算法进行优化,残差神经网络的输入即为每个残基的距离矩阵;

在所述Nset个子集上,针对蛋白质中每个残基可以训练Nres个独立的残差神经网络,其中Nres≤Nset

进一步的,所述步骤4)中的混合神经网络整合了残差神经网络和BiLSTM,并通过Adam算法进行优化;所述BiLSTM的输入为每个残基的序列特征;

在所述Nset子集上,针对蛋白质中每个残基可以训练Nhybrid个独立的混合网络,其中,Nhybrid=Nset-Nres

进一步的,所述步骤5)中的每个残基对应的Nres个残差网络和Nhybird个混合网络的输出拼接为一个长度为Nset的向量;将所述向量作为输入,通过交叉验证的方式,训练一个Logistic回归分类器;在所述Logistic分类器的损失函数中加入l1正则项来防止过拟合。

进一步的,所述步骤6)中,对于一个长度为L且Cα空间坐标已知的待预测蛋白质,首先提取其序列特征和距离矩阵,然后将序列特征通过大小为W的滑动窗口方法分配到每个残基上,然后将残基所对应的特征逐个输入到多个残差神经网络与混合神经网络中,再将残差神经网络与混合神经网络的输出结果输入到Logistic回归分类器中,最终的结果即为蛋白质中每个残基对应的结合概率。

与现有技术相比,本发明的有益效果在于:

1.本发明提出了一种新的混合神经网络,将经典的双向长短时记忆网络和残差神经网络进行了融合,融合后的网络可以同时处理异构的蛋白质序列和结构数据,并挖掘出了序列特征和结构特征的互补性。

2.本发明采用了随机下采样和集成的方法来处理正负样本不平衡问题,并针对神经网络中数据以mini-batch的形式输入的特点,采用了对正样本逐批次的上采样来进一步减少其影响。

3.本发明与现有方法相比,有着更高的预测精度,且针对不同配体的数据集都有着不错的泛化性能。

附图说明

图1为本发明的基于深度学习的蛋白质-配体结合位点预测算法流程图。

图2本发明的残差网络模块示意图。

混合神经网络架构图(a)、序列特征和距离矩阵提取模块(b)、双向长短时记忆网络模块(c)。

图3为本发明的随机采样与集成方法示意图。

图4本发明的残差神经网络中的残差块实现示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

参见图1,本发明所述的一种基于深度学习的蛋白质-配体结合位点预测算法,包括以下步骤:

步骤1)对于给定的蛋白质结构数据集,首先利用PSI-BLAST算法、HHblits算法、SCRATCH算法和S-SITE算法分别提取其进化信息、二级结构信息、相对溶剂可及性与结合概率,并对进化信息作归一化处理;其次从蛋白质各残基的三维空间坐标计算出每个残基对之间的欧氏距离,并构建距离矩阵;利用滑动窗口策略针对每个残基截取特征张量;

步骤2)将每个结合位点作为正样本,非结合位点作为负样本,使用随机下采样的方法从负样本中抽取一个子集与所有的正样本构建一个训练子集,重复多次后获得多个训练子集;之后在构建mini-batch时,对正样本作随机上采样;

步骤3)利用残差模块构建残差神经网络(ResNet),并在步骤1)中所得的距离矩阵上进行训练;

步骤4)将步骤3)中所述的残差网络与双向长短时记忆网络(BiLISTM)通过全连接层进行整合,构建一个混合神经网络,并在步骤1)中所得的序列特征和距离矩阵上进行训练;

步骤5)使用步骤3)中所述的残差神经网络与步骤4)中所述的混合网络的输出结果训练一个Logistic回归分类器;

步骤6)对于一个待预测的蛋白质,首先提取其序列特征和距离矩阵,然后将特征通过滑动窗口方法分配到每个残基上,然后逐个输入到残差网络与混合神经网络中,再将输出结果输入到Logistic回归分类器中,最终的结果即为蛋白质中每个残基对应的结合概率。

其中,步骤1)的具体过程如下:

步骤1.1)对于长度为L的蛋白质,通过PSI-BLAST算法获得其位置特异性打分矩阵PSSM;PSSM的大小为L×20,其中第i行第j列元素pij表示第i个残基突变为j种氨基酸的可能性,氨基酸共有20种;

然后对每个pij作如下式的归一化处理:

Figure BDA0002205573860000081

步骤1.2)对于长度为L的蛋白质,通过HHblits算法获得打分矩阵HHM,HHM标识蛋白质序列的进化信息;HHM的大小为L×20,其中前20列为20种氨基酸的发射概率,第21-27列为转移概率,第28-30列为局部多样性;

对HHM中的元素hij作如下式的归一化处理:

Figure BDA0002205573860000082

步骤1.3)对于长度为L的蛋白质,通过SCRATCH算法预测其二级结构信息和相对溶剂可及性;二级结构信息表示为一个L×3的矩阵,其中每一行si以one-hot向量的形式表示第i个残基的二级结构为helix,strand或其它;溶剂可及性表示为一个L×2的矩阵,其中每一行ri以one-hot向量的形式表示第i个残基的状态为exposed或buried;

步骤1.4)对于长度为L的蛋白质,通过S-SITE算法预测其每个残基的结合倾向,结果表示为一个L×2的矩阵;其中每一个元素qi0和qi1分别表示该第i个残基结合的概率和不结合的概率,qi0和qi1的和为1;

步骤1.5)对于长度为L的蛋白质,若其每个原子在空间中的坐标是已知的,通过计算第i个残基与第j个残基的Cα之间的欧氏距离,记为dij

按照序列的顺序构建一个距离矩阵D={dij}L×L,然后通过插值的方法将其缩放到L×400的大小;

步骤1.6)将步骤1.1)-步骤1.4)中得到的序列特征矩阵,按行拼接为一个L×57的序列特征矩阵,再以大小为W的滑动窗口对每个残基进行截取,最终得到大小为W×57的特征矩阵;如图2中的a部分所示,4种特征将会被分为两组分别输入到两个BiLSTM中,其中一组只包含PSSM,SS(SCRATCH预测的二级结构信息),RSA(SCRATCH预测的相对溶剂可及性)和SST(S-SITE预测的结合倾向),另一组只包含HHM,SS,RSA和SST。用同样大小为W的滑动窗口对距离矩阵进行截取,得到每个残基对应的大小为W×400的距离矩阵。

所述步骤2)中随机下采样与mini-batch中的上采样如图3所示,需满足如下的条件:

1)在随机下采样中,每个负样本以20%的概率随机地从原始数据集中选取,选取的负样本与所有的正样本组合成一个训练子集;用相同的方法获得Nset个训练子集;

2)在mini-batch中的上采样中,循环地从所有正样本组成的集合和所有负样本组成的集合中选取Np个正样本和Nn个负样本,根据Np下式得到:

Np=[0.3×Nb]

其中,Nb为mini-batch的大小,[·]为取整符号,且Nn=Nb-Np

进一步的,所述步骤3中,残差块的定义和残差网络的构建如下:

如图4所示,残差块一般由多个卷积层和一个恒等映射构成,卷积层之间由激活函数来实现非线性映射。图4左侧为一般的残差块,右侧为瓶颈形式(bottleneck)的残差块,它的优势在于可以在保证性能的情况下减少参数。本发明采用了瓶颈形式的残差块,其描述如下式所示:

Res(X)=σ(Conv(σ(Conv(σ(Conv(X,1,1,D)),3,3,D)),1,1,4×D)+X)

其中,σ为激活函数,Conv(X,W,H,D)为卷积函数,X为输入变量,W和H分别为卷积核的宽度和高度,k为卷积核的数量;

本发明中残差网络由多个残差块堆叠而成,如图2(b)所示,并通过Adam算法进行优化,网络的输入即为每个残基的距离矩阵。具体的网络架构在总结在表1中。

Figure BDA0002205573860000101

a卷积层的设置分别表示卷积核大小,卷积核数量,步长;

b瓶颈形式的残差块的步长为1。

表1残差神经网络模块架构

在所述Nset个子集上,针对蛋白质中每个残基可以训练Nres个独立的残差神经网络,其中Nres≤Nset

进一步的,所述步骤4)中,混合神经网络通过全连接层整合了步骤3)中的残差网络以及BiLSTM,通过Adam算法进行优化,它的整体架构如图2所示。正如步骤2)中所述,两个BiLSTM的输入分别为两组序列特征。

在所述Nset子集上,针对蛋白质中每个残基可以训练Nhybrid个独立的混合网络,其中,Nhybrid=Nset-Nres

所述步骤5)中的每个残基对应的Nres个残差网络和Nhybird个混合网络的输出拼接为一个长度为Nset的向量;将所述向量作为输入,通过交叉验证的方式,训练一个Logistic回归分类器,具体形式如图3所示;在所述Logistic分类器的损失函数中加入l1正则项来防止过拟合。

所述步骤6)中,对于一个长度为L且Cα空间坐标已知的待预测蛋白质,首先提取其序列特征和距离矩阵,然后将序列特征通过大小为W的滑动窗口方法分配到每个残基上,然后将残基逐个输入到多个残差神经网络与混合神经网络中,再将残差神经网络与混合神经网络的输出结果输入到Logistic回归分类器中,最终的结果即为蛋白质中每个残基对应的结合概率。

然后通过之前在训练集上学习到的最优阈值T∈(0,1)对结合概率进行划分,若结合概率大于T,则该残基被认为是一个结合位点;反之,该残基被认为是一个非结合位点。

实施例

以蛋白质与MN2+的结合位点数据集作为训练集与测试集。训练集共包含440个蛋白质,其中共有1931个结合残基,150229个非结合残基;测试集共包含144个蛋白质,其中共有612个结合残基,50838个非结合残基。

首先,利用PSI-BLAST算法、HHblits算法、SCRATCH算法和S-SITE算法分别提取所有训练集和测试集中蛋白质的进化信息、二级结构信息、相对溶剂可及性与结合概率,并对进化信息(包括PSSM和HHM)作归一化处理;其次从所有训练集和测试集中的蛋白质各残基的三维空间坐标计算出每个残基对之间的欧氏距离,并构建距离矩阵,并将矩阵的列数缩放到400;最后,利用大小为37的滑动窗口策略针对每个残基截取特征张量,这样所有的残基都对应着一个大小为37×57的序列特征矩阵和一个大小为37×400的距离矩阵。

由于数据有着极端不平衡的状态,即结合位点(正样本)远少于非结合位点(负样本),对负样本进行随机下采样,采样比例为20%。然后将采样得到的负样本与所有正样本组合形成一个训练子集,重复该流程,直到获得13个训练子集。针对每个训练子集,可以训练一个混合神经网络或残差神经网络。在本实例中,共训练10个混合网络和3个残差网络。

将每个训练子集中的数据按大小为32的mini-batch输入到一个独立的混合神经网络或残差神经网络中,保证正负样本额比例控制在3∶7。然后通过Adam算法优化网络的参数,直到神经网络在验证集上的效果不再提升为止。

将所有13个网络的结果连接为长度13的向量,通过交叉验证的方式来训练一个Logistic回归分类器。至此,本发明包含的模型皆训练完成。

然后,将测试集中的数据按相同的方法提取特征并输入网络,不同之处在于测试数据的结合位点是未知的,我以不需要通过优化算法来更新网络的权重。最后,将多个网络的结果输入到训练好的Logistic回归分类器中,得到每个残基对应的结合概率,之后按照预定的阈值进行划分,在本实例中阈值为0.345。

本发明采用的评价指标如下:

REC=TP/(TP+FN)

PRE=TP/(TP+FP)

Figure BDA0002205573860000131

其中,TP、FP、TN、FN分别为真阳性、假阳性、真阴性、假阴性结果。

实验的预测结果如下:

在实验阶段,本发明与其它具有代表性的蛋白质-配体结合位点预测方法进行比较,结果如下表所示。本发明在综合指标MCC上都取得了最好的结果,与第二好的方法IonCom相比,提升了4.9%。尽管在REC这个指标上,本发明的方法效果略低,这是因为选择了较高的阈值来最大化MCC,从总体上来看,本发明的方法是显著好于其它已有的方法。

方法 REC PRE MCC
COACH 0.562 0.272 0.381
IonCom 0.531 0.495 0.506
TargetS 0.395 0.499 0.438
本发明所用方法 0.513 0.632 0.565

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:微卫星不稳定性检测装置、计算机设备及计算机存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!