基于深度学习的蛋白质-配体结合位点预测方法

文档序号:1891642 发布日期:2021-11-26 浏览:24次 >En<

阅读说明:本技术 基于深度学习的蛋白质-配体结合位点预测方法 (Protein-ligand binding site prediction method based on deep learning ) 是由 夏春秋 沈红斌 潘小勇 冯世豪 夏莹 于 2021-09-08 设计创作,主要内容包括:一种基于深度学习的蛋白质-配体结合位点预测方法,提取待预测蛋白质中所有残基的α碳原子在三维空间中的全局坐标,然后根据全局坐标计算得到邻接矩阵和原始节点特征,输入基于动量对比学习框架的神经网络模型从而得到蛋白质结构的描述子。本发明将深度学习技术与蛋白质结构的领域的知识相结合,生成更有鉴别力的描述子,从而更准确地识别目标蛋白质的相似结构,并且可提升蛋白质结构分类的精度。(A protein-ligand binding site prediction method based on deep learning is characterized in that global coordinates of alpha carbon atoms of all residues in a protein to be predicted in a three-dimensional space are extracted, then an adjacent matrix and original node characteristics are obtained through calculation according to the global coordinates, and a neural network model based on a momentum contrast learning framework is input, so that a descriptor of a protein structure is obtained. The invention combines the deep learning technology with the knowledge in the field of protein structure to generate a descriptor with more discriminative power, thereby more accurately identifying the similar structure of the target protein and improving the precision of protein structure classification.)

基于深度学习的蛋白质-配体结合位点预测方法

技术领域

本发明涉及的是一种生物工程领域的技术,具体是一种基于深度学习的蛋白质-配体结合位点预测方法。

背景技术

蛋白质结构比较的目的是衡量两个不同蛋白质之间的结构相似性。对于涉及蛋白质的结构生物信息学来说,结构比较工具可以说是一种基础设施,是蛋白质结构预测,蛋白质分子对接,基于结构的蛋白质功能预测等任务必不可少的一部分。蛋白质结构比较方法包括基于结构对齐的方法和基于表征的方法,前者通常比较耗时,无法满足大规模蛋白质结构检索的需求。随着蛋白质结构数据的迅速增长;基于表征的方法通常将蛋白质骨架上所有原子的坐标转换为一个固定长度的向量,然后通过比较向量之间的距离或相关系数来衡量两个结构之间的相似性,这种固定长度且具有旋转不变性的向量称为蛋白质结构的描述子。

发明内容

本发明针对现有蛋白质结构表征方法依赖于人工设计的特征、基于结构比对的方法效率较低,无法满足大规模蛋白质结构数据检索的需求;其它基于表征的方法精度相对较低,难以找到足够多的相似结构的缺陷,提出一种基于深度学习的蛋白质-配体结合位点预测方法,将深度学习技术与蛋白质结构的领域的知识相结合,生成更有鉴别力的描述子,从而更准确地识别目标蛋白质的相似结构,并且可提升蛋白质结构分类的精度。

本发明是通过以下技术方案实现的:

本发明涉及一种基于深度学习的蛋白质-配体结合位点预测方法,提取待预测蛋白质中所有残基的α碳原子在三维空间中的全局坐标,然后根据全局坐标计算得到邻接矩阵和原始节点特征,输入基于动量对比学习框架的神经网络模型从而得到蛋白质结构的描述子。

所述的神经网络模型,包括:两个架构相同的基于图神经网络的编码器,其训练样本通过计算训练数据集中的任意两个蛋白质结构之间的相似性,再使用动态划分正负样本的方法从训练数据集中采样结构对构建得到。

所述的训练,根据长度缩放的余弦距离衡量神经网络模型输出的两个描述子之间的距离,根据验证集中的数据和长度缩放的余弦距离决定训练是否达到目标。

所述的邻接矩阵是指:提取蛋白质结构中每个残基的α碳原子在三维空间中的笛卡尔坐标信息,然后根据残基的坐标信息计算出每个残基对之间的欧氏距离,根据距离构建邻接矩阵,具体包括:

步骤1)对于一个包含L个残基的蛋白质,其第i个残基的α碳原子在三维空间中的笛卡尔坐标为vi=(xi,yi,zi),第j个残基的α碳原子的坐标为vj=(xj,yj,zj),则这两个残基间的欧式距离为dij=||vi-vj||,该蛋白质的距离矩阵为

步骤2)基于上述所得的距离矩阵通过下式可以得到其邻接矩阵其中:ω和∈是两个用于规范化的超参数,两者均大于0。

步骤3)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于距离的原始节点特征,即每个残基的相对坐标和角度;将残基的坐标集合为V={v1,v2,...,vL-1,vL},Vi:j={vi,vi+1,...,vj-2,vj-1,}表示给定蛋白质中从序列上第i个到第j个残基的坐标集合,i<j;将蛋白质中第i个残基的原始节点特征向量为xi∈[0,+∞)K,其中:K为向量的长度且M为控制xi长度的超参数m为{0,1,...,M-1},g为{1,2,3,...,2m},第k个参照点的坐标vi表示第i个残基的坐标,xi中第k个元素即为vi间的欧式距离。

步骤4)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于角度的原始节点特征,对于蛋白质序列上连续的三个残基的坐标:vi-1、vi、vi+1,得到第i个残基基于角度的原始节点特征

步骤5)将基于距离和基于角度的原始节点特征进行拼接,得到第i个残基的原始节点特征为:其中:·||·表示拼接操作,则包含该残基的蛋白质结构的原始节点特征矩阵为其中:L为残基个数,T为转置操作。

所述的相似性,通过以下方式得到:当蛋白质结构训练数据集中包含N个结构,将其为Dtrain={X1,X2,...,Xi,...,XN},其中:Xi表示第i个蛋白质结构,使用TM-align算法计算第i个和第j个结构之间的相似性(TM-score)作为其结构相似性并为TM(Xi,Xj),TM-score的取值范围为[0,1]。

所述的动态划分正负样本的方法,具体包括:

步骤i)从训练数据集Dtrain中任选一个结构为Xa,计算其与Dtrain中其它所有结构之间的TM-score,然后按TM-score降序排列后,从Dtrain中随机采样一个非Xa的结构为Xb,当其排在前K%中,则(Xa,Xb)为一个正样本结构对;否则为负样本结构对,其中:K为预设的超参数,K∈N且K∈[0,100];

步骤ii)训练数据队列为其中:每个结构对均为正样本结构对且满足:对于任意属于的结构对(Xai,Xbi),TM(Xai,Xbj)<TM(Xai,Xbi),其中:0<i-j≤LN为所述的动量对比学习框架中负样本队列的长度。

所述的基于图神经网络的编码器,分别包括:多个全连接层、一个BiLSTM模块和多个图卷积层,其训练过程包括:

步骤①将训练数据队列中的结构对的邻接矩阵和原始节点特征以batch的形式依次输入到对比学习框架中,并计算损失函数其中:yq和yk是正样本结构对中的两个结构分别输入εq和εk后得到的描述子,yi是负样本队列中第i个结构输入到εk中得到的描述子,τ是预设的温度系数。

步骤②根据损失函数,使用随机梯度下降算法更新εq的参数θq,然后利用θq更新εk的参数θk,具体为:θk←m·θk+(1-m)·θq,其中:m∈(0,1]是预设的动量系数。

步骤③将在本次迭代中使用的所有结构对中的第二个结构Xb加入到负样本队列中,当负样本队列中的结构个数已经达到预设的长度LN,则将最先加入到队列中的结构移除。

步骤④当完成指定次数的训练迭代后,将训练集和验证集中的结构数据输入到εq中得到描述子,计算验证集中所有描述子与训练集中所有描述子两两之间的长度缩放的余弦距离其中:la,lb和lmax分别是验证集中蛋白质的长度,训练集中蛋白质的长度和训练集中最长蛋白质的长度,ya和yb分别是验证集和训练集中蛋白质结构的描述子。得到验证集和训练集中所有描述子两两之间的距离后,根据它们之间真实的结构相似性可以评估当前模型,决定是否终止所述的模型的训练或降低学习率。

本发明涉及一种实现上述方法的系统,包括:特征提取器、编码器、验证模块以及参数更新模块,其中:特征提取模块从结构对中两个蛋白质的结构数据中分别提取距离矩阵和节点特征,将提取到的特征分别输入到两个编码器中;两个编码器将输入的特征编码为固定长度的向量输出;验证模块计算出两个输出向量之间的距离,并评估其与两个结构之间真实相似性之间的差距,计算损失;根据损失利用反向传播算法更新其中一个编码器的参数,再利用动量方法更新另一个编码器的参数。

技术效果

本发明整体解决现有技术在蛋白质结构比较的精度和速度上的不足。与现有技术相比,本发明动态训练数据划分策略可以让模型学习到更细致的相似关系,长度缩放的余弦距离可以对描述子之间的相似性做进一步的修正。在不损失计算效率的情况下,分别在排序和分类任务上取得更好的结果。

附图说明

图1为本发明流程图;

图2为实施例动量对比学习框架示意图;

图3为实施例基于图神经网络的编码器架构示意图。

具体实施方式

如图1所示,为本实施例涉及一种基于深度学习的蛋白质-配体结合位点预测方法,包括如下步骤:

步骤1)首先提取蛋白质结构中每个残基的α碳原子在三维空间中的笛卡尔坐标信息,然后根据残基的坐标信息计算出每个残基对之间的欧氏距离,根据距离构建邻接矩阵,并计算每个残基的相对坐标和角度作为原始节点特征,具体包括:

步骤1.1)给定一个包含L个残基的蛋白质,其中:第i个残基的α碳原子在三维空间中的笛卡尔坐标为vi=(xi,yi,zi),第j个残基的α碳原子的坐标为vj=(xj,yj,zj),则这两个残基间的欧式距离为dij=||vi-vj||,该蛋白质的距离矩阵为

步骤1.2)基于上述所得的距离矩阵通过下式可以得到其邻接矩阵其中:ω和∈是两个用于规范化的超参数,本实施例中取ω=4和∈=2。

步骤1.3)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于距离的原始节点特征,将残基的坐标集合为V={v1,v2,...,vL-1,vL},Vi:j={vi,vi+1,...,vj-2,vj-1,}(i<j)表示给定蛋白质中从序列上第i个到第j个残基的坐标集合。

将蛋白质中第i个残基的原始节点特征向量为xi∈[0,+∞)K其中:第k个参照点的坐标vi表示第i个残基的坐标,xi中第k个元素即为vi间的欧式距离,K为向量的长度且M为控制xi长度的超参数,本实施例中取M=5,m∈{0,1,...,M-1},g∈{1,2,3,...,2m},k=0,1,...,K-1。

步骤1.4)根据蛋白质中每个残基的α碳原子在三维空间中的笛卡尔坐标,得到每个残基基于角度的原始节点特征。对于蛋白质序列上连续的三个残基的坐标:vi-1、vi、vi+1,得到第i个残基基于角度的原始节点特征

步骤1.5)将基于距离和基于角度的原始节点特征进行拼接,得到第i个残基的原始节点特征为:其中:·||·表示拼接操作。包含该残基的蛋白质结构的原始节点特征矩阵为其中:L为残基个数,T为转置操作。

步骤2)对于训练数据集中的任意蛋白质结构,计算其与其它所有蛋白质结构之间的相似性,对于训练数据集中的任意蛋白质结构,计算其与其它所有蛋白质结构之间的相似性方法具体是指:当蛋白质结构训练数据集中包含N个结构,将其记为Dtrain={X1,X2,...,Xi,...,XN},其中:Xi表示第i个蛋白质结构;本实施例中N为13265。使用TM-align算法计算第i个和第j个结构之间的TM-score作为其结构相似性并记为TM(Xi,Xj),TM-score的取值范围为[0,1]。

步骤3)使用动态划分正负样本的方法从训练数据集中采样结构对构建训练数据队列,具体包括:

步骤3.1)从训练数据集Dtrain中任选一个结构为Xa,如所述的方法计算其与Dtrain中其它所有结构之间的TM-score,然后按TM-score降序排序这些结构,并从Dtrain中随机采样一个非Xa的结构为Xb,当其排在前30%时,则称(Xa,Xb)为一个正样本结构对;反之,称其为负样本结构对;

步骤3.2)将训练数据队列为其中:每个结构对均为正样本结构对且满足:对于任意属于的结构对(Xai,Xbi),TM(Xai,Xbj)<TM(Xai,Xbi),其中:0<i-j≤LN为所述的动量对比学习框架中负样本队列的长度。

步骤4)构建动量对比学习框架,该框架包含两个基于图神经网络的编码器。将训练数据输入到该对比学习框架中生成描述子并训练该模型,根据验证集中的数据和长度缩放的余弦距离决定何时终止所述的模型的训练,该动量对比学习框架如图2所示,它包含两个基于图神经网络的编码器,这两个编码器具有完全相同的架构,将其为εq和将其为εk。以εq为例,如图3所示,它包含多个全连接层,一个BiLSTM模块和多个图卷积层。模型的训练过程如下所示:

步骤4.1)将训练数据队列中的结构对的邻接矩阵和原始节点特征以batch的形式依次输入到对比学习框架中,并计算损失函数其中:yq和yk是正样本结构对中的两个结构分别输入εq和εk后得到的描述子,yi是负样本队列中第i个结构输入到εk中得到的描述子,τ是预设的温度系数。

步骤4.2)根据得到的损失Loss,使用随机梯度下降算法更新εq的参数θq,然后利用θq更新εk的参数θk,具体为:θk←m·θk+(1-m)·θq,其中:m∈(0,1]是预设的动量系数。

步骤4.3)将本次使用的结构对中的第二个结构加入到负样本队列中,当负样本队列中的结构个数已经达到预设的长度LN,则将最先加入到队列中的结构移除。

步骤4.4)当完成指定次数的训练迭代后,将训练集和验证集中的结构数据输入到εq中得到描述子,计算验证集中所有描述子与训练集中所有描述子两两之间的长度缩放的余弦距离其中:la,lb和lmax分别是验证集中蛋白质的长度,训练集中蛋白质的长度和训练集中最长蛋白质的长度,ya和yb分别是验证集和训练集中蛋白质结构的描述子。得到验证集和训练集中所有描述子两两之间的距离后,根据它们之间真实的结构相似性可以评估当前模型,决定是否终止所述的模型的训练或降低学习率。

步骤5)对于查询蛋白质结构,首先以类似于步骤1的方式提取其邻接矩阵和原始节点特征,将其输入到动量对比学习框架的第一个编码器中,最终结果即为该蛋白质的结构描述子。

本实施例以蛋白质结构数据库SCOPe v2.07作为训练集和验证集,在该数据上进行5折交叉验证。该数据集在40%去冗余和数据清洗后包含共13265个蛋白质结构域,其中:每个结构都属于7种类别之一。

首先,计算所有结构的邻接矩阵和原始节点特征,然后利用TM-align算法计算结构两两之间的相似性,再使用动态训练数据划分策略构建训练数据队列。将训练数据以batch的形式依次输入到动量对比学习框架中训练整个模型,batch大小为64。每次迭代后,将当前batch中结构对的第二个结构加入到负样本队列中,队列长度为1024。模型每经过大约1500次迭代后,将训练集和验证集中所有结构都输入到网络中得到描述子,然后计算验证集中每个结构与训练集中任意结构描述子之间的长度缩放的余弦距离,将该距离与这两个结构真实的相似性做对比以评估描述子的质量。当模型的性能不再提升时,终止训练,输出最后一次评估的结果。

在排序任务上,最终的结果如下表所示,与目前最好的方法相比,本方法在各个指标上都获得比较大的提升。与第二好的方法DeepFold相比,的方法在AUPRC上提升约6%,在Top-1 hit ratio,Top-5 hit ratio,Top-10 hit ratio上分别提升12.2%,14.2%和14.7%。

其中:AUPRC指的是准确率-召回率曲线下面积,Top-Khit ratio指的是与目标蛋白质的结构描述子距离最近的K个描述子所属的蛋白质中,实际上确实与目标蛋白质结构相似的个数与min(K,Nr)的比值,其中:Nr是目标蛋白质真实相似蛋白的个数。

方法 AUPRC Top-1hit ratio Top-5hit ratio Top-10hit ratio
SGM 0.4559 0.5591 0.5328 0.5579
SSEF 0.0377 0.0833 0.0579 0.0607
DeepFold 0.4990 0.6061 0.5677 0.5930
本方法 0.6595 0.7282 0.7101 0.7400

在分类任务中,通过上述方法得到的描述子输入到Logistic Regression分类器中,交叉验证SCOPe中所有蛋白质在Class层级(SCOPe的Class层级包含7个类别)的类别,结果如下表所示,与目前最好的方法相比,本方法在各个指标上同样取得显著的提升。与第二好的方法DeepFold相比,在平均F1-score和准确率上分别提升5.1%和3.7%。其中平均F1-score是分类器在7个类别上分别求得F1-score后取得的平均值。

方法 平均F1-scoFe 准确率(Accuracy)
SGM 0.6289 0.8354
SSEF 0.4920 0.7470
DeepFold 0.7615 0.8887
本方法 0.8124 0.9258

进一步比较本方法与其它算法的运行速度:分别使用所有方法计算一个独立数据集中1914个蛋白质结构两两之间的相似性(共进行3,663,396次结构比较),所有程序均在Intel XeonCPU E5-2630v4的单个逻辑核上运行,然后统计每个方法的运行时间,结果如下表所示。与基于结构比对的方法TM-align相比,所有基于表征的方法在运算速度上都有明显的提升。与其它基于表征的方法相比,本方法的计算速度虽然较SGM和SSEF(两种方法的在排序和分类任务上的精度较低)略慢,但平均时间仍在同一水平线上,且快于DeepFold。当引入预计算(在查询之前计算好数据库中所有结构的描述子,这样查询时只需要计算待查询结构的描述子和描述子之间的距离)后,本方法与SGM和SSEF之间的差异进一步缩小。

上述具体实施可由本领域技术人员在不背离本发明原理和亲旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:代谢物标记方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!