一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法

文档序号:1923592 发布日期:2021-12-03 浏览:32次 >En<

阅读说明:本技术 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法 (End-to-end learning-based compound and protein interaction and affinity prediction method ) 是由 李敏 卢长利 于 2021-09-06 设计创作,主要内容包括:本发明公开了一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,包括:将化合物的分子式转换为原子邻接图,使用图注意力网络学习化合物每个原子的表征向量;将蛋白质氨基酸序列切分为残基序列,使用卷积神经网络模型学习残基的表征向量;构建双向注意力网络模型来融合所有原子和残基的表征向量,得到化合物特征向量和蛋白质特征向量;使用神经网络并根据化合物和蛋白质的特征向量,对化合物与蛋白质之间的相互作用以及亲和力进行预测。本发明既可以用于化合物和蛋白质相互作用的预测,又能够预测二者之间的结合亲和力,而且预测准确性好。(The invention discloses a method for predicting interaction and affinity of a compound and a protein based on end-to-end learning, which comprises the following steps: converting the molecular formula of the compound into an atom adjacency graph, and learning a characterization vector of each atom of the compound by using an attention network; segmenting a protein amino acid sequence into a residue sequence, and learning a representation vector of a residue by using a convolutional neural network model; constructing a bidirectional attention network model to fuse the characterization vectors of all atoms and residues to obtain a compound characteristic vector and a protein characteristic vector; the interaction and affinity between the compound and the protein are predicted using a neural network and based on the feature vectors of the compound and the protein. The method can be used for predicting the interaction between the compound and the protein, can also be used for predicting the binding affinity between the compound and the protein, and has good prediction accuracy.)

一种基于端到端学习的化合物和蛋白质相互作用与亲和力预 测方法

技术领域

本发明属于药物预测与分析领域,具体涉及一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法。

背景技术

在药物的研发过程中,事先确定靶向特定疾病的靶标蛋白是药物研发的基础,而寻找能够与特定靶标蛋白产生相互作用的化合物分子是药物研发的关键。其中,靶标是指体内与某种疾病的发生密切相关,并能与药物发生特异性结合从而产生治疗效果的生物大分子,主要包括受体、核酸、基因等。药物中的化合物分子通过调控靶标的生物活性以达到治愈或缓解相应疾病的效果。药物化合物与靶标蛋白质之间的相互作用实际上是一种特异性结合的关系,而结合关系的强弱也称之为结合亲和力。鉴定化合物和蛋白质之间的相互作用以及测定二者之间的结合亲和力是药物研发过程中的关键步骤,对药物研发具有重要意义。使用传统的实验方法进行化合物和蛋白质相互作用的鉴定以及结合亲和力的测定存在实验周期漫长且耗资昂贵等问题,也无法进行大规模地应用。开发有效的计算方法来预测化合物和蛋白质之间的相互作用和结合亲和力能够加快昂贵且耗时的实验工作,减少盲目性的生化实验,专注于更少数量而更有可能的化合物分子和靶标蛋白,从而极大地缩短药物研发的周期、降低研发成本以及研发失败所带来的风险。随着基因组学、蛋白质组学以及系统生物学等技术的不断提高,化合物和蛋白质相关的数据呈井喷式增长,为数据驱动的计算方法提供了海量的数据资源。

传统的计算方法既能用于分析化合物和蛋白质之间相互作用的结合模式,又能计算二者之间的结合亲和力大小,主要包括基于配体、基于结构、以及分子动力学模型等方法。但这些方法都存在一定的局限性,基于配体的方法会受到靶标已知的配体数量的限制,基于结构的方法过度依赖于靶标蛋白的三维结构数据,而分子动力学模型会受到高计算成本的限制。而目前主流的计算方法大都关注于化合物和蛋白质之间相互作用的二分类预测,即预测给定的化合物和蛋白质是否存在相互作用,而忽略了重要的相互作用强度信息,即结合亲和力的大小。虽然目前已存在一些化合物和蛋白质结合亲和力的预测方法,但是这些预测方法的生物可解释性和预测精确度上还有待进一步提高。

发明内容

本发明提出一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,既可以用于化合物和蛋白质相互作用的预测,又能够预测二者之间的结合亲和力,且其生物可解释性和预测准确性较好。

为实现上述技术目的,本发明采用如下技术方案:

一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,包括:

获取化合物的分子式并将其转换为原子邻接图,将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量;

获取蛋白质的氨基酸序列,采用滑动窗口的方法从氨基酸序列中提取固定长度的残基,再使用卷积神经网络模型对随机初始化的残基表征向量进行更新和学习;

根据化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量;

对化合物特征向量和蛋白质特征向量进行外积运算,将运算结果展开成一维的列向量,作为第一神经网络模型的输入,用于预测化合物与蛋白质之间是否存在相互作用;对于存在相互作用的样本,将外积运算结果展开的一维列向量作为第二神经网络模型的输入,用于预测化合物与蛋白质之间的亲和力大小。

在更优的技术方案中,使用RDKit工具将化合物分子式转换为原子邻接图G={V,E};其中,V是原子邻接图的节点集合,所有节点与化合物的所有原子一一对应,vi∈V表示化合化的第i个原子;E是原子邻接图的边集合,eij∈E第i个原子与第j个原子之间的化学键。

在更优的技术方案中,所述将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量,具体为:

A1,按公式计算每两个原子vi,vj之间的注意力系数αij,其中的分别为原子vi,vj随机初始化的表征向量,为图注意力网络模型的注意力参数;

A2,对于化合物每个原子vi,根据其所有邻居节点vj的表征向量以及其与所有邻居节点vj之间的注意力系数αij,采用加权求和的方式更新该原子vi的表征向量 其中的Ni为原子vi的所有邻居节点,化合物中与原子vi有化学键连接的所有原子均为原子vi的邻居节点。

在更优的技术方案中,重复步骤A1-A2共K次,各原子融合K次得到的表征向量,得到化合物各原子最终的表征向量。

在更优的技术方案中,提取的每个残基包括氨基酸序列中相邻的3个氨基酸,则蛋白质的氨基酸序列S={s1,s2,…sm}提取得到残基序列为R={r1,r2,…rl};其中,si,i=1,2,,m表示蛋白质的第i个氨基酸,ri,i=1,2,,l表示残基序列R中的第i个残基,且有l=m-2。

在更优的技术方案中,所述根据化化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量,具体为:

B1,将化合物的原子表征向量和蛋白质的残基表征向量都转换为统一的向量维度d,并分别表示为化合物特征矩阵和蛋白质特征矩阵

B2,融合化合物特征矩阵C和蛋白质特征矩阵P得到相互作用矩阵A,计算公式为:

A=CUPT

式中,U是用于融合化合物与蛋白质特征的参数矩阵,U∈Rd×d

B3,分别计算残基传递到原子的化合物信息Ic和原子传递到残基的蛋白质信息Ip,计算公式为:

Ic=APWr2a

Ip=APWa2r

式中,Wr2a和Wa2r分别是用于计算两个不同传递方向的参数,Wr2a∈Rd×d,Wa2r∈Rd×d

B4,计算原子对于残基的注意力系数αa2r和残基对于原子的注意力系数αr2a,计算公式为:

αa2r=[CWc||Ic]aa2r

αr2a=[PWp||Ip]ar2a

式中,Wc和Wp分别是化合物和蛋白质向量空间转换的参数,Wc∈Rd×d,Wp∈Rd×d;||表示向量拼接的操作;aa2r和ar2a分别用于计算两个不同方向的注意力系数的参数,aa2r∈Rd×d,ar2a∈Rd×d

B5,根据对应的注意力系数融合化合物原子的表征向量和蛋白质残基的表征向量,得到化合物特征向量和蛋白质特征向量计算公式为:

在更优的技术方案中,重复步骤B1-B5共L次,每次重复得到的均为1个独立的双向注意力网络模型的结果,融合L个独立的双向注意力网络模型的结果,得到最终的化合物特征向量和蛋白质特征向量

在更优的技术方案中,在步骤B5利用注意力系数进行加权融合得到化合物特征向量和蛋白质特征向量之前,先对步骤B4计算得到的注意力系数aa2r和ar2a分别进行归一化处理,再用于步骤B5加权融合计算化合物特征向量和蛋白质特征向量。

在更优的技术方案中,所述第一神经网络采用二分类的神经网络结构,且训练样本标签只有1和0两个值,分别表示存在相互作用和不存在相互作用;所述第二神经网络采用回归分析类的神经网络结构,所有训练样本标签的值覆盖整个亲和力取值范围。

有益效果

本发明提出了一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,与现有技术相比,具有如下有益效果:该方法既可以用于化合物和蛋白质相互作用的预测,又能够预测二者之间的结合亲和力;使用双向注意力网络模型来融合化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,能够增加预测方法的生物可解释性;通过大量的实验表明,该方法在相互作用预测和结合亲和力预测均能取得更好的预测准确性;该方法能够用于辅助虚拟药物筛选和药物重定位,减少盲目的实验工作,节省药物研发的时间和成本,缓解药物研发的压力。

附图说明

图1为本发明预测方法的流程图;

图2为本发明与对比方法在human数据集上的AUC和AUPR值对比图;

图3为发明与对比方法在C.elegans数据集上的AUC和AUPR值对比图;

图4为发明与对比方法在不同结合亲和力数据集上的RMSE和PCC值对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。

如图1所示,本发明实施例具体公开一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法,包括以下步骤:

步骤1,获取化合物的分子式并将其转换为原子邻接图,将原子邻接图和随机初始化的原子表征向量作为图注意力网络模型的输入,更新和学习得到化合物中所有原子的表征向量。

具体可以使用RDKit工具将化合物分子式转换为原子邻接图G={V,E};其中,V是原子邻接图的节点集合,所有节点与化合物的所有原子一一对应,vi∈V表示化合化的第i个原子;E是原子邻接图的边集合,eij∈E第i个原子与第j个原子之间的化学键。

所述图注意力网络模型,能够为原子邻接图中每个节点的邻居节点分配不同的权重,能够从化合物中每个原子的邻居节点提取特征信息,来更新和学习化合物中每个原子的表征向量。具体为:

步骤A1,按公式计算每两个原子vi,vj之间的注意力系数αij,其中的分别为原子vi,vj随机初始化的表征向量,为图注意力网络模型的注意力参数,1≤i≤n,1≤j≤n;所有注意力系数表示为:

步骤A2,对于化合物每个原子vi,根据其所有邻居节点vj的表征向量以及其与所有邻居节点vj之间的注意力系数αij,采用加权求和的方式更新该原子vi的表征向量 其中的Ni为原子vi的所有邻居节点,化合物中与原子vi有化学键连接的所有原子均为原子vi的邻居节点。

在更优的实施例中,所述图注意力网络模型采用多头注意力机制,通过融合多个独立的图注意力网络模型的计算结果,从而能够获得更准确的原子表征向量。具体体现为:重复步骤A1-A2共K次,各原子融合K次得到的表征向量,得到化合物各原子最终的表征向量。

步骤2,获取蛋白质的氨基酸序列,采用滑动窗口的方法从氨基酸序列中提取固定长度的残基,再使用卷积神经网络模型对随机初始化的残基表征向量进行更新和学习。

采用固定长度为3、步长为1的滑动窗口,从蛋白质的氨基酸序列S={s1,s2,…sm}依次提取残基,则提取到的每个残基包括氨基酸序列中相邻的3个氨基酸,所有残基表示为残基序列R={r1,r2,…rl};其中,si(i=1,2,,m)表示蛋白质的第i个氨基酸,ri(i=1,2,,l)表示残基序列R中的第i个残基,且有l=m-2。例如,氨基酸序列为MRPSG...FIGA的蛋白质,可以被分割成长度为3的不同子序列:`MRP',`RPS',`PSG',...,`FIG',`IGA',其中每一个子序列都为一个残基。将每个残基都随机初始化表示为一个向量,即为残基表征向量,蛋白质的所有残基表征向量合在一起可以组成一个二维矩阵,然后输入到卷积神经网络中进行卷积和池化的操作,相当于对输入的残基表征向量进行计算和转换,深度学习里面的专业术语。

所述的卷积神经网络的超参数主要包括卷积层数、滤波器的大小和数量,学到的残基表征向量将会输入到步骤3中的双向注意力网络模型进行预测。

步骤3,根据化合物中所有原子的表征向量和蛋白质中所有残基的表征向量,通过构建的双向注意力网络模型计算每个原子对于残基和每个残基对于原子这两个方向的注意力系数;再利用得到的注意力系数对所有原子表征向量和所有残基表征向量分别进行加权融合,得到融合的化合物特征向量和蛋白质特征向量。具体包括:

B1,将化合物的原子表征向量和蛋白质的残基表征向量

都转换为统一的向量维度d,并分别表示为化合物特征矩阵和蛋白质特征矩阵

B2,融合化合物特征矩阵C和蛋白质特征矩阵P得到相互作用矩阵A,计算公式为:

A=CUPT

式中,U是用于融合化合物与蛋白质特征的参数矩阵,U∈Rd×d

B3,分别计算残基传递到原子的化合物信息Ic和原子传递到残基的蛋白质信息Ip,计算公式为:

Ic=APWr2a

Ip=APWa2r

式中,Wr2a和Wa2r分别是用于计算两个不同传递方向的参数,Wr2a∈Rd×d,Wa2r∈Rd×d

B4,计算原子对于残基的注意力系数αa2r和残基对于原子的注意力系数αr2a,计算公式为:

αa2r=[CWc||Ic]aa2r

αr2a=[PWp||Ip]ar2a

式中,Wc和Wp分别是化合物和蛋白质向量空间转换的参数,Wc∈Rd×d,Wp∈Rd×d;||表示向量拼接的操作;aa2r和ar2a分别用于计算两个不同方向的注意力系数的参数,aa2r∈Rd×d,ar2a∈Rd×d

B5,根据对应的注意力系数融合化合物原子的表征向量和蛋白质残基的表征向量,得到化合物特征向量和蛋白质特征向量计算公式为:

上述的参数U,Wr2a,Wa2r,Wc,Wp,aa2r,ar2a等,这些参数都是双向注意力网络模型初始化得到的,并可以进行更新和学习。

在更优的实施例中,所述的双向注意力网络模型采用多头注意力机制,通过融合多个独立的双向注意力网络模型的计算结果,能够获得更准确的化合物和蛋白质的特征向量。体现为:重复步骤B2-B5共L次,每次重复得到的均为1个独立的双向注意力网络模型的结果,通过融合L个独立的双向注意力网络模型的结果,得到最终的化合物特征向量和蛋白质特征向量

在更优的实施例中,在执行步骤B4得到的注意力系数aa2r和ar2a,分别通过softmax函数进行归一化处理,再用于步骤B5加权融合计算化合物特征向量和蛋白质特征向量。

步骤4,对化合物特征向量和蛋白质特征向量进行外积运算,将运算结果展开成一维的列向量,作为第一神经网络模型的输入,用于预测化合物与蛋白质之间是否存在相互作用;对于存在相互作用的样本,将外积运算结果展开的一维列向量作为第二神经网络模型的输入,用于预测化合物与蛋白质之间的亲和力大小。

所述第一神经网络采用二分类的神经网络结构,且训练样本标签只有1和0两个值,分别表示存在相互作用和不存在相互作用。

所述第二神经网络采用回归分析类的神经网络结构,所有训练样本标签的值覆盖整个亲和力取值范围,从而对给定的化合物和蛋白质实际预测得到的亲和力大小可以为亲和力取值范围内的任意值。

实验验证

为了验证本发明预测方法的有效性,分别在两种不同类型的数据集上进行了化合物和蛋白质相互作用预测和化合物和蛋白质结合亲和力预测,并与不同预测方法进行了对比分析。

在化合物和蛋白质相互作用预测上,使用了从DrugBank、Matador和STITCH数据库中搜集并整理得到的human和C.elegans两个相互作用数据集,并与其它5个方法(BLM-NII、NetLabRLS、CMF、NRLMF和Tsubaki等人提出的方法)进行了对比。为了评价本发明在化合物和蛋白质相互作用预测上的准确性,采用AUC和AUPR两个指标进行比较,并设置了三种正负样本比例(1比1、1比3和1比5)来评估方法的鲁棒性。AUC值为ROC曲线的线下面积,AUPR值是PR曲线的线下面积,AUC值和AUPR值越高,表示预测的准确性越好。AUC值对正负样本的比例不敏感,在不平衡的数据集上,使用AUPR值作为评估指标能够给出更加真实的对比结果。在human数据集上的AUC值和AUPR值的实验结果具体如图2所示,在C.elegans数据集上的AUC和AUPR值的实验结果具体如图3所示。可以看出,本发明的预测方法在human和C.elegans两个数据集上都取得了最高的AUC值和AUPR值。另外,随着负样本所占比例的增加,大部分预测方法的AUC值几乎保持不变或略微升高,而AUPR值基本都降低了,但本发明预测方法的AUPR值依然显著高于其他预测方法。由此可见,本发明提出的预测方法在化合物和蛋白质相互作用预测上具有很好的预测效果。

在化合物和蛋白质结合亲和力预测上,使用了从BindingDB数据库整理得到的IC50、Ki、Kd和EC50四个结合亲和力数据集,并与其它5个方法(Ridge Regression、LassoRegression、Random Forest、DeepAffinity和MONN)进行了对比。为了评价本发明在化合物和蛋白质结合亲和力预测上的精确度,采用均方根误差(RMSE)和皮尔森相关系数(PCC)两个指标进行比较。均方根误差是衡量预测值与真实值之间误差的指标,值越小代表预测误差越小,预测模型的性能就越好。皮尔森相关系数是一种线性相关系数,用来反应预测值与真实值之间的线性相关程度,其值介于-1到1之间,值大于0表示正相关,值小于0则表示负相关,值越接近于1代表预测值与真实值之间的正相关性越强,预测模型的性能就越好。RMSE值和PCC值的实验结果具体如图4所示。可以看出,本发明的预测方法在IC50和Ki两个较大的数据集上取得了最低的RMSE值和最高的PCC值,在EC50数据集上取得了最低的RMSE值以及与MONN方法相同的PCC值,而在最小的Kd数据集上因其样本量较少,学到的化合物和蛋白质的表征向量不够准确,取得了第二好的RMSE值和PCC值(稍差于MONN方法)。由此可见,本发明提出的预测方法在化合物和蛋白质结合亲和力预测上具有很好的预测效果。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一套具有包容性且精准鉴别并挖掘稻瘟病Pik抗病等位基因家族的技术体系

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!