一种基于深度学习的蛋白质小分子对接打分方案

文档序号:1339752 发布日期:2020-07-17 浏览:40次 >En<

阅读说明:本技术 一种基于深度学习的蛋白质小分子对接打分方案 (Protein small molecule docking scoring scheme based on deep learning ) 是由 魏志强 李臻 江明建 张树刚 卞裕杰 于 2019-09-05 设计创作,主要内容包括:本发明提出了一种基于深度学习的蛋白质小分子对接打分方案,包括如下步骤:步骤1、构建复合物数据库,并选择其中若干蛋白质配体对用作训练集,若干蛋白质配体对用作验证集,若干蛋白质配体对用作测试集;步骤2、对复合物进行包围网格的创建,得到复合物网格,并通过处理得到多通道复合物描述符;步骤3、使用训练集对多通道复合物描述符进行训练,得到深度学习模型;步骤4、使用验证集对深度学习模型进行验证;步骤5、使用测试集得到复合物描述符,并输入深度学习模型中进行预测,得到复合物的打分值。借此,本发明具有采用多通道网格,通过深度学习对复合物网格进行打分,进而准确且快速预测对接分数的优点。(The invention provides a protein small molecule docking and scoring scheme based on deep learning, which comprises the following steps: step 1, constructing a compound database, and selecting a plurality of protein ligand pairs as a training set, a plurality of protein ligand pairs as a verification set, and a plurality of protein ligand pairs as a test set; step 2, establishing a surrounding grid for the compound to obtain a compound grid, and processing to obtain a multi-channel compound descriptor; step 3, training the multi-channel compound descriptor by using a training set to obtain a deep learning model; step 4, verifying the deep learning model by using a verification set; and 5, obtaining a compound descriptor by using the test set, and inputting the compound descriptor into the deep learning model for prediction to obtain a scoring value of the compound. Therefore, the method has the advantages that the multi-channel grids are adopted, the composite grids are scored through deep learning, and then the docking scores are accurately and quickly predicted.)

一种基于深度学习的蛋白质小分子对接打分方案

技术领域

本发明属于蛋白质小分子领域,特别涉及一种基于深度学习的蛋白质小分子对接打分方案。

背景技术

目前,疾病的治疗目前是各个国家研究的重要内容,其对人类的健康构成极大的危险。而药物研发作为疾病治疗最为重要的步骤,更是学术、企业甚至国家机构研究的重点和难点。新药的研发面临着开发周期长、成本高昂以及副作用的不确定性等困难,开发难度巨大。随着计算机的普及应用,利用计算机模拟药物研发中的各个步骤也就成为了可能。目前,利用计算机模拟来辅助药物研发已经在研发中必不可少,可大幅节约时间和金钱。

作为药物研发,小分子的筛选,也就是先导化合物的发现是关键步骤。传统方法通常在实验室中进行,不断进行小分子和目标靶点蛋白的对接,最终筛选出候选小分子。该方式费时费力,且不易发现那些非天然的化合物。而利用小分子库并利用计算机进行虚拟筛选,可以显著减少筛选时间。

小分子与蛋白质的相互作用是分子对接的本质和理论基础,其相互作用力包括范德华力、氢键、疏水作用、电荷力等多种形式。目前,大部分分子对接软件都使用基于经验的分子对接作用力公式,比如AutoDock、Dock等。各种对接软件所使用的作用力公式虽然在形式上不尽相同,但本质都是采用基于先验知识的结果。对于分子间作用力的计算,不同的算法采用的立场参数也包括多种形式,其大多通过不断实验和改进,最终使公式更加趋近于实际的作用力结果。

随着机器学习的兴起,利用深度学习模型进行分子对接的打分也成为了研究的热点。不少算法通过对蛋白质和小分子分别提取分子描述符向量,并对不同的蛋白质小分子向量对进行分子对接活性值的预测。

但是,该类方法不需要提前知道分子对接的构想,分别利用蛋白质和分子自身各自的性质进行配体预测,其因为不能对空间结构进行描述,准确性尚待提高。另外,存在不少利用复合物网格值进行预测的深度学习模型,但其往往不能对复合物的综合考虑,仍然具有较高的局限性。分子对接软件中的利用基于经验的公式进行分子对接分数的计算,其虽然通过拟合使得公式不断逼近最终结果,但其计算过程过于复杂,计算时间长,因而严重降低对接的性能。同时,公式中的立场参数需要不断拟合才能接近实际情况,其最终应用通常还具有很大程度的不确定性。

发明内容

本发明提出一种基于深度学习的蛋白质小分子对接打分方案,能够采用多通道网格,能充分考虑复合物的各种信息,同时更加适合深度学习的模型输入,通过对多通道复合物网格进行打分,进而准确且快速预测对接分数。

本发明的技术方案是这样实现的:一种基于深度学习的蛋白质小分子对接打分方案,其特征在于,包括如下步骤:

步骤1、构建复合物数据库,并选择其中若干蛋白质配体对用作训练集,若干蛋白质配体对用作验证集,若干蛋白质配体对用作测试集;

步骤2、对复合物进行包围网格的创建,得到复合物网格,并通过处理得到多通道复合物描述符;

步骤3、使用步骤1中的训练集对步骤2中的多通道复合物描述符进行训练,得到深度学习模型;

步骤4、使用步骤1中的验证集对步骤3中的深度学习模型进行验证;

步骤5、使用步骤1中的测试集采用步骤2中的处理方式得到复合物描述符,并输入步骤3中的深度学习模型中进行预测,得到复合物的打分值。

作为一种优选的实施方式,步骤1中复合物数据库包括PDBb i nd数据库,选择其中10000对蛋白质配体对用作训练集,选择其中2000对蛋白质配体对用作验证集,选择其中剩下的4151对蛋白质配体对用作测试集。

作为一种优选的实施方式,步骤2中处理方法包括,将复合物网格以1埃米为间隔进行网格离散,同时对整个网格四周进行3埃米的填充。

作为一种优选的实施方式,步骤2中的多通道复合物描述符根据复合物原子类型、范德华作用力、氢键作用力和电荷分为四种复合物描述符。

作为一种优选的实施方式,多通道复合物描述符包括按照复合物原子类型分为的6通道,原子类型分为C、H、N、O、P和其他共6中类型,相应的设置6个通道,其中每个通道中只考虑该单一原子。

作为一种优选的实施方式,多通道复合物描述符包括按照范德华作用力设置的1通道。

作为一种优选的实施方式,多通道复合物描述符包括按照氢键作用力设置的1通道。

作为一种优选的实施方式,多通道复合物描述符包括按照电荷设置的1通道。

作为一种优选的实施方式,通道中的任意一个网格的范德华作用力计算如下:

其中,i为复合物的所有原子,ε为两原子的势能阱,σ为两原子势能阱为0的距离,r为原子对的实际距离。

作为一种优选的实施方式,通道中的任意一个网格的氢键作用力计算如下:

其中,i只取H、N、O三种院子,ε为两个形成氢键原子对的氢键势能阱,σ为势能作用力为0的距离,r为形成氢键的供体和受体原子的距离。

采用了上述技术方案后,本发明的有益效果是:

1、采用基于体素网格的蛋白质小分子的复合物描述符,充分考虑复合物的空间几何结构等信息。

2、采用多通道网格,能充分复合物的各种信息,同时更加适合深度学习的模型输入。

3、采用深度学习智能打分,对多通道复合物网格进行打分,进而准确且快速预测对接分数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为分子对接打分的整体流程图;

图2为原子类型通道的网格创建图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

结合图1和图2所示,PDBbind数据库中包含了蛋白质与配体的结合构象、结合位点、蛋白质构象、小分子构象以及对应的结合活性等详细的属性信息。其提供的结合活性可用作最终模型的输出。PDBbind数据库最新的版本是2018版,其包含16151条蛋白质与配体的结合数据。本发明将其中10000对蛋白质-配体对用作训练集,2000对用作验证集,剩下的4151多对用作测试。

首先对复合物进行包围盒网格的创建,并进行以1埃米为间隔进行网格离散,同时对整个网格四周进行3埃米的填充。对得到的复合物网格进行不同的处理便得到多通道复合物描述符,包括按照复合物原子类型分为的6通道、按照范德华作用力分为的1通道、按照氢键力分为的1通道。

对于蛋白质和小分子来说,原子类型是最基本的表现形式。本发明将所有的原子类型分为C、H、N、O、P以及其它共6种类型,相应的设置6个通道。

在每个通道中,只考虑该单一原子。比如C通道,将复合物中所有的C相关的坐标信息进行提取,并按照C的坐标位置映射到复合物的包围盒网格中,同时将以该C原子为中心的范德华半径内的网格全部填充为1。若不同C原子覆盖同一网格,则将该网格值叠加。这意味在该C原子通道网格中,网格值越大,其就在更多的C原子范德华半径内。对于其它原子类型进行同样处理,最终得到6通道的复合物网格。

为保证不同网格之间的过渡平滑和连贯,对得到的6通道网格再进行σ=1的高斯平滑处理,使得到的网格更加平滑。

范德华力是蛋白质与小分子结合的重要作用力,对范德华力的描述将影响最终描述符的准确性。在得到复合物包围盒之后,需要明确每个网格中值的含义。传统的范德华力的计算通常采用6-12Lennard-Jones势能公式:

其中,i,j分别为分子1和分子2的原子,ε为两原子的势能阱,σ为两原子势能阱为0的距离,r为原子对的实际距离。

但在实际网格值的量化时,需要明确范德华力计算的两个主体分子1和分子2,而对于网格而言,其只是一个网格,其不能单纯的对复合物产生作用力,同时,由于范德华力的计算其范围跨度较大,不利于最终的训练和学习。因此,本发明对范德华力的6-12公式进行修改。对于通道中的任意一个网格的范德华作用力计算如下:

其中,i为复合物的所有原子,ε为两原子的势能阱,σ为两原子势能阱为0的距离,r为原子对的实际距离。在Evdw的计算时,不再考虑原子对,这里只考虑单一的复合物原子对网格的范德华力贡献率。对最终复合物所有原子对网格的贡献率之和采用sigmoid函数进行映射,使得网格值的最终范围位于0到1之间。对所有网格计算复合物原子范德华力贡献率便得到了最终的范德华力通道网格。

氢键是比范德华力还要强的作用力,其对复合物的形成具有至关重要的作用。对于氢键的计算,需要考虑形成氢键的只有H或者可能具有较强孤电子对的N或者O。因此,在计算氢键时,只考虑这三种原子。传统的氢键计算公式为10-12Lennard-Jones势能公式:

其中,i,j分别为氢键的受体和供体原子,ε为两个形成氢键原子对的氢键势能阱,σ为势能作用力为0的距离,r为形成氢键的供体和受体原子的距离。

对于氢键通道,我们采用和范德华力通道相类似的处理方式:

不同的是,这里的i只取H、N、O三种原子,最终计算所有网格的网格值,便得到氢键作用力通道网格。

电荷同样对于分子间的结合具有重要贡献,也是打分的一个重要指标之一。这里,我们在复合物网格基础上,将所有原子的部分电荷按照其坐标位置映射到网格中,便得到对应的电荷通道网格。

采用类似VGG的3D卷积神经网络进行模型的构建,其具体模型如下表所示:

模型的最终输出为活性的预测值,即打分值。

随机挑选PDBbind(v2018)的10000个蛋白质用于训练,2000个蛋白质用于验证,设置验证集的目的是防止过拟合以及模型在何时停止训练。

在测试和预测时,对于新的复合物构象同样采取复合物网格创建以及9个通道的处理,并最终得到9通道网格后输入模型中进行预测,得到复合物的打分值。

以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于汽油产品中分子信息的实时计算方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!