一种用于药物虚拟筛选的分子三维相似度的打分方法

文档序号:50886 发布日期:2021-09-28 浏览:39次 >En<

阅读说明:本技术 一种用于药物虚拟筛选的分子三维相似度的打分方法 (Molecular three-dimensional similarity scoring method for virtual drug screening ) 是由 严鑫 李瑞麟 卢峰 于 2021-07-22 设计创作,主要内容包括:本发明涉及计算机辅助药物研发技术领域,具体涉及一种用于药物虚拟筛选的分子三维相似度的打分方法,该方法包括步骤一、获取用于相似性比较的两分子的特征参数;步骤二、训练深度学习模型;以及步骤三、深度学习模型的外部验证。本发明通过训练深度神经网络,选取多维度相似性作为特征参数,经深度神经网络的变换,给出最终的综合打分即AUC值。该打分方法在药物筛选准确率上有显著的改进,能够尽可能多地将具有潜在生物活性的分子从含有大量分子的数据库中筛选出来,而不漏掉任何潜在活性分子,从而解决了假阳性或假阴性的问题,同时保持着筛选高通量的计算速度。故,本发明在药物虚拟筛选方面具有非常广阔的应用前景。(The invention relates to the technical field of computer-aided drug research and development, in particular to a molecular three-dimensional similarity scoring method for drug virtual screening, which comprises the following steps of firstly, obtaining characteristic parameters of two molecules for similarity comparison; step two, training a deep learning model; and step three, external verification of the deep learning model. According to the method, a deep neural network is trained, multi-dimensional similarity is selected as a characteristic parameter, and a final comprehensive score, namely an AUC value, is given through transformation of the deep neural network. The scoring method has significant improvement in drug screening accuracy, and can screen molecules with potential biological activity from a database containing a large number of molecules as much as possible without leaking any potential active molecules, thereby solving the problem of false positive or false negative and maintaining the high-throughput calculation speed of screening. Therefore, the invention has very wide application prospect in the aspect of virtual screening of the drugs.)

一种用于药物虚拟筛选的分子三维相似度的打分方法

技术领域

本发明涉及计算机辅助药物研发

技术领域

,具体涉及一种用于药物虚拟筛选的分子三维相似度的打分方法。

背景技术

药物研发具有投入大、风险高、周期长的特点,通常一个药物研发周期在10年以上,研发投入在数亿美金,并且呈现逐年上升趋势。药物筛选是药物发现的关键环节,而高通量药物虚拟筛选能大大降低筛选时间和成本,对于加速药物研发具有重要意义。

在药物虚拟筛选中,目前常用到基于分子三维相似度的打分方法进行分子的筛选排序。这类打分方法通常包含分子形状的相似性和药效团的相似性(通常是选用数据库分子与模版分子或药效团模型的相似度打分),并以此通过一个简单的加权函数构成一个相似度的综合打分,这个打分函数的有效性决定了筛选的有效性和计算速度。然而,上述这类型的打分方法存在的显著问题是准确性不足,从而使得药物虚拟筛选存在较高的假阳性或假阴性。

近年来基于人工神经网络的深度学习技术在无人驾驶、语音识别、图像识别等领域取得重大突破,也逐渐在生物医学领域取得了重要进展,已开发出基于深度学习在皮肤癌、先天性白内障、儿童自闭症等疾病的诊断应用。随着技术的发展,制药领域也开始关注利用深度学习技术加速药物的研发,以降低研发成本。研究表明,深度学习技术在优化合成路线、预测药物靶点以及虚拟筛选方面,相比传统的机器学习方法更加具有优势。

因此,急需研究深度学习技术在药物虚拟筛选方面的应用,以解决现有的药物虚拟筛选过程中存在较高的假阳性或假阴性的问题。

发明内容

本发明的目的在于针对现有技术中的不足,而提供一种用于药物虚拟筛选的分子三维相似度的打分方法,以解决现有的药物虚拟筛选准确性较差的问题,同时保持着筛选高通量的计算速度。

本发明的目的通过以下技术方案实现:

提供一种用于药物虚拟筛选的分子三维相似度的打分方法,包括以下步骤:包括以下步骤:

步骤一、用于相似性比较的两分子的各类特征参数的获取

分别读取用于相似性比较的两分子的拓扑结构和三维结构信息,计算得到各类特征参数,所述特征参数包括:两分子的原子个数差异(F1);两分子的可旋转化学键个数(F2);两分子的体积差异(F3);两分子的形状相似度(F4);两分子氢键受体的相似度(F5);两分子氢键供体的相似度(F6);两分子芳香环的相似度(F7);两分子的疏水中心相似度(F8);两分子的正电基团相似度(F9);以及两分子的负电基团相似度(F10);其中:

F1的计算方式是通过读入两分子各自的拓扑结构信息,然后取两分子原子总数差值的绝对值;

F2的计算方式是在F1计算方式的基础上,判断每个化学键是否为可旋转键,得到两分子各自的可旋转键总数,然后取两分子可旋转键总数差值的绝对值;

F3的计算方式是在F1计算方式的基础上,根据两分子中各原子的类型得到原子的范德华半径,每个原子用一个高斯球表示,高斯球的半径与原子的范德华半径相同,高斯球的位置坐标与原子的坐标相同,而原子坐标来自输入的分子三维结构;计算各分子中高斯球组的叠合体积,其中第ij个高斯球组包括第i个原子对应的高斯球和第j个原子对应的高斯球,第ij个高斯球组的叠合体积为vij;计算两分子各自自身的叠合体积为N是分子中原子的总数;然后取两分子自身叠合体积的差值的绝对值;

F4的计算方式是在F3计算方式的基础上,计算两分子在多种叠合情况下的分子间叠合体积其中vij为第一分子中的第i个原子与第二个分子中的第j个原子的叠合体积,N是第一个分子中原子的总数,M是第二个分子中原子的总数,选择其中的最大值作为最大分子间体积;计算两分子的形状相似度其中VA是第一个分子的自身叠合体积,VB是第二个分子的自身叠合体积;

F5的计算方式是在F1计算方式的基础上,找出两分子中氢键受体位置;计算两分子中各自氢键受体的叠合体积其中Fij为第i个氢键受体与第j个氢键受体之间的叠合体积;计算两分子在多种叠合情况下的分子间氢键受体的叠合体积其中Fij为第一分子中的第i个氢键受体与第二个分子中的第j个氢键受体的叠合体积,N是第一个分子中氢键受体的总数,M是第二个分子中氢键受体的总数,选择其中的最大值作为最大分子间氢键受体的叠合体积;计算两分子的氢键受体相似度其中PA是第一个分子中氢键受体的自身叠合体积,PB是第二个分子中氢键受体的自身叠合体积;

F6的计算方式与F5的计算方式相同,只需要将两分子中的氢键受体替换为氢键供体;

F7的计算方式与F5的计算方式相同,只需要将氢键受体替换为芳香环;

F8的计算方式与F5的计算方式相同,只需要将氢键受体替换为疏水中心;

F9的计算方式与F5的计算方式相同,只需要将氢键受体替换为正电基团;

F10的计算方式与F5的计算方式相同,只需要将氢键受体替换为负电基团;

步骤二、训练深度学习模型

采用DUD-E数据集,数据集中有102个生物靶点信息,每个靶点都有对应的活性分子集与Decoy分子集,对每个靶点的数据做如下处理:

选取每个靶点的活性分子集中的晶体结构分子作为模板分子,分别与该靶点的活性分子集的其他分子,以及Decoy分子集的所有分子,均按照步骤一中的计算方式,计算模板分子与其他分子中两两分子的F1~F10特征参数,使每个靶点都计算得到一套特征参数数据;

使用深度学习方法进行建模,将上述计算得到的每个靶点的特征参数数据作为输入数据,而分子的活性与否作为二分类的目标函数,模型优化的方向是使得所有靶点在分子活性预测的误差最小化,从而使AUC值的平均值最大;完成训练后,即得到最终的深度学习模型;

步骤三、深度学习模型的外部验证

采用MUV数据集验证深度学习模型的泛化能力,选取MUV数据集中的10个生物靶点信息,每个靶点都有对应的活性分子集与Decoy分子集;选取每个靶点的活性分子集中的晶体结构分子作为模板分子,分别与该靶点的活性分子集的其他分子,以及Decoy分子集的所有分子,均按照步骤一中的计算方式,计算模板分子与其他分子中两两分子的F1~F10特征参数;将这些特征参数输入已经训练完成的深度学习模型,计算得到每个靶点虚拟筛选的AUC值。

上述技术方案中,步骤一中,所述三维结构信息包括分子中原子总数、化学键总数、每个原子的类型及其坐标数值。

上述技术方案中,步骤二中,采用类5倍交叉验证的方式,对每个靶点计算虚拟筛选的AUC值。

本发明的有益效果:

本发明的一种用于药物虚拟筛选的分子三维相似度的打分方法,包括步骤一、获取用于相似性比较的两分子的特征参数,该特征参数主要包括两分子的原子个数差异、可旋转化学键个数、体积差异、形状相似度、氢键受体的相似度、氢键供体的相似度、芳香环的相似度、疏水中心相似度、正电基团及负电基团相似度等;步骤二、训练深度学习模型;以及步骤三、深度学习模型的外部验证,采用MUV数据集验证该模型的泛化能力。本发明通过训练深度神经网络,将步骤一选取的多维度相似性作为特征参数,经深度神经网络的变换,给出最终的综合打分即AUC值。药物虚拟筛选的AUC值评价指标是评价筛选方法准确性的常用标准,AUC值取值范围在0-1之间,数值越接近1,表明筛选方法越准确。实验证明,本发明相比现有技术在药物筛选准确率上有显著的改进,同时保持着筛选高通量的计算速度。因此,采用本发明的打分方法,能够尽可能多地将具有潜在生物活性的分子从含有大量分子的数据库中筛选出来,而筛选方法越准确,就越容易找到具有潜在活性的分子,这样就能尽可能地不漏掉任何潜在活性分子,从而解决了假阳性或假阴性的问题。故,本发明在药物虚拟筛选方面具有非常广阔的应用前景。

具体实施方式

下面结合具体实施例对本发明作进一步的详细说明,但并不构成对本发明的任和限制。

本实施例的一种用于药物虚拟筛选的分子三维相似度的打分方法的具体实施方式,以DUD-E数据集中的靶点ADA17为例,DUD-E数据集中共有102个生物靶点信息,每个靶点都有对应的活性分子集与Decoy分子集。其中,ADA17靶点的数据集中含有1,341个活性分子集和35,900个Decoy分子集。分别选取晶体结构中的活性分子为模板分子(以下称为“分子A”)和活性分子集中的第一个分子(以下称为“分子B”),对数据进行以下操作:

步骤一、用于相似性比较的两分子的各类特征参数的获取:

读取分子A和分子B的拓扑结构和三维结构信息(包括分子中原子总数、化学键总数、每个原子的类型及其坐标数值等),然后按以下步骤,分别计算得到用于相似性比较的特征参数:

步骤1、取分子A与B的原子总数差值的绝对值,获得第一个特征参数F1。

步骤2、判断分子A与B中每个化学键是否为可旋转键,分别得到分子A与B的可旋转键总数,取两者总数差值的绝对值,获得第二个特征参数F2。

步骤3、根据分子A与B中各原子的类型得到原子的范德华半径,每个原子用一个高斯球表示,高斯球的半径与原子的范德华半径相同,高斯球的位置坐标与原子的坐标相同,而原子坐标来自输入的分子三维结构;计算分子A中任意两两原子对应的一组高斯球(以下称为高斯球组)的叠合体积,其中第ij个高斯球组包括分子A中第i个原子对应的高斯球和第j个原子对应的高斯球,第ij个高斯球组的叠合体积为vij;计算分子A自身的叠合体积为N是分子A中原子的总数;使用同样的方法计算分子B自身的叠合体积为M是分子B中原子的总数;然后取分子A和B自身叠合体积的差值的绝对值,得到F3。

步骤4、计算分子A与B在多种叠合情况下的分子间叠合体积其中vij为分子A中的第i个原子与分子B中第j个原子的叠合体积,N是分子A中原子的总数,M是分子B中原子的总数,选择其中的最大值作为最大分子间体积;计算两分子的形状相似度其中VA是分子A的自身叠合体积,VB是分子B的自身叠合体积(即步骤4中计算得到)。

步骤5、找出分子A与B中所有氢键受体的位置;计算分子A中氢键受体的叠合体积其中Fij为分子A中第i个氢键受体与第j个氢键受体之间的叠合体积,N为分子A中氢键受体的总数;使用同样的方式计算分子B中氢键受体的叠合体积其中Fij为分子B中第i个氢键受体与第j个氢键受体之间的叠合体积,M为分子B中氢键受体的总数;计算分子A与B在多种叠合情况下的分子间氢键受体的叠合体积其中Fij为分子A中的第i个氢键受体与分子B中的第j个氢键受体的叠合体积,N是分子A中氢键受体的总数,M是分子B中氢键受体的总数,选择其中的最大值作为分子A与B之间氢键受体的叠合体积;计算分子A与B的氢键受体相似度其中PA是分子A中氢键受体的自身叠合体积,PB是分子B中氢键受体的自身叠合体积。

步骤6、与步骤5的计算方式一致,只需要将氢键供体替换为氢键受体,即可得到分子A与B的氢键受体相似度F6。

步骤7、与步骤5的计算方式一致,只需要将氢键供体替换为为芳香环,即可得到分子A与B的芳香环相似度F7。

步骤8、与步骤5的计算方式一致,只需要将氢键供体替换为疏水中心,即可得到分子A与B的疏水中心相似度F8。

步骤9、与步骤5的计算方式一致,只需要将氢键供体替换为为正电基团,即可得到分子A与B的正电基团相似度F9。

步骤10、与步骤5的计算方式一致,只需要将氢键供体替换为为负电基团,即可得到分子A与B的负电基团相似度F10。

由此得到分子A与活性分子集中第一个分子即分子B的特征参数F1~F10,共10个。

步骤二、训练深度学习模型:

同样以DUD-E数据集中靶点ADA17为例,采用与步骤一相同的计算方式,计算分子A与活性分子集中第二个分子(以下称为“分子C”)的特征参数,也得到10个相应的特征参数。

以此类推,分别计算分子A与活性分子集中第三个、第四个、第五个.......第N个分子(N为自然数),直到活性分子集中的所有活性分子都已计算,得到特征参数的数量为10*1341=13,410个特征参数。

接着,采用与步骤一相同的计算方式,计算分子A与Decoy分子集中每个分子的特征参数,得到10*35900=359,000个特征参数。至此,靶标ADA17的所有特征参数计算完毕。

然后,采用以上同样的计算方式,计算DUD-E数据集中其他101个靶点的特征参数集。至此,DUD-E数据集中的102个靶点,每个靶点都有一套特征参数数据。

最后,将以上102套特征参数数据作为深度学习模型的输入特征数据,而分子的活性与否作为二分类的目标函数,模型优化的方向是使得所有靶点在分子活性预测的误差最小化,从而使AUC值的平均值最大。训练过程中,采用类5倍交叉验证的方式,对每个靶点计算虚拟筛选的AUC值(见表1),并取所有102个靶点AUC值的平均值AUCaver,模型优化的方向是使得AUCaver的值最大。完成训练后,即可得到最终的深度学习模型。

表1.DUD-E数据集采用传统方法和本实施例的方法计算得到的AUC值

步骤三、深度学习模型的外部验证:

采用MUV数据集验证深度学习模型的泛化能力。以MUV数据集中的靶点466为例,466靶点数据集中含有31个活性分子集和15000个Decoy分子集。选取晶体结构中的活性分子为模板分子(以下称为分子A)。采用步骤二中的计算方式,得到分子A分别与活性分子集和Decoy分子集中的每个分子的特征参数,总共得到10*(31+15000)=150310个特征参数的数据集合。将这些特征参数输入已经训练完成的深度学习模型中,即可计算得到该靶点虚拟筛选的AUC值(见表2)。

表2.MUV数据集采用传统方法和本实施例的方法计算得到的AUC值

药物虚拟筛选的AUC值评价指标是评价筛选方法准确性的常用标准,AUC值取值范围在0-1之间,数值越接近1,表明筛选方法越准确。如表1和表2所示的实验结果证明,本发明相比现有技术在药物筛选准确率上有显著的改进,同时保持着筛选高通量的计算速度。采用本发明的打分方法,能够尽可能多地将具有潜在生物活性的分子从含有大量分子的数据库中筛选出来,而筛选方法越准确,就越容易找到具有潜在活性的分子,这样就能尽可能地不漏掉任何潜在活性分子,从而解决了假阳性或假阴性的问题。

以上所举实施例为本发明的较佳实施方式,仅用来方便说明本发明,并非对本发明作任何形式上的限制,任何所属技术领域中具有通常知识者,若在不脱离本发明所提技术特征的范围内,利用本发明所揭示技术内容所作出局部更动或修饰的等效实施例,并且未脱离本发明的技术特征内容,均仍属于本发明技术特征的范围内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于人工智能的基础培养基配方开发方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!