一种药物分子活性的虚拟筛选系统及其方法

文档序号:1773639 发布日期:2019-12-03 浏览:41次 >En<

阅读说明:本技术 一种药物分子活性的虚拟筛选系统及其方法 (A kind of active virtual screening system and method for drug molecule ) 是由 邓代国 陈晓炜 雷曾荣 艾海涛 于 2019-09-02 设计创作,主要内容包括:本发明是一种药物分子活性的虚拟筛选系统,其特征在于,该系统通过机器学习框架进行算法的建模或通过机器学习和虚拟筛选结合进行算法的建模,该系统包括分子活性预测模块和分子活性筛选模块,所述分子活性预测模块和分子活性筛选模块均包括分子训练阶段和分子预测阶段,分子训练阶段通过对已知分子信息的训练生成训练模型,分子预测阶段通过将新的分子的信息输入到训练模型中进行分子活性的预测,通过分子活性筛选模块对分子活性进行筛选确定分子的活性。通过将分子活性预测模块和分子活性筛选模块采用机器学习和虚拟筛选结合的建模方式使分子信息的探索更高效,增加了分子活性预测的准确率。(The present invention is a kind of active virtual screening system of drug molecule, it is characterized in that, the system carries out the modeling of algorithm by machine learning frame or combines the modeling of progress algorithm by machine learning and virtual screening, the system includes molecular activity prediction module and molecular activity screening module, the molecular activity prediction module and molecular activity screening module include molecule training stage and molecular prediction stage, the molecule training stage generates training pattern by the training to known molecular information, the information input of new molecule by being carried out the prediction of molecular activity by the molecular prediction stage into training pattern, screen to molecular activity the activity of determining molecule by molecular activity screening module.By keeping the exploration of molecular information more efficient using the modeling pattern that machine learning and virtual screening combine molecular activity prediction module and molecular activity screening module, the accuracy rate of molecular activity prediction is increased.)

一种药物分子活性的虚拟筛选系统及其方法

技术领域

本发明属于分子领域,特别涉及一种药物分子活性的虚拟筛选系统及其方法。

背景技术

在新药发现过程中,虚拟筛选的应用可以提高活性分子的富集,降低筛选的成本。近年来已引起科研机构和制药公司的高度重视。常用的虚拟筛选方法可以分为基于结构的虚拟筛选(SBVS)和基于配体的虚拟筛选(LBVS)。基于配体的虚拟筛选的主要科研精力放在各种分子描述符的产生、相似性的比较。基于配体的虚拟筛选的优势在于速度更快,一般可作为虚拟筛选的最初阶段,劣势在于很难找到不同于已知分子的新的骨架。基于结构的虚拟筛选虽然速度有所下降,但是可以利用分子的信息,从而有利于全新药物的发现。

其中基于配体的虚拟筛选技术包括药效团模型(pharmacophore modeling)、定量构效关系(quantitative structure activity relationhship,QSAR)、结构相似性方法(structual similarity,SSIM)。通过这类方法,结合计算机在化合物库中筛选出活性预测值较高的分子集。但是上述筛选方法,运算性能不高,预测活性效果较差。

发明内容

为解决上述问题,本发明的目的在于提供一种高效探索分子指纹和描述符、分子活性预测准确率高的一种药物分子活性的虚拟筛选系统及其方法。

本发明的另一个目的在于提供一种数据处理准确高效、安全可靠的一种药物分子活性的虚拟筛选系统及其方法。

为实现上述目的,本发明的技术方案如下。

本发明是一种药物分子活性的虚拟筛选系统,其特征在于,该系统通过机器学习框架进行算法的建模或通过机器学习和虚拟筛选结合进行算法的建模,该系统包括分子活性预测模块和分子活性筛选模块,所述分子活性预测模块和分子活性筛选模块均包括分子训练阶段和分子预测阶段,分子训练阶段通过对已知分子信息的训练生成训练模型,分子预测阶段通过将新的分子的信息输入到训练模型中进行分子活性的预测,通过分子活性筛选模块对分子活性进行筛选确定分子的活性。通过分子活性预测模块实现分子活性的预测,通过分子活性筛选模块实现对分子活性预测模块预测出的分子活性的筛选。通过将分子活性预测模块和分子活性筛选模块采用机器学习和虚拟筛选结合的建模方式使分子信息的探索更高效,增加了分子活性预测的准确率。

进一步地,所述分子训练阶段包括分子预处理单元和分子训练单元,所述分子预处理单元执行后,执行分子训练单元,生成训练模型。所述分子训练单元对分子预处理单元处理后的已知分子信息进行模拟训练后,获得分子概率预测的较佳训练模型。

进一步地,所述分子预处理单元包括获得已知活性的分子及其对应的分子的信息,所述分子的信息包括分子的指纹、描述符和SMILES信息。其中已知活性分子的信息的获取来源与zinc数据库。分子描述符可以分为定量描述符和定性描述符。前者包括基于分子图论、各种理论或实验光谱数据(如紫外光谱)、分子组成(如氢键供体数、化学键计数)、理化性质(如脂水分布系数)描述符、分子场描述符以及分子形状描述符等;定性描述符一般称为分子指纹,即将分子的结构、性质、片断或子结构信息用某种编码来表示,常用的分子指纹包括Daylight fingerprints、MACCS keys,MDl public keys等。采用SMILES简化已知分子的线性输入规范,用ASCII字符串明确描述已知的分子结构的字符序列,获取该已知分子的SMILES信息。通过获得已知活性的分子信息,为分子训练单元的模拟训练提供基础。

进一步地,所述分子训练单元包括对已知分子及其对应的分子信息进行训练,通过对已知活性的分子及其对应的分子信息的训练,获得训练模型。通过分子训练单元实现对已知活性的分子的信息的学习和训练,从而获得分子活性的预测,得到训练模型。

进一步地,所述分子训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。通过验证单元的设置实现对训练模型的验证,确保能够获得较佳的训练模型,其中,验证单元还包括对分子训练单元执行过程中参数的调节,保证了分子预测的准确性;所述模型参数包括学习率、隐藏单元数量、嵌入层输出数量。

进一步地,所述分子训练单元由XGBOOST、LR、SVM算法进行建模。通过XGBOOST、LR、SVM算法对分子训练单元进行建模确保能够高效的学习已知活性的分子的信息,保证生成的训练模型的准确性。

进一步地,所述分子预测阶段将新的药物分子信息作为训练模型的参考对象,获得新的药物分子对应的活性信息。通过将新的分子信息作为训练模型的参考对象,进而预测该分子活性情况,实现对分子活性的预测。

进一步地,所述分子活性筛选模块对应的分子预测阶段还包括分子活性筛选单元,所述分子活性筛选单元对训练模型得出的分子活性进行排序,实现对分子活性的筛选,从而筛选出较准确的分子活性信息。通过分子筛选单元实现对训练模型得出的分子活性的排序,进而通过对分子活性的筛选实现筛选出较准确的分子活性信息。

进一步地,一种药物分子的活性的虚拟筛选方法,其特征在于,该方法的具体操作步骤如下:

S1:通过分子预处理单元实现获取已知活性的分子的信息,包括分子的指纹、描述符和SMILES信息;

S2:通过分子训练单元实现对已知分子及其对应的分子信息进行训练,生成分子活性预测的训练模型;

S3:通过分子训练单元的验证单元实现对训练模型的验证,用于获取较佳的训练模型;

S4:通过分子预测阶段实现将新的分子信息作为训练模型的输入,以此实现新的分子活性的预测;

S5:通过分子活性筛选模块的分子活性筛选单元对训练模型得出的分子活性信息进行排序,实现对分子活性的筛选,从而筛选出较准确的分子活性信息。

该方法通过分子预处理单元实现已知活性的分子信息的获取,将分子信息作为分子训练单元的输入,分子训练单元通过对分子信息的学习和训练,得出分子活性预测的训练模型,通过分子预测阶段实现将未知活性的分子作为上述训练模型的输入,进而实现未知活性分子的活性预测,分子活性筛选模块的分子活性筛选单元实现对分子活性的排序,进而实现对分子活性准确的筛选。

进一步地,所述步骤S4的训练单元由XGBOOST、LR、SVM算法进行建模,实现对分子训练过程中数据输入输出的处理。通过XGBOOST、LR、SVM算法对分子训练单元进行建模确保能够高效的学习现有已知活性的分子的信息,保证生成的训练模型的准确性。

综上所述,本发明是一种药物分子活性的虚拟筛选系统,其特征在于,该系统通过机器学习框架进行算法的建模或通过机器学习和虚拟筛选结合进行算法的建模,该系统包括分子活性预测模块和分子活性筛选模块,所述分子活性预测模块和分子活性筛选模块均包括分子训练阶段和分子预测阶段,分子训练阶段通过对已知分子信息的训练生成训练模型,分子预测阶段通过将新的分子的信息输入到训练模型中进行分子活性的预测,通过分子活性筛选模块对分子活性进行筛选确定分子的活性。通过分子活性预测模块实现分子活性的预测,通过分子活性筛选模块实现对分子活性预测模块预测出的分子活性的筛选。通过将分子活性预测模块和分子活性筛选模块采用机器学习和虚拟筛选结合的建模方式使分子信息的探索更高效,增加了分子活性预测的准确率。

附图说明

图1是本发明的一种药物分子活性的虚拟筛选系统的分子训练阶段的流程图。

图2是本发明的一种药物分子活性的虚拟筛选系统的分子活性筛选模块的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为实现上述目的,本发明的技术方案如下。

参照图1-2,本发明是一种药物分子活性的虚拟筛选系统,其特征在于,该系统通过机器学习框架进行算法的建模或通过机器学习和虚拟筛选结合进行算法的建模,该系统包括分子活性预测模块和分子活性筛选模块,所述分子活性预测模块和分子活性筛选模块均包括分子训练阶段和分子预测阶段,分子训练阶段通过对已知分子信息的训练生成训练模型,分子预测阶段通过将新的分子的信息输入到训练模型中进行分子活性的预测,通过分子活性筛选模块对分子活性进行筛选确定分子的活性。通过分子活性预测模块实现分子活性的预测,通过分子活性筛选模块实现对分子活性预测模块预测出的分子活性的筛选。通过将分子活性预测模块和分子活性筛选模块采用机器学习和虚拟筛选结合的建模方式使分子信息的探索更高效,增加了分子活性预测的准确率。

在本实施例中,所述分子训练阶段包括分子预处理单元和分子训练单元,所述分子预处理单元执行后,执行分子训练单元,生成训练模型。所述分子训练单元对分子预处理单元处理后的已知分子信息进行模拟训练后,获得分子概率预测的较佳训练模型。

在本实施例中,所述分子预处理单元包括获得已知活性的分子及其对应的分子的信息,所述分子的信息包括分子的指纹、描述符和SMILES信息。其中已知活性分子的信息的获取来源与zinc数据库。分子描述符可以分为定量描述符和定性描述符。前者包括基于分子图论、各种理论或实验光谱数据(如紫外光谱)、分子组成(如氢键供体数、化学键计数)、理化性质(如脂水分布系数)描述符、分子场描述符以及分子形状描述符等;定性描述符一般称为分子指纹,即将分子的结构、性质、片断或子结构信息用某种编码来表示,常用的分子指纹包括Daylight fingerprints、MACCS keys,MDl public keys等。采用SMILES简化已知分子的线性输入规范,用ASCII字符串明确描述已知的分子结构的字符序列,获取该已知分子的SMILES信息。通过获得已知活性的分子信息,为分子训练单元的模拟训练提供基础。

在本实施例中,所述分子训练单元包括对已知分子及其对应的分子信息进行训练,通过对已知活性的分子及其对应的分子信息的训练,获得训练模型。通过分子训练单元实现对已知活性的分子的信息的学习和训练,从而获得分子活性的预测,得到训练模型。例如分子训练单元的输入为:

smiles target
C[[email protected]@H]1CC(=O)N2C[[email protected]](c3nc(-c4ccc(C(=O)Nc5cc(C(F)(F)F)ccn5)cc4)c4c(N)nccn34)CC[[email protected]]12 1
C=CC(=O)N1CCN(c2ncnc(N)c2C(=O)c2ccc(OCC)cc2)CC1 1
NC(=O)c1nnc2ccccc2c1N 1
O=C1c2c(O)ccc(O)c2C(=O)c2c(NCCNCCO)ccc(NCCNCCO)c21 1
COC[[email protected]]1OC(=O)/C(=C/N(C)CCCN(C)C)C2=C(O)C(=O)C3=C([[email protected]](OC(C)=O)C[[email protected]]4(C)[[email protected]@H](O)CC[[email protected]@H]34)[[email protected]]21C 1
C=CC(=O)N1CCC[[email protected]@H](Nc2ncnc(N)c2C(=O)c2ccc(OCC)cc2)C1 1
N=C(N/C(=N/O)c1nonc1N)c1ccccc1N 1
NC(=O)c1c(-c2ccc(Oc3ccccc3)cc2)nn2c1NCC[[email protected]]2C1CCN(C(=O)/C=C/CN2CCN(CCNC(=O)CCCC(=O)NCCCOCCOCCOCCCNC(=O)CCCC[[email protected]@H]3C[[email protected]@H]4NC(=O)N[[email protected]@H]4S3)CC2)CC1 1
CC(C)(C)OC(=O)NC1CCCC(C(=O)O)C1 1
Nc1nccn2c(C34C5C6C3C3C4C5C63C(=O)O)nc(-c3ccc(C(=O)Nc4cc(C(F)(F)F)ccn4)cc3F)c12 1
COc1cc2c(c(OC)c1OC)-c1ccc(N3C[[email protected]@]4(C)C[[email protected]@H]3CC(C)(C)C4)c(=O)cc1[[email protected]@H](NC(C)=O)CC2 0
C[[email protected]@H](Oc1c(O)c(S(=O)(=O)O)cc2c1C(=O)c1ccccc1C2=O)c1ccc(-c2ccccc2)cc1 0
CC(=O)C1=C(C)N=c2s/c(=C/c3cccc(O)c3)c(=O)n2[[email protected]@H]1c1ccc(-c2ccc(Cl)c(Cl)c2)o1 0
CC[[email protected]](C)c1nc2ccc(Br)cc2c(=O)n1/N=C/c1cc(OC)c(O)c(Cl)c1Br 0
O=C(O)COc1ccc(/C=C2\SC(=Nc3cccc(Cl)c3Cl)NC2=O)cc1Br 0
COc1ccc(Br)cc1/C=C1/SC(=Nc2ccc([N+](=O)[O-])cc2Br)NC1=O 0
O=C1NC(=Nc2ccc(Br)cc2)S/C1=C\c1ccc(Sc2nnnn2-c2ccccc2)o1 0
COc1cccc([[email protected]]2C[[email protected]@H](C(F)(F)F)n3nc(C(=O)Nc4sc5c(c4C#N)CCCC5)cc3N2)c1 0
O=c1c2ccccc2nc(-c2cccc(C(F)(F)F)c2)n1N=Cc1cc(Br)cc([N+](=O)[O-])c1O 0

分子训练单元的输出为:

test_smiles proje pre_pro
CN1CCC(Nc2nc(Nc3ccc(Oc4ccccc4)cc3)c3c(=O)[nH]cc(Br)c3n2)CC1 1 0.911821842
COc1cc(/C=N/Nc2nc3nonc3nc2Nc2cccc(C)c2C)ccc1OC(=O)c1cc(F)c(F)cc1Cl 1 0.799595416
CCc1cc(O)c(F)cc1-c1ccc2c(c1)[nH]nc2-c1nc2c([nH]1)CCN(C(=O)c1cnc(N3CCCCC3)cn1)C2 1 0.596527696
C[[email protected]@H]1CC(=O)N2C[[email protected]](c3nc(-c4ccc(C(=O)Nc5cc(C(F)(F)F)ccn5)cc4)c4c(N)nccn34)CC[[email protected]]12 1 0.549513936
N#CC1=C(N)Oc2[nH]nc(-c3ccc(F)cc3)c2[[email protected]@H]1c1ccc([[email protected]]2c3c([nH]nc3-c3ccc(F)cc3)OC(N)=C2C#N)cc1 0 0.434046298
Nc1nccn2c(C34C5C6C3C3C4C5C63C(=O)O)nc(-c3ccc(C(=O)Nc4cc(C(F)(F)F)ccn4)cc3F)c12 0 0.414664447
Cc1ccc(-c2csc3ncnc(SCC(=O)Nc4cc5[nH]c(=O)[nH]c5cc4Br)c23)cc1 0 0.366092443
Cc1nn(-c2nc3ccccc3[nH]2)c(O)c1C(c1c(C)nn(-c2nc3ccccc3[nH]2)c1O)c1ccc(C)cc1 0 0.338595331
O=C(NCc1cc2cc(Cl)ccc2[nH]1)c1cc2nc(-c3ccc4c(c3)OCO4)cc(C(F)(F)F)n2n1 0 0.33583194
Cc1nn(-c2ncnc3[nH]cnc32)c2c1[[email protected]](c1ccc(OCc3ccc(Cl)cc3Cl)cc1)CC(=O)N2 0 0.323922664
COc1cccc2oc(-c3nc4ccccc4c(=O)n3N=Cc3cc(Cl)c(Oc4ccc([N+](=O)[O-])cn4)c(Br)c3)cc21 0 0.278468221
COc1cc(C)c(-c2nc3ccccc3c(=O)n2N=Cc2c(Oc3ccc([N+](=O)[O-])cn3)ccc3ccccc32)cc1C(C)C 0 0.271598727
O=c1c2ccccc2nc(-c2cc3ccccc3o2)n1N=Cc1cc(Br)c(Oc2ccc([N+](=O)[O-])cn2)c(Br)c1 0 0.261013061
NC(=O)c1nccnc1Nc1cnc(O)nc1N 0 0.239855543
O=c1c2ccccc2nc(-c2cc3ccccc3o2)n1N=Cc1cc(Cl)c(Oc2ccc([N+](=O)[O-])cn2)c(Cl)c1 0 0.224426106
O=C(CSc1nnc(-c2ccc(F)cc2)c2ccccc21)Nc1cc2[nH]c(=O)[nH]c2cc1Br 0 0.172913596
Nc1ccc(Nc2cnc(O)nc2N)nn1 0 0.166897833
O=S(=O)(c1nnn2c1nc(NCCc1c[nH]c3ccccc13)c1ccccc12)c1ccc(Br)cc1 0 0.14499189
COc1ccc(-n2c(=O)c3[nH]c4ccccc4c3nc2SCC(=O)Nc2nc3ccccc3s2)cc1 0 0.121843457
CCOc1cc(C=Nn2c(=O)c3ccccc3nc2-c2cc3c(cccc3OC)o2)cc([N+](=O)[O-])c1OCc1cccc(C(=O)O)c1 0 0.121076584

在本实施例中,所述分子训练单元还包括验证单元,所述验证单元对训练模型进行验证,获得较佳的训练模型。通过验证单元的设置实现对训练模型的验证,确保能够获得较佳的训练模型,其中,验证单元还包括对分子训练单元执行过程中参数的调节,保证了分子预测的准确性。

在本实施例中,所述分子训练单元由XGBOOST、LR、SVM算法进行建模。通过XGBOOST、LR、SVM算法对分子训练单元进行建模确保能够高效的学习已知活性的分子的信息,保证生成的训练模型的准确性。

在本实施例中,所述分子预测阶段将新的药物分子信息作为训练模型的参考对象,获得新的药物分子对应的活性信息。通过将新的分子信息作为训练模型的参考对象,进而预测该分子活性情况,实现对分子活性的预测。

在本实施例中,所述分子活性筛选模块对应的分子预测阶段还包括分子活性筛选单元,所述分子活性筛选单元对训练模型得出的分子活性进行排序,实现对分子活性的筛选,从而筛选出较准确的分子活性信息。通过分子筛选单元实现对训练模型得出的分子活性的排序,进而通过对分子活性的筛选实现筛选出较准确的分子活性信息。

在本实施例中,一种药物分子的活性的虚拟筛选方法,其特征在于,该方法的具体操作步骤如下:

S1:通过分子预处理单元实现获取已知活性的分子的信息,包括分子的指纹、描述符和SMILES信息;

S2:通过分子训练单元实现对已知分子及其对应的分子信息进行训练,生成分子活性预测的训练模型;

S3:通过分子训练单元的验证单元实现对训练模型的验证,用于获取较佳的训练模型;

S4:通过分子预测阶段实现将新的分子信息作为训练模型的输入,以此实现新的分子活性的预测;

S5:通过分子活性筛选模块的分子活性筛选单元对训练模型得出的分子活性信息进行排序,实现对分子活性的筛选,从而筛选出较准确的分子活性信息。

该方法通过分子预处理单元实现已知活性的分子信息的获取,将分子信息作为分子训练单元的输入,分子训练单元通过对分子信息的学习和训练,得出分子活性预测的训练模型,通过分子预测阶段实现将未知活性的分子作为上述训练模型的输入,进而实现未知活性分子的活性预测,分子活性筛选模块的分子活性筛选单元实现对分子活性的排序,进而实现对分子活性准确的筛选。

在本实施例中,所述步骤S4的训练单元由XGBOOST、LR、SVM算法进行建模,实现对分子训练过程中数据输入输出的处理。通过XGBOOST、LR、SVM算法对分子训练单元进行建模确保能够高效的学习现有已知活性的分子的信息,保证生成的训练模型的准确性。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:去法布里-珀罗伪谐振逆推复合材料电磁参数的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!