一种分子性质预测方法及系统

文档序号:1100153 发布日期:2020-09-25 浏览:20次 >En<

阅读说明:本技术 一种分子性质预测方法及系统 (Molecular property prediction method and system ) 是由 马英晋 马硕 张宝花 刘倩 �金钟 于 2020-05-13 设计创作,主要内容包括:本发明提出一种分子性质预测方法及系统,涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,在化学多世界阐释的框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,以分子结构、基组和泛函等信息作为输入,通过机器学习模型输出分子性质的预测结果。本发明对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。(The invention provides a molecular property prediction method and a molecular property prediction system, which relate to the fields of quantum chemistry/computational chemistry, chemical informatics, machine learning/artificial intelligence. The invention can make prediction for any type of molecular structure and any calculation strategy, and is more accurate than general empirical methods and regression analysis methods.)

一种分子性质预测方法及系统

技术领域

本发明涉及量子化学/计算化学、化学信息学、机器学习/人工智能领域,具体为一种在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子性质的理论方法。

背景技术

分子的各种内禀性质计算在量子化学/计算化学中是核心问题之一。早期的解决方案是基于经验、半经验的模型哈密顿理论进行求解,例如休克尔分子轨道理论、经典价键理论。上世纪90年代开始,随着计算机软硬件的飞速发展,基于从头算哈密顿的理论方法占据了主要的地位,这些理论方法包括Hartree-Fock自洽场理论以及基于Hartree-Fock波函数的电子相关方法、密度泛函理论、基于格林函数的方法等。相对于Hartree-Fock等基于波函数的理论,密度泛函理论的最大区别就是用电子密度取代波函数,在此基础上对体系中的电子行为进行求解。因为多电子波函数有3n个变量(n为电子数,每个电子包含三个空间变量),而电子密度仅是三个变量的函数,无论在概念上还是实际上都更方便处理。虽然早期人们普遍认为密度泛函理论在量子化学计算中不能给出足够精确的结果,但是随着密度泛函理论中所采用的近似被重新提炼成更好的交换关联作用泛函,密度泛函方法的计算精度已经得到了很大的提升。当前密度泛函理论方法有着较低的理论计算标度(N3-4,N为体系大小)和较为可靠的精度,在计算化学领域已经发展为针对中小规模分子体系最为流行的理论计算方法。

一般来说,密度泛函方法计算至少需要选择交换关联泛函以及分子原子对应的基组模型。然而交换关联泛函至少有上百种,基组(某个原子所用基函数的组合,基函数为分子轨道线性展开时用到的独立基矢)的数目甚至更多于泛函的数目,而且无论泛函还是基组均有一定的可定制性。因此密度泛函计算中基组和泛函的组合可以认为有无限多种,这也导致科研工作者在相关性质的计算过程中要选择不同的基组和泛函进行计算测试;同时在特定泛函和基组下面得到的计算结果无法直接地外推到其他的泛函和基组组合下面。以上这些不便也极大的影响了科研工作者在该方面的工作效率。

发明内容

本发明的目的是提出一种分子性质预测方法及系统,在化学多世界理论框架下,使用密度泛函理论、化学信息学、机器学习/人工智能的手段,预测未知分子的各种性质。

为实现上述目的,本发明采用以下技术方案:

一种分子性质预测方法,包括以下步骤:

选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型:随机森林(RF)模型、双向长短期记忆网络(Bi-LSTM)模型、消息传递神经网络(MPNN)模型和多层图卷积神经网络(MGCN)模型中的一个或多个;

将待预测分子的分子结构信息(如SMILES编码)、收敛策略、泛函和基组作为输入信息,输入到机器学习模型中进行分子性质的预测,包括:

将分子的分子结构信息、泛函类型和基函数输入到RF模型中进行预测;

将独热形式的分子结构信息、泛函类型和基函数输入到Bi-LSTM模型中进行预测;

将分子结构信息输入到MPNN模型中进行预测;

将分子结构信息输入到MGCN模型中进行预测;

通过上述机器学习模型预测出分子的性质,作为初步预测结果;

如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合。

一种分子性质预测系统,包括输入模块、预测模块、调度模块和输出模块,其中,

输入模块,负责将待预测分子的分子结构信息、收敛策略、泛函和基组作为输入信息进行输入;

预测模块,包括机器学习模型:RF模型、Bi-LSTM模型、MPNN模型和MGCN模型中的一个或多个;负责选取若干种已知结构的分子的收敛策略、泛函和基组作为训练数据,来训练机器学习模型,然后将输入信息输入到机器学习模型中进行分子性质的预测,输出初步预测结果;其中,RF模型根据分子的分子结构信息、泛函类型和基函数进行预测,Bi-LSTM模型根据独热形式的分子结构信息、泛函类型和基函数进行预测,MPNN模型根据分子结构信息进行预测,MGCN模型根据分子结构信息进行预测;

调度模块,负责将输入信息传递给预测模块,以及对预测模块输出的初步预测结果进行判断,并将得到的最终预测结果传递给输出模块;该判断为:如果输入信息中的泛函和基组属于已知空间,则将初步预测结果作为最终预测结果,否则采用近似策略根据初步预测结果推断分子的性质得到最终预测结果;该已知空间是指训练模型时已选的泛函和基组对应的结果空间,该结果空间是指一个给定结构的分子在确定了泛函和基组后所具有的状态集合;

输出模块,负责输出分子性质的最终预测结果。

本发明方法的优点在于:在本发明提出的化学多世界阐释的框架下,接收分子结构、基组和泛函等信息作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。

附图说明

图1是智能预测系统的整体架构图。

图2是密度泛函理论下的化学多世界阐释示意图。

图3是RF的模型结构图。

图4是Bi-LSTM的模型结构图。

图5是MPNN的模型结构图。

图6是MGCN的模型结构图。

图7是调度模块的行为流程图。

图8是相似空间策略及超平面策略示意图。

具体实施方式

本发明受到量子力学中的多世界阐释(the many-worlds interpretation,缩写为MWI)的启发,提出密度泛函理论下的化学多世界阐释(the chemical MWI),并与化学信息学、机器学习/人工智能相结合,用以预测不同计算方案(交换关联泛函、基组)组合下的分子性质。

多世界阐释是由普林斯顿大学的Everett Hugh III在1957年提出,他假设所有的孤立系统的演化都遵循薛定谔方程且波函数不会坍塌,而量子的测量只能得到一种结果,也就是说量子处于叠加态。他认为测量与被测量的系统之间有某种关联,称之为相对态;同时其认为测量带来的不是坍塌,而是***的世界。1960-1970年代,该理论经由德克萨斯大学的Bryce DeWitt重新提出后,成为物理界的热门话题之一。

在本发明提出的化学多世界阐释中,假定密度泛函理论中需要求解的Kohn-Sham方程、化学分子集等为唯一的起点,不同基组和泛函的组合作为***产生不同世界的临界条件。每一个***的世界中均包含特定的泛函、基组等密度泛函理论下可计算得到的分子的各种内禀性质,例如分子的波函数、电负性、轨道能级、振子强度、计算机时等任何跟分子有联系的性质特征。

在本发明提出的化学多世界阐释的框架下,本发明进一步提出了结合化学信息学和机器学习/人工智能的分子性质预测方法及系统。本方法及系统接收分子结构、所采用的计算策略(基组和泛函的组合)作为输入,输出分子性质的预测结果,对于任意类型的分子结构和任意的计算策略都可以做出预测,比一般的经验方法、回归分析方法更加精确。

本实施例提供一种分子性质预测系统,结合分子性质预测方法实现分子性质的预测,本系统可划分为四个模块:输入模块、预测模块、调度模块、输出模块,系统整体架构如附图1所示,各个模块具体说明如下。

(1)输入模块

该模块负责接收用户输入信息,包括分子结构文件、计算策略(计算方法)、收敛策略(例如准牛顿方法、最陡下降法)、要使用的模型,并将这些信息传递给调度模块。

(2)预测模块

该模块内建四类机器学习/人工智能模型,分别是随机森林+前馈神经网络模型(random forest with feedforward neural networks,简称RF)、带有注意力机制的双向长短期记忆网络模型(bidirectional long short term memory with attention,简称Bi-LSTM)、消息传递神经网络模型(message passing neural network,简称MPNN)、多级图卷积神经网络模型(multi-level graph convolutional neural network,简称MGCN),根据需要选择哪一种或几种模型。这四种模型经过训练后,可以根据分子结构、基函数数目预测相应分子的各类性质。

四种模型的原理如下所述:

a)RF模型的结构如图3所示,其计算过程可分为输入、预处理、分类、拟合、输出五阶段。在输入阶段,模型接收分子的SMILES编码、泛函类型、基函数(标记为x)。在预处理阶段,基于分子的SMILES编码,统计出分子中的原子数、支链数、支链上原子数、环数、环上原子数、双键数,将这些信息拼接成一个表示分子结构特征的向量,并送入随即森林分类器。在分类阶段,随机森林分类器会给出输入的分子结构分别属于五种典型结构(线性结构、支链结构、环状结构、直链烯烃结构、聚苯结构)的概率(分别记为PL,PD,PR,PA,PP)。在拟合阶段,使用预训练的五个前馈神经网络模型(分别对应五种典型结构)基于基函数数目分别预测出性质参数(记为fL(x),fD(x),fR(x),fA(x),fP(x))。最后,模型输出的预测结果是各个子模块预测性质的叠加。例如对于线性的性质,该模型可以表示为

y=PL fL(x)+PDfD(x)+PRfR(x)+PAfA(x)+PPfP(x)

b)Bi-LSTM模型的结构如图4所示,可分为五个层次。首先是输入层,该层接收独热(one-hot)形式的SMILES编码、泛函类型、基函数(标记为x)作为输入,SMILES编码被送入词嵌入(Word Embedding)层。在词嵌入层,使用word2vec算法预训练一个权重矩阵(称为词嵌入,记为W),利用词嵌入将独热形式的SMILES编码转化为实数向量,并送入双向LSTM层(一层前向LSTM层,一层后向LSTM层)。双向LSTM层提取出SMILES中包含的高级结构特征,得到前向和后向两个输出向量(记为Hf和Hb)。接下来是Attention层,该层接收LSTM层输出向量之和作为输入(记为H,H=Hf+Hb),Attention层的输出记为向量c,

c=HaT

a=softmax(wTtanh(H))

最后是输出层,将Attention层的输出c和基函数x一起送入全连接网络进行拟合,得到最终的性质预测结果。

c)MPNN模型的结构如图5所示,其计算过程可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为xv)集合和边向量(evw)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型。在预处理阶段xv通过一层网络(称为“顶点网络”)被转化为n×d维的矩阵(称为“点嵌入”),其中n是顶点数目,d是顶点网络隐藏层节点的维度。消息传递阶段对点嵌入执行T次卷积操作,第t次的卷积操作由消息函数Mt和顶点更新函数Ut来定义,顶点v的隐状态由“消息”

Figure BDA0002490266490000052

来更新。因此,消息传递阶段所执行的操作可以归纳为:

其中,N(v)表示顶点v的邻域,Mt定义为M(hv,hw,eew)=A(evw)hw,w表示顶点,hw表示顶点w的隐状态,A(evw)是一个网络(称为“边网络”),evw表示顶点v和w连结成的边向量,将边向量evw映射为d×d的矩阵(称为“边嵌入”)。顶点更新函数Ut的具体形式是门控循环单元(gated recurrent unit,GRU)。在读出阶段,利用读出函数(readout function)R来得到图G的高层特征表示

其中R是set2set模型。在输出阶段,将和泛函、基函数信息一起送入全连接网络进行拟合,得到分子性质的预测结果。

d)MGCN模型的结构如图6所示,其计算过程亦可分为输入、预处理、消息传递、读出、输出五个阶段。在输入阶段,根据分子结构信息将分子建模为图的形式(记为G),模型的输入包括G的顶点向量(记为a0)集合和边向量(e)集合。每个顶点向量的分量保存该顶点对应原子的原子类型、是否在芳环上以及杂化类型,每个边向量保存这条边对应的化学键的类型以及键长。在预处理阶段,由嵌入层将顶点向量集合和边向量集合转化为顶点嵌入

Figure BDA0002490266490000058

以及边嵌入

Figure BDA0002490266490000059

同时,径向基函数(radial basis function,RBF)层将键长转化为距离张量

Figure BDA00024902664900000510

D的分量dij代表原子i和j之间的距离。在消息传递阶段,交互层(interaction layer)被构建为层级结构的形式,目的是模拟原子之间的量子相互作用,记第l层交互层输出的边状态为顶点状态为

Figure BDA0002490266490000062

则:

其中,N表示所有分子体系中所有的分子,dij表示原子i和j之间的距离;he是边状态更新函数,hv是顶点状态更新函数,he的具体形式为:

其中,η是一个常量,此处设为0.8,Wue是一个权重矩阵,代表逐元素相加而⊙代表逐元素相乘。hv的具体形式为:

其中,v为图中表示原子的顶点,u为作为辅助的高斯径向基(Radial BasisFunction)里面的点,是用来辅助表示空间性质的参量;f表示函数,fa、fd、fe分别表示有关顶点、距离、边的函数;M(x)代表一层线性网络,为全连接层,其形式为M(x)=Wx+b,W是权重矩阵,x表示W后小括号中内容,b表示常数项,优化时b会被自动调整。之后,将T个交互层的输出与初始的顶点状态

Figure BDA0002490266490000069

拼接起来,得到向量ai。之后,再读出阶段产生图G的高层特征表示g:

Figure BDA00024902664900000610

式中,r表示MGCN模型最后的readout层里的权重矩阵,在模型训练过程中会自动优化;σ代表softplus函数,为激活函数。在输出阶段,将高层特征表示g和基函数数目一起送入全连接网络进行拟合,得到分子性质的预测结果。

(3)调度模块

该模块主要负责与预测模块的机器学习/人工智能模型库进行交互,其行为视输入模块传递而来的用户输入信息而定。为便于说明,将一个给定结构的分子在确定了计算策略后所具有的状态集合称为一个“结果空间”,每一个结果空间对应于一种性质计算方案,即特定的收敛策略、特定的泛函以及基组的组合。选取若干种收敛策略、泛函和基组的组合,针对每种组合训练若干种机器学习模型,并封装于预测模块中。将已选的泛函和基组的组合对应的结果空间称为“已知空间”,将已知空间之外的结果空间称为“未知空间”。

调度模块的行为可如下所述:

1)若输入信息中泛函和基组信息属于已知空间,则调度模块直接将输入信息传递给机器学习模型库中相应的模型,模型接收根据输入信息进行推断,并将预测结果返回给调度模块,调度模块将预测结果传递给输出模块。

2)若输入信息中泛函和基组信息属于未知空间,则调度模块将采用近似策略推断分子的性质预测结果。近似策略分为两类:

a)相似空间策略

这种处理方式基于基组相似性或泛函相似性,比较适用于输入分子采用的基组、泛函其一已知(“已知”指基组或泛函包含于已知空间中),另一未知的情况。此处的基组相似性是指两个基组虽然类型不同,但是基函数数目相同。泛函相似性是指两个泛函属于同一类别的情形。对于给定的输入分子,如果其基组已知、泛函未知,则必定可以在已知空间中找出与其基组相同、泛函相似的空间,此时调度模块从预测模块中调用相应模型得到预测结果,并将结果传递给输出模块。

b)超平面(拟合)策略

这种策略对应于输入分子采用的基组、泛函未知的情况。由于同种分子可以作为纽带分子将不同的化学世界连接起来,纽带分子构成的空间即为超平面。在超平面内,可以使用简单拟合或者如前所述的机器学***均出较为普适的分子性质特征在不同结果空间里面的渐变关系。在渐变关系已知的基础上,可以通过少数内置的上述模型的数据,推断出任意结果空间内待预测分子的性质特征。

(4)输出模块

输出模块接收调度模块传来的预测结果,并将结果输出。

本实施例的分子性质预测系统采用python语言实现,系统支持SDF格式的分子文件作为输入,借助RDkit模块。本系统基于SDF格式的分子文件构建python支持的对象类型。此外,在输入时还需指定分子采用的泛函和基组类型。基组类型确定后,系统借助“BasisSet Exchange”量子化学数据库提供的信息计算相应的基函数数目。其中RF模型的随机森林分类器使用scikit-learn模块实现,五种前馈神经网络使用TensorFlow深度学习框架实现。Bi-LSTM、MPNN和MGCN模型全部使用PyTorch深度学习框架实现。

以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,本发明的保护范围以权利要求所述为准。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:大分子及团簇体系分块计算负载均衡方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!