采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法

文档序号:1393481 发布日期:2020-02-28 浏览:13次 >En<

阅读说明:本技术 采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法 (Method for predicting fish biological enrichment factor of organic compound by adopting multi-parameter linear free energy relation model ) 是由 陈景文 丁蕊 李雪花 于 2019-11-07 设计创作,主要内容包括:本发明属于化学品生态风险评价的高通量测试策略技术领域,公开了一种采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法。搜索所需Abraham溶质参数描述符,应用所构建的pp-LFERs模型,即能快速、高效地预测有机化合物的鱼类生物富集因子,该方法简单快捷、成本低,且能节省所需的人力、物力和财力。本发明关于定量构效关系模型的构建和使用导则进行建模,运用简单、透明的多元线性回归分析方法,易于理解和应用;具有明确的应用域、良好的拟合能力、稳健性和预测能力,能够有效地预测应用域内有机化合物的鱼类生物富集因子,为化合物的生态风险性评价和管理提供必要的基础数据,具有重要的意义。(The invention belongs to the technical field of high-throughput testing strategies for ecological risk evaluation of chemicals, and discloses a method for predicting fish biological enrichment factors of organic compounds by adopting a multi-parameter linear free energy relation model. The method is simple, fast and low in cost, and can save required manpower, material resources and financial resources. The invention relates to the construction of a quantitative structure-activity relationship model and modeling by using a guide rule, and a simple and transparent multivariate linear regression analysis method is applied, so that the model is easy to understand and apply; the method has a clear application domain, good fitting ability, robustness and prediction ability, can effectively predict the fish biological enrichment factor of the organic compound in the application domain, provides necessary basic data for ecological risk evaluation and management of the compound, and has important significance.)

采用多参数线性自由能关系模型预测有机化合物的鱼类生物 富集因子的方法

技术领域

本发明属于化学品生态风险评价的高通量测试策略技术领域,采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法。

背景技术

生物积累是指生物从周围环境和食物链蓄积某种元素或难降解性物质,使其在有机体内的浓度超过周围环境中的浓度的现象。评价有机化学品的生物积累性(B)是进行化学品风险管理的核心环节之一。目前,生物积累性的最常用评价指标为生物富集因子(Bioconcentration Factor,BCF),它的定义为:达到平衡状态时,污染物在生物体内浓度与水体中浓度的比值。

实验测定是目前获取化合物的鱼类BCF数据的一个途径,经济合作与发展组织(OECD)在1996年发布了“流水式鱼类生物富集测试指南(OECD指南305)”。但实验方法周期长(通常28-60天)、费用高(欧盟REACH法规制定化学品基本检测费用约8.5万欧元,其中生物积累性属于基本检测中非常重要的检测指标之一),违反动物保护原则(一次实验约需实验用鱼100尾),所以仅以实验测定方法获取数据,无法满足对现有大量商用化学品进行风险评价和数据管理的需求。因此,很有必要发展可靠的预测方法来获取BCF数据。

由于QSAR技术有助于实现有毒有害化学品污染管理的“预先防范原则”,能够减少或替代相关实验,弥补实验数据的缺失、降低实验费用,在世界各国有毒有害化学品生态风险性评价和管理方面得到了广泛的开发。2004年经济合作与发展组织(OECD)正式确定了QSAR模型发展和使用的导则,具体如下:(1)具有明确定义的环境指标;(2)具有明确的算法;(3)定义了模型的应用域;(4)有适当的拟合度,稳定性和预测能力;(5)最好能够进行机理解释。

截止目前,已有很多研究人员运用技术成功建立了有机化合物BCF值的预测模型。如美国环保署的EPI SuiteTM软件中使用分子碎片法来预测化合物logBCF。该模型收集了685个化合物的logBCF值,并将其划分为四类,分别为非电离化合物,电离化合物,锡和汞有机化合物和含氮芳香族化合物,然后对这四个子数据集分别建立基于Kow的线性模型,同时为了提高模型的拟和度,引入一套与分子结构碎片相关的校正参数。该模型的回归相关系数R2为0.833,但是该方法使用时比较烦琐,不具备实用性。文献“J.Chemosphere,1993,26:1905–1916.”中首次在线性溶解能关系(LSER)中使用Kamlet-Taft溶剂化变色参数来估算有机化学物质的鱼体BCF。虽然模型相关系数高达0.947,但是用于构建模型的数据集较小(n=51),模型应用域较窄,而且复杂分子的溶剂化变色参数难以获得,因此该方法并没有得到广泛使用。文献“J.Chinese Science Bulletin,2009,54(4):628-634.”中收集了192个非离子性有机化合物的鱼类logBCF值,根据LSER理论选择了量子化学描述符为主的4个分子结构描述符,采用偏最小二乘(PLS)方法建立了8类化合物的鱼类BCF-QSAR模型。该模型的回归相关系数R2为0.868,预测效果较好,但是获得量子化学描述符的过程较复杂,且对计算机要求较高,故不便于实际使用。文献“J.SAR QSAR Environ.Res.,2010,7-8,(21),671-680.”选择疏水性描述符、氢键、分子拓扑性指数等共7个描述符,以624个化合物,通过人工神经网络(ANN)方法建立模型,该模型没有明确的表达式,不便于机理解释。综上,前人模型具有应用域小、描述符难以获得、算法不明确等缺点而且均没有完全考虑到OECD导则中的各项要求,缺乏模型验证和表征,因此有必要构建一个数据集涵盖的化合物种类丰富、具有明确算法、描述符方便获得、便于应用推广的BCF预测模型,并依照OECD导则对模型进行验证和表征。

发明内容

本发明目的是发展一种高效、快速、简洁的有机化合物BCF值的预测方法。该方法首先从数据库中搜索多参数线性自由能关系中所需要的Abraham参数值(E,S,A,B,V)进而预测化学品BCF值。BCF是生物富集化学品能力的度量,是描述化学品在生物体内累积趋势的重要指标,开发用于快速获取BCF的计算方法将使化合物的生态风险性评价和管理变得更加高效。

本发明的技术方案:

采用多参数线性自由能关系模型预测有机化合物的鱼类生物富集因子的方法,步骤如下:

首先,拟采用多参数线性自由能关系模型进行BCF的预测,多参数线性自由能关系模型如下:

lgBCF=eE+sS+aA+bB+vV+c

其中,e,s,a,b,v为模型系数,通过线性回归拟合得出;E是过量分子摩尔折射率;S是分子极性/偶极矩参数;A和B分别表征分子氢键质子给体能力、氢键质子受体能力,也称为氢键酸度与氢键碱度;V为McGowan分子体积,E,S,A,B,V又称Abraham参数;

使用多参数线性自由能关系模型需要先获得Abraham参数,即获取化合物的E,S,A,B,V值,本方法使用UFZ-LSER数据库进行搜索;

然后,使用收集到的510种有机化合物的logBCF值进行建模,以4:1的比例随机划分为包含408个化合物的训练集和包含102个化合物的验证集,训练集用于构建预测模型,验证集用于建模后的外部验证;使用逐步多元线性回归(MLR)方法构建QSAR模型;最终选取模型如下:

logBCF=0.954×E–0.463×S–0.739×A–2.612×B+1.955×V+2.195 (1)

ntra=408,R2 adj.tra=0.839,RMSEtra=0.619,Q2 LOO=0.835,next=102,R2 adj.ext=0.840,RMSEext=0.680,Q2 ext=0.848.

其中,ntra和next分别是训练集和验证集化合物数量;R2 adj是校正的决定系数;RMSE是均方根误差;Q2 LOO是去一法交叉验证系数;Q2 ext是外部验证系数;

模型训练集包含408个化合物,描述符的方差膨胀因子VIF均小于3,表明模型变量之间不存在多重相关性;模型R2 adj.tra为0.839,RMSEtra为0.619,表明该模型具有良好的拟合能力;Q2 LOO为0.835,R2和Q2之差远小于0.3,认为该模型不存在过拟合现象,具有良好的稳健性;在模型的外部验证过程中,验证集包含102个化合物,R2 ext为0.853,RMSEext为0.680,Q2 ext为0.848,表明该模型具有良好的外部预测能力,能有效预测化合物鱼体内的BCF;

采用Williams图对模型的应用域进行表征;基于模型中有机化学品的标准残差δ对杠杆值hi作出Williams图(图2),表征模型的应用域;标准残差(δ)计算公式为:

Figure BDA0002264206250000031

其中,δ为标准残差,yi

Figure BDA0002264206250000032

分别为第i个化合物的实验值和预测值,n为数据集中化合物的个数,p为描述符的个数。

hi和h*由如下公式计算:

hi=xi T(XTX)-1xi (2)

h*=3(k+1)/n (3)

其中,xi是第i个化合物的描述符矩阵;xi T是xi的转置矩阵;X是所有化合物的描述符矩阵;XT是X的转置矩阵;(XTX)-1是矩阵XTX的逆;k是模型中变量的个数,n是训练集样本个数。

本发明的有益效果是采用本发明方法可以通过分子结构特征快速预测有机化合物的logBCF值。该方法不仅简单快捷、成本低廉,而且节省了实验测定所需的人力、物力和财力。本发明涉及的logBCF预测方法的建立和验证严格依据OECD规定的QSAR模型发展和使用导则,因此,使用该发明专利的logBCF的预测结果,可以为化学品监管提供数据支持,对化学品的生态风险性评价具有重要意义。

本发明的有益效果:

(1)建模过程采用了透明的算法-MLR,此外,5个描述符用于预测模型的构建,模型简洁、易于解释,便于应用推广;

(2)模型的应用域广,涵盖多环芳烃及其取代物、杂环化合物及其衍生物、卤代烷烃、卤代烯烃、酯、醚、酮、醇、苯酚、苯胺、硝基化合物等多类化合物,可用于预测不同种类有机化合物的logBCF值,为化学品的生态风险性评价和监管提供数据支持;

(3)建模过程严格依照OECD关于QSAR模型的构建和使用导则,所建模型具有良好的拟合能力、稳健性和预测能力。

附图说明

图1为训练集logBCF的实测值与预测值的拟合图,训练集化合物为408种。

图2为验证集logBCF的实测值与预测值的拟合图,验证集化合物为102种。

图3为模型的Williams图,黑色实心点表示训练集化合物,黑色空心点表示验证集化合物,警戒值h*为0.044。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

实施例1

给定一个化合物1,2,3-三氯丙烷(CAS号:96-18-4),要预测其logBCF值。首先根据1,2,3-三氯丙烷的CAS码,使用UFZ-LSER数据库搜索其亚伯拉罕参数,E,S,A,B,V分别为0.55,0.65,0.03,0.31,0.90。根据公式(2)计算的h值为0.002(<0.044),所以该化合物在模型应用域内,将以上描述符的值代入公式(1),得到logBCF的预测值为3.34,其实验测定的logBCF值为3.28,预测值和实验值的数据非常相符。

实施例2

给定一个化合物对硝基苯甲醚(CAS号:100-17-4),要预测其logBCF值。首先根据对硝基苯甲醚的CAS码,使用UFZ-LSER数据库搜索其亚伯拉罕参数,E,S,A,B,V分别为0.98,1.49,0,0.37,1.09。根据公式(2)计算的h值为0.010(<0.044),所以该化合物在模型应用域内,将以上描述符的值代入公式(1),得到logBCF的预测值为3.31,其实验测定的logBCF值为3.60,预测值和实验值的数据非常相符。

实施例3

给定一个化合物联苯(CAS号:92-52-4),要预测其logBCF值。首先根据联苯的CAS码,使用UFZ-LSER数据库搜索其亚伯拉罕参数,E,S,A,B,V分别为1.36,0.99,0,0.26,1.32。根据公式(2)计算的h值为0.003(<0.044),所以该化合物在模型应用域内,将以上描述符的值代入公式(1),得到logBCF的预测值为4.94,其实验测定的logBCF值为4.88,预测值和实验值的数据非常相符。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于空间结构的蛋白质相互作用预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!