邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质

文档序号:1478002 发布日期:2020-02-25 浏览:10次 >En<

阅读说明:本技术 邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质 (Prediction method, equipment and medium of toxicity effect of phthalate on zebra fish ) 是由 杨彦 陈瑞琰 陈浩佳 于 2019-09-23 设计创作,主要内容包括:本发明公开了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质,所述方法包括:根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;将毒性效应终点值作为因变量,将每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,获得最佳结构描述符;建立多元线性回归方程,构建定量构效关系模型;利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。本发明可以为邻苯二甲酸酯类的化合物的毒性研究提供参考,对该类化合物的健康风险评估具有重要意义。(The invention discloses a prediction method, equipment and a medium of toxic effect of phthalic acid ester on zebra fish, wherein the method comprises the following steps: selecting a toxicity effect terminal value according to toxicity data of various phthalates on the zebra fish, and constructing a toxicity data set; obtaining structural parameters corresponding to each phthalate, and constructing a structural descriptor data set; taking a toxic effect terminal value as a dependent variable, taking a structure parameter corresponding to each phthalate as an independent variable, and calculating a correlation coefficient between the two factors; screening out structural parameters obviously related to the toxic effect terminal value according to the correlation coefficient to obtain an optimal structure descriptor; establishing a multiple linear regression equation and constructing a quantitative structure-activity relationship model; and predicting the toxic effect end point value of the unknown phthalate on the zebra fish by using a quantitative structure-activity relationship model. The invention can provide reference for toxicity research of phthalate compounds and has important significance for health risk assessment of the compounds.)

邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质

技术领域

本发明涉及一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、设备及介质,属于生态毒理学、环境污染与人体健康领域。

背景技术

邻苯二甲酸酯(phthalic acid esters,简称PAEs)是由邻苯二甲酸酐与醇在酸催化剂(如硫酸)存在下酯化而成,是一大类脂溶性化合物,被确认为第四类毒性化学物质,在各种行业都有广泛的用途。

邻苯二甲酸酯常温下呈无色或微黄色、无味的油状粘稠液体,微溶于水,易溶于有机溶剂。作为一种常见的增塑剂,常用于改善塑料材料的力学性能,增大产品可塑性、强度。这类增塑剂可用于制造塑料容器、幼儿玩具等,也会被添加到化妆品、建筑材料与医疗部件等塑料产品中。

全球每年邻苯二甲酸酯使用量已经超过500万吨,由于邻苯二甲酸酯在工业和日常生活中的广泛应用,使其大量进入水体、土壤、生物和大气等环境介质中,如今这类化合物已成为全球性的主要环境污染物之一。

近年来,随着国内外学者对邻苯二甲酸酯的研究不断深入,发现其具有生殖毒性、神经毒性、致癌性、致畸性、致突变性及内分泌干扰性等其他毒理作用,引起国际社会关注。

定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)是一种将分子的理化性质参数和各种结构参数,以数学和统计学手段建立定量关系,寻找化合物的微观结构与生物活性间的联系方法。定量构效关系属于计算毒理学范畴,目前已广泛应用于健康风险评估中生物毒性数据的预测。KatieChan等利用定量构效关系模型预测卤苯类化合物对大鼠和人体肝细胞的细胞毒性;MounirGhamali等利用定量构效关系模型预测苯酚和苯硫酚对发光菌的毒性。除此之外,国内诸多学者也利用定量构效关系模型预测化合物的生物毒性,如廖立敏等利用定量构效关系模型预测含氯苯酚类化合物对海洋中的杜氏盐藻的毒性,堵锡华等利用定量构效关系模型预测硝基芳烃化合物对梨形四膜虫的急性毒性。

斑马鱼是一种用于生态毒理学研究的模式动物,具有易饲养、子代数量多、体积小等优点,广泛应用于污染物生态毒理学效应、水质监测等方面。

目前关于邻苯二甲酸酯对斑马鱼的毒性一般基于实验测试。穆希岩等通过实验研究发现邻苯二甲酸二辛酯(DEHP)和邻苯二甲酸二丁酯(DBP)可诱导斑马鱼胚胎出现一系列发育异常,包括自主运动异常、心率下降、脊柱弯曲及心包水肿等。聂湘平等也通过实验研究了邻苯二甲酸二甲酯(DMP)、邻苯二甲酸二乙酯(DEP)、邻苯二甲酸二正丁酯(DBP)和邻苯二甲酸二异辛酯(DEHP)4种邻苯二甲酸酯类化合物对斑马鱼胚胎发育的毒性效应,这些化合物对斑马鱼胚胎发育有明显的抑制作用,可以造成胚胎发育畸形甚至死亡。然而,由于实验周期较长、成本较高、本底干扰高、易受检测条件检测技术的限制等不确定性因素较多,所得的数据缺乏可靠性。而且,这类化合物的种类众多,对这些化合物逐一进行实验测试,已无法高效快速地提供足够的生态毒性数据来进行健康风险评估。虽然计算毒理学已应用到毒理学、环境化学、生物信息学等科学领域,但还没有基于定量构效关系的邻苯二甲酸酯对斑马鱼的毒性效应研究的相关报道。

发明内容

有鉴于此,本发明提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法、系统、计算机设备及存储介质,其以多种邻苯二甲酸酯对斑马鱼的毒性数据为基础构建模型,研究邻苯二甲酸酯的生态毒理学效应,在能降低实验成本、缩短时间周期的同时,为邻苯二甲酸酯类的化合物的毒性研究提供参考,对该类化合物的健康风险评估具有重要意义。

本发明的第一个目的在于提供一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法。

本发明的第二个目的在于提供一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统。

本发明的第三个目的在于提供一种计算机设备。

本发明的第四个目的在于提供一种存储介质。

本发明的第一个目的可以通过采取如下技术方案达到:

一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法,所述方法包括:

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;

获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;

将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;

根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符;

根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型;

利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

进一步的,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:

通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。

进一步的,所述计算两因子之间的相关系数,如下式:

Figure BDA0002211157520000031

式中,

Figure BDA0002211157520000032

分别表示各结构参数和毒性效应终点值的平均值,xi和yi分别表示第i种邻苯二甲酸酯对应的结构参数和毒性效应终点值;n表示邻苯二甲酸酯类的化合物数量。

进一步的,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:

将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;

根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。

进一步的,所述根据最佳结构描述符和毒性数据集,建立多元线性回归方程,具体为:

将最佳结构描述符作为自变量,将毒性效应终点值作为因变量Y,利用多元线性回归分析方法建立多元线性回归方程Y=AX+B,其中:

Figure BDA0002211157520000033

式中,n为观测值数量;m为最佳结构描述符中结构参数的数量;A表示未知参数,通过最小二乘法进行估计;B表示随机误差,反映了除x1,x2,…,xm对Y的线性关系之外的随机因素对Y的影响;

所述通过最小二乘法进行估计,如下式:

Figure BDA0002211157520000041

式中,XT为X的转置矩阵。

进一步的,所述多元线性回归方程的拟合优度检验指标包括决定系数、自由度校正决定系数和均方根误差,F检验的指标包括单因子方差分析计算得到的F值和相关概率p,如下式:

Figure BDA0002211157520000042

Figure BDA0002211157520000043

Figure BDA0002211157520000045

式中,yi表示观测值,y表示第i种邻苯二甲酸酯预测的毒性效应终点值,

Figure BDA0002211157520000046

表示各毒性效应终点值的平均值,n表示邻苯二甲酸酯类的化合物数量,

Figure BDA0002211157520000047

表示多元线性回归方程的预测值,R2表示决定系数,

Figure BDA0002211157520000048

表示自由度校正决定系数,RMSE表示均方根误差,SS(total)表示总误差平方和,SS(residual)表示残差平方和;

采用F统计量对应的p值进行检验,若R2≥0.8,显著水平为γ,当p<γ时,多元线性回归方程显著。

进一步的,所述构建定量构效关系模型之后,还包括:

对定量构效关系模型进行验证,具体为:

对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集;

根据训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值;

计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,如下式:

Figure BDA0002211157520000051

Figure BDA0002211157520000052

式中,yi obs表示第i种邻苯二甲酸酯实测的毒性效应终点值,yi predcv表示定量构效关系模型第i种邻苯二甲酸酯预测的毒性效应终点值,

Figure BDA0002211157520000053

表示训练集中邻苯二甲酸酯毒性效应终点值的平均值,n表示训练集中邻苯二甲酸酯类的化合物数量;

若Q2 cv>0.6,RMSECV≤0.4,且R2-Q2 cv≤0.3,则定量构效关系模型通过验证;其中,R2表示决定系数。

进一步的,所述定量构效关系模型通过验证之后,还包括:

采用杠杆值法计算定量构效关系模型的应用范围,具体为:

计算杠杆值hi,如下式:

hi=Xi T(XTX)-1Xi

式中,xi表示第i种邻苯二甲酸酯对应的结构参数组成的列向量;

计算临界值h*,如下式:

式中,p表示定量构效关系模型中的变量数,多参数模型中p=2,n表示训练集中邻苯二甲酸酯类的化合物数量;

以最佳结构描述符中的各结构参数的杠杆值为横坐标,预测残差为纵坐标绘制散点图,hi小于h*的坐标空间为定量构效关系模型的应用范围。

本发明的第二个目的可以通过采取如下技术方案达到:

一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统,所述系统包括:

第一构建模块,用于根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集;

第二构建模块,用于获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集;

计算模块,用于将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数;

确定模块,用于根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符;

第三构建模块,用于根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型;

预测模块,用于利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

本发明的第三个目的可以通过采取如下技术方案达到:

一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现上述的预测方法。

本发明的第四个目的可以通过采取如下技术方案达到:

一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的预测方法。

本发明相对于现有技术具有如下的有益效果:

1、本发明通过选择毒性效应终点值,以构建毒性数据集,以及通过获取每种邻苯二甲酸酯对应的结构参数,以构建结构描述符数据集,将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数,从而确定最佳结构描述符,并建立多元线性回归方程,构建定量构效关系模型,利用定量构效关系模型可以预测未知邻苯二甲酸酯对斑马鱼的毒性效应终点值,有助于深入研究该类化合物的毒理效应,该定量构效关系模型简便,容易理解,且具有良好的稳健性、可靠性和预测能力,便于实际应用,且成本低、简单、高效,能够大大降低实验测试所需的成本,缩短实验周期。

2、本发明在构建定量构效关系模型之后,还可以对定量构效关系模型进行验证,对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集,通过训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值,将预测的毒性效应终点值与实测的毒性效应终点值进行比较,以校验构建的定量构效关系模型是否可靠。

3、本发明在定量构效关系模型通过验证之后,还可以采用杠杆值法计算定量构效关系模型的应用范围,可以保证定量构效关系模型在预测过程中具有最佳的可靠性。

4、本发明可为邻苯二甲酸酯类污染物的风险评估和监控提供基础数据,充分利用国外相对完善的毒性数据库以及国内外研究文献,建立适用于斑马鱼的毒性预测模型,为斑马鱼毒性数据库进行补充。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例1的邻苯二甲酸酯对斑马鱼毒性效应的预测方法流程图。

图2为本发明实施例1的构建毒性数据集的流程图。

图3为本发明实施例1的确定最佳结构描述符的流程图。

图4为本发明实施例1的以其中一个结构参数计算定量构效关系模型应用范围的散点图。

图5为本发明实施例1的以另一个结构参数计算定量构效关系模型应用范围的散点图。

图6为本发明实施例3的邻苯二甲酸酯对斑马鱼毒性效应的预测系统的结构框图。

图7为本发明实施例3的第一构建模块的结构框图。

图8为本发明实施例3的确定模块的结构框图。

图9为本发明实施例4的计算机设备的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1:

如图1所示,本实施例提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测方法,该方法包括以下步骤:

S101、根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。

该步骤S101如图2所示,具体包括:

S1011、通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据。

本实施例的邻苯二甲酸酯有21种,优先采集生态毒理学知识库(https:// cfpub.epa.gov/ecotox/)、欧洲环境化学品数据库(https://ec.europa.eu/jrc/en)等相关数据库,将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性等关键词输入,获取21种邻苯二甲酸酯对斑马鱼的毒性数据,如果毒性数据不足,以近10年的科学英文索引查询(ScienceCitation Index,简称SCI)的有效数据作为补充。

S1012、根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。

具体地,根据21种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件(如实验环境、实验方法等)下,筛选出合适的毒性数据,即毒性效应终点值,该毒性效应终点值为最低观测影响浓度LOEC,将这些毒性效应终点值导出,得到毒性数据集。

在汇编过程中,记录邻苯二甲酸酯分子式、毒性效应类型、毒性效应测量类型、毒性效应终点值、数据来源等信息,整理成Excel表格作为建模依据。

S102、获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。

本实施例通过文献查询、资料收集每种邻苯二甲酸的部分分子描述符,具体地,通过有机小分子生物活性数据库(https://pubchem.ncbi.nlm.nih.gov/)、化学产品搜索引擎(https://www.chemicalbook.com/ProductIndex.aspx)、线性溶解能关系数据库(https://www.ufz.de/index.php?en=31698&contentonly=1&m=0&lserd_data[mvc]= Public/start#searchresult)等网站搜索并收集9种分子描述符,得到分子量、XLogP3、辛醇/水分配系数LogP、分子摩尔折射率E、分子偶极/极化性参数S、分子氢键质子给体能力参数A、分子氢键质子受体能力参数B、McGowan分子体积V、正十六烷-空气分配系数的对数值L;基于HyperChem软件对邻苯二甲酸酯的结构进行优化,通过半经验算法计算获得每种邻苯二甲酸酯的部分分子描述符,如偶极矩μ、分子最高占据轨道能HOMO、分子最低未占据轨道能LUMO、电负性χ、化学硬度η、化学力、亲电性ω,其中部分LogP值由美国EPI软件计算得出,这些分子描述符即为每种邻苯二甲酸酯对应的结构参数,然后构建结构描述符数据集。

在汇编过程中,记录邻苯二甲酸分子式、CAS号等信息,整理成Excel表格作为建模依据,总结数据如下表1所示。

表1分子结构描述符

Figure BDA0002211157520000081

S103、将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。

本实施例中,计算两因子之间的皮尔逊相关系数r,如下式:

Figure BDA0002211157520000092

式中,

Figure BDA0002211157520000093

分别表示各结构参数和毒性效应终点值的平均值,xi和yi分别表示第i种邻苯二甲酸酯对应的结构参数和毒性效应终点值;n表示邻苯二甲酸酯类的化合物数量,相关性分析结果如下表2所示。

表2相关性分析结果

Figure BDA0002211157520000094

Figure BDA0002211157520000101

S104、根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。

该步骤S104如图3所示,具体包括:

S1041、将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数。

具体地,若相关系数r>0.9,则该相关系数为显著相关系数,说明当前的结构参数与毒性效应终点值显著相关,筛选出这些结构参数。

S1042、根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符,主成分分析结果如下表3所示。

主成分分析的具体公式如下:

F=a1i×ZX1+a2i×ZX2+……+api×ZXp

其中a1i,a2i,……,api(i=1,……,m)为X的协方差阵∑的特征值所对应的特征向量,ZX1,ZX2,……,ZXp是原始变量经过标准化处理的值。

A=(aij)p×m=(a1,a2,…,am)

Rai=λiai

R为相关系数矩阵,λi、ai是相应的特征值和单位特征向量,λ1≥λ2≥…≥λp≥0。

主成分分析是对于原先提出的所有变量,将关系紧密的变量删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量尽可能保持原有的信息。

按照上述方法,分别计算各分子结构的皮尔逊相关系数r。

表3主成分分析结果

S105、根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。

具体地,将最佳结构描述符作为自变量,将毒性效应终点值作为因变量Y,通过统计软件SPSS,利用多元线性回归分析方法建立多元线性回归方程Y=AX+B,其中:

Figure BDA0002211157520000112

式中,n为观测值数量;m为最佳结构描述符中结构参数的数量;A表示未知参数,通过最小二乘法进行估计;B表示随机误差,反映了除x1,x2,…,xm对Y的线性关系之外的随机因素对Y的影响。与一元线性回归相比,式(2)采用多元线性回归建立了两种不同结构参数与毒性效应终点值的关系,完整、准确地表达预测对象与相关因素的关系。

通过最小二乘法进行估计,如下式:

式中,XT为X的转置矩阵。

进一步地,多元线性回归方程的拟合优度检验指标包括决定系数、自由度校正决定系数和均方根误差(又称标准误差),F检验的指标包括单因子方差分析计算得到的F值和相关概率p(Significance F),如下式:

Figure BDA0002211157520000114

Figure BDA0002211157520000121

Figure BDA0002211157520000122

Figure BDA0002211157520000123

式中,yi表示观测值,y表示第i种邻苯二甲酸酯预测的毒性效应终点值,

Figure BDA0002211157520000124

表示各毒性效应终点值的平均值,n表示邻苯二甲酸酯类的化合物数量,

Figure BDA0002211157520000125

表示多元线性回归方程的预测值,R2表示决定系数,

Figure BDA0002211157520000126

表示自由度校正决定系数,RMSE表示均方根误差,SS(total)表示总误差平方和,SS(residual)表示残差平方和;采用F统计量对应的p值进行检验,检验标准为:R2≥0.8,显著水平为γ,取值0.05,当p<γ时,多元线性回归方程显著。

本实施例中,式(4)和(6)的相关系数和均方根误差可以度量回归直线的拟合优度;式(7)是检验因变量与自变量的线性关系是否显著的通用方法。

S106、对定量构效关系模型进行验证。

1)对于每种邻苯二甲酸酯,随机抽取毒性数据集中的一个样本作为预测集,其余样本作为训练集。

2)根据训练集和最佳结构描述符,建立多元线性回归方程,计算每种邻苯二甲酸酯预测的毒性效应终点值。

3)计算交叉验证相关系数Q2 cv和交叉验证均方根误差RMSECV,如下式:

Figure BDA0002211157520000127

Figure BDA0002211157520000128

式中,yi obs表示第i种邻苯二甲酸酯实测的毒性效应终点值,yi predcv表示定量构效关系模型第i种邻苯二甲酸酯预测的毒性效应终点值,

Figure BDA0002211157520000129

表示训练集中邻苯二甲酸酯毒性效应终点值的平均值,n表示训练集中邻苯二甲酸酯类的化合物数量;验证标准为:Q2 cv>0.6,RMSECV≤0.4,且R2-Q2 cv≤0.3。

以预测方程LogLOEC=4.771LogLogP-39.319Logχ+27.673为例,R2=0.982,p<0.05,对定量构效关系模型进行验证,根据式(7)和(8),计算Q2 cv=0.885,RMSECV=0.327,R2-Q2 cv=0.097≤0.3,该定量构效关系模型通过验证,说明所建立的定量构效关系模型可靠。

S107、采用杠杆值法计算定量构效关系模型的应用范围,可以保证定量构效关系模型在预测过程中具有最佳的可靠性。

1)计算杠杆值hi,如下式:

hi=Xi T(XTX)-1Xi (10)

式中,xi表示第i种邻苯二甲酸酯对应的结构参数组成的列向量。

2)计算临界值h*,如下式:

Figure BDA0002211157520000131

式中,p表示定量构效关系模型中的变量数,多参数模型中p=2,n表示训练集中邻苯二甲酸酯类的化合物数量,本实施例中临界值h*=3×(2+1)÷21=0.429。

3)以最佳结构描述符中的各结构参数的杠杆值为横坐标,预测残差为纵坐标绘制散点图,该散点图为Williams图,hi小于h*的坐标空间为定量构效关系模型的应用范围(又称应用域),如图4和图5所示,图中三条虚线内部空间为模型的应用范围,计算结果显示训练集的21种化合物在定量构效关系模型的预测范围之内。

S108、利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

应当注意,尽管以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

实施例2:

本实施例为具体的应用实例,给定一个化合物邻苯二甲酸二异庚酯(CAS编号41451-28-9),预测其对斑马鱼的LOEC值。通过有机小分子生物活性数据库(https:// pubchem.ncbi.nlm.nih.gov/)、化学产品搜索引擎(https://www.chemicalbook.com/ ProductIndex.aspx)、线性溶解能关系数据库(https://www.ufz.de/index.php?en= 31698&contentonly=1&m=0&lserd_data[mvc]=Public/start#searchresult)等网站搜索并收集邻苯二甲酸二异庚酯的部分分子描述符,得到分子量、XLogP3、辛醇/水分配系数、分子摩尔折射率、分子偶极/极化性参数、分子氢键质子给体能力参数、分子氢键质子受体能力参数、McGowan分子体积、正十六烷-空气分配系数的对数值分别为362.51、7.4、7.41、0.65、1.26、0、0.99、3.1196、12.04;基于HyperChem软件对邻苯二甲酸二异庚酯结构进行优化,通过半经验算法计算获得邻苯二甲酸二异庚酯的部分分子描述符,偶极矩、分子最高占据轨道能、分子最低未占据轨道能、电负性、化学硬度、化学力、亲电性分别为3.303、-3.480、-7.881、5.68、2.20、2.58、7.33;根据式(10)得出hi<0.429,所以邻苯二甲酸二异庚酯在定量构效关系模型的应用范围内,可以运用定量构效关系模型进行预测,将上述描述符值代入定量构效关系模型的公式,得到LOEC值为2.16,其实验值为3,预测结果良好。

实施例3:

如图6所示,本实施例提供了一种邻苯二甲酸酯对斑马鱼毒性效应的预测系统,该系统包括第一构建模块601、第二构建模块602、第一计算模块603、确定模块604、第三构建模块605、验证模块606、第二计算模块607和预测模块608,各个模块的具体功能如下:

所述第一构建模块601,用于根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。

所述第二构建模块602,用于获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。

所述第一计算模块603,用于将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。

所述确定模块604,用于根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。

所述第三构建模块605,用于根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。

所述验证模块606,用于对定量构效关系模型进行验证。

所述第二计算模块607,用于采用杠杆值法计算定量构效关系模型的应用范围。

所述预测模块608,用于利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

进一步地,所述第一构建模块601如图7所示,具体包括:

获取单元6011,用于通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据。

构建单元6012,根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值。

进一步地,所述确定模块604如图8所示,具体包括:

筛选单元6041,用于将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数。

确定单元6042,用于根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。

本实施例中各个模块的具体实现可以参见上述实施例1的预测方法,需要说明的是,本实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。

可以理解,本实施例的系统中所使用的术语“第一”、“第二”等可用于描述各种模块,但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。举例来说,在不脱离本发明的范围的情况下,可以将第一计算模块称为第二计算模块,且类似地,可将第二计算模块称为第一计算模块,第一计算模块和第二计算模块两者都是计算模块,但其不是同一计算模块。

实施例4:

本实施例提供了一种计算机设备,该计算机设备可以是计算机,如图9所示,其包括通过系统总线901连接的处理器902、存储器、输入装置903、显示器904和网络接口905,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质906和内存储器907,该非易失性存储介质906存储有操作系统、计算机程序和数据库,该内存储器907为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器902执行存储器存储的计算机程序时,实现上述实施例1的预测方法,如下:

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。

获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。

将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。

根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。

根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。

对定量构效关系模型进行验证。

采用杠杆值法计算定量构效关系模型的应用范围。

利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

进一步地,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:

通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。

进一步地,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:

将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;

根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。

实施例5:

本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,计算机程序被处理器执行时,实现上述实施例1的预测方法,如下:

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,选择毒性效应终点值,构建毒性数据集。

获取每种邻苯二甲酸酯对应的结构参数,构建结构描述符数据集。

将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数。

根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符。

根据最佳结构描述符和毒性数据集,建立多元线性回归方程,构建定量构效关系模型。

对定量构效关系模型进行验证。

采用杠杆值法计算定量构效关系模型的应用范围。

利用定量构效关系模型对未知邻苯二甲酸酯对斑马鱼的毒性效应终点值进行预测。

进一步地,所述根据多种邻苯二甲酸酯对斑马鱼毒性效应,选择毒性效应终点值,构建毒性数据集,具体包括:

通过将邻苯二甲酸酯类的化合物名称、斑马鱼、毒性这些关键词输入多个相关数据库,获取多种邻苯二甲酸酯对斑马鱼的毒性数据;

根据多种邻苯二甲酸酯对斑马鱼的毒性数据,在相同实验条件下,筛选出毒性效应终点值,构建毒性数据集。

进一步地,所述根据相关系数,筛选出与毒性效应终点值显著相关的结构参数,确定最佳结构描述符,具体包括:

将大于0.9的相关系数作为显著相关系数,筛选出与毒性效应终点值显著相关的结构参数;

根据与毒性效应终点值显著相关的结构参数,通过主成分分析,确定最佳结构描述符。

本实施例中的存储介质可以是磁盘、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。

综上所述,本发明通过选择毒性效应终点值,以构建毒性数据集,以及通过获取每种邻苯二甲酸酯对应的结构参数,以构建结构描述符数据集,将毒性数据集中的毒性效应终点值作为因变量,将结构描述符数据集中每种邻苯二甲酸酯对应的结构参数为自变量,计算两因子之间的相关系数,从而确定最佳结构描述符,并建立多元线性回归方程,构建定量构效关系模型,利用定量构效关系模型可以预测未知邻苯二甲酸酯对斑马鱼的毒性效应终点值,有助于深入研究该类化合物的毒理效应,该定量构效关系模型简便,容易理解,且具有良好的稳健性、可靠性和预测能力,便于实际应用,且成本低、简单、高效,能够大大降低实验测试所需的成本,缩短实验周期。

以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种不依赖数据库搜索的蛋白质生物标志物鉴定方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!