表面活性剂的构效关系研究方法和装置

文档序号:117040 发布日期:2021-10-19 浏览:41次 >En<

阅读说明:本技术 表面活性剂的构效关系研究方法和装置 (Structure-activity relationship research method and device of surfactant ) 是由 刘友权 唐永帆 熊颖 吴文刚 张燕 原励 杜国滨 石晓松 于 2020-04-10 设计创作,主要内容包括:本申请公开了一种表面活性剂的构效关系研究方法和装置,属于分子构效关系研究技术领域。本申请实施例提供的表面活性剂的构效关系研究方法,通过将多个第一特征变量进行共线性聚类,避免了特征变量之间的共线性导致特征变量冗余的问题,且对第二特征变量进行非线性主成分分析压缩,避免了特征变量数量过多导致的过拟合的问题,从而提高了预测模型预测的准确性。(The application discloses a structure-activity relationship research method and device of a surfactant, and belongs to the technical field of molecular structure-activity relationship research. According to the structure-activity relationship research method of the surfactant, the problem of characteristic variable redundancy caused by collinearity among characteristic variables is solved by carrying out collinearity clustering on the plurality of first characteristic variables, and the problem of overfitting caused by excessive quantity of the characteristic variables is solved by carrying out nonlinear principal component analysis compression on the second characteristic variables, so that the prediction accuracy of a prediction model is improved.)

表面活性剂的构效关系研究方法和装置

技术领域

本申请涉及分子构效关系研究技术领域。特别涉及一种表面活性剂的构效关系研究方法和装置。

背景技术

表面活性剂在水中形成胶束所需的最低浓度称为临界胶束浓度(criticalmicelle concentration,简称cmc)。cmc可作为表面活性剂表面活性的一种度量,cmc越小,表明这种表面活性剂形成胶束所需的浓度越低,达到表面饱和吸附的浓度越低,表面活性越高。而表面活性剂的结构与cmc之间的构效关系对表面活性剂的研究有着极其重要的参考价值,尤其是对咪唑鎓盐类双子表面活性剂的构效关系的研究。

相关技术中,主要是先计算咪唑鎓盐类双子表面活性剂的每个特征变量的方差值,根据该方差值的大小从中筛选多个最优特征变量,剔除非重要的特征变量,通过筛选后的多个最优特征变量构建预测模型,最终根据该预测模型预测咪唑鎓盐类双子表面活性剂的cmc。

但相关技术中在筛选多个最优特征变量时,仅剔除了非重要的特征变量,特征变量之间还存在共线性关系,存在冗余变量,导致预测模型无法准确预测咪唑鎓盐类双子表面活性剂的cmc,预测的准确性低。

发明内容

本申请实施例提供了一种表面活性剂的构效关系研究方法和装置,可以提高预测模型预测的准确性。具体技术方案如下:

一方面,本申请实施例提供了一种表面活性剂的构效关系研究方法,所述方法包括:

获取多个样本表面活性剂的临界胶束浓度cmc,以及获取所述多个样本表面活性剂的多个第一特征变量,每个样本表面活性剂均具有多个第一特征变量,所述样本表面活性剂为咪唑鎓盐类双子表面活性剂;

对于每个样本表面活性剂,将所述每个样本表面活性剂的多个第一特征变量进行共线性聚类,得到多个第二特征变量;

对所述多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从所述多个第一主成分变量中提取第一数量个第一主成分变量;

根据每个样本表面活性剂的cmc、所述每个样本表面活性剂对应的第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;

当对待预测的目标表面活性剂的cmc进行预测时,获取所述目标表面活性剂的第一数量个第二主成分变量,所述目标表面活性剂为咪唑鎓盐类双子表面活性剂;

将所述第一数量个第二主成分变量输入所述预测模型中,得到所述目标表面活性剂的cmc。

在一种可能的实现方式中,所述将所述每个样本表面活性剂的多个第一特征变量进行共线性聚类,得到多个第二特征变量,包括:

确定每两个第一特征变量之间的线性相关系数;

将所述线性相关系数不小于预设阈值的第一特征变量聚为一类,得到多个分类,每个分类中包括至少两个第一特征变量,且每个分类中任意两个第一特征变量之间的线性相关系数不小于所述预设阈值;

对每个分类中的每个第一特征变量进行特征评分;

从所述每个分类中选择特征评分最高的第一特征变量,将特征评分最高的第一特征变量作为第二特征变量,得到多个第二特征变量。

在另一种可能的实现方式中,所述确定每两个第一特征变量之间的线性相关系数,包括:

获取每个第一特征变量的特征值以及所述多个样本表面活性剂和测试表面活性剂的总数量;

根据所述每个第一特征变量的特征值和所述总数量,通过以下公式一,确定每两个第一特征变量之间的线性相关系数;

公式一:

其中,rij表示第i个第一特征变量和第j个第一特征变量之间的线性相关系数,i表示第i个第一特征变量,j表示第j个第一特征变量,k表示第k个样本表面活性剂,n表示所述总数量,表示所述多个样本表面活性剂的第i个第一特征变量的平均值,表示所述多个样本表面活性剂的第j个第一特征变量的平均值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,xjk表示第k个样本表面活性剂的第j个第一特征变量的特征值。

在另一种可能的实现方式中,所述根据每个样本表面活性剂的cmc、所述每个样本表面活性剂对应的第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型,包括:

对于所述每个样本表面活性剂,通过以下公式二,将所述样本表面活性剂的cmc、所述样本表面活性剂对应的第一数量个第一主成分变量代入所述多元线性回归方程中,得到所述预测模型;

公式二:lg(cmc)=a0+a1x1+a2x2+...+amxm

其中,lg(cmc)表示所述样本表面活性剂的cmc,a0、a1、a2和am均表示常数,x1、x2、xm分别表示第一主成分变量,m表示第一数量。

在另一种可能的实现方式中,所述将所述每个样本表面活性剂的多个第一特征变量进行共线性聚类,得到多个第二特征变量之前,所述方法还包括:

根据获取的所述每个样本表面活性剂的每个第一特征变量的特征值,确定所述多个样本表面活性剂中每个第一特征变量的最大值及最小值;

根据所述每个样本表面活性剂的每个第一特征变量的特征值、所述多个样本表面活性剂中每个第一特征变量的最大值及最小值,通过以下公式三,对所述每个样本表面活性剂的每个第一特征变量进行归一化处理;

公式三:

其中,x'ik表示第k个样本表面活性剂的第i个第一特征变量归一化处理之后的特征值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,表示所述多个样本表面活性剂中第i个第一特征变量的最大值,表示所述多个样本表面活性剂中第i个第一特征变量的最小值,i表示第i个第一特征变量,k表示第k个样本表面活性剂。

在另一种可能的实现方式中,所述将所述第一数量个第二主成分变量输入所述预测模型中,得到所述目标表面活性剂的cmc之前,所述方法还包括:

获取测试表面活性剂的第一数量个第三主成分变量和所述测试表面活性剂经实验得到的实验cmc;

将所述第一数量个第三主成分变量输入所述预测模型中,得到所述测试表面活性剂的预测cmc;

根据所述实验cmc和所述预测cmc,对所述预测模型进行测试;

当所述预测模型测试成功时,执行所述将所述第一数量个第二主成分变量输入所述预测模型中,得到所述目标表面活性剂的cmc的步骤。

在另一种可能的实现方式中,所述根据所述实验cmc和所述预测cmc,对所述预测模型进行测试,包括:

根据所述实验cmc和所述预测cmc,确定所述实验cmc和所述预测cmc之间的平均绝对误差、平均绝对相对误差和皮尔逊相关系数;

当所述平均绝对误差大于第一预设阈值,所述平均绝对相对误差大于第二预设阈值,且所述皮尔逊相关系数大于第三预设阈值时,确定所述预测模型测试成功。

另一方面,本申请实施例提供了一种表面活性剂的构效关系研究装置,所述装置包括:

第一获取模块,用于获取多个样本表面活性剂的临界胶束浓度cmc,以及获取所述多个样本表面活性剂的多个第一特征变量,每个样本表面活性剂均具有多个第一特征变量,所述样本表面活性剂为咪唑鎓盐类双子表面活性剂;

聚类模块,用于对于每个样本表面活性剂,将所述每个样本表面活性剂的多个第一特征变量进行共线性聚类,得到多个第二特征变量;

提取模块,用于对所述多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从所述多个第一主成分变量中提取第一数量个第一主成分变量;

训练模块,用于根据每个样本表面活性剂的cmc、所述每个样本表面活性剂对应的第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;

第二获取模块,用于当对待预测的目标表面活性剂的cmc进行预测时,获取所述目标表面活性剂的第一数量个第二主成分变量,所述目标表面活性剂为咪唑鎓盐类双子表面活性剂;

第一输入模块,用于将所述第一数量个第二主成分变量输入所述预测模型中,得到所述目标表面活性剂的cmc。

在一种可能的实现方式中,所述聚类模块,还用于确定每两个第一特征变量之间的线性相关系数;将所述线性相关系数不小于预设阈值的第一特征变量聚为一类,得到多个分类,每个分类中包括至少两个第一特征变量,且每个分类中任意两个第一特征变量之间的线性相关系数不小于所述预设阈值;对每个分类中的每个第一特征变量进行特征评分;从所述每个分类中选择特征评分最高的第一特征变量,将特征评分最高的第一特征变量作为第二特征变量,得到多个第二特征变量。

在另一种可能的实现方式中,所述聚类模块,还用于获取每个第一特征变量的特征值以及所述多个样本表面活性剂和测试表面活性剂的总数量;根据所述每个第一特征变量的特征值和所述总数量,通过以下公式一,确定每两个第一特征变量之间的线性相关系数;

公式一:

其中,rij表示第i个第一特征变量和第j个第一特征变量之间的线性相关系数,i表示第i个第一特征变量,j表示第j个第一特征变量,k表示第k个样本表面活性剂,n表示所述总数量,表示所述多个样本表面活性剂的第i个第一特征变量的平均值,表示所述多个样本表面活性剂的第j个第一特征变量的平均值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,xjk表示第k个样本表面活性剂的第j个第一特征变量的特征值。

在另一种可能的实现方式中,所述训练模块,还用于对于所述每个样本表面活性剂,通过以下公式二,将所述样本表面活性剂的cmc、所述样本表面活性剂对应的第一数量个第一主成分变量代入所述多元线性回归方程中,得到所述预测模型;

公式二:lg(cmc)=a0+a1x1+a2x2+...+amxm

其中,lg(cmc)表示所述样本表面活性剂的cmc,a0、a1、a2和am均表示常数,x1、x2、xm分别表示第一主成分变量,m表示第一数量。

在另一种可能的实现方式中,所述装置还包括:

确定模块,用于根据获取的所述每个样本表面活性剂的每个第一特征变量的特征值,确定所述多个样本表面活性剂中每个第一特征变量的最大值及最小值;

归一模块,用于根据所述每个样本表面活性剂的每个第一特征变量的特征值、所述多个样本表面活性剂中每个第一特征变量的最大值及最小值,通过以下公式三,对所述每个样本表面活性剂的每个第一特征变量进行归一化处理;

公式三:

其中,x'ik表示第k个样本表面活性剂的第i个第一特征变量归一化处理之后的特征值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,表示所述样本表面活性剂中第i个第一特征变量的最大值,表示所述样本表面活性剂中第i个第一特征变量的最小值,i表示第i个第一特征变量,k表示第k个样本表面活性剂。

在另一种可能的实现方式中,所述装置还包括:

第三获取模块,用于获取测试表面活性剂的第一数量个第三主成分变量和所述测试表面活性剂经实验得到的实验cmc;

第二输入模块,用于将所述第一数量个第三主成分变量输入所述预测模型中,得到所述测试表面活性剂的预测cmc;

测试模块,用于根据所述实验cmc和所述预测cmc,对所述预测模型进行测试;

所述第一输入模块,还用于当所述预测模型测试成功时,将所述第一数量个第二主成分变量输入所述预测模型中,得到所述目标表面活性剂的cmc。

在另一种可能的实现方式中,所述测试模块,还用于根据所述实验cmc和所述预测cmc,确定所述实验cmc和所述预测cmc之间的平均绝对误差、平均绝对相对误差和皮尔逊相关系数;当所述平均绝对误差大于第一预设阈值,所述平均绝对相对误差大于第二预设阈值,且所述皮尔逊相关系数大于第三预设阈值时,确定所述预测模型测试成功。

本申请实施例提供的技术方案带来的有益效果是:

本申请实施例提供的表面活性剂的构效关系研究方法,获取多个样本表面活性剂的临界胶束浓度cmc,以及获取多个样本表面活性剂的多个第一特征变量;将多个第一特征变量进行共线性聚类,得到多个第二特征变量;对多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从中提取第一数量个第一主成分变量;根据多个样本表面活性剂的cmc、第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;当对待预测的目标表面活性剂的cmc进行预测时,获取目标表面活性剂的第一数量个第二主成分变量,目标表面活性剂为咪唑鎓盐类双子表面活性剂;将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。该方法通过将多个第一特征变量进行共线性聚类,避免了特征变量之间的共线性导致特征变量冗余的问题,且对第二特征变量进行非线性主成分分析压缩,避免了特征变量数量过多导致的过拟合的问题,从而提高了预测模型预测的准确性。

附图说明

图1是本申请实施例提供的一种预测模型训练方法的流程图;

图2是本申请实施例提供的一种通过表面张力法或者电导率法测定表面活性剂cmc的构建预测模型的示意图;

图3是本申请实施例提供的一种表面张力法测定的表面活性剂的预测模型的实验cmc与预测cmc的散点分布图;

图4是本申请实施例提供的一种电导率法测定的表面活性剂的预测模型的实验cmc与预测cmc的散点分布图;

图5是本申请实施例提供的一种表面活性剂的构效关系研究方法的流程图;

图6是本申请实施例提供的一种表面活性剂的构效关系研究装置的结构示意图。

具体实施方式

为使本申请的技术方案和优点更加清楚,下面对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种预测模型的训练方法,参见图1,该方法包括:

步骤101:获取多个样本表面活性剂的临界胶束浓度,以及获取多个样本表面活性剂的多个第一特征变量。

在本申请实施例中,样本表面活性剂为咪唑鎓盐类双子表面活性剂,每个样本表面活性剂均具有多个第一特征变量。

在一种可能的实现方式中,可以通过表面张力法或电导率法测定每个样本表面活性剂的cmc。

参见表1,表1中左侧为各表面活性剂的分子结构,右侧为分别通过表面张力法和电导率法测定的各表面活性剂的cmc,其中,cmc值后边标有a的为通过表面张力法测定得到的cmc,cmc值后边标有b的为通过电导率法测定得到的cmc。其中,该表面活性剂包括样本表面活性剂和测试表面活性剂。

表1各表面活性剂的分子结构以及分别通过表面张力法和电导率法测定的样本表面活性剂的cmc

从表1中可以看出:通过表面张力法得到的各表面活性剂的cmc的范围为[25.01,0.02],通过电导率法得到的各本表面活性剂的cmc的范围为[34.19,0.0055],可以看出cmc的波动较大。在本申请实施例中,可以采用lg(x)的方法对cmc进行转换,也即确定lg(cmc)的大小,从而缩小其波动范围。

对通过表面张力法得到的各表面活性剂的cmc进行上述转换后,得到的lg(cmc)的范围为[1.40,-1.70],对通过电导率法得到的各表面活性剂的cmc进行上述转化后,得到的lg(cmc)的范围为[1.53,-2.26]。

在一种可能的实现方式中,可以通过以下步骤(1)至(3)获取多个样本表面活性剂的多个第一特征变量,包括:

(1)通过第一绘图软件绘制多个样本表面活性剂的二维分子结构。

该第一绘图软件可以根据需要进行设置并更改,在本申请实施例中,对此不作具体限定。例如,第一绘图软件为ChemDraw软件。

(2)将多个样本表面活性剂的二维分子结构导入第二绘图软件中,对二维分子结构进行优化,得到稳定的三维分子结构。

第二绘图软件也可以根据需要进行设置并更改,在本申请实施例中,对此不作具体限定。例如,第二绘图软件为Chem3D软件。

本步骤中,将样本表面活性剂的二维分子结构导入第二绘图软件中之后,通过分子力学的方法,对每个二维分子结构进行结构优化,从而得到稳定的三维分子结构。

(3)根据多个样本表面活性剂的三维分子结构,计算多个样本表面活性剂共有的特征变量,得到每个样本表面活性剂的多个第一特征变量。

本步骤中,可以根据多个样本表面活性剂的三维分子结构,通过Material Studio8.0的QSAR模块计算样本表面活性剂的能量、电荷等特征变量,然后删除部分样本表面活性剂不具备的特征变量,得到每个样本表面活性剂的多个第一特征变量。

在一种可能的实现方式中,对于表1中的通过表面张力法测定的样本表面活性剂,以及通过电导率法测定的样本表面活性剂,通过步骤(1)至(3)分别得到253个特征变量,删除部分样本表面活性剂不具备的特征变量,分别得到113个第一特征变量以及119个第一特征变量。

步骤102:对于每个样本表面活性剂,确定每两个第一特征变量之间的线性相关系数。

本步骤可以通过以下步骤(1)至(2)实现,包括:

(1)获取每个样本表面活性剂的每个第一特征变量的特征值。

(2)根据每个第一特征变量的特征值,通过以下公式一,确定线性相关系数。

公式一:

其中,i表示第i个第一特征变量,j表示第j个第一特征变量,k表示第k个样本表面活性剂,n表示样本表面活性剂的数量,表示每个样本表面活性剂的第i个第一特征变量的平均值,表示每个样本表面活性剂的第j个第一特征变量的平均值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,xjk表示第k个样本表面活性剂的第j个第一特征变量的特征值。

需要说明的一点是,在本步骤之前,还可以对第一特征向量进行归一化处理,相应的,该步骤可以通过以下步骤(3)至(5)实现,包括:

(3)获取每个样本表面活性剂的每个第一特征变量的特征值。

(4)根据获取的每个样本表面活性剂的每个第一特征变量的特征值,确定多个样本表面活性剂中每个第一特征变量的最大值及最小值。

(5)根据每个样本表面活性剂的每个第一特征变量的特征值、多个样本表面活性剂中每个第一特征变量的最大值及最小值,通过以下公式三,对每个样本表面活性剂中的每个第一特征变量进行归一化处理;

公式三:

其中,x'ik表示第k个样本表面活性剂的第i个第一特征变量归一化处理之后的特征值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,表示所述多个样本表面活性剂中第i个第一特征变量的最大值,表示所述多个样本表面活性剂中第i个第一特征变量的最小值,i表示第i个第一特征变量,k表示第k个样本表面活性剂。

需要说明的另一点是,当在步骤102之前对每个样本表面活性剂的每个第一特征变量进行归一化处理时,在执行步骤102时,直接执行步骤(2),不需要执行步骤(1),也即不再获取每个样本表面活性剂的每个第一特征变量的特征值;若执行完步骤101,直接执行步骤102,则在执行步骤102时,先执行步骤(1)再执行步骤(2)。

步骤103:将线性相关系数不小于预设阈值的第一特征变量聚为一类,得到多个分类,每个分类中包括至少两个第一特征变量,且每个分类中任意两个第一特征变量之间的线性相关系数不小于预设阈值。

预设阈值的大小可以根据需要进行设置并更改,在本申请实施例中,对此不作具体限定。例如,预设阈值为0.7。当线性相关系数不小于0.7时,认为该两个第一特征变量显著相关,则将该两个第一特征变量聚为一类。

例如,该样本表面活性剂包括5个第一特征变量,分别用A、B、C、D、E来表示,其中,A与B、B与C以及A与C之间的线性相关系数大于预设阈值,D与E之间的线性相关系数大于预设阈值,则将A、B、C聚为一类,D、E聚为一类。

在一种可能的实现方式中,对于表1中的通过表面张力法测定的样本表面活性剂,包括113个第一特征变量,通过该方法进行共线性聚类后,得到42个分类;对于表1中的通过电导率法测定的样本表面活性剂,包括119个第一特征变量,通过该方法进行共线性聚类后,得到45个分类。

该实现方式中,将113个第一特征变量进行共线性聚类,得到42个分类,以及将119个第一特征变量进行共线性聚类,得到45个分类,说明第一特征变量之间确实存在显著的线性关系,通过该方法很好地解决了构建模型中的共线性问题。

步骤104:对每个分类中的每个第一特征变量进行特征评分。

在一种可能的实现方式中,可以确定每个分类中的每个第一特征变量对预测模型的贡献程度,第一特征变量对预测模型的贡献程度越大,第一特征变量越重要,其特征评分越高。

在另一种可能的实现方式中,也可以通过R软件中的RF(Random Forest,随机森林算法)对每个分类中的每个第一特征变量进行基尼(Gini)重要性打分,从而得到每个第一特征变量对应的特征评分。

Gini使用节点分裂后的Gini纯度的下降作为特征重要性的度量,随机森林算法中所有决策树的Gini纯度减少的平均值就是该第一特征变量的得分,得分越高,说明该第一特征变量越重要。

步骤105:从每个分类中选择特征评分最高的第一特征变量,将特征评分最高的第一特征变量作为第二特征变量,得到多个第二特征变量。

在一种可能的实现方式中,对于每个分类,可以将该分类中每个第一特征变量的特征评分由高到低进行排序,选择第一个第一特征变量,将其作为第二特征变量,从而得到多个第二特征变量。或者,将该分类中每个第一特征变量的特征评分由低到高进行排序,选择最后一个第一特征变量,将其作为第二特征变量,从而得到多个第二特征变量。

需要说明的一点是,第二特征变量为非共线性的特征变量,且第二特征变量的数量与分类的数量相同。例如,对于通过表面张力法测定的样本表面活性剂,进行共线性聚类后得到42个分类,则得到的第二特征变量的数量也为42。对于通过电导率法测定的样本表面活性剂,进行共线性聚类后得到45个分类,则得到的第二特征变量的数量也为45。

参见表2,表2左侧为通过表面张力法测定的样本表面活性剂对应的42个第二特征变量,右侧为通过电导率法测定的样本表面活性剂对应的45个第二特征变量。

表2将多个第一特征变量进行共线性聚类后得到的多个第二特征变量

从表2中可以看出:表面张力法测定的样本表面活性剂与电导率法测定的样本表面活性剂的第二特征变量大部分为静电相关的性质,这是由分子本身的双子表面特征决定的。同时,两者的前20位的第二特征变量重合率很高,有14个重合的静电性质同时还包含一个氢键供体性质,说明本申请实施例提供的对第一特征变量进行共线性聚类的方法是合理有效的。

本申请实施例中,通过对第一特征变量进行特征评分,保证了从每个分类中筛选出的第二特征变量为关键特征变量。另外,根据表2可以看出:第二特征变量的大部分为静电相关性质,说明静电性质对cmc影响较大,另外,氢键供体/受体,范德华能、静电势能等能量性质也与cmc相关。

步骤106:对多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从多个第一主成分变量中提取第一数量个第一主成分变量。

本步骤中,对多个第二特征变量进行非线性主成分分析压缩,将多个第二特征变量进行非线性组合,得到多个第一主成分变量,从而实现有效降维。

在一种可能的实现方式中,提取的第一数量个第一主成分变量在保证分类信息不损失的前提下,占有大部分的信息量。并且,提取的第一数量个第一主成分变量为多个第一主成分变量中靠前的第一数量个第一主成分变量。

在一种可能的实现方式中,根据样本表面活性剂和测试表面活性剂的总数量,从中提取第一数量个第一主成分变量。其中,样本表面活性剂和测试表面活性剂的总数量与第一数量的比值不小于5。

对于表1中的样本表面活性剂,通过表面张力法测定的样本表面活性剂,其样本表面活性剂和测试表面活性剂的总数量为35,通过电导率法测定的样本表面活性剂,其样本表面活性剂和测试表面活性剂的总的数量为29。则基于样本表面活性剂和测试表面活性剂的总数量与第一数量的比值不小于5,对于通过表面张力法测定的样本表面活性剂,提取的第一主成分变量的数量为7;对于通过电导率法测定的样本表面活性剂,提取的第一主成分变量的数量为6。提取的7个第一主成分变量与6个第一主成分变量,所占总信息量的比重均大于90%,分别为91.5%和92.0%,保证了分类信息不损失的前提。

在本申请实施例中,采用非线性主成分分析压缩将第二特征变量压缩至样本表面活性剂和测试表面活性剂的总数量的五分之一,既保证新变量不损失原始信息,又避免了预测模型的过拟合,提高了模型预测的稳定性。同时,经非线性主成分分析压缩得到的多个第一主成分变量也证明了分子结构参数间存在复杂的非线性关系。

步骤107:根据每个样本表面活性剂的cmc、每个样本表面活性剂对应的第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型。

本步骤中,对于每个样本表面活性剂,通过以下公式二,将该样本表面活性剂的cmc、该样本表面活性剂对应的第一数量个第一主成分变量代入多元线性回归方程中,得到预测模型。

公式二:lg(cmc)=a0+a1x1+a2x2+...+anxn

其中,lg(cmc)表示该样本表面活性剂的cmc,a0、a1、a2和an均表示常数,x1、x2、xn分别表示第一主成分变量,n表示第一数量。

本步骤中,第一数量与多元线性回归方程中自变量的数量相同。参见图2,图2为本申请实施例提供的一种通过表面张力法或者电导率法测定表面活性剂cmc的构建预测模型的示意图。

在本申请实施例中,基于目前已有相关实验数据及有限的小样本建模问题,对筛选得到的第二特征变量进行非线性主成分分析压缩,也即对重要特征变量进行非线性组合,实现特征数的有效压缩,从而解决了预测模型的过拟合问题。另外,通过多元线性回归方程建立了分子结构与其cmc之间的定量模型,实现了对阳离子表面活性剂cmc的计算机辅助预测,克服了现有技术的不足,进一步提高了cmc预测的准确率,最终提供了一套可靠有效的咪唑鎓盐类双子表面活性剂的研究新方法。

需要说明的一点是,得到预测模型后,可以对预测模型进行测试,在测试成功后,才对目标表面活性剂的cmc进行预测。或者,得到预测模型后,对目标表面活性剂的cmc进行预测之前,对预测模型进行测试,当测试成功时,才进行预测。在本申请实施例中,对此不作具体限定。

在一种可能的实现方式中,对预测模型进行测试的步骤可以为:

获取测试表面活性剂的第一数量个第三主成分变量和测试表面活性剂经实验得到的实验cmc;将第一数量个第三主成分变量输入预测模型中,得到测试表面活性剂的预测cmc;根据实验cmc和预测cmc,对预测模型进行测试。

其中,根据实验cmc和预测cmc,对预测模型进行测试的步骤可以为:根据实验cmc和预测cmc,确定实验cmc和预测cmc之间的平均绝对误差、平均绝对相对误差和皮尔逊相关系数;当平均绝对误差大于第一预设阈值,平均绝对相对误差大于第二预设阈值,且皮尔逊相关系数大于第三预设阈值时,确定预测模型测试成功。

其中,可以采用以下公式四确定实验cmc和预测cmc之间的平均绝对误差、平均绝对相对误差和皮尔逊相关系数;

公式四:

其中,MAE表示平均绝对误差,MARE表示平均绝对相对误差,RE表示相对误差,R表示皮尔逊相关系数,n表示样本表面活性剂和测试表面活性剂的总数量,yt表示样本表面活性剂或测试表面活性剂经实验测定的cmc的对数,也即lg(cmc),表示样本表面活性剂或测试表面活性剂经预测得到的lg(cmc),表示样本表面活性剂和测试表面活性剂的经实验测定的lg(cmc)的平均值,表示样本表面活性剂和测试表面活性剂的经预测得到的lg(cmc)的平均值。

需要说明的一点是,本申请实施例中,通过非线性主成分分析压缩特征变量,可以避免预测模型出现过拟合的问题。在本申请实施例中,分别采用了自训练法和三种交叉验证方法进行模型的训练与预测。其中,该三种交叉验证方法分别为4倍交叉验证法(4-foldcross validation)、5倍交叉验证法(5-fold cross validation)或者留一交叉验证法。其中,4倍交叉验证法是指将样本表面活性剂和测试表面活性剂均分为四份,取其中四分之一数量的表面活性剂作为测试表面活性剂,另外四分之三数量的表面活性剂作为样本表面活性剂进行模型的训练与预测;然后再取四分之一数量的表面活性剂作为测试表面活性剂,四分之三数量的表面活性剂作为样本表面活性剂进行模型的训练与预测,如此这样循环四次进行模型的训练与预测。5倍交叉验证法与4倍交叉验证法原理相同,只不过是取五分之一数量的表面活性剂作为测试表面活性剂,另外五分之四数量的表面活性剂作为样本表面活性剂,循环五次进行模型的训练与预测。留一交叉验证法是取一个表面活性剂作为测试表面活性剂,剩余的表面活性剂作为样本表面活性剂,循环次数为样本表面活性剂和测试表面活性剂的总数量。

参见表3,表3分别为表面张力法测定样本表面活性剂的预测结果以及电导率法测定样本表面活性剂的预测结果。

表3表面张力法测定样本表面活性剂的预测结果以及电导率法测定样本表面活性剂的预测结果

从表3中可以看出:表面张力法测定的表面活性剂的自训练法预测的皮尔逊相关系数R为0.9945,电导率法测定的表面活性剂的自训练法预测的皮尔逊相关系数R为0.9951,说明本申请实施例提供的方法是有效合理的。并且,从表3中还可以看出,其他三种交叉验证方法预测的R、MARE和MAE均较高,且预测的R的值比较接近,说明本申请实施例训练得到的预测模型没有产生过拟合现象,且模型稳定性较好,没有因为样本表面活性剂的改变或参数的变化而产生影响。

另外,从表3中还可以看出:表面张力法以及电导率法测定的表面活性剂的留一验证方法预测的皮尔逊相关系数R分别为0.9761、0.9874,平均绝对误差MAE分别为0.1283、0.1227,说明训练得到的预测模型具有较好的泛化能力,相较于相关技术中表面张力法以及电导率法测定的表面活性剂的留一验证方法预测的皮尔逊相关系数R分别为0.8791、0.9613,平均绝对误差MAE分别为0.2907、0.2954,具有明显提高。具体每个样本表面活性剂的预测结果参见表4和表5。

表4表面张力法测定的35个样本表面活性剂的留一交叉验证法的预测结果

表5表面张力法测定的29个样本表面活性剂的留一交叉验证法的预测结果

分别参见图3、图4,图3为通过表面张力法测定表面活性剂cmc的预测模型的实验cmc与预测cmc的散点分布图,图4为通过电导率法测定表面活性剂cmc的预测模型的实验cmc与预测cmc的散点分布图。从图3和图4中可以看出,两个预测模型的平均绝对相对误差MARE分别在20%和15%以内。

并且,本申请实施例还提供了通过留一交叉验证法,得到的通过表面张力法测定表面活性剂cmc的预测模型为:

lg(cmc)=-7.23+5.67PC1+3.46PC2+2.11PC3+1.44PC4-1.67PC5-0.86PC6-0.67PC7

通过电导率法测定表面活性剂cmc的预测模型为:

lg(cmc)=-9.56+3.89PC1+3.53PC2+2.90PC3+1.78PC4-1.75PC5-1.45PC6;

其中,PC1、PC2、PC3...PC7分别为第一主成分变量。

在本申请实施例中,通过机器学习方法对大量特征变量进行有效筛选与压缩,构建了更为可靠、有效的预测其cmc的预测模型。并且,针对特征变量间的共线性会导致特征冗余的问题,通过共线性聚类与特征评分相结合的方法从多个第一特征变量中筛选出非共线性的第二特征变量。另外,针对特征变量数量过大引起模型过拟合的问题,采用非线性主成分分析压缩对第二特征变量进行压缩,非线性组合,然后提取第一主成分变量。最后,利用多元线性回归进行模型构建,采用多种不同的交叉验证方法进行模型的训练与预测,其结果较好且相近,说明模型的稳定性好,无过拟合现象。根据留一交叉验证法得到的预测模型可以直观地解释关键特征与cmc的相关关系。相较于相关技术中的方法,本申请实施例得到的预测模型明显提高了咪唑鎓盐类双子表面活性剂的预测结果。

本申请实施例提供了一种表面活性剂的构效关系研究方法,参见图5,该方法包括:

步骤501:当对待预测的目标表面活性剂的cmc进行预测时,获取目标表面活性剂的第一数量个第二主成分变量。

目标表面活性剂为咪唑鎓盐类双子表面活性剂。

本步骤中,获取目标表面活性剂的第一数量个第二主成分变量的步骤可以参见上述步骤101-106,在此不再赘述。

步骤502:将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。

本步骤中,将第一数量个第二主成分变量直接输入预测模型中,即可得到目标表面活性剂的cmc。

本申请实施例提供的表面活性剂的构效关系研究方法,获取多个样本表面活性剂的临界胶束浓度cmc,以及获取多个样本表面活性剂的多个第一特征变量;将多个第一特征变量进行共线性聚类,得到多个第二特征变量;对多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从中提取第一数量个第一主成分变量;根据多个样本表面活性剂的cmc、第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;当对待预测的目标表面活性剂的cmc进行预测时,获取目标表面活性剂的第一数量个第二主成分变量,目标表面活性剂为咪唑鎓盐类双子表面活性剂;将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。该方法通过将多个第一特征变量进行共线性聚类,避免了特征变量之间的共线性导致特征变量冗余的问题,且对第二特征变量进行非线性主成分分析压缩,避免了特征变量数量过多导致的过拟合的问题,从而提高了预测模型预测的准确性。

本申请实施例提供了一种表面活性剂的构效关系研究装置,参见图6,该装置包括:

第一获取模块601,用于获取多个样本表面活性剂的临界胶束浓度cmc,以及获取多个样本表面活性剂的多个第一特征变量,每个样本表面活性剂均具有多个第一特征变量,样本表面活性剂为咪唑鎓盐类双子表面活性剂;

聚类模块602,用于对于每个样本表面活性剂,将每个样本表面活性剂的多个第一特征变量进行共线性聚类,得到多个第二特征变量;

提取模块603,用于对多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从多个第一主成分变量中提取第一数量个第一主成分变量;

训练模块604,用于根据每个样本表面活性剂的cmc、每个样本表面活性剂对应的第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;

第二获取模块605,用于当对待预测的目标表面活性剂的cmc进行预测时,获取目标表面活性剂的第一数量个第二主成分变量,目标表面活性剂为咪唑鎓盐类双子表面活性剂;

第一输入模块606,用于将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。

在一种可能的实现方式中,聚类模块602,还用于确定每两个第一特征变量之间的线性相关系数;将线性相关系数不小于预设阈值的第一特征变量聚为一类,得到多个分类,每个分类中包括至少两个第一特征变量,且每个分类中任意两个第一特征变量之间的线性相关系数不小于预设阈值;对每个分类中的每个第一特征变量进行特征评分;从每个分类中选择特征评分最高的第一特征变量,将特征评分最高的第一特征变量作为第二特征变量,得到多个第二特征变量。

在另一种可能的实现方式中,聚类模块602,还用于获取每个第一特征变量的特征值以及多个样本表面活性剂和测试表面活性剂的总数量;根据每个第一特征变量的特征值和总数量,通过以下公式一,确定每两个第一特征变量之间的线性相关系数;

公式一:

其中,rij表示第i个第一特征变量和第j个第一特征变量之间的线性相关系数,i表示第i个第一特征变量,j表示第j个第一特征变量,k表示第k个样本表面活性剂,n表示总数量,表示多个样本表面活性剂的第i个第一特征变量的平均值,表示多个样本表面活性剂的第j个第一特征变量的平均值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,xjk表示第k个样本表面活性剂的第j个第一特征变量的特征值。

在另一种可能的实现方式中,训练模块604,还用于对于每个样本表面活性剂,通过以下公式二,将样本表面活性剂的cmc、样本表面活性剂对应的第一数量个第一主成分变量代入多元线性回归方程中,得到预测模型;

公式二:lg(cmc)=a0+a1x1+a2x2+...+amxm

其中,lg(cmc)表示样本表面活性剂的cmc,a0、a1、a2和am均表示常数,x1、x2、xm分别表示第一主成分变量,m表示第一数量。

在另一种可能的实现方式中,装置还包括:

确定模块,用于根据获取的每个样本表面活性剂的每个第一特征变量的特征值,确定多个样本表面活性剂中每个第一特征变量的最大值及最小值;

归一模块,用于根据每个样本表面活性剂的每个第一特征变量的特征值、多个样本表面活性剂中每个第一特征变量的最大值及最小值,通过以下公式三,对每个样本表面活性剂的每个第一特征变量进行归一化处理;

公式三:

其中,x'ik表示第k个样本表面活性剂的第i个第一特征变量归一化处理之后的特征值,xik表示第k个样本表面活性剂的第i个第一特征变量的特征值,表示样本表面活性剂中第i个第一特征变量的最大值,表示样本表面活性剂中第i个第一特征变量的最小值,i表示第i个第一特征变量,k表示第k个样本表面活性剂。

在另一种可能的实现方式中,装置还包括:

第三获取模块,用于获取测试表面活性剂的第一数量个第三主成分变量和测试表面活性剂经实验得到的实验cmc;

第二输入模块,用于将第一数量个第三主成分变量输入预测模型中,得到测试表面活性剂的预测cmc;

测试模块,用于根据实验cmc和预测cmc,对预测模型进行测试;

第一输入模块606,还用于当预测模型测试成功时,将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。

在另一种可能的实现方式中,测试模块,还用于根据实验cmc和预测cmc,确定实验cmc和预测cmc之间的平均绝对误差、平均绝对相对误差和皮尔逊相关系数;当平均绝对误差大于第一预设阈值,平均绝对相对误差大于第二预设阈值,且皮尔逊相关系数大于第三预设阈值时,确定预测模型测试成功。

本申请实施例提供的表面活性剂的构效关系研究装置,获取多个样本表面活性剂的临界胶束浓度cmc,以及获取多个样本表面活性剂的多个第一特征变量;将多个第一特征变量进行共线性聚类,得到多个第二特征变量;对多个第二特征变量进行非线性主成分分析压缩,得到多个第一主成分变量,从中提取第一数量个第一主成分变量;根据多个样本表面活性剂的cmc、第一数量个第一主成分变量和多元线性回归方程进行模型训练,得到预测模型;当对待预测的目标表面活性剂的cmc进行预测时,获取目标表面活性剂的第一数量个第二主成分变量,目标表面活性剂为咪唑鎓盐类双子表面活性剂;将第一数量个第二主成分变量输入预测模型中,得到目标表面活性剂的cmc。该装置通过将多个第一特征变量进行共线性聚类,避免了特征变量之间的共线性导致特征变量冗余的问题,且对第二特征变量进行非线性主成分分析压缩,避免了特征变量数量过多导致的过拟合的问题,从而提高了预测模型预测的准确性。

以上所述仅是为了便于本领域的技术人员理解本申请的技术方案,并不用以限制本申请。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

30页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种数据处理方法、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!