一种基于nir高维数据下多数据修正平滑的比较方法

文档序号：1904797 发布日期：2021-11-30 浏览：5次 >En<

阅读说明：本技术 一种基于nir高维数据下多数据修正平滑的比较方法 (Comparison method for multi-data correction smoothness based on NIR high-dimensional data ) 是由潘晓光潘哲焦璐璐令狐彬宋晓晨于 2021-07-13 设计创作，主要内容包括：本发明属于NIR高维数据修正平滑技术领域,具体涉及一种基于NIR高维数据下多数据修正平滑的比较方法,包括如下步骤：数据异常值检测并处理、数据修正、数据平滑、数据特征查看、数据模型拟合训练、数据模型误差计算并比较,所述数据异常值检测并处理使用LOF异常值检测方法去除异常值；所述数据修正使用标准化、标准化+去趋势、乘性散射修正法三种数据修正方法对NIR高维光谱数据进行修正并输出结果；所述数据平滑使用SG-filter平滑数据；所述数据特征查看观看数据修正前后的特征；所述数据模型拟合训练在不同数据上运行相同模型,然后选用偏最小二乘法拟合模型；所述数据模型误差计算并比较计算误差并比较不同数据处理方法下的结果。(The invention belongs to the technical field of NIR high-dimensional data correction smoothing, and particularly relates to a comparison method of multi-data correction smoothing based on NIR high-dimensional data, which comprises the following steps: detecting and processing abnormal data values, correcting data, smoothing data, checking data characteristics, fitting training a data model, calculating and comparing errors of the data model, and removing the abnormal values by using an LOF abnormal value detection method; the data correction uses three data correction methods of standardization, standardization + trend removal and multiplicative scattering correction to correct the NIR high-dimensional spectral data and output results; the data smoothing uses SG-filter smoothing data; the data characteristics check characteristics of the viewing data before and after correction; the data model fitting training runs the same model on different data, and then selects a partial least square method fitting model; and calculating errors of the data models, comparing the calculated errors and comparing results under different data processing methods.)

一种基于NIR高维数据下多数据修正平滑的比较方法

技术领域

本发明属于NIR高维数据修正平滑技术领域，具体涉及一种基于NIR高维数据下多数据修正平滑的比较方法。

背景技术

目前NIR光谱数据通常是高维且数据量大的数据，粒子尺寸的方差内部的高度相关性会导致不同的反射值，同时也存在高度不平滑的数据趋势。

存在问题或缺陷的原因：为了解决这个问题，有研究将每个波长的数据取对数后再标准化，有研究将光谱旋转以贴近均值和方差。但是现有的各种方法都没有系统的比较各个修正方法的效果并将各种方法进行结合，所以数据修正的效果其实还有待提升。

发明内容

针对上述方法未将各种修正方法效果进行比较、数据修正效果差等问题，本发明提供了一种能够减少数据有效信息流失，提高之后模型拟合的精确程度的方法。

为了解决上述技术问题，本发明采用的技术方案为：

一种基于NIR高维数据下多数据修正平滑的比较方法，包括下列步骤：

S100、数据异常值检测并处理：使用LOF异常值检测方法去除异常值；

S200、数据修正：使用标准化、标准化+去趋势、乘性散射修正法三种数据修正方法对NIR高维光谱数据进行修正并输出结果；

S300、数据平滑：使用SG-filter平滑数据；

S400、数据特征查看：观看数据修正前后的特征；

S500、数据模型拟合训练：在不同数据上运行相同模型，然后选用偏最小二乘法拟合模型；

S600、数据模型误差计算并比较：计算误差并比较不同数据处理方法下的结果。

所述数据异常值检测并处理中，使用可以在亚高维空间中检测异常值的非监督学习异常值检测方法检测局部异常值，然后使用该方法去除可能的异常值，进行数据修正。

所述数据修正中，Barnes标准化每个波长下的对数化数据，将每一个变量的数据标准化，然后对标准化后的数据使用线性趋势的去趋势方法进行有关趋势的拟合，去除数据持续上升或是下降的趋势，然后使用Martens将光谱数据旋转，让其能贴近均值。

所述数据平滑中，使用SG-filter简单的去除数据噪声平滑数据，假设x_j是平滑窗口的中心数值，平滑窗口长度等于2m+1，i∈[-m，m],C_i代表每一个x_j+i的求导权重，则x_j的计算公式为

所述数据模型拟合训练中，将数据划分为训练集和测试集，在训练集上拟合模型找到合适的模型，然后在测试集上拟合合适的模型。

所述数据模型误差计算并比较中，在经过不同处理的测试集上拟合相同的模型，最终计算出均方差预测误差

本发明与现有技术相比，具有的有益效果是：

本发明将乘性散射修正法、标准化、标准化+去趋势、原数据这四种修正方式与SG-filter结合，能够在选择不同求导阶数和窗口平滑长度的时候，选择出尽量去除无关噪声且损失较少的有用信息的数据修正方式，能比较不同中心化方式对于数据修正的效果，为之后建立模型或进一步的分析提供参考。

附图说明

图1本发明的系统流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种基于NIR高维数据下多数据修正平滑的比较方法，如图1所示，包括下列步骤：

S100、数据异常值检测并处理：使用LOF异常值检测方法去除异常值；

S200、数据修正：使用标准化、标准化+去趋势、乘性散射修正法三种数据修正方法对NIR高维光谱数据进行修正并输出结果；

S300、数据平滑：使用SG-filter平滑数据；

S400、数据特征查看：观看数据修正前后的特征；

S500、数据模型拟合训练：在不同数据上运行相同模型，然后选用偏最小二乘法拟合模型；

S600、数据模型误差计算并比较：计算误差并比较不同数据处理方法下的结果。

进一步，步骤数据异常值检测并处理中，对于高维数据，尤其是高维光谱数据而言，数据之间存在高度相关性，而且通常含有多个变量，不同光谱下的数据的噪声和波动极大，因而，不同类型的数据预处理方式会导致最终的模型设定完全不同。

进一步，步骤数据异常值检测并处理中，使用可以在亚高维空间中检测异常值的非监督学习异常值检测方法检测局部异常值，然后使用该方法去除可能的异常值，进行数据修正。

进一步，步骤数据修正中，通常，不同的反射值间存在较高的内部相关性，为了解决这个问题，Barnes标准化每个波长下的对数化数据，将每一个变量的数据标准化，标准化后数据有均值为0方差为1，参照公式为其中x_im是第m个变量(光谱)的第i个数据值，是第m个光谱的均值，σ_m是第m个光谱的标准差。然后对标准化后的数据进行有关趋势的拟合，通常有两种去趋势方法，常数趋势或是线性趋势，本文中去除线性趋势，可以去除数据持续上升或是下降的趋势。为更好地解决较高的内部相关性的问题，使用Martens将光谱数据旋转，让其能贴近均值，参照公式为其中x_im是第m个变量(光谱)的第i个数据值，是第m个光谱的均值，是在经过乘性散射修正法:处理后的数据。

进一步，步骤数据平滑中，经过前一个步骤处理后的数据还有很多噪声。简单的去除数据噪声的方式就是导数平滑，SG-filter就是一个较为成熟的平滑数据的方法，假设x_j是平滑窗口的中心数值，平滑窗口长度等于2m+1，i∈[-m，m],C_i代表每一个x_j+i的求导权重，则x_j的计算公式为此平滑方法是给平滑窗口内的点分配不同的权重，试图用最小二乘曲线拟合平滑窗口，每一个平滑窗口都能找到使误差最小的最小二乘曲线，将数据代入后可以得到中间点x_j的估计值。本发明中仅仅讨论求导次数1和2，窗口长度3,5,7,9的常用情况。

进一步，步骤数据特征查看中，经过标准化的数据应该围绕0波动，去趋势后的数据应该没有了持续向上或者向下的趋势，经过msc修正过的数据会围绕每个变量的均值波动，经过SG-filter平滑过的数据应该波动变缓。

进一步，步骤数据模型拟合训练中，NIR高维数据具有多变量的特征，在此基础上，选用偏最小二乘法拟合模型。将数据划分为训练集和测试集，在训练集上拟合模型找到合适的模型，然后在测试集上拟合合适的模型。

进一步，步骤数据模型误差计算并比较中，在经过不同处理的测试集上拟合相同的模型，最终计算出均方差预测误差

上面仅对本发明的较佳实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化，各种变化均应包含在本发明的保护范围之内。

6页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种燃油车交通碳排放计算方法

一种基于nir高维数据下多数据修正平滑的比较方法

相关技术

网友询问留言