一种近红外光谱特征提取方法及装置
阅读说明:本技术 一种近红外光谱特征提取方法及装置 (Near infrared spectrum feature extraction method and device ) 是由 潘天红 郭威 李鱼强 陈山 皱小波 于 2019-10-12 设计创作,主要内容包括:本发明公开了一种近红外光谱特征提取方法及装置,所述方法包括:获取N个待测样品;使用光谱仪获取N个待测样品的近红外光谱数据;对近红外光谱数据进行预处理获取二维近红外光谱平滑数据;对二维近红外光谱平滑数据经排列与转换获取四维谱图数据;对四维谱图数据进行特征提取;对特征提取后的四维谱图数据进行特征排列获取二维特征数据;本发明的优点在于:能够保证数据的完整性,能够在全光谱区间进行特征提取,保证信息不会丢失。(The invention discloses a near infrared spectrum feature extraction method and a device, wherein the method comprises the following steps: obtaining N samples to be detected; acquiring near infrared spectrum data of N samples to be detected by using a spectrometer; preprocessing the near infrared spectrum data to obtain two-dimensional near infrared spectrum smooth data; arranging and converting the two-dimensional near infrared spectrum smooth data to obtain four-dimensional spectrogram data; extracting the features of the four-dimensional spectrogram data; performing feature arrangement on the four-dimensional spectrogram data after feature extraction to obtain two-dimensional feature data; the invention has the advantages that: the integrity of data can be guaranteed, the features can be extracted in a full spectrum interval, and information cannot be lost.)
技术领域
本发明涉及模式识别及无损检测领域,更具体涉及一种近红外光谱特征提取方法及装置。
背景技术
近红外光谱分析技术是一种利用化学物质在近红外光谱区间的光学特性,实现对检测对象定性、定量快速检测的分析方法,具有样品用量少,样品无损伤,分析速度快,检测成本低,无废物污染等常规检测分析方法无法比拟的优点。经过多年的技术发展与完善,该技术已在农业、石油、医药、化工、食品等国家重要生产领域得到广泛应用。随着我国市场经济的不断发展及生活质量标准的提高,国际市场及广大消费者对于产品质量要求也不断提升,以化学检验为主的传统分析方法因其耗时、污染等缺点已无法满足市场需求和人民需要,而代替传统检测分析方法的近红外光谱分析方法则能够实现对样品的快速、无损检测。但是,确保样品完整性前提下所获取的数据一般都是高维数据,而现有分析方法具有如下缺点:
(1)对于分析对象存在高度依赖性。现有特征提取算法根据分析对象和所获取数据的特点具有不同的作用效果,具体体现为所有分析方法不具有通用性,只能对具有一种或几种数据结构的分析对象起作用,当检测对象变化频率较高时,无法确保现有分析方法的有效性;
(2)特征数据完整性较低。特征数据的完整性决定所建模型的有效性、稳定性和理解性,现有分析方法只能实现对近光谱数据区间选择或数据压缩,无法实现对全光谱区间的特征提取,因此无法保证最终建模数据的完整性,导致现有分析模型难优化。
(3)特征提取结果存在局限性。现有特征提取算法均是基于在线性空间内寻找数据相关性,对于近光谱数据的非线性特征不进行能有效分析。当近光谱数据的样品数小于数据维度时,现有非线性核函数拓维方法反而会使超平面数据维度低于原始数据维度,从而导致信息丢失。
中国专利公开号CN108446631A,公开了基于卷积神经网络的深度学习的智能频谱图分析方法,获取所需分析的频谱图像集;频谱图像预处理;训练卷积神经网络(CNN)模块;所需频谱图像输入到训练好的CNN中进行特征提取和性能分析;输出结果。该发明解决了处理频谱数据中数据维度过高或者不确定的而导致的模型结构不具备通用性的问题。但是其输入的是频谱图象,不能对二维数据样本进行分析,从而导致二维数据样本易丢失,无法实现对全光谱区间的特征提取,无法保证最终数据的完整性。
发明内容
本发明所要解决的技术问题在于如何提供一种数据完整性高,对全光谱区间进行特征提取的近红外光谱特征提取方法及装置。
本发明通过以下技术手段实现解决上述技术问题的:一种近红外光谱特征提取方法,所述方法包括:
获取N个待测样品;
使用光谱仪获取N个待测样品的近红外光谱数据;
对近红外光谱数据进行预处理获取二维近红外光谱平滑数据;
对二维近红外光谱平滑数据经排列与转换获取四维谱图数据;
对四维谱图数据进行特征提取;
对特征提取后的四维谱图数据进行特征排列获取二维特征数据。
通过将近红外光谱数据转换为四维谱图数据,将四维谱图数据作为输入变量进行特征提取,保证数据完整性,实现全光谱区间的非线性特征提取,解决现有分析方法特征信息丢失问题,增加样本的有效信息,提高系统的准确性。
优选的,所述对近红外光谱数据进行预处理获取二维近红外光谱平滑数据,包括:构建当前待测样品的长度为2λ+1的局部模型
根据局部模型,获取局部模型对应的吸收率模型
其中,Xt为t时刻当前待测样品的中心点的波长,Yt为Xt对应的吸收率;
将局部区间[t-λ,t+λ]缩放映射至区间[-1,1],获取局部区间的权值函数
其中,x*为
缩放映射至区间[-1,1]后的值,通过公式
对Xt对应的吸收率进行平滑处理,获得Xt对应的吸收率的平滑数据
重复以上步骤,对每个样品中M个波长对应的吸收率全部进行平滑处理,获得N×M的二维近红外光谱平滑数据
优选的,所述对二维近红外光谱平滑数据经排列与转换获取四维谱图数据,包括:将N×M的二维近红外光谱平滑数据
以M为轴,步长a截断,排列成b行,使得二维近红外光谱平滑数据转化为a×b×N的三维光谱数据通过映射关系f将三维光谱数据转换为四维谱图数据
其中,
为转换后的四维谱图数据,r为光谱数据步长区间,r'为RGB步长区间,Dic为RGB字典,其中,
R为像素分辨率,Ψ1=[0 r' 2r'…127]T,Ψ2=[128 128+r' 128+2r'…255]T。优选的,所述对四维谱图数据进行特征提取,包括:以四维谱图数据作为卷积神经网络的输入层,经过L个卷积层与池化层,按照“卷积——池化——卷积——池化……”的顺序进行运算,获得谱图特征,完成四维谱图数据的特征提取,其中,每个卷积层Ci包含个维度为
的自编码卷积核,卷积层的输入数据经卷积运算后作为池化层的特征数据,池化层Pi包含一个维度为的池化窗口。优选的,所述对特征提取后的四维谱图数据进行特征排列获取二维特征数据,包括:通过反变换的方式将谱图特征进行特征排列,获得二维特征数据。
一种近红外光谱特征提取装置,所述装置包括:
筛选模块,用于获取N个待测样品;
光谱数据获取模块,用于使用光谱仪获取N个待测样品的近红外光谱数据;
平滑处理模块,用于对近红外光谱数据进行预处理获取二维近红外光谱平滑数据;
四维谱图数据获取模块,用于对二维近红外光谱平滑数据经排列与转换获取四维谱图数据;
特征提取模块,用于对四维谱图数据进行特征提取;
特征排列模块,用于对特征提取后的四维谱图数据进行特征排列获取二维特征数据。
优选的,所述平滑处理模块,还用于:构建当前待测样品的长度为2λ+1的局部模型
根据局部模型,获取局部模型对应的吸收率模型
其中,Xt为t时刻当前待测样品的中心点的波长,Yt为Xt对应的吸收率;
将局部区间[t-λ,t+λ]缩放映射至区间[-1,1],获取局部区间的权值函数
其中,x*为
缩放映射至区间[-1,1]后的值,通过公式
对Xt对应的吸收率进行平滑处理,获得Xt对应的吸收率的平滑数据
重复以上步骤,对每个样品中M个波长对应的吸收率全部进行平滑处理,获得N×M的二维近红外光谱平滑数据
优选的,所述四维谱图数据获取模块,还用于:将N×M的二维近红外光谱平滑数据
以M为轴,步长a截断,排列成b行,使得二维近红外光谱平滑数据转化为a×b×N的三维光谱数据通过映射关系f将三维光谱数据转换为四维谱图数据
其中,
为转换后的四维谱图数据,r为光谱数据步长区间,r'为RGB步长区间,Dic为RGB字典,其中,
R为像素分辨率,Ψ1=[0 r' 2r'…127]T,Ψ2=[128 128+r' 128+2r'…255]T。优选的,所述特征提取模块,还用于:以四维谱图数据作为卷积神经网络的输入层,经过L个卷积层与池化层,按照“卷积——池化——卷积——池化……”的顺序进行运算,获得谱图特征,完成四维谱图数据的特征提取,其中,每个卷积层Ci包含
个维度为的自编码卷积核,卷积层的输入数据经卷积运算后作为池化层的特征数据,池化层Pi包含一个维度为的池化窗口。优选的,所述特征排列模块,还用于:通过反变换的方式将谱图特征进行特征排列,获得二维特征数据。
本发明的优点在于:
(1)通过将近红外光谱数据转换为四维谱图数据,将四维谱图数据作为输入变量进行特征提取,保证数据完整性,同时,采用卷积神经网络作为分析模型,实现全光谱区间的非线性特征提取,解决现有分析方法特征信息丢失问题,增加样本的有效信息,提高系统的准确性;
(2)采用四维谱图数据作为输入变量,结合卷积神经网络对于大数据的处理能力,极大地提高了有效的输入变量,虽然增大了输入变量,但是卷积神经网络的参数共享和稀疏交互有效地降低了计算量和存储要求,有效地提高了系统的快速性;
(3)结合图像分析和卷积神经网络,能够实现对不同分析对象光谱数据的特征提取,能够有效避免仅依据数据结构来实现光谱数据特征提取的弊端;
(4)采用卷积神经网络特征提取,当面对不同物质的近红外光谱数据时,仅需对特征提取后的全连接层中权重进行调节即可达到更新效果,便于模型后续的维护与更新。
附图说明
图1为本发明实施例1所公开的一种近红外光谱特征提取方法的总体架构图;
图2为本发明实施例1所公开的一种近红外光谱特征提取方法的设计流程图;
图3为本发明实施例1所公开的一种近红外光谱特征提取方法的卷积神经网络的处理过程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
一种近红外光谱特征提取方法,所述方法包括:
首先,通过采用常规选择或者专家系统从总样品获取N个待测样品,其中,常规选择是指通过人工筛选的方式,挑选出完整的、品相较好的、未变质的样品,专家系统是指将专家经验融合至信息系统中,由计算机代替人工完成样本挑选的工作;
然后,N个待测样品和光谱仪置于近红外光谱检测台,使用光谱仪获取N个待测样品的近红外光谱数据;
得到近红外光谱数据后,对近红外光谱数据进行预处理获取二维近红外光谱平滑数据,包括:构建当前待测样品的长度为2λ+1的局部模型
根据局部模型,获取局部模型对应的吸收率模型
其中,Xt为t时刻当前待测样品的中心点的波长,Yt为Xt对应的吸收率;
将局部区间[t-λ,t+λ]缩放映射至区间[-1,1],获取局部区间的权值函数
其中,x*为
缩放映射至区间[-1,1]后的值,通过公式
对Xt对应的吸收率进行平滑处理,获得Xt对应的吸收率的平滑数据
重复以上步骤,对每个样品中M个波长对应的吸收率全部进行平滑处理,获得N×M的二维近红外光谱平滑数据
获得二维近红外光谱平滑数据
以后,对二维近红外光谱平滑数据经排列与转换获取四维谱图数据,具体过程为:将N×M的二维近红外光谱平滑数据以M为轴,步长a截断,排列成b行,使得二维近红外光谱平滑数据转化为a×b×N的三维光谱数据通过映射关系f将三维光谱数据转换为四维谱图数据
其中,
为转换后的四维谱图数据,r为光谱数据步长区间,r'为RGB步长区间,Dic为RGB字典,RGB是由红、绿、青三原色构成的颜色通道,其中,
R为像素分辨率,Ψ1=[0 r' 2r'…127]T,Ψ2=[128 128+r' 128+2r'…255]T。获得a×b×RGB×N的四维谱图数据以后,对四维谱图数据进行特征提取,具体过程为:以四维谱图数据作为卷积神经网络的输入层,经过L个卷积层与池化层,按照“卷积——池化——卷积——池化……”的顺序进行运算,获得维度为的谱图特征,
表示经过L次卷积后的特征扩充个数,c,d均为单个特征维度,完成四维谱图数据的特征提取,其中,每个卷积层Ci包含个维度为的自编码卷积核,卷积层的输入数据经卷积运算后作为池化层的特征数据,池化层Pi包含一个维度为的池化窗口。如图3所示,为卷积神经网络的处理过程示意图,主要包含输入层、卷积层、池化层、特征排列层,其中输入层是待测样品的谱图数据,输出是该待测样品的特征数据,复合的多个卷积层和池化层采用参数共享和稀疏交互进行逐层稀疏特征提取,层的数目决定了卷积神经网络的深度,在具体实施过程中结合不同的待测样品进行调整。在检测过程中,根据输出层变量的不同选择不同的输出层函数,本发明中第一层卷积层是10
个特征映射,每一个特征映射为28x28的神经阵列,第二层为一个含有10个14x14特征映射的采样层,第三层为含有20个特征映射的卷积层,每一个卷积层为10x10的神经矩阵,第四层为含有20个5x5特征映射的采样层,依次类推,所有池化层窗口维度均为2根据待测样品设定深度后,最后一层是特征排列层,整个网络在计算过程中步长均设为1。卷积神经网络的处理过程属于现有技术,在此不做过多赘述。最后,通过反变换的方式将维度为
的谱图特征进行特征排列,获得维度为的二维特征数据。通过以上技术方案,本发明实施例1提供的一种近红外光谱特征提取方法,通过将近红外光谱数据转换为四维谱图数据,将四维谱图数据作为输入变量进行特征提取,保证数据完整性,同时,采用卷积神经网络作为分析模型,实现全光谱区间的非线性特征提取,解决现有分析方法特征信息丢失问题,增加样本的有效信息,提高系统的准确性;采用四维谱图数据作为输入变量,结合卷积神经网络对于大数据的处理能力,极大地提高了有效的输入变量,虽然增大了输入变量,但是卷积神经网络的参数共享和稀疏交互有效地降低了计算量和存储要求,有效地提高了系统的快速性。
实施例2
与本发明实施例1相对应,本发明实施例2还提供一种近红外光谱特征提取装置,所述装置包括:
筛选模块,用于获取N个待测样品;
光谱数据获取模块,用于使用光谱仪获取N个待测样品的近红外光谱数据;
平滑处理模块,用于对近红外光谱数据进行预处理获取二维近红外光谱平滑数据;
四维谱图数据获取模块,用于对二维近红外光谱平滑数据经排列与转换获取四维谱图数据;
特征提取模块,用于对四维谱图数据进行特征提取;
特征排列模块,用于对特征提取后的四维谱图数据进行特征排列获取二维特征数据。
具体的,所述平滑处理模块,还用于:构建当前待测样品的长度为2λ+1的局部模型
根据局部模型,获取局部模型对应的吸收率模型
其中,Xt为t时刻当前待测样品的中心点的波长,Yt为Xt对应的吸收率;
将局部区间[t-λ,t+λ]缩放映射至区间[-1,1],获取局部区间的权值函数
其中,x*为
缩放映射至区间[-1,1]后的值,通过公式
对Xt对应的吸收率进行平滑处理,获得Xt对应的吸收率的平滑数据
重复以上步骤,对每个样品中M个波长对应的吸收率全部进行平滑处理,获得N×M的二维近红外光谱平滑数据
具体的,所述四维谱图数据获取模块,还用于:将N×M的二维近红外光谱平滑数据
以M为轴,步长a截断,排列成b行,使得二维近红外光谱平滑数据转化为a×b×N的三维光谱数据通过映射关系f将三维光谱数据转换为四维谱图数据
其中,
为转换后的四维谱图数据,r为光谱数据步长区间,r'为RGB步长区间,Dic为RGB字典,其中,
R为像素分辨率,Ψ1=[0 r' 2r'…127]T,Ψ2=[128 128+r' 128+2r'…255]T。具体的,所述特征提取模块,还用于:以四维谱图数据作为卷积神经网络的输入层,经过L个卷积层与池化层,按照“卷积——池化——卷积——池化……”的顺序进行运算,获得谱图特征,完成四维谱图数据的特征提取,其中,每个卷积层Ci包含
个维度为的自编码卷积核,卷积层的输入数据经卷积运算后作为池化层的特征数据,池化层Pi包含一个维度为的池化窗口。具体的,所述特征排列模块,还用于:通过反变换的方式将谱图特征进行特征排列,获得二维特征数据。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。