小波域cnn学习的图像识别方法及装置

文档序号:1938474 发布日期:2021-12-07 浏览:5次 >En<

阅读说明:本技术 小波域cnn学习的图像识别方法及装置 (Wavelet domain CNN learning image identification method and device ) 是由 孙延奎 王路远 于 2021-08-05 设计创作,主要内容包括:本发明提供一种小波域CNN学习的图像识别方法及装置,其中所述方法包括通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果,图像分类器模型可以对高分辨率的目标图像的子带通道图像进行识别,提高了图像识别精度。(The invention provides an image identification method and device for wavelet domain CNN learning, wherein the method comprises the steps of converting an image channel of a target image from a time domain to a wavelet domain through wavelet transformation to obtain a first number of sub-band image channels; screening the first number of sub-band image channels to determine a second number of sub-band image channels; and inputting the second number of sub-band image channels into an image classifier model to obtain a classification result of the target image, wherein the image classifier model can identify the sub-band channel image of the target image with high resolution, and the image identification precision is improved.)

小波域CNN学习的图像识别方法及装置

技术领域

本发明涉及计算机技术领域,尤其涉及一种小波域CNN学习的图像识别方法及装置。

背景技术

卷积神经网络(Convolutional Neural Networks,CNN)在图像识别中已得到广泛应用,为了保证CNN模型的训练和推理效率,一般将图片的输入大小设置为224像素×224像素。虽然相机拍摄的高清图片已经远远超过了这个分辨率,但是图片不得不进行压缩,以适应CNN模型的输入限制,这造成了很多信息的丢失。如何在不改变预训练CNN模型整体结构且不增加模型参数的情况下,采用较大图片分辨率输入,提升输入信息的质量,从而提升分类精度是一个重要问题。

发明内容

本发明提供一种小波域CNN学习的图像识别方法及装置,用以解决现有技术中CNN模型输入图像的分辨率较低导致的识别结果不准确的缺陷,实现较高精度的图像识别。

本发明提供一种小波域CNN学习的图像识别方法,包括:

通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;

将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

根据本发明提供的小波域CNN学习的图像识别方法,在通过小波变换,将目标图像的图像通道由时域转换为小波域之前,还包括:

将所述目标图像的色彩空间变换到YCbCr。

根据本发明提供的小波域CNN学习的图像识别方法,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括:

从所述第一数量个子带图像通道中选择第二、数量个低频子带图像通道。

根据本发明提供的小波域CNN学习的图像识别方法,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括:

通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道;

根据能量计算公式,计算每个所述训练图像对应的每个子带图像通道的能量;

根据所述每个训练图像对应的每个子带图像通道的能量,确定所述每个子带图像通道在所述训练图像中的排序;

根据所述每个子带图像通道在所述训练图像中的排序,计算所述训练集中的能量总体排序;

根据所述能量总体排序,确定所述第二数量个子带图像通道的位次;

根据所述第二数量个子带图像通道的位次,对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;

其中所述训练集中包括至少一个训练图像。

根据本发明提供的小波域CNN学习的图像识别方法,所述能量计算公式如下:

其中,Sc为训练图像中的第c个子带图像通道的能量,Wc为训练图像中的第c个子带图像通道的小波包系数矩阵,Wc(x,y)为训练图像中的第c个子带图像通道的小波包系数矩阵中,位置坐标为(x,y)的数值。

根据本发明提供的小波域CNN学习的图像识别方法,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括:

将所述第一数量个子带图像通道经过最大池化得到第一张量,将所述第一数量个子带图像通道经过平均池化得到第二张量;

将所述第一张量和所述第二张量输入多层感知器MLP中,并将所述MLP的输出结果进行逐元素运算,得到第三张量;

根据所述第三张量、第一预训练参数和第二预训练参数,计算得到第四张量;其中,所述第一预训练参数代表通道被选择的权重系数,所述第二预训练参数代表通道不被选择的权重系数;

根据所述第四张量确定所述第一数量个子带图像通道中每个子带图像通道被选择的概率和不被选择的概率;

通过重参数化方法,根据所述每个子带图像通道被选择的概率和不被选择的概率,得到最终的决策向量;

将所述最终的决策向量与所述第一数量个子带图像通道堆叠形成的张量相乘,得到第二数量个子带图像通道。

根据本发明提供的小波域CNN学习的图像识别方法,还包括:

训练得到所述图像分类器模型;

所述训练得到所述图像分类器模型包括:

通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道;

对所述每个训练图像对应的第一数量个子带图像通道进行筛选,确定每个训练图像对应的第二数量个子带图像通道;

将CNN网络模型去掉第一层或者去掉第一层和第二层,得到训练前的图像分类器模型;

根据所述每个训练图像对应的第二数量个子带图像通道和所述每个训练图像对应的类型标签,对所述训练前的图像分类器模型进行训练,得到所述分类器模型;

其中,所述训练集中包括至少一个训练图像。

本发明提供一种小波域CNN学习的图像识别装置,包括:

小波变换模块,用于通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

通道选择模块,用于对所述第一数量个子带图像通道进行选择,确定第二数量个子带图像通道;

图像分类模型,用于将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

本发明提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序时实现所述小波域CNN学习的图像识别方法的步骤。

本发明提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于实现所述小波域CNN学习的图像识别方法的步骤。

本发明提供的小波域CNN学习的图像识别方法及装置,通过将色彩空间为YCbCr的目标图像的图像通道由时域转换为小波域,从第一数量个子带图像通道中筛选出第二数量个子带图像通道,将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果,使图像分类器模型可以对高分辨率的目标图像的子带通道图像进行识别,提高了图像识别精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的小波域CNN学习的图像识别方法的流程示意图;

图2为本发明提供的一维双树复小波变换的流程示意图;

图3为本发明提供的对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道的流程示意图;

图4为本发明提供的通道筛选的模型的结构示意图;

图5为本发明提供的训练得到所述图像分类器模型的流程示意图;

图6为本发明提供的图像分类器模型的结构示意图;

图7为本发明提供的小波域CNN学习的图像识别装置的结构示意图;

图8为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的小波域CNN学习的图像识别方法的流程示意图,如图1所示,包括以下步骤:

步骤100、通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道。

可选地,所述目标图像包含多个图像通道,例如,所述目标图像的色彩空间为RGB或者YCbCr。RGB中,R代表Red(红色),G代表Green(绿色),B代表Blue(蓝色),即RGB色彩空间的图像包含三个图像通道。目标图像的分辨率可以大于224像素×224像素,例如,目标图像的分辨率为448像素×448像素。

通过小波变换,将目标图像的图像通道由时域转化为小波域,得到第一数量个子带图像通道。

其中,小波变换可以为多级小波包变换WPT或者双树复小波变换DTCWT。

步骤101、对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道。

可选地,小波变换把目标图像分解成大量的子带图像通道,这些子带图像通道代表了不同的频率分量。一般来说,低频分量涵盖了目标图像的绝大多数的信息,对图像分类来说是最重要的;而高频分量包含了目标图像的细节信息,对进一步提升图像分类的精度有所帮助。然而输入过多的子带图像通道,不仅影响了网络的计算速度,还会因为引入过多的高频噪声而降低分类表现。因此对于小波变换网络来说,如何选择合适的通道就显得至关重要。

在具体实现中,我们可以采用不同的通道选择方法,例如根据子带图像通道的色彩空间分量进行选择,或者根据子带图像通道的能量大小进行选择。

步骤102、将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

可选地,所述图像分类器是CNN网络去掉第一层或者去掉第一层和第二层得到的,将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

本发明实施例,通过将目标图像的图像通道由时域转换为小波域,从第一数量个子带图像通道中筛选出第二数量个子带图像通道,将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果,相比于现有的CNN模型仅能对分辨率为224像素×224像素的图像进行识别,本发明实施例中的目标图像可以为448像素×448像素,图像分类器模型对高分辨率的目标图像的子带图像通道进行识别,提高了图像识别精度。

在一个实施例中,在通过小波变换,将目标图像的图像通道由时域转换为小波域之前,还包括:

将所述目标图像的色彩空间变换到YCbCr。

可选地,如果所述目标图像的色彩空间为RGB,则将目标图像的色彩空间变换到YCbCr。YCbCr中,Y是指亮度分量,Cb指蓝色色度分量,而Cr指红色色度分量。

本发明实施例,在所述目标图像的色彩空间为RGB的情况下,将所述目标图像的色彩空间变换到YCbCr,提高了图像识别精度。

在一个实施例中,所述小波变换为小波包变换WPT或者双树复小波变换DTCWT。

其中,小波包变换(Wavelet Packet Transform,WPT)过程中,对于给定的目标图像,对该目标图像做一次二维离散小波变换(2-DDiscrete Wavelet Transform,2D DWT),这时原图像被分解为4个子带图像通道:低频分量A1、水平方向细节H1、竖直方向细节V1和对角方向细节C1,4个子带图像通道大小都是目标图像的1/4。继续对每个子带图像通道A1、H1、V1和C1分别进行一次2D DWT,则得到目标图像的2次WPT的结果。例如,对于3×448×448的目标图像,做第2次WPT变换可以得到48×112×112的张量,即48个大小为112×112的子带图像通道。做第3次WPT变换,可以得到192×56×56的张量。

离散小波变换(Discrete Wavelet Transform,DWT)虽然比起DCT或离散傅里叶变换(Discrete Fourier Transform,DFT)具有自适应时频分辨率的优势,但也有其不足之处。第一,DWT的方向性较少,对于二维图像分解来说,只有水平、垂直、对角三个方向。第二,下采样导致DWT会产生频谱的混叠,因此不具有平移不变性。信号在时域上的微小平移,在小波域上会产生很大的变化,这不利于神经网络在小波域上学习特征。

双树复小波变换(Dual-Tree Complex Wavelet Transform,DTCWT)具有近似平移不变性和良好的方向选择性,显著改善了DWT存在的上述问题。DTCWT采用两组具有不同低通、高通滤波器的实小波变换来分解信号,并行实现实部和虚部运算,形成双树结构。图2为本发明实施例提供的一维双树复小波变换的流程示意图,如图2所示,其中h0和h1分别代表实部树所用的低通和高通滤波器组;g0和g1是虚部树所用的滤波器组。图像经过二维DTCWT可以得到±15、±45和±75度六个方向的高频子带图像,因而可以更好的描述图像的纹理和边缘等细节特征。

每次DTCWT都会产生2个低频子带图像通道,和6个方向的高频子带图像通道,由于这8个子带图像均是复值,因此对于以实数计算的神经网络来说,每个子带都需要两个独立的实值通道才能完整描述,即共16个通道,其中两个独立的实值通道分别为模和幅角。以色彩空间为YCbCr的目标图像为例进行说明,Y、Cb和Cr三个分量构成的目标图像做1次DTCWT后,将产生48个通道。每次DTCWT后,图像的长宽都会压缩到原来的一半。做第2次DTCWT会将3×448×448的目标图像变换得到48×112×112的张量;做第3次DTCWT则会变换得到48×56×56的张量。

本发明实施例,所述小波变换为小波包变换WPT或者双树复小波变换DTCWT,通过小波包变换WPT或者双树复小波变换DTCWT,对目标图像进行变换,得到第一数量个子带图像通道,提高了图像识别精度。在一个实施例中,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括:

从所述第一数量个子带图像通道中选择第二数量个低频子带图像通道。

由于低频分量涵盖了目标图像绝大多数的信息,因此,筛选出第二数量个低频子带图像通道。

例如,在所述目标图像色彩空间为YCbCr,或者变换到了YCbCr的情况下,选择第三数量个Y分量的低频子带图像通道;选择第四数量个Cb分量的低频子带图像通道;选择第五数量个Cr分量的低频子带图像通道;

其中所述第二数量等于所述第三数量、所述第四数量和所述第五数量之和。考虑人眼对Y分量更敏感,因此保留更多的Y分量的子带,即所述第三数量大于所述第四数量,所述第三数量大于所述第五数量。

以图像3×448×448的2次WPT后的子带图像通道选择为例,对于获得的48个112×112的通道,需筛选得到32个子带图像通道,即第二数量为32,选择16个Y分量的低频子带图像通道;选择8个Cb分量的低频子带图像通道;选择8个Cr分量的低频子带图像通道。

本发明实施例,筛选得到的Y分量的低频子带图像通道的数量大于Cb分量的低频子带图像通道的数量,且Y分量的低频子带图像通道的数量大于Cr分量的低频子带图像通道的数量,提高了图像识别精度。

图3为本发明实施例提供的对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道的流程示意图。如图3所示,在一个实施例中,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括以下子步骤:

步骤300、通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道。

其中,所述训练集中包括至少一个训练图像。

可选地,对训练图像的小波变换过程与对目标图像的小波变换过程一致,为避免重复,在此不再赘述。

步骤301、根据能量计算公式,计算每个所述训练图像对应的每个子带图像通道的能量。

可选地,所述能量计算公式如下:

其中,Sc为训练图像中的第c个子带图像通道的能量,Wc为训练图像中的第c个子带图像通道的小波包系数矩阵,Wc(x,y)为训练图像中的第c个子带图像通道的小波包系数矩阵中,位置坐标为(x,y)的数值。

根据该能量计算公式,计算得到每个所述训练图像对应的每个子带图像通道的能量。

步骤302、根据所述每个训练图像对应的每个子带图像通道的能量,确定所述每个子带图像通道在所述训练图像中的排序。

可选地,每个训练图像中子带图像通道的顺序固定,根据每个训练图像对应的每个子带图像通道的能量,可以确定子带图像通道的能量排序。

例如,在第一张训练图像中,48个子带图像通道的能量排序依次为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48。在第二张训练图像中,48个子带图像通道的能量排序依次为2、3、4、1、6、5、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48。其中能量排序数值越小,则该子带图像通道的能量越大。

步骤303、根据所述每个子带图像通道在所述训练图像中的排序,计算所述训练集中的能量总体排序。

可选地,将每个子带图像通道在各个训练集图像中的排序相加,按照相加后的值的大小,可以得到每个子带图像通道在所述训练集中的能量总体排序。

例如,通过以下方式进行总体排序:

其中,为第c个子带通道图像在第i个训练图像中的能量排序,Rc为第c个子带通道图像在所述训练集中的能量总体排序,argsort()为排序运算函数。步骤304、根据所述能量总体排序,确定所述第二数量个子带图像通道的位次。

可选地,根据子带图像通道在所述训练集中的能量总体排序,确定第二数量个能量总体排序最小的子带图像通道的位次。

步骤305、根据所述第二数量个子带图像通道的位次,对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道。

可选地,在根据目标图像确定的第一数量个子带图像通道中,根据所述第二数量个子带图像通道的位次,筛选出第二数量个子带图像通道。

本发明实施例,根据训练图像中子带图像通道的能量排序,确定第二数量个子带图像通道的位次,根据该位次对目标图像的第一数量个子带通道图像进行筛选,再将筛选结果输入图像分类器模型中进行识别,提高了图像识别精度。

在一个实施例中,所述对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道包括:

将所述第一数量个子带图像通道经过最大池化得到第一张量,将所述第一数量个子带图像通道经过平均池化得到第二张量;

将所述第一张量和所述第二张量输入多层感知器MLP中,并将所述MLP的输出结果进行逐元素运算,得到第三张量;

根据所述第三张量、第一预训练参数和第二预训练参数,计算得到第四张量;其中,所述第一预训练参数代表通道被选择的权重系数,所述第二预训练参数代表通道不被选择的权重系数;

根据所述第四张量确定所述第一数量个子带图像通道中每个子带图像通道被选择的概率和不被选择的概率;

通过重参数化方法,根据所述每个子带图像通道被选择的概率和不被选择的概率,得到最终的决策向量;

将所述最终的决策向量与所述第一数量个子带图像通道堆叠形成的张量相乘,得到第二数量个子带图像通道。

可选地,Xu et al.提出了一种可用来动态选择DCT的网络结构,该网络基于一个两层的“压缩-激发模块”(Squeeze-and-Excitation Block,SE-Block)。SE-Block通过分析通道之间的关系,利用神经网络的全局损失函数根据通道的重要程度自动调整通道的权重。

然而SE-Block仅使用了average pooling来计算通道注意力。本实施例同时利用了平均池化average pooling和最大池化max pooling的信息。

图4为本发明实施例提供的通道筛选的模型的结构图,如图4所示,输入神经网络的小波系数的维度为192×56×56,即输入张量Input Tensor的维度为192×56×56。可以理解的是,Input Tensor是第一数量个子带图像通道堆叠得到的。Input Tensor分别经过max pooling和average pooling后,被压缩为两个192x1x1维度的tensor,即第一张量和第二张量。

这两个tensor分别被输入到同一个MLP中,再进行element-wise相加即逐元素运算,得到Tensor1即第三张量,其维度仍为192×1×1。通过这种方式,max pooling和average pooling产生的信息得到了融合,对重要的通道进行了强化。

接着用两个可训练的参数a1和a2即第一预训练参数和第二预训练参数,分别与Tensor1相乘,得到维度为2×192×1×1的Tensor2,即第四张量。a1和a2分别代表某通道被选择或不被选择的权重系数,Tensor2中,每个通道对应的两个数值经过正则化到0-1的区间后,就分别代表了该通道被选择或不被选择的概率。通过Softmax的方式,保证该通道被选择或不被选择的概率的加和为1,记通道被选择的概率为p,不被选择的概率为1-p,则该概率符合伯努利分布。

由于在神经网络中引入了随机性,就需要通过采样算法对该分布进行采样。然而由于采样过程本身不可导,因此没有办法直接利用反向传播对神经网络的参数进行优化,而通过重参数化(re-parameterization)的方法,如Gumbel Softmax trick可以解决这一问题,根据所述每个子带图像通道被选择的概率和不被选择的概率,获得最终的决策向量。决策向量中,每个通道只对应0或1,分别代表实际是否选择该通道。

Input tensor与决策向量相乘后,得到最终的输出张量output tensor,可以理解的是output tensor是第一数量个子带图像通道堆叠得到的,其中除被选择的第二数量个子带图像通道外,其他没有被选择到的通道都被置零,被置零的通道不再参与输入模型之后的运算。需要说明的是,第二数量并不是一个固定的值,对于不同的图片,经过模型的动态筛选,得到的output tensor中包含的子带通道图像的数量可能不相同。

由于被选择的通道个数作为正则项被放进loss函数中联合优化,因此最终只有相对必要的通道才会被选取。损失函数如下:

其中,Lacc是原始用来优化准确率的损失函数,λ是一个权重系数,F(xi)表示对目标图像x的第i个小波域通道进行筛选的过程,其输出为0或1。

本发明实施例,对第一数量个子带图像通道堆叠得到的Input Tensor经过maxpooling和average pooling得到的结果进行融合,对重要的子带图像通道进行了强化,提高了图像识别精度。

在一个实施例中,所述小波域CNN学习的图像识别方法还包括,训练得到所述图像分类器模型。图5为本发明实施例提供的训练得到所述图像分类器模型的流程示意图。如图5所示,所述训练得到所述图像分类器模型包括以下子步骤:

步骤500、通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道。

其中,所述训练集中包括至少一个训练图像。

对训练图像的小波变换过程与对目标图像的小波变换过程一致,为避免重复,在此不再赘述。

步骤501、对所述每个训练图像对应的第一数量个子带图像通道进行筛选,确定每个训练图像对应的第二数量个子带图像通道。

可选地,对训练图像对应的第一数量个子带图像通道进行筛选的过程与对目标图像对应的第一数量个子带图像通道进行筛选的过程一致,为避免重复,在此不再赘述。

步骤502、将CNN网络模型去掉第一层或者去掉第一层和第二层,得到训练前的图像分类器模型。

以所述CNN网络模型为MobileNet v2为例进行说明,MobileNet v2中通过深度可分离卷积(Depthwise Separable Convolution)来降低卷积的计算量,从而加速网络的训练和推理效率。网络的第一层是传统的二维卷积结构Conv-BN-ReLU,其中内核大小kernelsize是3×3,跳格平移stride是2,边距padding是1。输入的3×224×224图像通过第一层结构后被转换为32×112×112的feature map。

因此我们简单地将MobileNet v2网络的第一层移除,用第二数量个子带图像通道作为MobileNet v2的第二层的输入,这样就可以在不改变MobileNet v2网络主要结构的情况下将小波通道作为输入。

可选地,所述CNN网络模型还可以为ResNet50。ResNet50通过恒等映射的方式构造残差块,解决了深度网络梯度消失导致难以训练的问题。可选地,图6为本发明实施例提供的图像分类器模型的结构示意图,如图6所示,ResNet50的模型结构包括二维卷积结构Conv-BN-ReLU和stride为2的maxpooling,其中Conv-BN-ReLU中卷积核为7×7,stride 2,padding 3,输入3个通道,输出64个通道。一幅3x448x448图像通过ResNet50网络第一层后,输出为64×56×56。通过对3×448×448的训练图像进行3次WPT/DTCWT,再在小波域选择出的c个56×56通道,可以将该c个56×56通道代替ResNet50的前两层的输出,输入到ResNet50的第三层中。

步骤503、根据所述每个训练图像对应的第二数量个子带图像通道和所述每个训练图像对应的类型标签,对所述训练前的图像分类器模型进行训练,得到所述分类器模型。

将所述每个训练图像对应的第二数量个子带图像通道输入图像分类器模型中,根据损失函数和所述每个训练图像对应的类型标签对训练前的图像分类器模型进行训练。得到所述分类器模型。

本发明实施例,将CNN网络模型去掉第一层或者去掉第一层和第二层,得到训练前的图像分类器模型,通过每个训练图像对应的第二数量个子带图像通道和所述每个训练图像对应的类型标签,对所述训练前的图像分类器模型进行训练,得到所述分类器模型,图像分类器模型可以对高分辨率的目标图像的子带通道图像进行识别,提高了图像识别精度。

下面对本发明提供的小波域CNN学习的图像识别装置进行描述,下文描述的小波域CNN学习的图像识别装置与上文描述的小波域CNN学习的图像识别方法可相互对应参照。

本发明另一实施例,提供一种小波域CNN学习的图像识别装置,如图7所示,包括:小波变换模块710、通道选择模块720和图像分类模型730,其中,

小波变换模块710,用于通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

通道选择模块720,用于对所述第一数量个子带图像通道进行选择,确定第二数量个子带图像通道;

图像分类模型730,用于将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

可选地,在通过小波变换,将目标图像的图像通道由时域转换为小波域之前,还包括:

在所述目标图像的色彩空间为RGB的情况下,将所述目标图像的色彩空间变换到YCbCr。可选地,所述通道选择模块720用于选择第三数量个Y分量的低频子带图像通道;

选择第四数量个Cb分量的低频子带图像通道;

选择第五数量个Cr分量的低频子带图像通道;

其中所述第二数量等于所述第三数量、所述第四数量和所述第五数量之和。

可选地,所述通道选择模块720用于通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道;

其中所述训练集中包括至少一个训练图像;

根据能量计算公式,计算每个所述训练图像对应的每个子带图像通道的能量;

根据所述每个训练图像对应的每个子带图像通道的能量,确定所述每个子带图像通道在所述训练图像中的排序;

根据所述每个子带图像通道在所述训练图像中的排序,计算所述训练集中的能量总体排序;

根据所述能量总体排序,确定所述第二数量个子带图像通道的位次;

根据所述第二数量个子带图像通道的位次,对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道。

可选地,所述能量计算公式如下:

其中,Sc为训练图像中的第c个子带图像通道的能量,Wc为训练图像中的第c个子带图像通道的小波包系数矩阵,Wc(x,y)为训练图像中的第c个子带图像通道的小波包系数矩阵中,位置坐标为(x,y)的数值。

可选地,所述通道选择模块720用于将所述第一数量个子带图像通道经过最大池化得到第一张量,将所述第一数量个子带图像通道经过平均池化得到第二张量;

将所述第一张量和所述第二张量输入多层感知器MLP中,并将所述MLP的输出结果进行逐元素运算,得到第三张量;

根据所述第三张量、第一预训练参数和第二预训练参数,计算得到第四张量;其中,所述第一预训练参数代表通道被选择的权重系数,所述第二预训练参数代表通道不被选择的权重系数;

根据所述第四张量确定所述第一数量个子带图像通道中每个子带图像通道被选择的概率和不被选择的概率;

通过重参数化方法,根据所述每个子带图像通道被选择的概率和不被选择的概率,得到最终的决策向量;

将所述最终的决策向量与所述第一数量个子带图像通道堆叠形成的张量相乘,得到第二数量个子带图像通道。

可选地,所述小波域CNN学习的图像识别装置还包括模型训练模块,所述模型训练模块用于通过小波变换,将训练集中的训练图像的图像分量由时域转换为小波域,得到每个训练图像对应的第一数量个子带图像通道;

对所述每个训练图像对应的第一数量个子带图像通道进行筛选,确定每个训练图像对应的第二数量个子带图像通道;

将CNN网络模型去掉第一层或者去掉第一层和第二层,得到训练前的图像分类器模型;

根据所述每个训练图像对应的第二数量个子带图像通道和所述每个训练图像对应的类型标签,对所述训练前的图像分类器模型进行训练,得到所述分类器模型;

其中,所述训练集中包括至少一个训练图像。

本发明提供的小波域CNN学习的图像识别装置能够实现图1至图6的方法实施例实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。

图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行人脸图像的情绪确定方法,该方法包括:

通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;

将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的小波域CNN学习的图像识别方法,该方法包括:

通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;

将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的小波域CNN学习的图像识别方法,该方法包括:

通过小波变换,将目标图像的图像通道由时域转换为小波域,得到第一数量个子带图像通道;

对所述第一数量个子带图像通道进行筛选,确定第二数量个子带图像通道;

将所述第二数量个子带图像通道输入图像分类器模型,得到所述目标图像的分类结果。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:特征处理方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!