一种基于多层特征融合的图像方向识别方法

文档序号:749677 发布日期:2021-04-23 浏览:3次 >En<

阅读说明:本技术 一种基于多层特征融合的图像方向识别方法 (Image direction identification method based on multi-layer feature fusion ) 是由 白茹意 于 2020-12-29 设计创作,主要内容包括:本发明涉及一种基于多层特征融合的图像方向识别方法,目的是解决目前识别图像方向的实际需求,以及现有识别方法需要对图像进行裁剪破坏原图像大小的技术问题,本发明的技术方案为:先旋转并得到不同角度的原图,然后建立LBP-SPP-AlexNet模型对图像进行训练和预测,再进行分类和识别,最后对结果进行验证。本发明识别方法可以在不改变图像原始大小的情况下,通过多层特征融合对图像的方向进行准确识别。(The invention relates to an image direction identification method based on multi-layer feature fusion, aiming at solving the actual requirement of identifying the image direction at present and the technical problems that the image needs to be cut to destroy the size of the original image in the existing identification method, and the technical scheme of the invention is as follows: the method comprises the steps of firstly rotating to obtain original images at different angles, then establishing an LBP-SPP-AlexNet model to train and predict images, then classifying and identifying, and finally verifying results. The identification method can accurately identify the direction of the image through multi-layer feature fusion under the condition of not changing the original size of the image.)

一种基于多层特征融合的图像方向识别方法

技术领域

本发明属于图像处理和计算机视觉处理技术领域,具体涉及一种基于多层特征融合的图像方向识别方法。

背景技术

几乎所有的成像应用和图片管理系统都要求图像在处理和可视化之前正确定位。例如,大多数图像识别和场景分类的应用程序,都非常依赖于给定图像是正面的。

关于照片方向的信息可以从相机的传感器获得,并记录在数据标签中。然而,这些信息往往在低端数码相机上丢失,或者可能已经被图片编辑软件删除。在这些情况下,确定图像的方向就需要用户的干预。人类可以利用他们的图像理解能力来识别照片的方向。然而,图像方向的人工校正是一项繁琐、耗时和易出错的工作。当大量的图片需要处理时,这一点尤为明显。对于这些情况,设计一个模拟人类高水平理解能力的图像方向自动识别算法是必要的,同时也这也是一项具有挑战性的任务。

近些年依据计算视觉特征与人类视觉感知之间的关系,研究人员通过计算机辅助的方法识别图像的方向,目前对图像方向的研究现状如下:

1)人类一般是通过对图像内容的理解来识别方向,因此大多数研究,采用低层特征(颜色,纹理和布局等)来识别图像的方向,并未考虑高层语义特征,这就导致它的准确性在很大程度上取决于选取的低层特征是否能准确表达图像的方向特性。

2)目前有一部分研究采用的深度学习方法,使用的图像大小是一致的,因此输入网络前都需要进行裁剪,这样会破坏图像的很多信息,对于有些图像的大小是作者提前设定好的,而且图像的长度和宽度对方向识别是重要的因素之一,因此希望在计算过程中不改变原始图像大小。

发明内容

本发明的目的是针对目前图像方向识别的实际需求,以及现有识别方法需要对图像进行裁剪破坏原图大小的技术问题,提供一种在不改变图像原始大小的情况下,基于多层特征融合的图像方向识别方法。

为解决上述技术问题,本发明采用的技术方案是:

一种基于多层特征融合的图像方向识别方法,包括以下步骤:

1)旋转并得到不同方向的图像:将所有图像依次旋转四个方向,分别得到四个不同方向的图像,将旋转后的所有图像用RGB彩色模式进行表示;

2)建立LBP-SPP-AlexNet模型:基于局部二值模式LBP(LocalBinaryPatterns)、空间金字塔池化SPP(SpatialPyramidPooling)和AlexNet建立LBP-SPP-AlexNet模型;

3)图像训练和预测:将步骤1)中得到的图像放入步骤2)建立的LBP-SPP-AlexNet模型中进行训练和预测;

4)图像分类和识别:将经步骤3)中处理得到的图像分为四类:四个不同的方向,然后自动识别图像的方向;

5)识别结果的验证:分别采用不同的性能评价指标对比实验模型,对预测结果进行验证。

进一步的,所述步骤1)中图像的四个旋转方向分别为逆时针旋转0°、90°、180°和270°;所述步骤4)中,所得的图像分为四类,分别为0°、90°、180°和270°。

进一步的,所述步骤2)中建立LBP-SPP-AlexNet模型的具体步骤包括:

2.1)在RGB模式下,将彩色图像分为R,G,B三个分量,分别计算三个分量的非旋转不变LBP特征,然后再合成为LBP-RGB图谱。计算过程中采用3个不同的尺度(LBP1,8、LBP2,16和LBP3,24)生成3个LBP-RGB图谱。

2.2)将2.1)中得到的3个不同尺度的图谱,输入到LBP-SPP-AlexNet模型中,该模型以AlexNet为网络基础框架,5个卷积层利用滤波器对输入样本进行卷积,激活函数采用ReLU,得到5组特征图;

2.3)对步骤2.2)中得到的5组特征图进行3种不同尺度的空间金字塔池化(SPP)操作,取每块的最大值作为池化特征,池化层对不同尺寸的特征图进行采样,得到5个SPP特征;

2.4)利用LBP-SPP-AlexNet模型将2.3)中得到的5个SPP特征进行融合,然后输入到3个全连接层中,用于连接所有神经元;

2.5)在步骤2.4)中的最后一个全连接层之后,采用softmax激活函数和实现四分类;

2.6)基于LBP、SPP和AlexNet建立LBP-SPP-AlexNet模型,损失函数采用交叉熵损失函数。

进一步的,所述步骤2.1)中计算图像的非旋转不变LBP特征的具体步骤如下:把图像中的某个像素点作为中心点,取半径为R,按照(Rcos(2π/P),Rsin(2π/P))方法进行插值,得到的圆形采样点集作为该中心点的领域点,P为采样点个数。然后将中心像素点的值与其邻域像素点的值进行比较,若邻域像素点的值大于中心点素,则将该领域位置置1,反之置0,之后按顺时针读取圆形采样点,最终组合成一个二进制数序列,将该序列转换成十进制,即为LBPR,P码,计算如下:

其中gc是当前像素的灰度级,gn是其领域的灰度级,s(x)是一个符号函数。

进一步的,所述步骤2.2)中的5个卷积层分别为:第1个卷积层由96个11×11个卷积核组成,步长为4,padding为0,3×3的最大池化;第2个卷积层由256个5×5个卷积核组,步长为1,padding为1,3×3的最大池化;第3个卷积层由384个3×3的卷积核组成,步长为1,padding为1;第4个卷积层由384个3×3个卷积核组成,步长为1,padding为1;第5个卷积层由256个3×3,步长为1的卷积核组成,padding为1,3×3的最大池化;

所述激活函数ReLU,又称线性整流函数,公式为:

式中:x为函数输入,f(x)为函数输出。

进一步的,所述步骤2.3)中的3种不同尺度的池化具体指1×1=1块,2×2=4块,4×4=16块,总共21块,取每块的最大值作为池化特征。

进一步的,所述步骤2.4)中的3个全连接层的维度分别为2048,2048和1000。

进一步的,所述步骤2.5)中的softmax激活函数公式为:

式中:xi是分类器前级输出单元的输出,i表示类别索引,K表示类别个数,t(xi)是样本当前指数与所有指数和的比值,表示为该样本属于某个类的概率。

进一步的,在步骤2.6)中,采用交叉熵(crossentropy)作为损失函数,多分类交叉熵损失函数公式为:

式中,N表示样本个数,K表示类别个数,yi表示第i个样本的标签;pi,k表示第i个样本预测为第k类的概率。

进一步的,在步骤5)中,所述不同的性能评价指标是指准确率(accuracy,AC)、灵敏性(sensitivity,SE)和特异性(specificity,SP)。

与现有技术相比,本发明的有益效果是:

1、本发明采用深度学习框架可以实现图像方向的自动识别;

2、本发明在RGB模式下,采用3中不同的尺度的非旋转不变LBP特征,生成3个LBP-RGB特征图谱,能更好的表达图像的方向属性;

3、本发明采用空间金字塔池化层(SPP)作为深度学习网络框架的池化层,使得网络不同尺寸的输入,得到相同长度的池化特征,保证了图像的尺度不变,而且降低了过拟合;

4、本发明对5个卷积层得到的特征图采用SPP特征,并将5个SPP特征进行融合,此特征能很好的描述图像的低层和高层特征,提高分类准确率。

为充分证明本发明方法的有效性和适用性,首先测试不同图像(原始图像与LBP-RGB图谱),与不同尺度的LBP-RGB图谱作为输入的实验结果,为此设计了如下四种情况的输入:原始图像,单尺度(LBP1,8),双尺度(LBP1,8和LBP2,16),三尺度(LBP1,8、LBP2,16和LBP3,24)。实验结果如表1所示,当输入为三尺度的LBP-RGB图谱时,准确率为94.36%,灵敏性为95.12%和特异性为92.89%,都优于其它三个模型,由此说明LBP特征能很好的反映图像的旋转特性,表达图像的方向,并且选取三个不同的尺度,能更加有效地提高准确率。

表1输入不同尺度的LBP-RGB图谱所得实验结果对比

网络输入 AC(%) SE(%) SP(%)
原始图像 82.96 80.82 84.87
单尺度 88.72 89.57 86.35
双尺度 91.23 92.45 90.14
三尺度 94.36 95.12 92.89

为了充分说明多特征融合对方向识别模型性能的影响,本发明分别使用不同形式的金字塔池化层进行特征融合,其中,模型1只包含SPP1;模型2包含SPP1和SPP2;模型3包含SPP1、SPP2和SPP3;模型4包含SPP1、SPP2、SPP3和SPP4;模型5即本发明提出的模型,包含所有5个SPP。实验结果如表2所示,本发明(模型5)经过测试后的三个评价指标(AC,SP,SE)都优于其它4个模型,该结果表明融合不同层的特征,可以显著提高方向识别的准确率。

表2不同模型下的特征融合实验结果

综上可知,本发明提出的模型在图像方向的识别率中有很明显的提升。

本发明提出的模型能有效识别图像的方向,即能够在机器学习的框架下建立图像视觉内容与方向之间的关系。

附图说明

图1为本发明的识别方法流程图;

图2为本发明中图像的四个旋转方向示意图;

图3为建立LBP-SPP-AlexNet模型的过程流程图;

图4为LBP-SPP-AlexNet模型的结构示意图;

图5为多尺度LBP结构示意图

图6为SPP结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

如图1-6所示,一种基于多层特征融合的图像方向识别方法,包括以下步骤:

1)旋转并得到不同方向的图像:将所有图像依次逆时针旋转四个方向(0°、90°、180°和270°),分别得到四个不同方向的图像,将旋转后的所有图像用RGB彩色模式进行表示;

2)建立LBP-SPP-AlexNet模型:基于局部二值模式LBP(Local Binary Patterns)、空间金字塔池化层SPP(Spatial Pyramid Pooling)和AlexNet建立LBP-SPP-AlexNet模型;

建立LBP-SPP-AlexNet模型的具体步骤包括:

2.1)在RGB模式下,计算图像的3个LBP-RGB图谱。将彩色图像分为R,G,B三个分量,分别计算这三个分量的非旋转不变LBP特征,然后再合成为LBP-RGB图谱。计算过程中采用3个不同的尺度(LBP1,8、LBP2,16和LBP3,24)生成3个LBP-RGB图谱。

2.2)将2.1)中得到的3个不同尺度的图谱,输入到LBP-SPP-AlexNet模型中,该模型以AlexNet为网络基础框架,5个卷积层利用滤波器对输入样本进行卷积,激活函数采用ReLU,得到5组特征图。所述5个卷积层分别为:第1个卷积层由96个11×11个卷积核组成,步长为4,padding为0,3×3的最大池化;第2个卷积层由256个5×5个卷积核组,步长为1,padding为1,3×3的最大池化;第3个卷积层由384个3×3的卷积核组成,步长为1,padding为1;第4个卷积层由384个3×3个卷积核组成,步长为1,padding为1;第5个卷积层由256个3×3,步长为1的卷积核组成,padding为1,3×3的最大池化;

所述激活函数ReLU,又称线性整流函数,公式为:

式中:x为函数输入,f(x)为函数输出。

2.3)对步骤2.2)中得到的特征图进行3种不同尺度的空间金字塔池化(SPP)(1×1=1块,2×2=4块,4×4=16块,总共21块),取每块的最大值作为池化特征。5组特征图通过SPP层后得到5个SPP特征。

2.4)将步骤2.3)中得到的5个SPP特征进行组合,融合成一个池化特征。

2.5)LBP-SPP-AlexNet在2.4)的池化特征融合之后连接3个全连接层,所述3个全连接层的维度分别为2048,2048和1000,用于连接所有神经元;

2.6)在步骤2.5)中的最后一个全连接层之后,采用softmax激活函数实现四分类;所述softmax激活函数公式为:

式中:xi是分类器前级输出单元的输出。i表示类别索引,K表示类别的个数。t(xi)是样本当前指数与所有指数和的比值,表示为该样本属于某个类的概率。

2.7)基于LBP、SPP和AlexNet建立LBP-SPP-AlexNet模型,并将采用交叉损失熵作为损失函数;

所述非旋转不变LBP是把图像中的某个像素点作为中心点,取半径为R,按照(Rcos(2π/P),Rsin(2π/P))方法进行插值,得到的圆形采样点集作为该中心点的领域点,P为采样点个数。然后将中心像素点的值与其邻域像素点的值进行比较,若邻域像素点的值大于中心点素,则将该领域位置置1,反之置0,之后按顺时针读取圆形采样点,最终组合成一个二进制数序列,将该序列转换成十进制,即为LBPR,P码,计算如下:

其中gc是当前像素的灰度级,gn是其领域的灰度级,s(x)是一个符号函数。

所述采用交叉熵(crossentropy)作为损失函数,多分类交叉熵损失函数公式为:

式中,N表示样本个数,K表示标签类别个数,yi表示第i个样本的标签;pi,k表示第i个样本预测为第k类的概率;

3)图像训练和预测:将步骤1)中得到的图像放入步骤2)建立的LBP-SPP-AlexNet模型中进行训练和预测;

4)图像分类和识别:将步骤3)中得到的图像分为四个不同的方向(0°、90°、180°和270°),即四类,然后自动识别图像的方向;

5)识别结果的验证:分别采用准确率(accuracy,AC)、灵敏性(sensitivity,SE)和特异性(specificity,SP)三个不同的性能评价指标对比实验模型,对预测结果进行验证。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于生成对抗网络的高光谱图像特征提取方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!