弱监督场景下跨层特征交互的轻量级细粒度图像识别方法

文档序号:1142016 发布日期:2020-09-11 浏览:16次 >En<

阅读说明:本技术 弱监督场景下跨层特征交互的轻量级细粒度图像识别方法 (Lightweight fine-grained image identification method for cross-layer feature interaction in weak supervision scene ) 是由 李春国 刘杨 杨哲 胡健 杨绿溪 徐琴珍 于 2020-06-05 设计创作,主要内容包括:弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,该方法利用多层聚合分组卷积代替常规卷积构建出新型残差模块,将其直接嵌入深度残差网络框架实现基础网络轻量化。之后,通过计算高效的低秩近似多项式核池化对特征之间的交互作用进行建模,压缩特征描述向量维度,降低分类全连接层的存储占用与计算成本,同时这一池化方案促使线性分类器具备与高阶多项式核分类器相当的判别能力,显著提高识别精度。最终,采用跨层特征交互网络框架组合特征多样性,增强特征学习与表达能力,减少过拟合风险。本发明公开的弱监督场景下跨层特征交互的轻量级细粒度图像识别方法在识别准确率、计算复杂度和技术可行性三个方面的综合性能处于目前领先水平。(According to the method, multilayer aggregate packet convolution is used for replacing conventional convolution to construct a novel residual error module, and the novel residual error module is directly embedded into a deep residual error network framework to achieve light weight of a basic network. Then, modeling is carried out on interaction among the features through efficient calculation and low-rank approximate polynomial kernel pooling, the feature description vector dimension is compressed, storage occupation and calculation cost of a classification full-connection layer are reduced, meanwhile, the pooling scheme enables the linear classifier to have the discrimination capacity equivalent to that of a high-order polynomial kernel classifier, and identification precision is remarkably improved. Finally, combining feature diversity by adopting a cross-layer feature interaction network framework, enhancing feature learning and expression capability and reducing overfitting risk. The comprehensive performance of the light-weight fine-grained image recognition method of cross-layer feature interaction in the weak supervision scene in three aspects of recognition accuracy, calculation complexity and technical feasibility is at the leading level at present.)

弱监督场景下跨层特征交互的轻量级细粒度图像识别方法

技术领域

本发明属于计算机视觉领域,尤其是利用图像级标签弱监督信息,结合低秩近似多项式核池化与跨层特征交互网络框架进行细粒度图像识别的一种方法,特别是涉及弱监督场景下跨层特征交互的轻量级细粒度图像识别方法。

背景技术

随着互联网技术的迅速发展,人类社会迈入信息化时代,网络中以文本、图像、语音和视频等多种方式存储的数据资源总量呈指数型增长。其中图像数据因生动直观、不受地域和语言的限制,逐渐成为主流的信息载体,具有广阔的应用前景和现实的研究意义。与此同时,并行计算理论的提出与硬件设备的升级促使海量图像处理成为可能,由此掀起包括图像识别、目标检测及语义分割等计算机视觉领域的研究热潮。图像识别是计算机视觉领域中一项基础性研究课题,主要任务是针对采集图像进行预处理,在此基础上提取特征信息,并依据这一特征信息构建分类器从而判断图像中目标类别。传统图像识别中待识别对象类别通常是粗粒度的,例如行人、猫狗和车辆等。此类跨物种目标呈现明显的外观差异且无从属关系,因此识别难度较低。然而在许多真实应用中待识别的目标属于细粒度类别,即隶属于某一特定粗粒度类别下不同的子类,例如不同品种的花卉、各类型号的汽车等。与粗粒度图像识别任务相比,细粒度数据集内不同子类的目标外观相似度较高,而同一子类的目标由于姿势、视角和遮挡等因素导致视觉差异显著。

基于海量数据借助人工神经网络自主学习图像高级语义特征的深度学习图像识别技术能够从多角度多层次描述图像信息,具备较强的鲁棒性,引起学术界和工业界广泛的关注。目前许多学者构建出大量深度学习模型并将其应用于细粒度图像识别任务,取得初步研究成果。根据模型在训练阶段所依赖监督信息的强弱,基于深度学习的细粒度图像识别技术可进一步分为强监督细粒度图像识别和弱监督细粒度图像识别。强监督细粒度图像识别算法通过引入额外的监督信息,辅之以复杂的检测模型,实现高精度识别已不再是难事。然而人工标注的监督信息获取代价高昂,限制此类技术在大规模真实场景中的应用。与此同时,弱监督细粒度图像识别在模型训练阶段仅需图像级标签即可较为准确的判断目标类别,实用性与可扩展性较强,成为现阶段细粒度图像识别研究的主流趋势。弱监督Bilinear CNN使用两个相互独立的基础网络提取图像特征并通过矩阵外积捕捉特征通道间成对的相关关系,获得卷积特征的二阶统计信息,使得线性分类器具备与二阶多项式核分类器相同的判别能力(详见T.Lin,S.Maji.Bilinear Convolutional Neural Networksfor Fine-Grained Visual Recognition,2015.)。Improved B-CNN对双线性特征描述矩阵实施均方根归一化操作来压缩特征值的动态范围,并结合L2正则化等手段进一步提高模型的稳定(详见T.Lin.Improved Bilinear Pooling with CNNs,2017.)。Boost-CNN借助集成学习的思想将多个分类能力较弱的Bilinear CNN通过Boosting方式组合起来,求解最小二乘函数确定每一个基学习器的权重系数以构建一个强分类器(详见M.Mohammad.BoostedConvolutional Neural Networks,2016.)。CBP利用Random Maclaurin(RM)和TensorSketch(TS)两种近似算法拟合二阶多项式核函数,使得8192维TS特征具备与262K维双线性特征相同的表达能力(详见Y.Gao.Compact Bilinear Pooling,2016.)。考虑到卷积神经网络在前向传播过程中存在信息损耗的现象,Bilinear CNN及各类变体算法利用深度神经网络的顶层卷积激活进行双线性池化,但是来自单个卷积层的特征不足以描述图像全部关键区域的语义,直接将其视作参考特征可能导致对细粒度图像识别有重要意义的判别性信息丢失。此外,双线性池化利用矩阵外积运算捕捉特征通道间成对的相关关系,促使识别准确率显著提升,然而这一操作却导致特征描述向量的维度增至262K,全连接层的参数量和计算量也随之线性增长。尽管CBP利用低维随机投影RM和TS算法拟合二阶多项式核函数能够在一定程度上减少特征描述向量的维度,但因其计算过程涉及傅里叶变换导致运行耗时大幅增加。

综上所述,针对仅使用图像级标签信息的弱监督细粒度图像识别任务,现有方法难以在模型参数量与计算量较低的情况下实现高精度识别,因此需要一种在识别准确率和计算复杂度之间平衡的跨层特征交互的轻量级细粒度图像识别方法。

发明内容

为了解决以上问题,本发明提供弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,解决的技术问题在于仅使用图像级标签构建细粒度识别模型,在获得较高识别准确率的同时降低模型的存储空间与计算成本,使其适用于大规模真实场景,为达此目的,本发明提供弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,包括如下步骤:

(1)在预处理阶段,将任意尺寸的原始图像统一缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入轻量级基础特征提取网络ResNet-G;

(2)输入图像经过轻量级基础网络ResNet-G三个不同的卷积层输出的特征张量分别为

Figure BDA0002526270480000021

其中Hi、Wi和Ci(i=1,2,3)分别表示卷积特征的高度、宽度与通道数;

(3)将X、Y和Z并行通过三个卷积核大小为1×1,步长为Si,输入通道数为Ci,输出通道数为D的多项式卷积模块进行独立的线性映射,生成投影特征张量

X,Y,Z∈RH×W×D

式中,H和W分别表示投影特征的高度与宽度,D表示投影维度,卷积步长Si根据各卷积层输出特征张量的高度Hi与投影特征张量的高度H计算获得;

(4)借助低秩近似多项式核池化方式对各卷积层投影特征之间的交互信息进行建模,为使线性分类器具备与二阶多项式核分类器相当的判别能力,取多项式核函数阶数r=2,则

Figure BDA0002526270480000033

式中,表示张量点积运算,

Figure BDA0002526270480000034

表示跨层二阶多项式特征张量;

(5)利用全局平均池化操作聚合二阶多项式特征张量每一通道内全部空间位置的特征信息,获得多项式特征向量,从而进一步压缩特征向量的维度;

Figure BDA0002526270480000036

式中,

Figure BDA0002526270480000038

分别表示对应于特征张量的跨层二阶多项式特征向量,Ω={1,2,…,HW}表示特征图谱全部空间位置集合;

(6)通过特征级联汇聚所有跨层多项式特征向量,输出细粒度图像特征描述向量;

(7)使用逐元素符号均方根归一化对图像特征描述向量进行标准化处理;

Figure BDA00025262704800000312

(8)使用L2正则化对图像特征描述向量进行标准化处理;

(9)将标准化特征描述向量

Figure BDA00025262704800000314

输入分类全连接层;

Figure BDA00025262704800000315

式中,θ∈Rk表示分类全连接层的输出向量,P∈Rk×3D表示分类全连接层的权重参数矩阵,k表示目标类别数目;

(10)结合softmax函数计算输入图像属于每一类别的概率;

式中,ηi表示输入图像属于第i个类别的概率。

作为本发明进一步改进,步骤(1)中使用的轻量级基础特征提取网络ResNet-G是采用基于多层聚合分组卷积运算方式的新型残差模块替代原始Bottleneck残差模块嵌入深度残差网络ResNet-50框架形成的一种网络结构。新型残差模块将特征提取分为卷积运算与恒等映射两条支路,特征信息在两条支路中并行传播,最终通过逐元素对应相加的方式进行汇聚和输出。同时,新型残差模块对卷积运算支路内常规卷积的特征张量的空间关系和通道关系同步学习方式进行部分解耦,从而简化卷积运算。设定输入与输出数据维度均为256,中间层维度为64,分组数目为g,每组子卷积层的输出通道数为m,则新型残差模块的卷积运算支路具体步骤如下:

(1)利用卷积核大小为1×1,输入通道数为256,输出通道数为64的卷积层对特征进行降维;

(2)将降维特征张量在通道层面划分为g组,每组子特征对应的通道数均为同时对全部子特征组进行编号;

(3)第1组特征生成对应副本信息,一路直流用于后续特征级联操作,另一路叠加至第2组特征之中,并通过输入通道数为

Figure BDA0002526270480000042

输出通道数为

Figure BDA0002526270480000043

的3×3卷积进一步提取特征信息;

(4)输出特征再次生成对应副本信息,一路直流用于特征级联,另一路与第3组特征进行叠加,通过卷积核大小为3×3,输入通道数为

Figure BDA0002526270480000044

输出通道数为

Figure BDA0002526270480000045

的卷积层;

(5)依次类推,直至g组特征全部通过3×3卷积运算,而后将每组直流特征与第g组卷积特征进行级联,获得64维特征信息;

(6)使用输入通道数为64,输出通道数为256的1×1卷积将64维特征恢复至原始维度256。

作为本发明进一步改进,步骤(4)中低秩近似多项式核池化借助张量分解思想拟合支持向量机中同源多项式核函数,使得线性分类器具备与高阶多项式核分类器相当的判别能力。具体而言,低秩近似多项式核池化为获得r阶多项式核分类器的性能,首先组合r个卷积核大小为1×1,输入通道数为C,输出通道数为Dr的独立卷积层构成一个r阶多项式卷积模块;之后,将预处理后的细粒度图像输入轻量级基础网络ResNet-G获得的卷积特征张量X∈RH×W×C通过r阶多项式卷积模块进行线性映射,生成投影特征张量集合

Figure BDA0002526270480000046

其中

Figure BDA0002526270480000047

最后,采用张量点积运算联合r个投影特征张量获得特征的高阶统计信息

式中,表示张量点积运算,表示基础网络输出的卷积特征X的近似r阶统计信息。

本申请弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,本发明的有益效果为:利用多层聚合分组卷积代替常规卷积对特征信息的空间关系与通道关系同步学习方式进行部分解耦,构建出一种新型残差模块,并将其直接嵌入深度残差网络ResNet-50框架对基础网络进行轻量化处理,从而简化卷积运算,并降低基础网络参数量。同时,采用低秩近似多项式核池化减少图像特征描述向量维度,进而压缩分类全连接层的存储空间与计算成本。此外,低秩近似多项式核池化使得线性分类器具备与高阶多项式核分类器相当的判别能力,能够有效提升模型对复杂特征分布的拟合能力。最终,通过跨层特征交互网络框架融合基础网络各层级交互信息,组合特征多样性以增强特征表达与学习能力,提高整体模型的泛化性能,并降低过拟合风险,在识别准确率、计算复杂度和技术可行性三个方面的综合性能处于目前领先地位。

附图说明

图1为本发明整体框架示意图;

图2为本发明新型残差模块结构示意图;

图3为本发明多项式阶数与投影维度对识别准确率影响图;

图4为本发明低秩近似多项式核池化部分卷积层输出特征可视化结果。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述:

本发明提供弱监督场景下跨层特征交互的轻量级细粒度图像识别方法,解决的技术问题在于仅使用图像级标签构建细粒度识别模型,在获得较高识别准确率的同时降低模型的存储空间与计算成本,使其适用于大规模真实场景。

如图1所示,一种弱监督场景下基于跨层特征交互的轻量级细粒度图像识别方法,包括如下步骤:

步骤1:在预处理阶段,将任意尺寸的原始图像统一缩放至600×600像素,在此基础上以图像中心为原点裁剪出448×448像素区域,按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理,而后将归一化图像输入轻量级基础特征提取网络ResNet-G。

步骤2:输入图像经过轻量级基础网络ResNet-G三个不同的卷积层输出的特征张量分别为

Figure BDA0002526270480000054

其中Hi、Wi和Ci(i=1,2,3)分别表示卷积特征的高度、宽度与通道数。

步骤3:将X、Y和Z并行通过三个卷积核大小为1×1,步长为Si,输入通道数为Ci,输出通道数为D的多项式卷积模块进行独立的线性映射,生成投影特征张量

X,Y,Z∈RH×W×D

式中,H和W分别表示投影特征的高度与宽度,D表示投影维度,卷积步长Si根据各卷积层输出特征张量的高度Hi与投影特征张量的高度H计算获得。

步骤4:借助低秩近似多项式核池化方式对各卷积层投影特征之间的交互信息进行建模,为使线性分类器具备与二阶多项式核分类器相当的判别能力,取多项式核函数阶数r=2,则

Figure BDA0002526270480000061

Figure BDA0002526270480000062

Figure BDA0002526270480000063

式中,表示张量点积运算,

Figure BDA0002526270480000064

表示跨层二阶多项式特征张量。

步骤5:利用全局平均池化操作聚合二阶多项式特征张量每一通道内全部空间位置的特征信息,获得多项式特征向量,从而进一步压缩特征向量的维度;

式中,

Figure BDA0002526270480000068

分别表示对应于特征张量

Figure BDA00025262704800000610

的跨层二阶多项式特征向量,Ω={1,2,…,HW}表示特征图谱全部空间位置集合。

步骤6:通过特征级联汇聚所有跨层多项式特征向量,输出细粒度图像特征描述向量

步骤7:使用逐元素符号均方根归一化对图像特征描述向量进行标准化处理

步骤8:使用L2正则化对图像特征描述向量进行标准化处理

Figure BDA00025262704800000613

步骤9:将标准化特征描述向量

Figure BDA00025262704800000614

输入分类全连接层;

Figure BDA00025262704800000615

式中,θ∈Rk表示分类全连接层的输出向量,P∈Rk×3D表示分类全连接层的权重参数矩阵,k表示目标类别数目。

步骤10:结合softmax函数计算输入图像属于每一类别的概率;

Figure BDA0002526270480000071

i=1,2,…,k

式中,ηi表示输入图像属于第i个类别的概率。

图1给出本发明整体框架示意图。首先,原始图像经过预处理后输入轻量级基础网络ResNet-G提取特征信息,低秩近似多项式核池化选取三个不同卷积层的输出激活进行线性映射,生成三个相同维度的投影特征张量。其次,将投影特征跨层交叉组合并使用张量点积运算衡量特征之间的交互作用,结合全局平均池化操作进一步压缩特征维度获得三个D维跨层多项式特征向量。之后,通过特征级联操作融合全部多项式特征向量信息产生细粒度图像特征描述向量,并借助逐元素符号均方根归一化和L2正则化等手段对特征描述向量进行标准化处理。最后,将标准化跨层多项式特征描述向量输入分类全连接层,使用softmax函数计算图像类别概率。

图2为本发明基于多层聚合分组卷积运算的新型残差模块结构示意图,图中设定输入和输出数据的维度均为256,分组数目g=4,每组子卷积层输出通道数m=16。新型残差模块将特征提取分为卷积运算与恒等映射两条支路,特征信息在两条支路中并行传播,最终通过逐元素对应相加方式进行汇聚与输出。在卷积运算支路中,特征首先通过卷积核尺寸为1×1,输入通道数为256,输出通道数为64的卷积层进行降维,并将降维特征在通道层面划分为4组,每组子特征对应的通道数均为16。其次,将第1组特征生成对应副本,一路直流用于后续特征级联操作,另一路叠加至第2组特征之中,并经输入通道数为16,输出通道数为16的3×3卷积进一步提取特征信息。之后,输出特征再次生成对应副本,一路直流用于特征级联,另一路与第3组特征叠加,通过卷积核大小为3×3,输入通道数为16,输出通道数为16的卷积层。依次类推,直至4组特征全部通过3×3卷积运算,而后将每组直流特征与第4组卷积特征进行级联,获得64维特征信息。最后,使用输入通道数为64,输出通道数为256的1×1卷积将特征恢复至原始维度。

图3显示本发明低秩近似多项式核池化方式的多项式阶数r与投影维度Dr对识别准确率的影响,对比实验基于CUB-200-2011细粒度图像数据集,采用分组数目g=4,每组子卷积层输出通道数m=18的基础网络ResNet-G作为图像特征提取器,利用卷积层res5_c输出激活对r阶同源多项式核函数近似建模。当r阶多项式卷积模块的投影维度Dr从512变化至32768时,模型的识别准确率有所提升。特别地,当r=2时,投影维度Dr=512对应模型的分类精度约为83.0%,而Dr=32768对应的分类精度约为86.3%,增加了3.3%。而当投影维度Dr从8192增加至32768时,r=2对应的识别模型准确率从86.0%上升至86.3%,仅提高0.3%,模型性能提升有限。而Dr=32768对应的多项式特征向量维度是Dr=8192的4倍,因此后续实验中使用输出通道数为8192的多项式卷积模块对原始卷积特征进行线性映射,从而获得识别准确率和计算复杂度之间的平衡。此外,Dr=2048时多项式核函数阶数r=2对应的识别模型准确率达到84.9%,与线性SVM分类器相比增加1.8%,可见低秩近似多项式核池化能够有效地对细粒度特征交互作用进行建模,促使图像特征描述向量蕴含更多判别性信息。而随着多项式阶数r从2增加至4,高阶多项式核分类器的识别效果反而有所下降。这是因为低阶特征间的交互作用更加有效且可靠。因此使用相对低阶的多项式核函数即可从输出特征张量中捕捉细粒度图像的交互信息。

图4将本发明低秩近似多项式核池化在CUB-200-2011、FGVC Aircraft和StanfordCars细粒度图像数据集上的部分卷积层输出特征进行可视化。特征响应图通过计算所有通道内特征信息的平均值获得,投影层proj5_a、proj5_b和proj5_c对应的特征信息分别由基础网络ResNet-G中卷积层res5_a、res5_b和res5_c激活输出通过多项式卷积模块生成。从图中可以看出,对于三种类型细粒度数据集,本发明提出的方法均能忽略背景干扰,自动定位至图像中语义性和判别性较强的局部关键区域(白色部分),例如CUB-200-2011数据集中鸟类的头部、翅膀和躯干,FGVC Aircraft数据集中飞机的驾驶舱、发动机和尾部稳定器,以及Stanford Cars数据集中汽车的保险杆、车灯与车轮等。针对单张测试图片分析,卷积层res5_a、res5_b和res5_c提供了目标粗略的空间位置信息,包含一定的噪声,而投影层proj5_a、pro5j_b和pro5j_c在此基础上进一步细化且有所偏重,对目标内各个关键区域进行定位和特征提取,之后低秩近似多项式核池化对不同关键部位的特征信息之间的交互作用进行建模,从而挖掘和捕捉各局部区域间潜在的联系,并集成多个跨层交互信息实现从局部到整体的图像感知,符合人类认知事物的过程。由于本发明能够自主定位和感知细粒度图像中目标各关键部位,这也能够解释为何在未显式检测目标位置的情况下,本发明依然能够有效且准确地捕捉不同类别目标之间细微的差异,获得较优的识别准确率。

表1列出不同超参数设置下ResNet-G的实验结果,并且与ResNet-50、ResNext网络进行对比。其中,参数g表示新型残差模块中3×3卷积层分组数目,m表示每组卷积层的输出通道数,识别模型将不同基础网络提取的特征张量进行全局平均池化之后直接与全连接层相连,然后利用softmax函数计算目标类别概率。根据表格中的数据,可以发现ResNet-G通过引入新型残差模块有效地压缩了模型的存储空间。值得注意的是,尽管分组卷积割裂了特征张量的空间位置和通道之间的联系,但是并不一定会引起网络特征提取能力降低。特别地,超参数g=4和m=24对应的ResNet-G模型识别准确率为84.0%,甚至比ResNet-50提高了1.8%。这主要得益于新型残差模块在分组卷积内部也使用了短路连接结构,一方面能够将多尺度多层级的特征信息进行融合,另一方面每组卷积可以通过汇集先前组所有通道信息来减轻分组卷积对特征空间位置关系和通道关系解耦导致的信息丢失。ResNet-G将分组数目设为4,输入通道数设为18时识别准确率达到83.1%,比ResNet-50高出0.9%,并且其模型存储空间仅占ResNet-50的68.8%,同时计算量下降了近30%。因此在后续的实验与分析中,我们将使用这一超参数设置来构建图像基础特征提取器。ResNext通过增加中间3×3卷积层的输入和输出通道数目来补偿分组卷积造成的信息损耗,因此整体网络的参数量与计算量增加。在相同超参数设置下,即g=4和m=24,ResNext总体分类精度为83.4%,比ResNet-G减少0.6%,而对应的模型存储空间和计算量分别为90.16M和16.9GFLOPs,与ResNet-G相比增加8.0%和15.0%。由此可见,在分组卷积内部通过短路连接融合多尺度信息能够在不增加卷积层参数量的情况下显著增强特征的表达能力,进而提升模型的识别准确率。同时,新型残差模块内第一组特征张量不经任何卷积运算直接与后续组特征进行特征级联的操作能够减少模型的参数量和计算量。此外,从网络结构和可扩展性角度分析,ResNet-G通过堆叠拓扑结构相同的新型残差模块即可完成整体网络的搭建,这一过程仅涉及两类超参数设定。而目前主流的Inception系列轻量级网络则包含大量人为设置的超参数,需依据数据分布来进行调整和修改,导致设计负担加重。综上所述,基于新型残差模块的ResNet-G基础网络在体系结构、特征学习以及计算复杂度方面取得不俗的表现。

表1 ResNet、ResNext和ResNet-G基础网络性能对比

表2对比本发明低秩近似多项式核池化与其余两种池化方式对应识别模型分类层的复杂度,其中H、W、C和k分别表示特征的高度、宽度、通道数以及待分类目标类别数目。括号中的数字是针对CUB-200-2011细粒度图像识别任务应用三种池化方式计算的典型值。Bilinear CNN(B-CNN)利用双线性池化捕捉特征通道间的相关关系导致特征描述向量维度增至C2,对于k=200分类任务而言,全连接层的参数量占据200MB存储空间。Boost-CNN通过集成9个B-CNN来提升模型的分类效果,若每一基学习器输出C2维特征向量,则Boost-CNN在训练过程中将产生9·C2维数据,相应的全连接层参数将占据超千兆存储空间。同源低秩近似多项式核池化在投影维度D=8192时,对应模型的识别准确率达到86.0%,比B-CNN高出2.0%,并且全连接层参数量仅为B-CNN的3%,同时计算量显著减少。CBP采取TensorSketch(TS)对双线性池化中矩阵外积运算进行低维近似,仿真结果表明8192维TS特征具有与262K维双线性特征相同的表征能力,分类层参数量压缩近96.5%。但值得注意的是,由于CBP池化过程涉及快速傅里叶变换FFT,导致其运算速度反而有所减慢。当输入448×448像素图像时,CBP运行耗时为5.03ms而双线性池化仅需0.77ms。由此可见,低秩近似多项式核池化在未降低特征表达能力的情况下,较好地实现了模型压缩与加速。

表2多种池化方式的计算复杂度对比

表3将本发明涉及的弱监督场景下跨层特征交互的轻量级细粒度图像识别方法与主流细粒度识别方法进行对比。观察表格中的数据,我们可以发现跨层特征交互的轻量级细粒度图像识别方法在识别准确率、模型复杂度以及技术可行性三个方面的综合性能目前处于领先水平。Two-Level是一种基于弱监督信息的细粒度图像识别模型,该模型利用图像级标签与目标关键部位空间位置信息分别训练object-level和part-level分类器,参数量达到138.4M,是本发明的2.05倍,在CUB-200-2011数据集上识别精度仅为75.7%,比本发明减少12.2%。PN-CNN作为一种强监督细粒度识别模型在Part-based RCNN的基础上添加姿态对齐操作,在CUB-200-2011数据集上获得85.4%的识别准确率。PN-CNN利用三组相互独立的AlexNet网络对目标整体、头部和躯干区域进行特征提取,并且通过级联方式将多组特征融合使得最终特征描述向量同时包含目标和局部关键区域信息。三组基础网络的参数各不相同,且每一网络均包含单独的全连接层,导致整体模型参数量增加,达到173.0M。同样思路下,强监督细粒度识别模型Mask-CNN也采取多组相互独立的基础子网络感知目标整体和局部的特征信息,与PN-CNN不同之处在于Mask-CNN获得卷积特征后首先对其进行全局平均池化和最大池化,从而降低特征维度,再通过特征级联融合全部子网络的特征信息预测目标类别。这一操作能够显著减少全连接层的参数量和计算量。与PN-CNN相比,采用VGG16基础网络的Mask-CNN识别准确率达到85.7%,提高0.3%,而模型参数量仅为60.5M,压缩近65.0%。而本发明识别准确率为87.9%,比基于ResNet-50的Mask-CNN增加0.6%,但是模型参数量仅占Mask-CNN的77.8%。此外,Mask-CNN在训练阶段除图像级类别标签外,还需要额外的关键部位的空间位置信息,因此与本发明相比,Mask-CNN在识别准确率、计算复杂度和技术可行性方面均处于劣势。RA-CNN是一种循环自注意力细粒度识别模型,该模型由三重网络构成,每重子网络包含分类模块和注意力推荐APN模块。RA-CNN通过APN不断放大局部区域,使模型在训练过程中逐渐聚集到目标关键部位,在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上分别获得85.3%、88.2%和92.5%的识别准确率,比本发明减少2.6%、3.7%和1.6%。RA-CNN包含三重网络且串行训练,导致其模型参数量高达429.0M,为本发明的6.36倍。MA-CNN是建立在单个基础网络之上的弱监督细粒度识别模型。MA-CNN利用通道分组模块自主产生注意力区域并提取对应特征信息,将每一注意力区域输入单独的全连接层。注意力区域为4时MA-CNN参数量达到144M,是本发明的2.14倍。同时,MA-CNN交替训练通道分组模块和分类模块,这种训练方式较为繁琐且容易陷入局部最优解,而本发明采用端到端的训练方式即可完成对模型参数的更新。

表3本发明与经典细粒度图像识别模型的性能对比

以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:视频图像中OSD图像检测方法、装置及终端设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!