基于通道注意力的哈希遥感图像检索方法、装置及介质

文档序号：137184 发布日期：2021-10-22 浏览：14次 >En<

阅读说明：本技术 基于通道注意力的哈希遥感图像检索方法、装置及介质 (Hash remote sensing image retrieval method, device and medium based on channel attention ) 是由黄磊张天择秦琦冰刘超魏志强于 2021-07-30 设计创作，主要内容包括：本发明公开了一种基于通道注意力的哈希遥感图像检索方法、装置及介质,方法,首先在模型训练阶段,包括特征提取的步骤、特征降维的步骤和损失优化的步骤；其次在模型测试阶段,通过设计sign函数来实现哈希层,生成离散化的哈希编码；本发明设计了双通道注意力融合模块,通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量；并采用三元组损失作为训练模型的主损失,配合改进的哈希等距量化损失和二值平衡损失来优化模型,提升模型的遥感图像检索能力。(The invention discloses a Hash remote sensing image retrieval method, a Hash remote sensing image retrieval device and a Hash remote sensing image retrieval medium based on channel attention, wherein the method comprises the steps of feature extraction, feature dimension reduction and loss optimization in a model training stage; secondly, in a model test stage, a sign function is designed to realize a hash layer, and a discretized hash code is generated; the invention designs a double-channel attention fusion module, and obtains attention-activated low-dimensional feature vectors through the double-channel attention fusion module and a three-layer full-connection structure; and the triple loss is used as the main loss of the training model, and the model is optimized by matching with improved Hash equidistant quantization loss and binary balance loss, so that the remote sensing image retrieval capability of the model is improved.)

技术领域

本发明属于遥感图像检索技术领域，特别涉及基于通道注意力的哈希遥感图像检索方法、装置及介质。

背景技术

随着遥感观测技术的发展，每天都可以从地球监观测卫星收集大量的遥感数据。如何从海量遥感图像中快速高效的找到用户感兴趣的目标图像是一个极具挑战性的任务。哈希学习是具有代表性的图像检索算法，哈希函数可以将图像的高维特征映射到低维的汉明空间，并产生能够保持数据原始语义相似性的二进制编码。因为采用异或操作计算汉明距离以实现图像检索，基于哈希的图像检索方法在计算效率和存储代价方面具有巨大的优势。

现有的深度哈希方法虽然已经在自然图像检索领域中取得了良好性能，但是在遥感图像检索领域依然存在以下几个方面的问题：

(1)与自然图像不同，遥感图像受限于不同的成像条件和像素分辨率，不同标签下的遥感图片具有相似的几何形状和外观，属于不同语义类别的遥感场景仅存在细微的外观变化，即遥感图像类间差异不显著的问题。

(2)现有的深度哈希量化方法并没有充分考虑原始图像和对应哈希编码之间的语义相似度差异问题。

(3)现有的深度哈希方法生成的哈希码存在冗余信息，没有充分利用所有的哈希位。受上述几个问题限制，现有的深度哈希方法在遥感图像检索领域性能还有待于提高。

现有的深度哈希图像检索只关注到模型的度量学习和采样策略，使用预训练模型避免数据量小导致的过拟合问题，但忽略了遥感图像类间差异不显著的问题。为了解决遥感图像类间差异小，类内差异大的问题，本发明在深度哈希网络中增加了一个双通道注意力融合模块，使模型自适应学到不同通道间的关联性与区分性，进而通过有选择性地强化较为关键的特征并弱化无用特征，最终使模型关注到更加具有判别性的特征信息从而提升模型的检索能力；其次，针对度量学习中存在的空间不一致性，根据平衡度量的原则，我们设计了哈希等距量化损失以最大化地减少模型测试和训练中产生的相似性差异，保证了原始空间和汉明空间相似度的一致性；此外为了进一步优化模型，设计一个二值平衡损失，减少二进制化带来误差的同时，使得相同长度的哈希编码包含更多的语义描述信息，实现更好的检索效果。

发明内容

针对现有技术存在的不足，本发明提供一种基于通道注意力的哈希遥感图像检索方法、装置及介质，为了解决遥感图像类间差异不显著问题，采用双通道注意力融合机制，给不同通道之间自适应增加注意力权重，使模型有选择性地关注关键特征，对区分性特征信息进行加权强化；针对传统哈希方法中常见的二进制量化误差问题，利用哈希等距量化损失来有效保持欧式空间和汉明空间之间相似度的一致性；最后，为了让最后得到的哈希码可以在位数K一定的情况下保存最丰富的语义信息，通过采用二值平衡损失来最大化利用每一位哈希编码，以实现对大规模遥感图像的精准检索。

为了解决上述技术问题，本发明采用的技术方案是：

首先，本发明提供一种基于通道注意力的哈希遥感图像检索方法，首先，在模型训练阶段，包括特征提取的步骤、特征降维的步骤和损失优化的步骤；其次，在模型测试阶段，通过设计sign函数来实现哈希层，生成离散化的哈希编码；

其中，特征降维时，设计了双通道注意力融合模块，通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量；

损失优化时，采用三元组损失作为训练模型的主损失，配合改进的哈希等距量化损失和二值平衡损失来优化模型。

进一步的，特征降维的具体步骤是：

(1)首先将提取的特征x分别传入两层独立的通道注意力模块中，每层使用两个非线性的全连接层来学习不同通道的权值，获得的通道注意力公式如下：

F_{ex_A}(x,W_A)＝σ(g(x,W_A))＝σ(W_A2δ(W_A1x))

F_{ex_B}(x,W_B)＝σ(g(x,W_B))＝σ(W_B2δ(W_B1x))

其中，δ代表Sigmoid函数，σ代表非线性激活函数，W_A1,W_B1 W_A2,W_B2 C代表通道数，r为维数缩减比例；

(2)其次分别将提取的权重进行相加融合后使用Sigmoid函数激活，使得两种独立的权重之间关注点互相补充，从而获得更加具有区分性的总注意力权重；

(3)最后将步骤(2)获得的权重与原输出特征x对应通道相乘，以激活原输出特征x的通道注意力，加强对任务有积极作用的通道特征，削弱对任务起消极作用的通道特征，公式如下：

其中⊙代表对位相乘，代表了激活了通道注意力的特征。

进一步的，在注意力层之后是三层采用随机初始化参数的全连接层作为哈希层，前两层用ReLU函数激活，最后一层用Sigmoid函数激活，经过哈希层之后的输出如下所示：

其中，代表哈希层的权重，为偏置系数；

由于其输出的向量h_i∈[0,1]^K是连续值，需要离散化成二进制哈希编码b_i∈{0,1}^K，基于逐元素的转换函数为：

b_i＝(sign(h_i-0.5)+1)/2

其中，sign(·)为符号函数，如果x>0，则sign(x)为1，反之sign(x)为-1。

进一步的，在计算三元组损失时，输入包括一个锚图像f，一个与锚图像拥有相同标签的遥感图像正样本以及一个与锚图像拥有不同标签的遥感图像负样本训练的目的是拉近锚图像与正样本的距离，推远锚图像与负样本的距离；

对三元组损失函数进行改进，使用欧式空间代替汉明空间从而实现反向传播，改进后的三元组损失公式如下。

其中，||·||₂表示L2范数，α表示边缘阈值，分别代表与锚图像正样本负样本对应的深度哈希网络输出，经过Sigmoid函数激活后，将输出限制在[0,1]之间。

进一步的，所述改进的哈希等距量化损失来统一两个不同空间的距离计算方式，根据平衡度量原则，图像对之间的相似度从欧式空间等距映射到汉明空间应保持一致，并采用L2范数来统一哈希编码之间的距离计算，因此，所述的哈希等距量化损失如下所示：

其中，μ为权重超参数，控制成对汉明等距映射项的重要性权重，i和j分别代表三元组里任意的两种图像，即锚图像与正样本、锚图像与负样本或正样本与负样本；上述公式中的前两项是基于逐点量化的约束，旨在减少由类二进制特征空间转换到汉明空间产生的量化误差，上述公式中的第三项是通过引入L2范数来统一两个不同空间的距离计算方法。

进一步的，在计算二值平衡损失时，首先计算如下损失：

其中K代表哈希的位数，h_i为经过哈希层之后的输出，||.||代表L2范数，1是全1的向量；

然后计算平衡损失，平衡每一位哈希码的组成，以便使二进制哈希码在编码数固定时可以尽可能多的语义描述信息，公式如下：

其中mean(h_i)代表每一位哈希码的均值大小；

所以，总的二值平衡损失如下所示：

其中λ₁和λ₂分别代表上述两部分的权重。

进一步的，通过联合学习三元组损失、哈希等距量化损失和二值平衡损失，定义整个深度哈希学习的损失函数，具体步骤如下：

i.计算总损失函数，计算公式如下：

min(L_triple+αL_isometric+βL_balance)

其中，参数α和β分别表示哈希等距量化损失和二值平衡损失的重要性参数；

ii.使用梯度下降算法对模型进行优化，迭代三元组损失、哈希等距量化损失和二值平衡损失的计算步骤，直到模型收敛。

本发明还提供一种基于通道注意力的哈希遥感图像检索装置，包括：

预训练Inception Net V3网络，用于提取特征；

双通道注意力融合模块，用于自适应学习不同通道间的关联性与区分性，先将Inception Net V3网络输出的特征分别传入两层独立的通道注意力模块中，再将提取的权重相加融合并Sigmoid函数激活，最后将权重与原特征对应通道相乘，以激活InceptionNet V3输出特征的通道注意力，有选择性地强化关键特征并弱化无用特征；

三元组损失模块，用于计算三元组损失，

哈希等距量化损失模块，用于计算原始空间向汉明空间映射造成的损失，保证了原始空间和汉明空间相似度的一致性，进而保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性；

二值平衡损失模块，用于减少二进制化带来误差的同时，使得相同长度的哈希编码包含更多的语义描述信息，实现更好的检索效果。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的基于通道注意力的哈希遥感图像检索方法的步骤。

与现有技术相比，本发明优点在于：

(1)本发明设计了双通道注意力融合模块，在深度哈希网络中使用双通道注意力融合模块，使模型自适应学到不同通道间的关联性与区分性，有选择性地加强关键的特征并弱化不重要的特征，充分学习遥感数据集中有区分性的关键信息，输出更具代表性的遥感图像表达特征，最终使模型关注到更加具有判别性的特征信息从而提升模型的检索能力，解决遥感图像存在的类间差异大、类内差异小等问题。

(2)本发明采用三元组损失并根据平衡度量的原则，改进了哈希等距量化损失，以最大化地保证了连续空间和离散空间相似度的一致性。

(3)本发明还设计了二值平衡损失，保证了二进制化误差降低的同时，有效的平衡二进制哈希码，使得相同长度的哈希编码包含更多的语义描述信息。

(4)本发明通过联合学习三元组损失、哈希等距量化损失和二值平衡损失，优化模型，能更好的保持遥感图像间的语义相似性，能够根据用户的需求从遥感图像数据库中高效，准确地检索特定内容。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的网络结构示意图；

图2为本发明的双通道注意力融合模块示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

实施例1

本实施例提出一种基于通道注意力的哈希遥感图像检索方法，通过引入双通道注意力机制，使模型有选择性地加强有利于检索任务的关键特征：设计了哈希等距量化损失，保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性；通过引入二值平衡损失，提高哈希编码的表示能力。

结合图1所示，首先，在模型训练阶段，包括特征提取的步骤、特征降维的步骤和损失优化的步骤。

其中，对于特征提取，采用预训练好的且不微调的Inception Net模型来提取特征。

对于特征降维，设计了图2所示的双通道注意力融合模块，通过双通道注意力融合模块和三层全连接结构获得注意力激活过的低维度特征向量。

对于损失优化，采用三元组损失作为训练模型的主损失，配合改进的哈希等距量化损失和二值平衡损失来优化模型。

其次，在模型测试阶段，通过设计sign函数来实现哈希层，生成离散化的哈希编码。

下面分别介绍各部分：

一、网络结构的设计

在本实施例中，将遥感图像数据集中的部分图像作为训练集，剩下的图像作为测试集，采用在ImageNet数据集上预训练好的Inception Net V3网络对图像进行特征提取。对预训练网络采用不微调的策略，防止模型过拟合，并将提取到的特征用于双通道注意力融合模块。

二、特征降维的设计

在本实施例中，设计了如图2所示的双通道注意力融合模块，让模型学到更全面的通道关联性，弥补单通道注意力对于关键部位独立检测的局限性。具体步骤是：

(1)首先将提取的特征x(即Inception Net V3网络的输出特征)分别传入两层独立的通道注意力模块中，每层使用两个非线性的全连接层来学习不同通道的权值，获得的通道注意力公式如下：

F_{ex_A}(x,W_A)＝σ(g(x,W_A))＝σ(W_A2δ(W_A1x))

F_{ex_B}(x,W_B)＝σ(g(x,W_B))＝σ(W_B2δ(W_B1x))

其中，δ代表Sigmoid函数，σ代表非线性激活函数(ReLU函数)，W_A1,W_B1 W_A2,W_B2 C代表通道数，r为维数缩减比例，目的是减少模型的复杂度。

(2)其次分别将提取的权重进行相加融合后使用Sigmoid函数激活，使得两种独立的权重之间关注点互相补充，从而获得更加具有区分性的总注意力权重。

(3)最后将步骤(2)获得的权重与原输出特征x对应通道相乘，以激活原InceptionNet输出特征x的通道注意力，重点加强对任务有积极作用的通道特征，削弱对任务起消极作用的通道特征，公式如下：

其中⊙代表对位相乘，代表了激活了通道注意力的特征。

此处需要说明的是，在注意力层之后是三层采用随机初始化参数的全连接层作为哈希层，输出维度分别是2048、512和哈希码长度K。前两层用ReLU函数激活，最后一层用Sigmoid函数激活，经过哈希层之后的输出如下所示：

其中，代表哈希层的权重，为偏置系数。

由于其输出的向量h_i∈[0,1]^K是连续值，需要离散化成二进制哈希编码b_i∈{0,1}^K，基于逐元素的转换函数为：

b_i＝(sign(h_i-0.5)+1)/2

其中，sign(·)为符号函数，如果x>0，则sign(x)为1，反之sign(x)为-1。

三、损失函数的设计

a)三元组损失

本发明的主损失是基于三元组的哈希损失，输入包括一个锚图像f，一个与锚图像拥有相同标签的遥感图像正样本(即锚图像与正样本属于同一类别)，以及一个与锚图像拥有不同标签的遥感图像负样本(即锚图像与正样本不属于同一类别)。训练的目的是拉近锚图像与正样本的距离，推远锚图像与负样本的距离；三元组损失函数如下：

其中，||·||_H表示汉明距离，α表示边缘阈值，M表示在一个mini batch下三元组的个数，分别代表与锚图像正样本负样本对应的二进制哈希码。

由于汉明距离是离散值不连续，具有不可导的性质，无法使用梯度下降算法。本发明对三元组损失函数进行改进，使用欧式空间代替汉明空间从而实现反向传播。改进后的三元组损失公式如下。

其中，||·||₂表示L2范数，α表示边缘阈值，分别代表与锚图像正样本负样本对应的深度哈希网络输出，经过Sigmoid函数激活后，将输出限制在[0,1]之间。

b)哈希等距量化损失

在距离量化过程中，现有的大部分哈希方法普遍采用二进制量化，通常通过sign函数将连续的特征向量h_i转换为二进制编码b_i，但增加离散化限制的同时，很容易产生量化误差以及量化后基于不同空间的相似度发生改变。为了减少量化误差，哈希学习中广泛使用正则化项、L1范数或者L2范数。与之前的哈希学习方法一样，采用L1范数来控制量化误差。

因为离散值的求导问题，本发明使用平滑替代损失|x|＝logcoshx来改写上式：

L_point-wise＝(logcosh|h_i-b_i|)²

其中|·|是取绝对值操作。

尽管基于单图像逐点机制的L1范数可以减少量化误差，但是并不利于产生高质量的哈希编码。具体来说，对于有效的遥感图像检索来说，在图像检索阶段，为了使模型有效收敛，通常使用汉明距离来度量图像之间的相似度，而在模型训练阶段中，汉明空间被用来衡量图像对之间的相似度以提高检索效率。因此，除了减少量化误差外，图像对之间学习到的语义相似度在量化后也应该被保持。

根据平衡度量原则，图像对之间的相似度应该从欧式空间等距映射到汉明空间，也就是生成的哈希编码之间的相似度和对应图像连续特征之间的相似度应该保持一致。由于汉明空间的距离和欧式空间的距离计算方法不一样，本发明采用L2范数来统一哈希编码之间的距离计算。通过改进的哈希等距量化损失来统一两个不同空间的距离计算方式。因此，所述的哈希等距量化损失如下所示：

其中，μ为权重超参数，控制成对汉明等距映射项的重要性权重，i和j分别代表三元组里任意的两种图像，即锚图像与正样本、锚图像与负样本或正样本与负样本。上述公式中的前两项是基于逐点量化的约束，旨在减少由类二进制特征空间转换到汉明空间产生的量化误差，上述公式中的第三项是通过引入L2范数来统一两个不同空间的距离计算方法。

c)二值平衡损失

如上文所述，哈希层中对最后一个全连接层的输出采用了Sigmoid激活函数，将结果限制到[0,1]之间。为了让结果更接近Sigmoid函数的极值，减少连续值被映射到离散值时带来的量化误差，采用如下损失：

其中K代表哈希的位数，h_i为经过哈希层之后的输出，||.||代表L2范数，1是全1的向量。

为了获得高质量的哈希编码，最大化哈希编码包含的信息，本发明计算平衡损失，平衡每一位哈希码的组成(每一个哈希位都有百分之五十的概率成为1或者0)，以便使二进制哈希码在编码数固定时可以尽可能多的语义描述信息，公式如下：

其中mean(h_i)代表每一位哈希码的均值大小。

L_push代表二值平衡损失的第一部分，目的是将连续值推向(无限逼近)离散的二值码；L_equal代表平衡损失，目的是让二值的值平衡。所以，总的二值平衡损失如下所示：

其中λ₁和λ₂分别代表上述两部分的权重。

四、有监督联合学习

通过步骤三计算结果，通过联合学习三元组损失、哈希等距量化损失和二值平衡损失，定义整个深度哈希学习的损失函数，具体步骤如下：

iii.计算总损失函数，计算公式如下：

min(L_triple+αL_isometric+βL_balance)

其中，参数α和β分别表示哈希等距量化损失和二值平衡损失的重要性参数。

iv.使用梯度下降算法对模型进行优化，迭代步骤三，直到模型收敛。

在使用本发明方法进行图像检索时，按照以下步骤进行：

步骤0：将AID数据集中的随机6000张图像做为训练集，剩下的4000张图像为测试集。

步骤1：根据上文设计的哈希函数，该函数用来把图像集X＝{x₁,x₂…x_N}里的每一张图像映射成一个K维的二进制码记为H:x→{0,1}^K，最终得到一个图像哈希码库：

H(x)＝{H(x₁),H(x₂),…,H(x_N)}。

步骤3：当输入查询图像x_c时，用设计好的哈希函数H得到查询图像的哈希码H(x_c)。然后再将其与图像哈希码库中的每一个哈希码进行汉明距离的计算，得到一个与查询图像有关的距离集合D：

D＝{d_h(H(x_c),H(x₁)),d_h(H(x_c),H(x₂)),…,d_h(H(x_c),H(x_N))}

其中，d_h(H(x₁),H(x₂))表示任意两张图像哈希码汉明距离的计算公式。

步骤4：将集合D中的汉明距离按照升序排列，根据任务需求取距离值最小的前M个编码(M<N)，并在图像集中找出与之对应的图像，返回给查询用户。

实施例2

基于通道注意力机制的深度等距哈希遥感图像检索装置，包括：

预训练Inception Net V3网络，用于提取特征；

三元组损失模块，用于计算三元组损失，

哈希等距量化损失模块，于计算原始空间向汉明空间映射造成的损失，用于最大化地减少模型测试和训练中产生的相似性差异，保证了原始空间和汉明空间相似度的一致性，进而保持原始图像对之间的相似度和对应哈希编码之间的相似度的一致性；

二值平衡损失模块，用于减少二进制化带来误差的同时，使得相同长度的哈希编码包含更多的语义描述信息，实现更好的检索效果。

各组成部分的功能及实现方式可参考实施例1部分的记载，此处不再赘述。

作为本发明的另一实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如前所述的基于通道注意力机制的深度等距哈希遥感图像检索方法的步骤，此处不再赘述。

本发明说明书的各个实施例之间相同或相似部分互相参见即可，每个实施例重点说明的是与其他实施例不同之处。并且，系统实施例的结构仅仅是示意性的，其中所述可分离部件说明的程序模块可以是或不是物理上分开的，实际应用时，可根据需要选择部分或全部模块实现本实施例方案的目的。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

14页详细技术资料下载

基于通道注意力的哈希遥感图像检索方法、装置及介质

相关技术

网友询问留言