图像检索方法、装置、设备及可读存储介质

文档序号：1042895 发布日期：2020-10-09 浏览：6次 >En<

阅读说明：本技术 图像检索方法、装置、设备及可读存储介质 (Image retrieval method, device, equipment and readable storage medium ) 是由潘滢炜姚霆梅涛于 2019-05-28 设计创作，主要内容包括：本发明公开一种图像检索方法、装置、设备及可读存储介质。该方法包括：基于所获取的用户进行图像检索的点击数据,进行语义嵌入；基于注意力机制,进行视觉嵌入；通过所述基于点击的语义嵌入和注意力集成的视觉嵌入,将查询集和对应的图像投影到低维嵌入空间中,进行目标训练；以及基于关键词,进行图像检索。(The invention discloses an image retrieval method, an image retrieval device, image retrieval equipment and a readable storage medium. The method comprises the following steps: performing semantic embedding based on the acquired click data for image retrieval of the user; performing visual embedding based on an attention mechanism; projecting the query set and the corresponding images into a low-dimensional embedding space through the click-based semantic embedding and attention integrated visual embedding, and performing target training; and performing image retrieval based on the keywords.)

图像检索方法、装置、设备及可读存储介质

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像检索方法、装置、设备及可读存储介质。

背景技术

生成、发布和传播的图像数据量呈***式增长，成为当今大数据不可或缺的一部分。这引发了对于大规模图像检索的研究工作的快速发展。一个基本的研究问题是基于关键词的图像检索方法，该方法试图检索与关键词最相关的图像，并根据备选图像与给定的检索文本的相关度对这些图像进行排序。由于文本查询和视觉图处于两个不同的模态，因此不能直接评估它们之间的相似性。这个问题通常被称为“语义鸿沟”。大多数商业搜索引擎利用相关模型，如向量空间模型、BM25和语言模型，通过与图像相关的文本进行相似性度量，以规避这个问题。然而，基于文本的模型的相似性测量可能并不总是准确的，尤其是当文本描述不能描绘出重要的视觉内容时，更不用说一些图像甚至与任何文本都没有关联。另一种对于“语义鸿沟”问题的解决方案是学习基于查询图像对的图像排序器，这些查询图像对通常由人类专家标记。然而，人工标记通常过于昂贵以至于无力负担，而且此种方法难以大规模应用。即使是专家有时也会难以判断用户的搜索意图或难以发现查询与图像之间的相关性，从而导致训练数据上带有了噪声标签。

在所述背景技术部分公开的上述信息仅用于加强对本发明的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本发明提供一种图像检索方法、装置、设备及可读存储介质，能够基于视觉注意力和深度结构保持进行图像检索。

本发明的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本发明的实践而习得。

根据本发明的一方面，提供一种图像检索方法，包括：基于所获取的用户进行图像检索的点击数据，进行语义嵌入；基于注意力机制，进行视觉嵌入；通过所述语义嵌入和所述视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练；以及基于关键词，进行图像检索。

根据本发明的一实施方式，基于所获取的用户进行图像检索的点击数据，进行语义嵌入包括：基于所述点击数据构建二分图，所述二分图包括多个所述图像及每个所述图像的至少一个查询；分别将每个所述图像的所述至少一个查询合并为一个所述查询集；以及针对每个所述查询集，进行如下操作：将所述查询集中按所述查询的点击次数加权的所述至少一个查询合并，并基于所述查询集的累积表示形式学习语义嵌入，以分别生成所述查询集的基于点击的查询集表示；及应用单层神经网络，为所述查询集的所述基于点击的查询集表示，生成所述查询集在所述嵌入空间的查询集表示。

根据本发明的一实施方式，基于注意力机制，进行视觉嵌入包括：针对每个所述图像，进行如下操作：基于深度卷积神经网络的卷积层的输出特征映射，确定所述图像的整体图像特征映射，所述整体图像特征映射包括多个区域的局部描述符；将M个注意力层合并所述深度卷积神经网络中，进行如下操作：分别将所述整体图像特征输入到所述M个注意力层，生成各所述注意力层的所述图像的注意力分布；及基于各所述注意力层的所述注意力分布，分别将所述多个区域的局部描述符进行加权合并，以生成所述图像的M个聚合图像表示；通过对所述图像的M个所述聚合图像表示进行平均，获得所述图像的输出图像表示；以及应用所述深度卷积神经网络的视觉嵌入层，将所述输出图像表示嵌入到所述嵌入空间，以获得所述图像在所述嵌入空间的图像表示。

根据本发明的一实施方式，通过所述语义嵌入和所述视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练包括：针对每个所述查询集，确定用于目标训练的损失函数，包括：根据所述查询集、被所述查询集中任一所述查询点击的第一图像及没有被所述查询集中任一所述查询点击的第二图像，基于极限排序损失，确定跨模态排序约束；根据所述查询集、与所述第一图像语义相似的第三图像及所述第二图像，基于极限排序损失，确定邻域跨模态排序约束；根据所述第一图像、所述第二图像及所述第三图像，基于结构保持正则化，确定邻域结构保持约束；以及根据所述跨模态排序约束、所述邻域跨模态排序约束及所述邻域结构保持约束，确定所述损失函数。

根据本发明的一实施方式，通过所述语义嵌入和所述视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练还包括：基于所述损失函数，对所述查询集与所述图像进行目标训练，以使总体损失最小化。

根据本发明的一实施方式，基于关键词，进行图像检索包括：根据所述关键词提供的文本查询，在所述嵌入空间中，根据所述文本查询与所述嵌入空间中各图像的內积的排序，进行所述图像检索。

根据本发明的一实施方式，所述嵌入空间为用于学习所述查询集与所述图像之间的相似性的低维嵌入空间，所述查询集与所述图像之间的相似度通过所述嵌入空间中映射的內积直接测量。

根据本发明的另一方面，提供一种图像检索装置，包括：语义嵌入模块，用于基于所获取的用户进行图像检索的点击数据，进行语义嵌入；视觉嵌入模块，用于基于注意力机制，进行视觉嵌入；目标训练模块，用于通过上述语义嵌入和视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练；以及图像检索模块，用于基于关键词，进行图像检索。

根据本发明的再一方面，提供一种计算机设备，包括：存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令，所述处理器执行所述可执行指令时实现如上述任意一种方法。

根据本发明的再一方面，提供计算机可读存储介质，其上存储有计算机可执行指令，所述可执行指令被处理器执行时实现如上述任意一种方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

通过参照附图详细描述其示例实施例，本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例示出的图像检索示例。

图2和图3是根据一示例性实施方式示出的基于点击数据的嵌入视觉注意力的深度结构保持(DSPEA)模型概览。

图4是根据一示例性实施方式示出的一种图像检索方法的流程图。

图5是根据一示例示出的点击数据集的例子。

图6示出了随训练迭代次数增加训练损失与验证损失的变化曲线。

图7是根据一示例示出的通过十种不同的方法进行图片搜索的结果。

图8是根据另一示例示出的通过十种不同的方法进行图片搜索的结果。

图9是根据一示例示出的采用多头注意力机制的四个图像示例。

图10为采用不同方法时不同嵌入维数的NDCG性能曲线示意图。

图11示例了[email protected]通过只跨不同维度的嵌入空间使用跨模态排序(CR)约束对不同组合的约束在性能上的改进。

图12是根据一示例性实施方式示出的一种图像检索装置的框图。

图13是根据一示例性实施方式示出的一种计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现、材料或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如A和/或B，可以表示单独存在A、单独存在B及同时存在A和B三种情况。符号“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

图像检索的一个根本问题是如何学习出一个排序函数，例如文本查询词与图像之间的相似性。在这个问题上，近来的工作可归纳成两大类别：基于文本的模型和基于图像排序的模型。前者依赖于图像附属的文本，因而该方法得到的相似性对于这些附属文本比较敏感，附属文本一旦噪声太大就会带来低质量的相似性度量。对于后者，假如人工标注的查询图像对不能精准地体现出用户查询的习惯，那么它将面临着鲁棒性问题。在本发明，我们将会展示如何通过利用用户点击数据来学习出跨模态特征空间，从而解决上述提及的两个局限性。具体来说，一个建立于用户点击数据的，名字为基于视觉注意力的深度结构保持模型(DSPEA)将会在本发明提出，它包含两个部分：第一部分是建立在深度卷积神经网络之上的图像特征层，它负责学习视觉特征。第二部分是建立于深度神经网络的文本语义特征层，它用于生成文本查询的语义特征。与此同时，视觉关注力机制将会整合到卷积神经网络上，用来反映出图像中与文本查询相关的区域。再者，考虑到查询特征空间具有非常高的维度，一个全新的基于用户点击数据的查询集特征将会在本发明提出来，用来缓解这个高维稀疏性的问题。整个框架能通过优化大边界目标函数来进行端到端地训练，而这个目标函数结合了跨模态排序约束以及模态内部的保结构近邻约束。在一个拥有一千一百七十万个查询，一百万张图片的大规模点击数据集上，相比于目前数个先进的检索模型，我们的模型在基于关键词的图像检索任务上表现得更为出色，在[email protected]指标上达到了52.21％，是至今为止的最高值。

本发明提出的图像检索方法解决了上述两个问题。首先，该方法通过学习一个允许直接将检索文本和可视图像进行比较的共有嵌入空间来研究跨模态(文本-图像)嵌入。因此，通过将视觉图像表示和检索文本特征映射到该嵌入空间，就可以直接比较检索文本和图像之间的相似度。此外，将该嵌入空间的维数大大降低，极大地减少了内存消耗。目前一些研究人员已经基于这类方法进行一些尝试，如典型相关分析(CCA)、偏最小二乘法(PLS)和基于点击通过的跨模态学习(CCL)。尽管在这些方法中学习目标不同，但它们的惯例是将整个图像压缩为静态表示的同时并不最大限度压缩与查询最相关的图像区域。当图像中有很多干扰时，这个处理方法尤其重要。图1是根据一示例示出的图像检索示例。以图1中的查询和图像为例，与查询“定制婚礼蛋糕装饰”最相关的区域指向图像中的蛋糕顶部的装饰。此外，查询文本空间的词汇量通常非常大，例如，高达数万乃至数百万，这使得单次查询的特征非常稀疏。

本发明主要研究一种新的深度嵌入模型，该模型通过集成视觉注意力机制，将模型引导到图像中最相关的区域，并将表示输入查询集而不是输入单个查询。其次，研究点击数据作为理解用户在图像搜索中的搜索意图的有效手段。因为大多数图像搜索引擎以缩略图的形式显示搜索结果，用户可以在单击特定图像之前浏览整个图像搜索结果，所以用户主要倾向于点击与其查询意图相关的图像。因此，点击数据可以作为可靠的、隐式的图像搜索反馈数据。

通过整合跨模态嵌入和点击数据的思路，本发明提出了一种新的基于点击数据的嵌入视觉注意力的深度结构保持(DSPEA)模型的图像检索方法。具体地说，一个查询和一幅图像之间的二分图是基于来自真实图像搜索引擎的图像点击数据构建的，如果输入查询的用户点击了图像，就会使查询和点击的图像之间建立链接。将边缘与图像相链接的所有查询合并为一个查询集，将查询集的表示输入到一个深度神经网络中进行学习语义(查询)嵌入。在本质上类似地，利用深度卷积神经网络(CNN)提取图像表示，然后嵌入层生成视觉(图像)嵌入。为了提取图像中与查询最相关的区域，将多个独立的注意力层集中到CNN中，采用多头注意力(Multi-head Attention)机制在所有区域提供一个全面的注意力分布。DSPEA的目标是通过保证相关图像与查询集的相似度高于不相关图像与查询集的相似度以及在单个模态中保留邻域结构的方式，学习查询和图像嵌入。在对嵌入进行优化后，在原始空间中的查询与图像之间的相似度可以直接由它们在嵌入空间中的映射的内积来计算。值得注意的是，整个深层框架可以通过端到端的方式进行训练。

本发明的主要贡献是提出了DSPEA框架，学习基于点击数据的结构保留嵌入，用于测量图像检索中的查询与图像的相似度。该解决方案还引出了一个巧妙的观点，即在查询与图像的相似度衡量中应该如何引入注意力机制，以及如何解决查询特征的稀疏性问题，这些问题在现有文献中还没有完全解决。

本发明主要研究跨模态嵌入学习的相似度衡量问题。我们将相关工作简要地分为两个维度：传统的跨模态方法和基于深度学习的跨模态方法。

1.传统的跨模态方法：

传统的方法旨在直接学习目标对之间的相似度，尤其是在共享的潜在子空间中的目标对。CCA和PLS是两种最常用的跨模态学习方法，它们利用线性变换矩阵，通过最大限度地分别提高由余弦和点积计算的映射之间的相关性。然后，通过将线性映射替换为非线性映射，将CCA扩展到其内核化版本，该版本称为内核CCA(KCCA)。例如，在相关技术中，有的方法构造了一个图像和视频之间的内核嵌入空间来解决域转移问题。还有的方法进一步提出一个三模态CCA，它在CCA中添加第三个模态，以明确地强调不同模态之间的潜在相关性。还有的方法提出一个多项式语义索引(PSI)学习两个低秩变换矩阵，在排序方案学习中用于测量查询与文本的相似性。还有的方法利用多视图PLS(M-PLS，即扩展PLS技术)与多特征类型，从点击二分图中学习查询与文本的相似性。在本质上类似地，还有的方法将图像检索视为基于点击的跨模态问题，将查询与图像在子空间中的距离最小化，同时保留了原始空间中的固有结构。还有的方法将CCA拓展为排序典型相关分析(RCCA)，该方法同时学习一个双线性查询-图像相似度函数，并调整子空间以保留点击数据中潜在的偏好关系。最近，还有的方法提出了一种监督跨模态学习方法，利用类标签学习用于跨模式匹配的一致性特征。后来，还有的方法利用双向搜索方案进行跨模式检索，该方案在最大化模态之间的一致性的同时，从不匹配的图像-文本对中识别语义匹配的图像-文本对。此外，还有的方法设计了一种多模态判别分析(MvDA)方法，基于类信息通过优化广义瑞利商来学习判别公共空间。

2.基于深度学习的跨模态嵌入方法：

受近期在大量研究工作(如识别和检测)中深度学习的进展启发，研究人员致力于设计深度架构，以弥合不同模态之间的语义鸿沟，进行相似性学习。深度视觉-语义嵌入模型(DeViSE)是深度结构中构建视觉-语义嵌入空间的早期工作之一。采用点积相似度和铰链排序损失(ranking loss)相结合的方法构造损失函数，对整个网络进行训练。后来有的方法将CCA扩展为端到端深度学习方案，即深度CCA(deep CCA,DCCA)，用来衡量图像-标题对之间的相似度。还有的方法从具有大量社交图像和标签的多样的图像集合中学习图像-单词嵌入空间。此外，深度视觉-语义嵌入的学习也被用来解决视觉-语言问题(例如，图像说明和视觉问题回答)。更值得注意的是，还有一些研究工作探索基于深度学习的跨模态模型与单击数据。例如，提出了一种基于单词的图像检索深度神经网络，该网络首先学习高级图像表示，然后将图像映射到词袋空间。最终图像和查询之间的相似度是通过查询的词袋表示和图像的投影词袋表示之间的余弦相似性来衡量的。另一个针对点击数据训练的深度模型是基于点击的深度视觉-语义嵌入(C-DVSE)模型，该模型由两个分别用于学习视觉嵌入和学习语义嵌入的深度神经网络组成。利用相关损耗层对整个框架进行优化，以度量学习到的两个嵌入之间的相似性。

本发明的工作属于基于深度学习的方法。与上述深度模型不同的是，该方法不仅优化了用于跨模态排序约束的相似性学习的公共嵌入空间，而且保留了模态内的邻域结构。此外，我们还将注意力机制和基于点击的查询集表示方法融入到整个体系结构中，将图像的与查询相关的大部分区域提取出来，还解决了查询特征的稀疏性问题。

本发明提出的基于点击的嵌入视觉注意力的深度结构保持(DSPEA)的基本思想是通过在深度架构中构建一个公共的嵌入空间，助于来自点击数据的查询和图像之间的相似性学习。因此，原本无法比较的文本查询和视觉图像可以在这个公共空间中直接进行比较。特别地，本发明的DSPEA由两个分支组成：用于学习语义嵌入的基于点击的查询集表示和用于学习视觉嵌入的基于视觉注意力的图像表示。在DSPEA中通过确保跨模态的排列顺序隐式地显示在点击数据中，并在单个模态中保留邻域结构，同时进行两个分支的训练。因此，DSPEA的目标函数包括两个部分，即，查询集与图像之间的跨模态排序约束和图像中的邻域结构保持约束。方法概述如图2和图3所示，其中图2和图3是根据一示例性实施方式示出的基于点击数据的嵌入视觉注意力的深度结构保持(DSPEA)模型概览。其中，图2(a)是一个基于图像检索日志的二分图，图2(b)是将二分图中边缘与图像相连的查询合并为一个查询集，计算查询集之间的语义相似度所构造的图像图。图3表示是加权卷积层中局部描述符基于注意力概率的线性融合得到的。在优化查询-图像嵌入的同时，最小化跨模态排序约束和模态内邻域结构约束。

图4是根据一示例性实施方式示出的一种图像检索方法的流程图。

在介绍方法10之前，先对下文中的符号进行说明。

假定有一个点击二分图其中

表示顶点集，包括查询集

和图像集V。ε是连接查询顶点和图像顶点的边缘集。每条边的权值代表在输入查询的查询之后点击图像的总次数。假定点击二分图中一共生成了n个三维数组

每个数组代表图像υ_i响应查询q_i被点击了c_i次。注意将每个查询q_i描述成查询频率(TF)表示q_i，即为一种以查询频率加权的词袋表示。

参考图4，方法10包括：

在步骤S102中，基于点击，进行语义嵌入。

获取用户点击数据，基于该点击数据，进行语义嵌入。

将所有链接到二分图中的一个图像的查询合并为一个查询集之后，每个查询集与每个图像建立一个唯一的链接，使查询空间和图像空间之间自然地一一对应。然而，由于查询和图像的表示是绝对异构的，因此无法直接计算它们之间的相似度。我们在本发明的工作中追求的一个解决方案是依赖于跨模态嵌入学习，该学习假定存在一个用于查询集和图像表示的低维嵌入空间。

我们首先介绍如何利用深层体系结构来学习语义嵌入，以便将查询表示映射到上述的嵌入空间。特别地，给定查询空间中每个查询的TF表示q_i，以往基于点击的跨模态模型直接将高度稀疏的查询表示转换为低维嵌入空间，这往往使得最优化难以收敛。在此，我们将每个查询集中的按其对应的点击次数加权的所有查询合并，并基于查询集的累积表示形式学习语义嵌入，旨在缓解查询特征的高稀疏性。技术上说，既然一个图像可能对应多个已发出的查询，而一个已发出的查询又可能对于多幅图像，我们假设在二分图

中有m个唯一的图像，设s_i为具有链接到图像υ_i的边缘的查询集。因此，可采用如下方式计算查询集s_i的表示：

其中为查询集表示，d_q为特征维。然后，应用单层神经网络为基于点击的查询集表示

生成查询语义嵌入，即：

其中，表示在嵌入空间中的查询集表示，d_e为该嵌入空间的维数，f_q(·)为基于点击的语义嵌入层的映射函数。神经网络对查询集的句法和语义进行编码。

在步骤S104中，基于注意力，进行视觉嵌入。

为了从原始图像中学习视觉嵌入，采用一种深度卷积神经网络(CNN)，即一种被广泛用于图像分类的CNN体系结构，来学习图像表示。但是，与现有技术中利用深度架构以全连通层的输出作为图像表示不同的是，我们选择卷积层的输出特征映射来表示原始图像，卷积层包含更多的空间信息。具体地，将AlexNet最后一个卷积层的特征映射记为conv₅，其维数为K×K×D。其中K×K为该特征映射中的区域数，D表示每个区域的特征向量维数(在本发明的实验中K＝13,D＝256)。每个图像区域的局部描述符记为f_j∈R^D,j∈[1,K²]，其中j为每个区域的索引。因此，对于图像υ_i来说，由K² D维局部描述符组成的整体图像特征映射表示为：

每个局部描述符将的特征映射划分为到原始图像中不同的重叠区域。我们将这些局部描述符称为特征立方，如图2和3所示。

在许多情况下，查询的语义只与对应图像的某些区域有关。因此，利用整幅图像上的一个全局特征向量进行查询与图像之间的相似性学习，可能会由于来自与查询无关区域的噪声而导致次优结果。我们从序列学习任务中几乎成为事实标准的注意力机制中获得灵感，将注意力机制应用到提取的图像特征映射上，只关注相关区域，从而增强图像表示学习，以进行相似性度量。这种考虑注意力机制的设计有可能准确确定与查询高度相关的区域，并进一步将不同区域的贡献合并到生成图像表示中。具体来说，给定图像特征矩阵我们首先将其输入单层神经网络，然后用softmax函数生成图像所有区域的注意分布：

其中和

为参量矩阵，

和代表偏差，tanh(·)是一个标准非线性函数。需要注意的是d_a表示注意力层中隐藏层的大小。因此,是一个K²维向量,对应于每个图像区域的注意力概率，该向量的第j个元素p_j是由j索引的图像区域中特定的注意力概率。基于注意力分布，我们采用如下方式计算所有区域的局部描述符的加权求和并获得按照注意力加权的聚合图像表示：

由于提取了图像中用于查询和图像之间相似度学***均池化来生成的：

式中

表示在第m个注意层终测量到的归一化注意力分布，

表示采用多头注意机制方式计算得到的平均注意分布。

最后，应用一个视觉嵌入层将最终的输出图像表示映射到嵌入空间中。

式中代表潜在空间中的图像表示，f_υ(·)为图像嵌入层的映射函数。

在步骤S106中，通过上述基于点击的语义嵌入和注意力集成的视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练。

通过上述基于点击的语义嵌入和注意力集成的视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中。查询和图像之间的相似度可以通过嵌入空间中的映射的内积直接测量，这等价于L₂归一层附在各个嵌入层的顶部时的余弦相似性。接着，为了学习DSPEA的整体架构，我们设计了一个联合训练目标，包括两个跨模态的排名约束和一个邻域结构保持约束，目的是确保对于一个查询集相关图像获得比不相关图像更高的相似性的同时，能够保持图像模态内的邻域结构。

跨模态排序约束

如“图像υ⁺应该比图像υ^-与查询集s更相关”的相对相似性关系在二分图中自然地传达了这样一层含义，即图像υ⁺已经被查询集s中的任一查询点击了，但图像υ^-并没有被查询集s中的哪一个查询点击。已经证明利用这些相对相似性关系在学习搜索函数中十分有效。受相对相似性思想的启发，我们在训练目标中考虑了跨模态排序约束(CR)，以便在跨模态学习中保持查询集与图像的相对相似性关系。特别地，我们可以从点击数据中很容易地获得一组三维数组其中每个数组(s,υ⁺,υ^-)由一个查询集构成，图像υ⁺被查询集s中的任一查询点击，图像υ^-没有被查询集s中的哪一个查询点击。为了保持这些三维数组中的相对关系，我们旨在学习语义嵌入和视觉嵌入使查询集在嵌入空间中的映射f_q(q_s)更类似于图像映射而不是图像映射因此，采用已广泛应用于信息检索和计算机视觉中的极限排序损失作为跨模态排序约束：

其中margin是一个常量参数，控制极限排序损失中两对距离之间的最小极限。

此外，除了查询集、被点击图像和未被该查询集中的任意查询点击的图像之间的相对关系外，我们通过考虑了语义上与被单击图像相似的邻域图像，探索了另一种相似关系。用N(υ⁺)＝{υ^k}表示包含与图像υ⁺语义相似的图像υ⁺的邻域，即，图像υ^k和υ⁺在语义相似的查询中被点击。请注意，如果一个图像对相对应的查询集表示之间的余弦相似度大于0.8，则这个图像对称为语义相似对。因此，给定由一个查询集、一个邻域图像υ^k和一个没有被s中的任一查询点击的不相关图像组成的数组(s,υ^k,υ^-)，我们在这个数组中设计了邻域跨模态排序约束(NCR)来额外测量相对相似性关系：

通过最小化数组(s,υ^k,υ^-)的邻域跨模态排序约束，保留了在潜在空间中查询集和图像映射的相对相似性关系，使得查询集映射f_q(q_s)更相似于邻域图像映射而不是无关的图像映射

邻域结构保持约束

结构保持或流形正则化在半监督学习[21]和跨模态学习[5]中已被证明是有效的。正则化方法表明，原始空间中的相似点应该映射到潜在空间中紧密对应的位置。在这里，我们利用语义信息来估计图像视图中底层结构，并假设语义相似的图像在嵌入空间中本应有相邻的映射，从而开发了这种结构保持正则化方法。具体地说，给定由被点击图像υ⁺、相关邻域图像υ^k和相应的查询集s所对应的不相关图像υ^-组成的数组(υ⁺,υ^k,υ^-)，定义结构保持正则化方法，即模态内邻域结构保持约束(NSP)为：

该术语的最小化将保留模态内的邻域结构，使语义相似的图像映射更接近，同时强制嵌入空间中不同语义的图像映射彼此远离。

总体训练目标

我们的DSPEA的整体训练目标函数集成了式(9)中的跨模态排序约束、式(10)中的邻域跨模态排序约束以及式(11)中的邻域结构保持约束。因此，我们得到了以下总体损失函数：

其中Q为四维数组集合，每个四维数组由查询集s、被点击的图像、相关邻域图像和不相关图像组成。在训练阶段，为了优化式(12)中的整体目标，我们在语义嵌入层和视觉嵌入层的顶层设计了一个排序损失层。排序损失层没有任何参数。在学习过程中，排序损失层评估模型违反跨模态排序约束和邻域结构保存约束的情况，并将梯度反向传播到较低层，使较低层可以调整参数，使总体损失最小化。

在步骤S108中，基于关键词，进行图像检索。

通过对整个体系结构的优化，我们得到分别在式(2)和式(8)中定义的语义嵌入和视觉嵌入。接下来，给定一个测试查询和图像对计算嵌入空间中查询映射和图像表示的内积：

式(13)的结果反映了给定图像在回应查询时的相关性，其值越高表示相关度越高。因此，给定一个文本查询，响应图像的排序列表是通过对查询图像对的值进行排序产生的。

对于上述图像检索方法，我们采用Clickture数据集进行了实验，并在基于关键字的图像搜索中对我们的方法进行了评估。

Clickture数据集中的数据是从一张商业图像搜索引擎的一年点击日志中采样得到的，由两个子集组成，即训练集和开发(dev)集。特别地，Clickture训练集包括点击日志中的2310万个三维数组{q,υ,c}，其中每个三维数组表示在发出的q的搜索结果中查询图像υ总共被点击c次。在训练集中有1170万个不同的查询和100万个互不相同的图像。图5是根据一示例示出的点击数据集的例子，每一行列出了响应第一行显示的查询的图像的点击计数。如图5所示，随机选择4个示例查询以及它们在训练集中被点击的图像和点击次数。很容易发现，点击量高的图片在语义上与发布的查询比点击量少的图片更相关。开发集包括从1000个互异的查询中生成的79,926个查询-图像对。每个查询-图像对都被人为地标注在一个三点顺序量表上：优、良、劣。开发集起源于MSR-Bing图像检索挑战2013/2014。所有的数据和分区都由Clickture数据集的所有者正式发布。作为Clickture数据集的官方评价，我们将开发集作为测试集，并基于开发集来报告本发明模型的性能。

在我们的评估中，我们估计了开发集中每个查询-图像对的相似性，然后，对于每个查询，我们根据对图像与查询的相似性进行图像排序。

参数设置

为了公平比较，我们设置利用前50,000个最频繁的单词作为用于生成查询的TF特征的单词词汇表，并以AlexNet中conv₅层上的特征映射的输出作为DSPEA中的图像表示。进一步地，ResNet-152中的res5c层上的特征映射是最先进的架构之一，同样用在DSPEA中研究不同图像特征对搜索性能的影响。我们将每个注意力层的隐藏层的大小设置为d_a＝256，排序损失层的margin值为0.5。我们将M＝3个独立的注意力层应用到多头注意机制中。嵌入空间的维数d_e在{40,60,80,100}范围内。我们主要实现了基于Caffe的DSPEA模型，这是一种被广泛采用的深度学***台。我们利用整个训练集，即2310万个{查询，图像，点击计数}三维数组用于训练DSPEA模型。在训练阶段，初始学习率为0.01，小批量尺寸集为512，我们的DSPEA模型的损耗将减少到初始模型的23％，并在60K次迭代(约30个纪)后达到一个合理的值。在时间成本方面，在一台NVIDIA Tesla V100 GPU(16GB)上训练DSPEA需要30小时。

评价指标和比较方法

我们应用官方评估标准，采用归一化折扣累积增益(NDCG)作为性能指标。我们比较了以下性能评估方法：

典型相关分析(CCA)寻找两个线性映射将查询和图像转换成一个共享的潜在子空间，其中两个模态的相关性被最大化。经典的CCA可以进一步扩展分别利用核心化和深度学习技术。前者在CCA中学习核化非线性投影，后者则在CCA中通过多支撑层的非线性变换建立映射模型。我们将这两个CCA扩展命名为内核CCA(KCCA)和深层CCA(DCCA)。

基于点击数据的跨模态学习(CCL)构建了一个潜在子空间，同时通过最小化查询映射和根据点击次数加权后的图像之间的跨模态距离，并保留它们在原始的特征空间中固有的结构。

排序典型相关分析(RCCA)采用两步骤学习查询与图像的相似性：(1)用CCA初步训练查询和图像的两个线性映射；(2)通过保留在点击数据中隐式的相对关系，进一步调整两个映射以学习双线性相似度函数。

深度视觉语义嵌入(DeViSE)优化了投影层和相似性度量，用以在嵌入空间中的图像映射与查询映射之间产生比图像映射与其他随机选择的查询映射之间更高的点积相似性。

基于词袋的深度神经网络(BoWDNN)利用查询和图像之间的余弦相似性通过训练深度神经网络将图像投影到词袋查询空间。

基于点击数据的深度视觉语义嵌入(C-DVSE)训练图像和查询嵌入层，以最小化链接到点击数据的图像和查询集映射之间的距离。

基于点击的具有视觉注意力的深度结构保持嵌入(DSPEA)由本发明提出。DSPEA和DSPEA(res5c)分别表示AlexNet中的conv₅层的特征映射和利用DSPEA开发ResNet-152中的res5c层的特征映射。此外，DSPEA的另外三个不同的设置被命名为DSPE(fc8)、DSPE(conv₅)和DSPEA^-，它们分别采用fc8层的输出或AlexNet的conv₅层中的平均融合卷积描述符作为不考虑注意力机制的图像表示，以及采用单个查询而不是查询集作为语义表示。

我们通过绘制训练损失曲线和验证损失曲线，阐明了Clickture数据集训练算法的收敛性。注意，这里的损失曲线是嵌入空间维数为80的情况下产生的，其它维数的曲线的趋势类似。图6示出了随训练迭代次数增加训练损失与验证损失的变化曲线。这里的嵌入空间的维数是80。如图6所示，正如预期的那样，训练损失和验证损失均随着训练迭代的增加而减少。进一步地，经过多次迭代(在本实验中为60×10³次)，两者的损失波动非常平稳。

表1示出了在Clickture开发数据集中运行了13次平均每次超过1,000个查询的图像搜索的NDCG性能。值得注意的是，BoWDNN将查询空间作为公共空间，并将图像映射到维度为50，000的查询空间中，而对于其他运行，这里的性能是基于80维度嵌入空间来给出的。总的来说，我们提出的DSPEA始终优于其他运行在不同深度的NDCG。尤其是DSPEA的[email protected]性能可以达到51.92％，相对于最优的竞争对手DCCA的1.19％有一定提升，这在Clickture数据集中通常被认为是一个显著的进步。通过将特征映射从AlexNet中的conv5层升级到ResNet-152中的res5c层，DSPEA(res5c)的[email protected]可以达到目前公开的最高性能52.21％。通过执行随机游走对DSPEA(res5c)的结果进行重新排序，还可以将[email protected]的性能更进一步提高到55.63％。DSPEA通过利用跨模态嵌入学习中的相对关系额外整合结构保持，从而导致性能相对于CCA和KCCA的提高。在RCCA、CCL和DSPEA之间存在着性能差距。尽管这三次运行均涉及到利用结构保持或偏好关系，仍采用不同策略来学习投影。RCCA的学习是其中唯一优化了跨模态排序约束，CCL中考虑了模态内结构保持约束，而我们的DSPEA则共同考虑了这两种约束。结果基本上显示了通过在潜在的点击数据中同时保持跨模态相似关系和模态内邻域结构进行学习嵌入的优势。

表1

方法	[email protected]	[email protected]	[email protected]	[email protected]	[email protected]
						CCA	59.55％	58.48％	55.38％	52.85％	50.51％
KCCA	59.75％	58.55％	55.45％	52.87％	50.60％
						DCCA	61.34％	59.91％	56.45％	53.64％	51.31％
CCL	59.85％	58.65％	55.55％	52.89％	50.63％
						RCCA	60.75％	59.44％	56.25％	53.53％	51.12％
DeViSE	60.46％	59.08％	55.78％	53.27％	51.10％
						BoWDNN	60.68％	59.00％	55.83％	53.14％	50.89％
C-DVSE	60.95％	59.41％	56.21％	53.58％	51.30％
						DSPE(fc8)	61.84％	60.06％	56.75％	53.97％	51.54％
DSPE(conv<sub>5</sub>)	61.13％	59.50％	56.12％	53.34％	51.20％
						DSPEA<sup>-</sup>	61.39％	59.65％	56.36％	53.69％	51.33％
DSPEA	62.72％	60.29％	57.01％	54.27％	51.92％
						DSPEA(res5c)	63.03％	60.72％	57.28％	54.48％	52.21％

DSPEA的性能优于DCCA、DeViSE、BoWDNN和C-DVSE。通过这5种利用深度神经网络的方法，它们在学习嵌入空间时采用不同的方式。BoWDNN直接将原始查询空间作为嵌入空间，而DSPEA是通过研究一个潜在的、公用的视觉-语义嵌入空间来实现的。我们的实验结果表明，学习一个公用的嵌入空间可以更好地测量查询-图像相似度和不断提高性能。进一步地，DSPEA也从利用相对关系和改进其他两个运行方式——DCCA和CDVSE中受益。此外，DSPEA的性能始终比DeViSE好，这确保了在嵌入式优化中引入结构保持约束的有效性。

与仅表示查询的DSPEA^-相比，基于查询集的DSPEA表现出了更好的性能。因此，将链接到一个图像的查询合并为一个集合可以有效地表示查询模态。尽管有三种运行方式——DSPE(conv₅)、DSPE(fc8)和DSPEA都起源于conv₅层，但在生成图像表示时它们本质上是不同的。DSPE(fc8)中的表示是将conv₅层上的所有核心图平铺到全连接层的神经元上，而DSPE(conv₅)和DSPEA分别是通过平均融合conv5层中的局部描述符或基于它们的注意力概率对它们进行线性融合加权得到的。如我们的实验结果所示：DSPE(fc8)可以持续获得比DSPE(conv₅)更好的性能，但其性能仍然低于DSPEA，再次验证了我们的方案。此外，我们利用一种统计学的有效性测试——随机化测试，以验证我们的DSPEA在其他方法基础上的性能提升并非偶然。其中，随机化的迭代次数设为10万，有效性水平0.05。我们发现DSPEA比其他的方法好得多。

图7是根据一示例示出的通过十种不同的方法进行图片搜索的结果。其中(a)为“定制迷你袖珍火箭”，(b)为“免费时间剪贴画”。相关量表在每幅图片右下角示出。图7显示了采用不同查询方法对于“定制迷你袖珍火箭”和“免费时间剪贴画”的前十位图像搜索结果。我们可以看到，本发明提出的DSPEA获得最令人满意的排序结果。特别地，对于查询“定制迷你袖珍火箭”DSPEA从排名前十的搜索结果中检索出了九张合适的图片，这一结果比其他方法更好。可观察得知在一般情况下，只要查询的语义是特定的，DSPEA有望达到最好的性能。对于传递模糊语义的查询，由于此类查询可以与具有多种视觉表象的图像相关，而且查询与图像之间的语义相关性变得非常弱，因此DSPEA的搜索结果会不可避免地受到影响。图8是根据另一示例示出的通过十种不同的方法进行图片搜索的结果。以“有趣的图标”为例，在这种情况下，我们的DSPEA只检索到了排名前十的图片中的七张，如图8所示，而C-DVSE或DeViSE则获得了更优的排名列表。

查询表示

基于关键字的图像搜索的一个常见问题是需要表示文本查询。在之前的实验中，我们采用TF表示以便与最先进的方法进行合理的比较。此外,我们进行了测试其他可选方案的搜索性能的实验。结果表明，使用不同的查询表示并不会造成显著的差异。以[email protected]为例，当使用TF、TF-IDF和BM25作为查询表示，性能仅在0.06％上下波动。这实际上简化了查询表示的选择。

注意力机制

接下来，在DSPEA中我们将使用多头注意力与单层注意力(DSPEA-SL)和叠加注意力(DSPEA-ST)进行比较。单层注意力机制采用单层注意力网络用于注意力生成，而堆叠注意力机制利用多层注意力网络通过多步推理来定位与查询相关的图像区域。在Clickture数据集中采用DSPEA-SL、DSPEA-ST和DSPEA方法获得的[email protected]值分别为51.81％、51.86％和51.92％。在其他深度NDCG的性能趋势与[email protected]相似。研究结果基本表明了联合地平行研究多头注意力函数优于仅采用单一注意力函数研究单层或堆叠的注意力。

视觉注意力的可视化

我们进一步进行分析，以阐明在多头注意力机制中采用M＝3个独立注意力层的来确定相关的图像区域用于查询和图像之间的相似性度量的进展。图9是根据一示例示出的采用多头注意力机制的四个图像示例。在每一个示例中，从左到右的5个图像依次为原始图像、三个独立的注意力层的注意力图的和多头注意力的平均注意力图的，其中亮度表示聚焦的强度。请注意，原始图像的大小是224×224，注意力图的大小为13×13，我们对注意力分布进行了上采样并应用高斯过滤器使其大小与原始图像相同。从这些示例结果中，很容易看出三个独立注意层中的注意力分散在图像中与与查询相关的不同对象/场景上，而多头注意力的平均注意力是彻底集中在所有与查询相关的区域上。以图9(a)为例，该模型在三个独立的注意力层中分别将注意力转向区域中的空气/背景、迈克尔·乔丹和篮筐上，而对于整个多头注意机制，则注意力集中在所有与响应“迈克尔·乔丹在空中”的查询相关的区域中。

嵌入维数的影响

图10为采用不同方法时不同嵌入维数的NDCG性能曲线示意图。对于不同深度的NDCG而言八种方法(即[email protected]，[email protected],，[email protected]，[email protected]和[email protected])的性能曲线，以探讨不同嵌入维度(即40、60、80和100)的影响。请注意，BoWDNN直接将原始查询空间视为嵌入空间，导致嵌入空间的为一个固定的维度，因此在此省略该方法。总的来说，对于嵌入空间的每个维度，其他7种运行方法与我们提出的DSPEA方法之间的性能差距是非常显著的。特别地，当嵌入维度为100时跨越不同深度的NDCG，DSPEA的性能达到峰值。同时，DSPEA的NDCG性能也随着潜在子空间维数在各个深度的变化轻微波动，这实际上简化了嵌入维数的选择。

各个约束的效果

作为三个约束条件，即跨模态排序约束(CR)、邻域跨模态排序约束(NCR)和模态内邻域结构保持约束(NSP)，在我们的DSPEA中共同进行了优化。这里研究了每个约束的贡献程度。图11示例了[email protected]通过只跨不同维度的嵌入空间使用跨模态排序(CR)约束对不同组合的约束在性能上的改进。如图11所示，显示了三种不同的组合(即CR+NCR,CR+NSP,CR+NCR+NSP)相对于只使用CR的结果的改进程度。跨嵌入空间的不同维度的结果持续表明，与使用两个约束相比通过使用三个约束来学习可以获得更大的性能提升。此外，采用CR+NSP的效果也比采用CR+NCR较好，这可以这样理解，即CR和NSP分别从跨模态约束和模态内约束角度进行，而跨模态约束和模态内约束是相互补充的。

运行时间

对于在线搜索，我们的DSPEA在普通个人电脑(英特尔内核i7-4770 3.40GHz CPU和16gb RAM)上大约需要运行1分钟来完成在开发集中全部的79,926对查询图像对的相似性度量。换句话说，计算其中一对查询-图像的相似性需要不到1毫秒的时间，这对于实例响应来说已经足够快了。

本发明实施方式提出了一个基于点击的具有视觉注意的深度结构保持嵌入(DSPEA)模型，研究了跨模态学习和基于点击数据学习查询-图像相似性。特别地，我们通过以下方法优化了嵌入模型的整个体系结构，

同时保留了跨模态的相对排序关系和视图内的邻域结构。为了更好地表示图像和查询空间，进一步在CNN中引入了注意力机制，以定位与查询相关的图像区域，并研究了将查询合并为查询集的方法以解决稀疏性问题。在Clickture数据集上进行的实验验证了我们的方案和分析。与其他跨模态嵌入技术相比，性能的提高是显而易见的。更引人注目的是，我们的DSPEA在Clickture数据集上实现了迄今为止的最高性能。

应清楚地理解，本发明描述了如何形成和使用特定示例，但本发明的原理不限于这些示例的任何细节。相反，基于本发明公开的内容的教导，这些原理能够应用于许多其它实施方式。

本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由CPU执行的计算机程序。在该计算机程序被CPU执行时，执行本发明提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本发明示例性实施方式的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图12是根据一示例性实施方式示出的一种图像检索装置的框图。

参考图12，图像检索装置20包括：语义嵌入模块202、视觉嵌入模块204、目标训练模块206及图像检索模块208。

其中，语义嵌入模块202用于基于所获取的用户进行图像检索的点击，进行语义嵌入。

视觉嵌入模块204用于基于注意力机制，进行视觉嵌入。

目标训练模块206用于通过所述基于点击的语义嵌入和注意力集成的视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练。

图像检索模块208用于基于关键词，进行图像检索。

在一些实施例中，语义嵌入模块202包括：二分图构建单元、查询集合并单元及语义嵌入单元。其中，二分图构建单元用于基于所述点击数据构建二分图，所述二分图包括多个所述图像及每个所述图像的至少一个查询。查询集合并单元用于分别将每个所述图像的所述至少一个查询合并为一个所述查询集。语义嵌入单元用于针对每个所述查询集，进行如下操作：将所述查询集中按所述查询的点击次数加权的所述至少一个查询合并，并基于所述查询集的累积表示形式学习语义嵌入，以分别生成所述查询集的基于点击的查询集表示；及应用单层神经网络，为所述查询集的所述基于点击的查询集表示，生成所述查询集在所述嵌入空间的查询集表示。

在一些实施例中，视觉嵌入模块204包括：特征映射确定单元、聚合图像表示确定单元、输出图像表示确定单元及图像嵌入单元。特征映射确定单元用于针对每个所述图像，基于深度卷积神经网络的卷积层的输出特征映射，确定所述图像的整体图像特征映射，所述整体图像特征映射包括多个区域的局部描述符。聚合图像表示确定单元用于将M个注意力层合并所述深度卷积神经网络中，进行如下操作：分别将所述整体图像特征输入到所述M个注意力层，生成各所述注意力层的所述图像的注意力分布；及基于各所述注意力层的所述注意力分布，分别将所述多个区域的局部描述符进行加权合并，以生成所述图像的M个聚合图像表示。输出图像表示确定单元用于通过对所述图像的M个所述聚合图像表示进行平均，获得所述图像的输出图像表示。图像嵌入单元用于应用所述深度卷积神经网络的视觉嵌入层，将所述输出图像表示嵌入到所述嵌入空间，以获得所述图像在所述嵌入空间的图像表示。

在一些实施例中，目标训练模块206包括：损失函数确定单元，用于针对每个所述查询集，确定用于目标训练的损失函数，包括：根据所述查询集、被所述查询集中任一所述查询点击的第一图像及没有被所述查询集中任一所述查询点击的第二图像，基于极限排序损失，确定跨模态排序约束；根据所述查询集、与所述第一图像语义相似的第三图像及所述第二图像，基于极限排序损失，确定邻域跨模态排序约束；根据所述第一图像、所述第二图像及所述第三图像，基于结构保持正则化，确定邻域结构保持约束；以及根据所述跨模态排序约束、所述邻域跨模态排序约束及所述邻域结构保持约束，确定所述损失函数。

在一些实施例中，目标训练模块206还包括：目标训练单元，用于基于所述损失函数，对所述查询集与所述图像进行目标训练，以使总体损失最小化。

在一些实施例中，图像检索模块208包括：图像检索单元，用于根据所述关键词提供的文本查询，在所述嵌入空间中，基于所述文本查询与所述嵌入空间中各图像的內积的排序，进行所述图像检索。

需要注意的是，上述附图中所示的框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图13是根据一示例性实施方式示出的一种计算机系统的结构示意图。需要说明的是，图13示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

基于所获取的用户进行图像检索的点击数据，进行语义嵌入；

基于注意力机制，进行视觉嵌入；

通过所述语义嵌入和所述视觉嵌入，将查询集和对应的图像投影到低维嵌入空间中，进行目标训练；以及

基于关键词，进行图像检索。

以上具体地示出和描述了本发明的示例性实施方式。应可理解的是，本发明不限于这里描述的详细结构、设置方式或实现方法；相反，本发明意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

32页详细技术资料下载

图像检索方法、装置、设备及可读存储介质

相关技术

网友询问留言