基于细粒度跨媒体检索构造实体级公共特征空间的方法

文档序号:1952842 发布日期:2021-12-10 浏览:9次 >En<

阅读说明:本技术 基于细粒度跨媒体检索构造实体级公共特征空间的方法 (Method for constructing entity-level public feature space based on fine-grained cross-media retrieval ) 是由 姚亚洲 孙泽人 陈涛 张传一 沈复民 于 2021-11-11 设计创作,主要内容包括:本发明涉及细粒度跨媒体检索技术领域,公开了一种基于细粒度跨媒体检索构造实体级公共特征空间的方法,包括:获取视频数据,预设噪声帧滤除规则,根据噪声帧滤除规则对获取到的视频数据进行过滤,获取不包含细粒度实体的帧图像;获取媒体数据类型的低层特征,对低层特征进行线性投影,获取实体级公共特征空间;根据实体级公共特征空间提取高层次语义并进行学习。本发明可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征以进行跨媒体检索。(The invention relates to the technical field of fine-grained cross-media retrieval, and discloses a method for constructing an entity-level public feature space based on fine-grained cross-media retrieval, which comprises the following steps: acquiring video data, presetting a noise frame filtering rule, filtering the acquired video data according to the noise frame filtering rule, and acquiring a frame image which does not contain a fine-grained entity; acquiring low-level features of media data types, and performing linear projection on the low-level features to acquire an entity-level public feature space; and extracting high-level semantics according to the entity-level public feature space and learning. The invention can learn the projection matrix from the low-level features to the entity-level public feature space and generate the public features of the cross-media data to perform cross-media retrieval.)

基于细粒度跨媒体检索构造实体级公共特征空间的方法

技术领域

本发明涉及细粒度跨媒体检索技术领域,具体地说,是一种基于细粒度跨媒体检索构造实体级公共特征空间的方法,可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征以进行跨媒体检索。

背景技术

细粒度跨媒体检索任务中有一个难点便是如何减少不同媒体数据间的异质性差距,最常用的方法便是寻找某种映射函数,将不同媒体类型的样本映射到共同特征空间中,并根据输入数据在此空间中的特征与数据库中候选对象的相似性排序来生成检索结果。然而,这样的公共特征空间却存在某种缺陷。通常在此空间中的特征没有明确的含义(即不知道此特征代表什么),导致最终可能会忽略媒体数据中包含的原有语义信息。还有一些算法提出的公共语义空间只是简单地利用了低层次特征和高层语义特征之间的关系,一般低层次特征由卷积神经网络提取,高层次特征是以低层次特征为基础在语义类别标签的约束下抽象出来的语义,而这样只能提取粗粒度的特征。

众所周知,实体和实体可以相互区分。在文本中,实体即物体名、物种名、地名、时间等,而在图像中就是一个个体。几乎每一种媒体数据里面都存在实体的概念,并且相应的实体存在于对应的高层特征中。另外,由于实体的客观存在性,具有相似语义的多种媒体数据也包含相同的实体,因此它们可以拓展到其他的媒体域中。鉴于实体的可区分性、相关性和扩展性,本发明采用基于实体级公共特征空间的方法来解决细粒度跨媒体检索的任务,将实体作为低层特征和高层语义特征的中间衔接桥梁。

为了解决上述问题,亟需一种新的细粒度跨媒体检索的方法,可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征表示形式以进行跨媒体检索。

发明内容

本发明的目的在于提供一种基于细粒度跨媒体检索构造实体级公共特征空间的方法,可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征表示形式以进行跨媒体检索。

本发明通过下述技术方案实现:一种基于细粒度跨媒体检索构造实体级公共特征空间的方法,包括: 步骤S1.获取视频数据,判断输入的媒体类型是否为视频数据,如果是,进入步骤S2,如果否,获取类型为音频数据、图像数据和文本数据的媒体类型数据后进入步骤S3;

步骤S2.预设噪声帧滤除规则,根据噪声帧滤除规则对获取到的视频数据进行过滤,获取不包含细粒度实体的帧图像;

步骤S3.获取媒体数据类型的低层特征,对低层特征进行线性投影,获取实体级公共特征空间;

步骤S4.根据实体级公共特征空间提取高层次语义并进行学习。

预设同类样本的相关性约束条件和单媒体的实体构造约束条件,上述步骤S1-步骤S4遵循所述约束条件。

在本技术方案中,在生成对抗网络的基础上提出了一种新的细粒度跨媒体检索的方法,即基于实体级公共特征空间的细粒度跨媒体检索算法(Entity-level CommonFeature Space based Fine-grained Cross-Media Retrieval,CFFCE)。该算法能够学习实体级的公共特征表示,这样的高层特征便是具有明确含义的实体。详细地讲,该算法主要包括两部分:首先,对文本数据采用实体提取器来自动提取具有显式语义的细粒度实体。这样就可以在低层特征和高级特征之间建立具有细粒度语义的实体级特征,也有效减轻中高层特征的语义歧义并有助于理解中高层特征的概念。然后,通过在实体级别上最小化(最大化)具有正(负)相关性的媒体特征之间的距离,便可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征表示形式以进行跨媒体检索。

为了更好地实现本发明,进一步地,步骤S2中包括:

步骤S2.1.以相同时间间隔截取每个视频数据中的视频帧,获取原始关键帧;

步骤S2.2.根据特征提取网络获取视频帧的特征;

步骤S2.3.通过计算视频帧之间的距离确定中心帧;

步骤S2.4.预设阈值,确定好中心帧和阈值之后,判断每一帧到中心帧的距离是否大于阈值,如果是,丢弃当前帧,如果否,保留位有效帧;

步骤S2.5.当中心帧不再发生变化时,获取不包含细粒度实体的有效帧的图像。

在本技术方案中,考虑到视频数据是从每个视频中等间隔截取而成,其中不可避免地会包含一些与目标物体无关的帧,比如片头,片尾。这样会严重影响网络的收敛以及检索的准确率,于是通过噪声帧滤除规则获得包含目标的有效的视频帧,在没有噪声帧作为输入的情况下,可以更好地学习目标的特征,从而可以有效地提高检索的准确性,并加快网络的收敛速度,对视频数据进行预处理,以获得更加纯净的视频数据,本发明对以往的公共特征空间语义模糊性以及未考虑到细粒度特征的问题,提出了一种基于实体级公共特征空间的细粒度跨媒体检索算法(CFFCE)。

为了更好地实现本发明,进一步地,步骤S3中的低层特征包括:

根据卷积神经网络提取过滤后的视频数据、音频数据和图像数据的特征;

根据实体提取器提取文本数据中的实体,获取文本实体特征,并生成对应的文本实体标签;

根据过滤后的视频数据、音频数据、图像数据的特征和文本实体特征生成低层特征。

在本技术方案中,通常用于处理跨媒体检索任务而学习到的公共特征空间没有具体的含义,即公共空间中的特征具体表示什么是未知的,这就可能会忽略媒体数据中原有的语义信息,因此本技术方案基于实体级公共特征空间的细粒度跨媒体检索算法学习了一个实体级的公共特征空间。

为了更好地实现本发明,进一步地,步骤S3中生成实体级公共特征空间包括: 通过实体标签、同类样本的相关性约束条件、单媒体的实体构造约束条件以及媒体判别器和生成器的对抗训练进行线性投影生成实体级公共特征空间。

在本技术方案中,实体级公共特征空间旨在学习包含实体语义的公共表示。此部分以图像、视频、音频和文本的低级特征作为输入,将此时配对数据、语义类别标签四种媒体的低层特征都进行表示,再映射到实体级公共特征空间的映射矩阵。

为了更好地实现本发明,进一步地,步骤S4包括:

使用语义类别标签进行实体级语义抽象,基于统一的语义表示,计算不同媒体类型的媒体数据之间的相似性,并进行跨媒体检索。

在本技术方案中,利用跨媒体同类数据之间的相关性,将具有正相关性的样本之间的距离最小化,而将具有负相关性的样本之间的距离最大化。

为了更好地实现本发明,进一步地,同类样本的相关性约束条件包括:

将具有正相关性的媒体数据之间基于距离最小化规则进行操作,将具有负相关性的媒体数据之间基于距离最大化规则进行操作。

在本技术方案中,为了缩小不同媒体间的异质性差异,即最小化正相关的媒体数据,为了利用跨媒体同类数据之间的相关性,将具有正相关性的样本之间的距离最小化,而将具有负相关性的样本之间的距离最大化。

为了更好地实现本发明,进一步地,单媒体的实体构造约束条件包括:

将文本提取出的文本实体特征与过滤后的视频数据、音频数据和图像数据的特征相关联。

在本技术方案中,虽然由于文本的提取的实体与其他三种媒体数据的实体形式有差异,因此采用此约束将文本提取出的实体与其他三种媒体数据相关联。

本发明与现有技术相比,具有以下优点及有益效果:

(1)本发明提出一种基于实体级公共特征空间的细粒度跨媒体检索算法,其针对视频数据中含有噪声帧的特点,设计了基于特征空间聚类的噪声帧滤除算法,经过此处理之后,输入进网络的视频数据不包含噪声,为后来基于实体级公共特征空间的学习提供了前提保障;

(2)本发明从文本中提取实体,再对其进行实体投影,通过媒体判别器和正负样本的约束和实体重构约束生成实体级公共特征空间,最后借助语义标签提取了实体级语义特征,从而实现细粒度跨媒体检索;

(3)本发明从四种数据集上的对比实验可以看出,基于实体级公共特征空间的细粒度跨媒体检索算法在执行各种任务时,比排名第二的FG Cross Net算法mAP得分高出少则1%,多则15%,可见本发明鲁棒性较高;

(4)本发明提出了一个基于特征空间聚类的噪声帧滤除算法,对视频数据进行预处理,以获得更加纯净的视频数据。

附图说明

本发明结合下面附图和实施例做进一步说明,本发明所有构思创新应视为所公开内容和本发明保护范围。

图1为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法的流程图。

图2为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中PKU FG-XMedia 数据集上的双媒体检索对比图。

图3位本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中 PKU FG-XMedia 实验数据集上的多媒体检索对比图。

图4为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中PKU Xmedia 数据集上的双媒体检索对比图。

图5为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中PKU Xmedia 实验数据集上的多媒体检索对比图。

图6为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中Wikipedia 数据集上的双媒体检索对比图。

图7为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中NUS-WIDE 数据集上的双媒体检索对比图。

图8为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中多媒体检索模式下每个模块的影响图。

图9为本发明所提供的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法中多媒体检索模式下每个模块的影响图。

具体实施方式

实施例1:

本实施例的一种基于细粒度跨媒体检索构造实体级公共特征空间的方法,如图1所示,考虑到视频数据是对视频进行等间隔抽帧形成,抽取的视频帧包含噪声帧的特点,噪声帧即不包含目标物体的帧,在进行实体级公共特征学习之前,首先使用本发明提出的基于特征空间聚类的噪声帧滤除算法过滤不包含细粒度实体的帧图像,从而更好地学习实体级公共特征空间。使用实体提取器提取文本数据中的实体,并产生相应的实体标签,由于配对好的其他媒体数据与文本具有相同语义,因此四种媒体数据共享其实体。之后利用实体标签通过最小化跨媒体的关联性约束、单媒体的实体重构约束以及媒体判别器和生成器的对抗训练可以获得实体级公共特征空间。这样在某种程度上可以减少中高层特征的模糊性并且帮助理解其语义概念,最后通过高层实体级语义进行提取学习。本发明还使用两种约束来辅助生成对抗网络的对抗机制,从而更好地学习低层特征到实体级公共特征空间的映射。

本实施例在生成对抗网络的基础上提出了一种新的细粒度跨媒体检索的方法,即基于实体级公共特征空间的细粒度跨媒体检索算法(Entity-level Common FeatureSpace based Fine-grained Cross-Media Retrieval,CFFCE)。该算法能够学习实体级的公共特征表示,这样的高层特征便是具有明确含义的实体。详细地讲,该算法主要包括两部分:首先,对文本数据采用实体提取器来自动提取具有显式语义的细粒度实体。这样就可以在低层特征和高级特征之间建立具有细粒度语义的实体级特征,也有效减轻中高层特征的语义歧义并有助于理解中高层特征的概念。然后,通过在实体级别上最小化(最大化)具有正(负)相关性的媒体特征之间的距离,便可以学习低层特征到实体级公共特征空间的投影矩阵,并生成跨媒体数据的公共特征表示形式以进行跨媒体检索。

名词解释:

CFFCE:基于实体级公共特征空间的细粒度跨媒体检索算法。

FGCN:反馈图卷积网络。

MHTN:模态对抗混合传输网络。

ACMR:基于对抗训练的跨模态搜索。

实施例2:

本实施例在实施例1的基础上做进一步优化,在本实施例中的细粒度跨媒体检索涉及到的媒体数据有视频数据,对于视频数据的提取是等间隔截取固定数量的帧作为输入,会不可避免的包括一些与目标物体无关的帧,比如片头片尾,原始提出的关键帧包含一张或者多张与目标物体无关的图像。这样会存在一些潜在的问题:当视频中的噪声帧成为偏移点会影响输入数据的特征分布。因此,网络参数会去适应其特征分布,进而影响检索准确率。噪声帧将导致输入的偏移,从而导致对抗网络难以快速收敛。因此预设了噪声帧滤除规则,以解决视频数据中噪声帧的问题。

在本实施例中从每个视频中以相同间隔截取N帧,组成原始关键帧,然后使用神经 网络作为特征提取器来对这N帧图像提取特征,以相同时间间隔截取每个视频数据中的视 频帧,获取原始关键帧使用的是在ImageNet上预训练的ResNet50网络,提取出了N维特征, 将它们表示为,其中代表视频数据集中的视频总数, 代表第 个视频截取到的N幅原始关键帧的特征。

接着计算每幅视频帧的特征与其他所有帧的特征之间的距离之和,使用Ç2范数计算两个特征之间的距离,公式如下:

,其中是其他所有视频帧到的距离之和。

,其中表示其他所有视频帧到 的距离之和。

对上述公式获得的序列进行排序,假设是最小的, 则将第帧定为中心帧,并将定义为的平均值:,然后令的为阈值

确定好中心帧和阈值之后,判断每一帧到中心帧的距离,如果当前帧到中心帧 的距离大于,则将丢弃当前帧,否则,它将保留为有效帧。重复上述操作,直到中心帧不再 发生变化,即终止条件是中心帧不再发生变化,获得包含目标的有效的视频帧。

获得包含目标的有效的视频帧,在没有噪声帧作为输入的情况下,可以更好地学习目标的特征,从而可以有效地提高检索的准确性,并加快网络的收敛速度。

本实施例的其他部分与实施例1相同,故不再赘述。

实施例3:

本实施例在实施例1的基础上做进一步优化,在本实施例中,通常用于处理跨媒体检索任务而学习到的公共特征空间没有具体的含义,即公共空间中的特征具体表示什么是未知的,这就可能会忽略媒体数据中原有的语义信息。本实施例的基于实体级公共特征空间的细粒度跨媒体检索算法学习了一个实体级的公共特征空间,即此空间中的特征代表实体。首先采用Illinois Wikifier 中的实体提取器提取文本数据中的实体,并生成对应的实体标签。另外,使用卷积神经网络对视频、音频和图像数据进行特征提取。由于输入进网络的一组数据已经经过配对操作,所以具有相同语义信息的多种媒体数据共享文本的实体及标签。此特征和文本的实体特征并称为低层特征。由于实体级标签矩阵的稀疏性,因此,此处采用线性投影来获得实体级公共特征空间。为了使此空间中的特征只包含目标物体的语义信息,忽略媒体构造差异和数据表示差异,此处依旧采用生成器和判别器的对抗机制来达成这一目标。

采用卷积神经网络来提取图像、视频和音频的特征。提取出来的三种媒体的低层 次特征为以图像为例,表示为:;

实体级公共特征空间旨在学习包含实体语义的公共表示。此部分以图像、视频、音 频和文本的低级特征作为输入,此时配对数据表示成,其中 代表语义类别标签,使用作为将四种媒体的低层特征映射到实体级公共特征 空间的映射矩阵。

本实施例的其他部分与实施例1相同,故不再赘述。

实施例4:

本实施例在实施例1的基础上做进一步优化,媒体判别器和生成器的对抗训练中 生成器的网络以作为输入,同一组数据中的文本数据进入Illinois Wikifier的实体提取器中,将提取出的实体表示为:。其中,代表 提取出的实体数量,代表提取出的第个实体,实体对应的标签为,使用LSTM 提取出的文本低层特征表示为:

本实施例的其他部分与实施例1相同,故不再赘述。

实施例5:

本实施例在实施例1的基础上做进一步优化,为了确保此高层实体级语义提取与 媒体类型无关,此处采用媒体判别器对该空间中的特征进行媒体类型的鉴别。将媒体标签 约束下的损失定义为:

其中,为交叉熵损失函数。是参数为的非线性映射函数,用来预测高 层实体级语义特征分别属于哪一种媒体类型。为输入数据one-hot媒体类 型标签,分别代表图像、视频、音频和文本。

对抗训练时,在最小化生成器的损失的同时,最大化媒体分辨器的损失来获得实体级公共特征空间。以此为基础,将一些参数分配到每个损失函数里面并且将对抗阶段的损失函数定义为:

其中,是训练阶段正损失函数和负损失函数之间平衡参数,是一个正值。是处理图像、视频、音频和文本的特征提取器的参数,将其简化为分别是四种数据的低层特征投影到公共特征空间的参数,将其简化为,由于这两个损失函数的优化目标相反,因此两个并发子过程的对抗过程可以定义为:

其中,参数将式最小化,而参数使 式最大化,这就是此模型的对抗训练过程。目标是寻找以达到对抗阶段的损失函数的鞍点,在式和式的基础上,参数的更新过程如下所示:

;其中,是学习率。

实施例6:

本实施例在实施例1的基础上做进一步优化,同类样本的相关性约束是为了缩小不同媒体间的异质性差异,即最小化正相关的媒体数据,为了利用跨媒体同类数据之间的相关性,将具有正相关性的样本之间的距离最小化,而将具有负相关性的样本之间的距离最大化。

此处采用同类样本的相关性约束条件Lcc来达到此目标。

为了方便有效,采用欧氏距离来测量损耗,该约束可表示为:

其中,是实体级的Jaccard系数,代表两种媒体数据之间的相似度。例如, 代表了图像数据和视频数据的相关性。此参数结合了语义类别标签的粗粒度特征以及实体 级空间的细粒度特征。由以下公式定义:

其中,表示图像、视频、音频和文本在实体级的标签,表示 x媒体和y媒体相应的语义别标签。

至于跨媒体的相似性,此处以矩阵来表示:

其中,是数据集U中所有样本的数量,是单个媒体内部的相似性矩阵。上述公 式中,,并且主要是为了探求不同媒 体相同子类数据的相似性,所以= 0。为了平衡正负样本的相关性影响,将进行正则化操 作,即每一行的和为 0。

是一个对角矩阵,其中,;将 定义为:

所以式可以表示为:

本实施例的其他部分与实施例1相同,故不再赘述。

实施例7:

本实施例在实施例1的基础上做进一步优化,单媒体的实体构造约束,虽然由于文本的提取的实体与其他三种媒体数据的实体形式有差异,因此采用此约束将文本提取出的实体与其他三种媒体数据相关联。

由于实体是从文本数据中提取,并未与其他三种媒体相关联。因此为了实现子类 别与实体关联的目的,此处采用实体构造约束,具体表示如下:

此处范数,此项能够确保相同媒体的数据能够与实体标签尽量靠拢。另 外,为了避免过拟合,采用正则项如下:

最终将上述三项组合为如下:

实体级高层抽象语义得到了投影矩阵之后,对于给定的低层特征,可以得到实体级公共特征空间的表示如下:

最后,采用多层logistic回归来估计每一个数据的语义标签,为了更好地提取中层实体级表示的语义特征,此处采用多分类损失函数来确保此目标的实现。

本实施例的其他部分与实施例1相同,故不再赘述。

另外的,本实施例实验运行环境可以为linux4.15.0、GeForceRTX2080Ti和CUDA10.2,实验语言可以为Python3.6。对于每个视频数据,等间隔截取了25帧图像,但是由于这些帧中含有噪声帧,在去噪之后所剩的帧数不足以代表一个视频,所以首先等间隔地从每个视频中提取出40帧图像作为视频数据,然后采用SCFR算法将噪声帧滤除。横排为各种跨媒体检索算法,竖排的I V A T分别代表图像视频音频文本特征。

首先将四种媒体类型的样本同时输入进生成器,图像、视频和音频数据同时输入进卷积神经网络,本发明中使用到的特征提取器是ResNet50网络,同时使用基于自注意力机制的文本特征提取算法处理文本数据,另外使用IllinoisWikifier的实体提取器对文本进行实体提取。将上数提取到的特征输入进实体级公共特征空间,此处使用两个约束(同类样本的相关性约束和单媒体的实体构造约束)将具有正相关的样本靠近,将负相关的样本远离,并且使用实体标签将从文本提取出的实体与其他三种媒体数据相关联。由于实体标签的稀疏性,此处采用一层维度为(2048,2048)的全连接层作为从低级特征到实体级公共特征空间的映射函数。然后通过生成器和判别器的对抗机制,从而学习实体级公共特征空间。最后,借助语义类别标签学习实体级高层抽象语义表示,从而计算跨媒体数据之间的相似度。检索时,将框架最后一个全连接层的输出作为四种媒体类型的公共语义表示形式。然后采用余弦距离来衡量不同媒体数据之间的相似度,最后根据此相似性返回检索结果。

检索任务设置双媒体细粒度跨媒体检索,查询是任何一种媒体类型的实例,而检索结果是另一种媒体类型的实例,多媒体细粒度跨媒体检索,查询是任何媒体类型的一个实例,而检索结果是所有媒体类型的数据。并根据图2和图3显示PKUFG-XMedia数据集上的双媒体检索对比和PKUFG-XMedia实验数据集上的多媒体检索对比。根据图4显示了PKUXmedia数据集上的双媒体检索对比,根据图5显示了PKUXmedia实验数据集上的多媒体检索对比,根据图6显示了Wikipedia数据集上的双媒体检索对比,根据图7显示了NUS-WIDE数据集上的双媒体检索对比,根据图8显示了媒体检索模式下每个模块的影响,根据图9显示了多媒体检索模式下每个模块的影响。

综上所示,本实施例对以往的公共特征空间语义模糊性以及未考虑到细粒度特征的问题,提出了一种基于实体级公共特征空间的细粒度跨媒体检索算法(CFFCE)。本发明所提出的方法包括三个主要阶段。(1)考虑到视频数据是对视频进行等间隔抽帧形成,抽取的视频帧包含噪声帧的特点(噪声帧即不包含目标物体的帧),在进行实体级公共特征学习之前,首先使用本发明提出的基于特征空间聚类的噪声帧滤除算法过滤不包含细粒度实体的帧图像,从而更好地学习实体级公共特征空间。(2)实体级公共特征空间学习。使用实体提取器提取文本数据中的实体,并产生相应的实体标签,由于配对好的其他媒体数据与文本具有相同语义,因此四种媒体数据共享其实体。之后利用实体标签通过最小化跨媒体的关联性约束、单媒体的实体重构约束以及媒体判别器和生成器的对抗训练可以获得实体级公共特征空间。这样在某种程度上可以减少中高层特征的模糊性并且帮助理解其语义概念。(3)高层实体级语义提取学习。为了检索属于同一高层概念的具有最高相关性的多媒体数据,使用语义类别标签进行了实体级语义抽象。最后,基于统一的语义表示,可以计算不同媒体类型的媒体数据之间的相似度,并进行跨媒体检索。在具有挑战性的1个细粒度跨媒体数据集(PKUFG-XMedia)和3个粗粒度跨媒体数据集(PKUXmedia、Wikipedia和NUS-WIDE)上做了实验,实验结果和8种经典的跨媒体算法进行了比较,展现了本发明算法的有效性。

如图2和图3所示,展示了CFFCE算法和跨媒体检索算法在PKUFG-XMedia数据集上执行12种双媒体检索任务和4种多媒体检索任务的mAP结果。因为篇幅限制,将FGCrossNet简化为FGCN。从图2可以看出,CFFCE在12种双媒体检索任务中表现出来的性能均显著优于8种跨媒体检索方法。CFFCE能将语义类别标签的粗粒度信息与实体中的细粒度信息相结合,从而更好地提取四种媒体数据的公共语义特征。

如图3所示,展示了多媒体检索模式下各算法的mAP得分,其分数走势与双媒体细粒度检索相似。CFFCE相较于其他算法都展示了其优越的性能。主要是因为:1)对视频数据采用SCFR算法进行噪声帧滤除,从而可以得到都包含目标物体即有效实体的视频帧,为后来CFFCE算法提供了前提保障。2)实体级公共特征学习。在此阶段,通过最小化跨媒体的关联性误差和单媒体的重构误差,可以学习从低层特征到实体层公共特征空间的实体映射矩阵,再由类别标签获得统一的实体层抽象语义表示。

如图4所示,展示了各种跨媒体检索算法在PKUXmedia数据集上进行双媒体检索的mAP得分。

如图5所示,展示了多媒体检索的对比结果。不同于PKUFG-XMMedia,PKUXmedia是一个粗粒度的数据集。由经验可知,在细粒度数据集上表现较好的算法在粗粒度数据集上应该也可以维持良好的性能。从图4和图3可以清晰看出,CFFCE在12个双媒体检索任务上均优于其他算法。在表3中,V→I、V→I、V→I的mAP得分相较于第二名的FGCrossNet分别提高了16.3%、10.9%、3.4%,该实验结果充分证明了视频帧滤除算法的有效性。除此之外,可以看到CFFCE算法在其他检索任务中提升也较明显,验证了实体级公共特征空间对于学习细粒度特征的性能。

如图6所示,展示了CFFCE算法及6种跨媒体检索算法在Wikipedia数据集上的mAP得分。在此非细粒度的数据集上与其他跨媒体算法比较,CFFCE的性能依旧维持最佳。不同于PKUFG-XMedia和PKUXmedia数据集,Wikipedia没有视频数据,所以不需要使用视频帧滤除操作。从图6中可以看出,CFFCE在该数据集上进行“I→T”和“T→I”检索的mAP结果相较于JRL算法提高了31.9%和34.8%,该实验结果也表明了实体级公共特征的有效性。

如图7所示,展示了CFFCE算法以及6种经典跨媒体算法在NUS-WIDE数据集上进行检索的mAP得分。与PKUXmedia和Wikipedia相同,NUS-WIDE也是粗粒度数据集。与上述所有数据集类似,CFFCE的性能维持最佳,相比于FGCrossNet和CMDN分别提高了7.4%和26.6%。因NUS-WIDE数据集与Wikipedia同样,都不包含视频数据,所以不需要使用视频帧滤除算法。实验结果也表明了CFFCE的有效性。

如图8和图9所示,是CFFCE算法在PKUFG-XMedia数据集(细粒度跨媒体数据集)上进行实验的结果,以递增的方式展示了不同部分的mAP得分。其中图8和图9的第二行展示了只有基础框架(不包含视频帧去噪和实体级提取)的检索性能。第三行展示了在基础框架上使用基于特征空间的视频帧滤除算法去除了噪声视频帧之后的mAP得分。可以看出,在添加了此去噪操作之后,所有检索任务的性能都有了明显的提高,其中T→V检索任务的提高最为明显,为32%。第四行展示了构建实体级公共特征空间之后的mAP得分。与仅使用噪声帧滤除算法的结果相比,它在很大程度上提高了检索性能。

综上所述,本发明提出的CFFCE算法有两部分,一个是基于特征空间的视频帧滤除SCRF算法,目的是为了去除每个视频中的噪声帧;另一个是基于实体级的公共特征空间的细粒度跨媒体检索算法CFFCE,对每部分的性能进行实验评估。

以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化,均落入本发明的保护范围之内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种图库图片动态处理方法、设备及计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!