视频特征提取方法及应用该方法的视频量化方法

文档序号:987774 发布日期:2020-11-06 浏览:1次 >En<

阅读说明:本技术 视频特征提取方法及应用该方法的视频量化方法 (Video feature extraction method and video quantization method applying same ) 是由 宋井宽 郎睿敏 朱筱苏 高联丽 于 2020-08-04 设计创作,主要内容包括:本发明涉及计算机视觉技术领域,尤其涉及视频特征提取方法及应用该方法的视频量化方法,提供了一种视频特征提取方法,以解决有效获得包含丰富上下文信息的视频特征的技术问题,同时提供了一种应用上述视频特征提取方法的视频量化方法。视频特征提取方法包括:从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。(The invention relates to the technical field of computer vision, in particular to a video feature extraction method and a video quantization method applying the same, provides a video feature extraction method, aims to solve the technical problem of effectively obtaining video features containing abundant context information, and simultaneously provides a video quantization method applying the video feature extraction method. The video feature extraction method comprises the following steps: extracting original visual features from a target video and constructing an original feature matrix, wherein the original feature matrix comprises spatial information of each frame of sampling image and time sequence information between each frame of sampling image; generating a sampling image space attention heat map and a sampling image time sequence attention heat map according to the original characteristic matrix; and adding and fusing the original characteristic matrix, the sampling image space attention heat map and the sampling image time sequence attention heat map to obtain a target characteristic matrix.)

视频特征提取方法及应用该方法的视频量化方法

技术领域

本发明涉及计算机视觉技术领域,尤其涉及视频特征提取方法及应用该方法的视频量化方法。

背景技术

视频检索是计算机视觉中的一个基础又富有挑战性的问题,其目的是从海量的视频库中检索出与输入视频最相似的视频。而无监督的视频量化检索则是通过将原始无标签的视频的视觉特征压缩成紧凑的二进制码来实现视频的快速检索。

目前已知的一种无监督的视频量化检索方法是先使用卷积神经网络提取视频每帧图片的视觉特征信息,再使用循环神经网络处理这些帧的特征得到视频特征,然后使用哈希算法将特征信息压缩至极短的二进制编码,以此缩减数据库体积,加快检索速度。

上述方法存在两方面问题。第一,通过卷积神经网络和循环神经网络的方式难以获取长时间范围的信息,因此难以保留视频的上下文信息,无法获取更好的视频特征。第二,在大规模的视频库下,视频特征十分复杂,哈希算法难以获得好的准确率。

发明创造内容

本发明所要解决的技术问题是:提供一种视频特征提取方法,以解决有效获得包含丰富上下文信息的视频特征的技术问题,以及提供一种应用上述视频特征提取方法的视频量化方法。

本发明解决上述技术问题所采用的技术方案是:一种视频特征提取方法,包括:从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。

根据本说明书提供的实施例,根据原始特征矩阵生成采样图像空间注意力热度图包括:根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图;和根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图。

根据本说明书提供的实施例,根据原始特征矩阵生成采样图像时序注意力热度图包括:根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图。

根据本说明书提供的实施例,若设目标视频的原始特征矩阵Oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数。则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一行的其他所有像素点之间信息依赖关系的行维度注意力热度图包括:将原始特征矩阵重塑为{T′×h}×w×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×h}×w×c的特征矩阵rθ,rρ,rγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵rθ,rρ,rγ按公式进行运算,得到行维度注意力热度图r,其中

Figure BDA0002616877480000022

是特征矩阵rγ的转置矩阵。

根据本说明书提供的实施例,若设目标视频的原始特征矩阵Oi∈RT′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数,则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一列的其他所有像素点之间信息依赖关系的列维度注意力热度图包括:将原始特征矩阵重塑为{T′×w}×h×c;分别采用三个尺寸为c*1*1的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×w}×h×c的三个特征矩阵cθ,cρ,cγ,其中c*1*1为通道数*高度*宽度;将所述三个特征矩阵cθ,cρ,cγ按公式进行运算,得到列维度注意力热度图c,其中为特征矩阵cγ的转置矩阵。

根据本说明书提供的实施例创造的实施例,若设目标视频的原始特征矩阵Oi∈RT ′×h×w×c,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数,则,根据原始特征矩阵生成表示每帧采样图像中每个像素点和与该像素点处于同一时序的其他所有像素点之间信息依赖关系的时序维度注意力热度图包括:将原始特征矩阵重塑为{w×h}×T′×c;分别采用三个1*1的卷积核对重塑后的矩阵进行卷积操作,得到维度均为{w×h}×T′×c的三个特征矩阵tθ,tρ,tγ;将所述三个特征矩阵tθ,tρ,tγ按公式

Figure BDA0002616877480000026

进行运算,得到时序维度注意力热度图t,其中为特征矩阵tγ的转置矩阵。

为了实现上述目的,根据本说明书提供的实施例创造的一个方面,提供了一种视频量化方法。该方法包括:根据上述任意一种视频特征提取方法得到目标特征矩阵;将目标特征矩阵转变为代表目标视频的特征向量;以及将特征向量压缩成二进制编码实现视频量化。

根据本说明书提供的实施例创造的实施例,将目标特征矩阵转变为代表目标视频的特征向量包括:分别将行维度注意力热度图r,列维度注意力热度图c,时序维度注意力热度图t重塑为T′×h×w×c;然后将重塑后的行维度注意力热度图矩阵r、列维度注意力热度图c和时序维度注意力热度图t与原始特征矩阵Oi相加,从而得到融合三维注意力的特征矩阵O′i,其维度与原始特征矩阵Oi一致;此后,将融合三维注意力的特征矩阵O′i作为输入,输入到三维自注意力模块,经过上述计算得到经过两次融合三维注意力的特征矩阵O″i,其维度与原始特征矩阵O′i一致,维度均为T′×h×w×c;最后,对经过两次融合三维注意力的特征矩阵O″i,分别在T′、h、w维度上进行全局平均池化操作,从而得到最后的特征矩阵,其维度为1×1×1×c,即c维的特征向量;取c=D,即得到后续的D维长度的特征向量x。

根据本说明书提供的实施例创造的实施例,将特征向量压缩成二进制编码实现视频量化包括将特征向量输入渐进式特征量化网络然后从该渐进式特征量化网络输出所述二进制编码的过程,其中,所述渐进式特征量化网络包含多个量化层,若设所述特征向量为一个D维长度的特征向量x,则每一个量化层包含具有M个D维码字的码本,所述码本中每一个码字对应有相应的索引;当渐进式特征量化网络中任意一个量化层接收到输入向量后,由该量化层计算输入向量与所在量化层的码本中各个码字之间的距离d,从而得到由M个距离组成的距离向量D,此后再将该距离向量D通过归一化指数函数后得到归一化距离向量P,然后提取该归一化距离向量P中最大值所对应的码字的索引作为第一输出,并将输入向量与使用归一化距离向量P对量化层的码本中各个码字进行加权求和得到的输入向量近似值的差值即量化层量化误差作为第二输出;将渐进式特征量化网络中各个量化层的第一输出进行连接得到所述二进制编码,将各个量化层的第二输出作为输出第二输出的量化层的下一个量化层的输入向量,将所述特征向量x作为渐进式特征量化网络中第一个量化层的输入向量。

根据本说明书提供的实施例创造的实施例,所述渐进式特征量化网络的每个量化层的码本中包含256个码字,则每个量化层的第一输出为8位二进制编码。

根据本说明书提供的实施例创造的实施例,所述渐进式特征量化网络包含四个量化层,则将渐进式特征量化网络中四个量化层的第一输出进行连接得到所述二进制编码为32位二进制编码。

上述视频特征提取方法可有效获得包含丰富上下文信息的视频特征。在此基础上,可通过设计的渐进式特征量化网络实现对视频高效、准确量化,进而实现对视频的快速检索。

下面结合附图和具体实施方式对本说明书提供的实施例创造的实施例做进一步的说明。本说明书提供的实施例创造附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本说明书提供的实施例创造的实践了解到。

具体实施方式

对本说明书提供的实施例创造的实施例做进一步的说明。本说明书提供的实施例创造附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本说明书提供的实施例创造的实践了解到。

附图说明

构成本说明书一部分的附图用来辅助对本说明书提供的实施例创造的理解,附图中所提供的内容及其在本说明书提供的实施例创造有关的说明可用于解释本说明书提供的实施例创造,但不构成对本说明书提供的实施例创造的不当限定。在附图中:

图1为本说明书提供的视频量化方法的实施例的整体框架图。

图2为本说明书提供的视频量化方法的实施例的三维自注意力模块结构图。

具体实施方式

下面结合附图对本说明书提供的实施例创造进行清楚、完整的说明。本领域普通技术人员在基于这些说明的情况下将能够实现本说明书提供的实施例创造。在结合附图对本说明书提供的实施例创造进行说明前,需要特别指出的是:

本说明书提供的实施例创造中在包括下述说明在内的各部分中所提供的技术方案、技术特征,在不冲突的情况下,这些技术方案、技术特征可以相互组合。

此外,下述说明中涉及到的本说明书提供的实施例创造的实施例通常仅是本说明书提供的实施例创造的一分部实施例而不是全部实施例,因此,基于本说明书提供的实施例创造的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本说明书提供的实施例创造保护的范围。

关于本说明书提供的实施例创造中术语和单位:本说明书提供的实施例创造的说明书和权利要求书及有关的部分中的术语“包括”、“包含”、“具有”以及它们的任何变形,意图在于覆盖不排他的包含。此外,本说明书提供的实施例创造中的其他相关术语和单位,均可基于本说明书提供的实施例创造的相关内容得到合理的解释。

图1为本说明书提供的视频量化方法的整体框架图。图2为本说明书提供的视频量化方法的实施例的三维自注意力模块结构图。结合图1-2所示,视频量化方法包括视频特征提取和视频量化两部分。在视频特征提取部分中,采取了基于三维自注意力机制的视频特征提取模块同时获取视频的时间信息和空间信息。在视频量化两部分中,采用一个基于梯度下降的渐进式的量化算法来量化整个视频的视觉特征。

一、视频特征提取

视频特征提取包括:从目标视频中提取原始视觉特征并构建原始特征矩阵,所述原始特征矩阵包含每帧采样图像的空间信息和每帧采样图像之间的时序信息;根据原始特征矩阵生成采样图像空间注意力热度图和采样图像时序注意力热度图;以及将原始特征矩阵、采样图像空间注意力热度图、采样图像时序注意力热度图相加融合得到目标特征矩阵。

在一个实施例中,采用深度的卷积神经网络提取到整个视频库的原始特征V∈{0,1,…,255}N×T×H×W×C,其中包含N个视频,每个视频有高度为H,宽度为W,通道数为C的T帧图像。对每个视频采用统一的采样策略,这里本实施例是等间隔的对每个视频提取T′=25帧图像。因此,本实施例可以得到一个精简特征集合F∈{0,1,…,255}N×T′×H×W×C。这些特征矩阵主要就是包含两个方面的信息:1)每帧图像的空间信息,这种信息可能是形状,位置甚至语义的信息。2)帧与帧之间的时序信息,比如动作等信息。这两方面的信息是高度相关的。因此,本实施例设计了基于三维自注意力机制的特征模块,针对每个像素点分别从时序和空间两个方面得到注意力热度图。这个过程可以被解释为计算每个其他相邻像素点对当前这个确定的像素点的影响。针对某一个像素点来说,每经过一次三维的自注意力机制,就计算得到了和这个像素点处于同一行同一列并且同一时序的其他所有像素点之间的信息依赖关系。因此,本实施例采用了循环这个三维自注意力机制的策略,来获取全局的信息。具体对一个像素点来说,就是通过两次的三维自注意力迭代,计算得到了所有其他像素点和它的关系。

在实现这样的三维自注意力机制模块时,本实施例采用了三个独立的注意力操作,分别从三个方向即行,列,时序。以行的方向举例来说,以每个视频的原始特征矩阵Oi∈RT′×h×w×c作为输入,其中h为视频每帧图像的高度、w为视频每帧图像的宽度、c为视频每帧图像的通道数、T′为采样图像帧数。首先,本实施例将这个特征矩阵重塑为{T′×h}×w×c并且采用三个尺寸为c*1*1(通道数*高度*宽度)的卷积核进行卷积操作,得到同一维度的三个特征矩阵rθ,rρ,rγ。紧接着将rρ和rγ的转置

Figure BDA0002616877480000051

矩阵相乘,再将得到的结果经过softmax函数,最后与rθ进行点乘,得到行维度注意力热度图r,其中是特征矩阵rγ的转置矩阵。上述的操作可以总结为下面的公式:

在列方向的注意力是对{T′×w}×h×c维度的特征矩阵进行上述类似的操作。即将原始特征矩阵重塑为{T′×w}×h×c;分别采用三个尺寸为c*1*1(通道数*高度*宽度)的卷积核对重塑后的矩阵进行卷积操作,得到三个维度均为{T′×w}×h×c的三个特征矩阵cθ,cρ,cγ;将所述三个特征矩阵cθ,cρ,cγ按公式

Figure BDA0002616877480000063

进行运算,得到列维度注意力热度图c,其中为特征矩阵cγ的转置矩阵。

时序方向的注意力是对{w×h}×T′×c维度的特征矩阵进行上述类似的操作。即将原始特征矩阵重塑为{w×h}×T′×c;分别采用三个1*1的卷积核对重塑后的矩阵进行卷积操作,得到维度均为{w×h}×T′×c的三个特征矩阵tθ,tρ,tγ;将所述三个特征矩阵tθ,tρ,tγ按公式进行运算,得到时序维度注意力热度图t,其中为特征矩阵tγ的转置矩阵。

最后将行维度注意力热度图r(矩阵)、列维度注意力热度图c(矩阵)、时序维度注意力热度图t(矩阵)和原始的特征矩阵相加融合得到最后的特征矩阵。

经过两次的三维自注意力模块,将得到的融合三维注意力的特征矩阵进行平均,就得到了代表每一个视频的D维长度的特征向量x,作为量化模块的输入。

具体而言,如图2所示,分别将行维度注意力热度图r,列维度注意力热度图c,时序维度注意力热度图t重塑为T′×h×w×c;然后将重塑后的行维度注意力热度图矩阵r、列维度注意力热度图c和时序维度注意力热度图t与原始特征矩阵Oi相加,从而得到融合三维注意力的特征矩阵O′i,其维度与原始特征矩阵Oi一样;此后,将融合三维注意力的特征矩阵O′i作为输入,输入到三维自注意力模块,经过上述计算得到经过两次融合三维注意力的特征矩阵O″i,其维度与原始特征矩阵O′i一样,维度均为T′×h×w×c;最后对于经过两次融合三维注意力的特征矩阵O″i,分别在T′、h、w维度上进行全局平均池化操作,从而得到最后的特征矩阵,其维度为1×1×1×c,即c维的特征向量,这里我们取c=D,即得到后续的D维长度的特征向量x。

二、视频量化

视频量化包括将特征向量压缩成二进制编码实现视频量化。在一个实施例中,将特征向量压缩成二进制编码实现视频量化包括将特征向量输入渐进式特征量化网络然后从该渐进式特征量化网络输出所述二进制编码的过程,其中,所述渐进式特征量化网络包含多个量化层,若设所述特征向量为一个D维长度的特征向量x,则每一个量化层包含具有M个D维码字的码本,所述码本中每一个码字对应有相应的索引;当渐进式特征量化网络中任意一个量化层接收到输入向量后,由该量化层计算输入向量与所在量化层的码本中各个码字之间的距离d,从而得到由M个距离组成的距离向量D,此后再将该距离向量D通过归一化指数函数(softmax函数)后得到归一化距离向量P,然后提取该归一化距离向量P中最大值所对应的码字的索引作为第一输出,并将输入向量与使用归一化距离向量P对量化层的码本中各个码字进行加权求和得到的输入向量近似值的差值即量化层量化误差作为第二输出;将渐进式特征量化网络中各个量化层的第一输出进行连接得到所述二进制编码,将各个量化层的第二输出作为输出第二输出的量化层的下一个量化层的输入向量,将所述特征向量x作为渐进式特征量化网络中第一个量化层的输入向量。

这样,每一个量化层向下一个量化层输出的是这个量化层(前一个量化层)的量化误差,而这一误差作为下一量化层的输入,就能使这个误差通过量化进一步缩小,这几层量化的输出就能逐步逼近特征向量x。当本实施例需要的量化精度不高时,本实施例只使用第一层的量化编码,当量化精度要求提高,本实施例就使用第一层加第二层的量化编码。随着量化层数逐步增加,量化的精度也就逐步提高,体现了渐进的过程。

在一个实施例中,所述渐进式特征量化网络的每个量化层的码本中包含256个码字,每个量化层的第一输出为8位二进制编码。同时,所述渐进式特征量化网络包含四个量化层,则将渐进式特征量化网络中四个量化层的第一输出进行连接得到所述二进制编码为32位二进制编码。

上述实施例的技术效果在于:

1)本实施例设计了一个新颖的三维自注意力模块,同时获取时间和空间的上下文信息。原始特征矩阵经过一次三维自主力模块后,对于每一个像素点来说,只计算了和该像素点位于同一行的其他像素点,和该像素点位于同一列的其他像素点以及和该像素点位于同一时序的其他像素点对于该像素点的关系热度。此时将经过一次三维自注意力模块得到的融合了三维自注意力的特征矩阵再一次输入三维自注意力模块,这样针对具体某一个像素点便可以得到所有其他的像素点和该像素点的关系,也就是更加全局的信息。

2)首次将量化算法引入到了视频检索任务上,采用了一种精心设计的基于梯度下降的深度量化算法,将视频特征量化到了极短的二进制编码,并且实现了一种渐进式的量化方法。

3)大量实验结果表明,本实施例提出的基于三维自注意力机制的视频量化方法优于当前最新的视频哈希算法,尤其是在具有挑战性的FCVID数据集上。在FCVID数据集上,采用64位长度的编码实验结果,本实施例的[email protected]指标达到了51.1%,比已有的最好的方法的同一指标(45%)高出了6.1个点。

以上对本说明书提供的实施例创造的有关内容进行了说明。本领域普通技术人员在基于这些说明的情况下将能够实现本说明书提供的实施例创造。基于本说明书提供的实施例创造的上述内容,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应当属于本说明书提供的实施例创造保护的范围。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:话题标签推荐方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!