一种提取视频关键帧的轻量化方法

文档序号:1878586 发布日期:2021-11-23 浏览:19次 >En<

阅读说明:本技术 一种提取视频关键帧的轻量化方法 (Lightweight method for extracting video key frames ) 是由 张烨 陈威慧 王博 闫芳彭 于 2021-07-05 设计创作,主要内容包括:一种提取视频关键帧的轻量化方法,包括:首先对视频帧化后的每一张RGB视频帧进行图像增强、去噪等预处理,然后设计轻量型的特征提取模型LRDN网络去提取每一帧的深度特征,接着采用递归的方式获取每一帧的重要性预测值,最后通过设定判断阈值去判断当前帧是属于关键帧还是冗余帧。本发明利用轻量化卷积神经网络——LRDN模型去提取经预处理后的视频帧的深度特征,与传统卷积神经网络相比,极大地降低了模型的参数数量和计算量,节约了计算资源;利用高效低耗的递归方式不断地预测每一张RGB视频帧的重要性,以摒弃冗余帧,保留有用帧。(A lightweight method for extracting video key frames comprises the following steps: firstly, preprocessing such as image enhancement and denoising is carried out on each RGB video frame after video framing, then a light-weight type feature extraction model LRDN network is designed to extract the depth feature of each frame, then an importance prediction value of each frame is obtained in a recursion mode, and finally a judgment threshold value is set to judge whether the current frame belongs to a key frame or a redundant frame. According to the method, the depth characteristics of the preprocessed video frame are extracted by using the lightweight convolutional neural network-LRDN model, so that the parameter quantity and the calculated amount of the model are greatly reduced and the calculation resources are saved compared with the traditional convolutional neural network; the importance of each RGB video frame is continuously predicted by using a high-efficiency and low-consumption recursion mode so as to abandon redundant frames and keep useful frames.)

一种提取视频关键帧的轻量化方法

技术领域

本发明涉及一种提取视频关键帧的轻量化方法。

技术背景

随着计算机的快速发展,涌现出了大量图片、音频、视频等新型数据。某种程度上视频作为图片和音频的结合体,更是成为了信息交互的主要载体。视频是渐变的且在视觉上等同于图片的密集堆叠,而并不是每一帧对于理解视频内容都是同等重要的,所以其帧与帧之间会存在有较大的信息冗余。因此,当面对大量的视频需要处理时,若能将视频的多帧信息以关键帧图像的形式呈现,将能很好地去除冗余数据产生的影响,降低模型的计算复杂度,提高模型对视频内容的识别准确性和实时性,同时极大缩短用户获取视频中有效信息的时间。

发明内容

针对上述问题,本发明提出一种提取视频关键帧的轻量化方法。

本发明首先对视频帧化后的每一张RGB视频帧进行图像增强、去噪等预处理,然后设计轻量型的特征提取模型LRDN网络去提取每一帧的深度特征,接着采用递归的方式获取每一帧的重要性预测值,最后通过设定判断阈值去判断当前帧是属于关键帧还是冗余帧。

为了实现上述目的,本发明采用以下技术方案:

一种提取视频关键帧的轻量化方法,包括如下步骤:

步骤一,视频预处理;

对输入的视频进行帧化处理,并对每一张RGB视频帧进行图像增强、去噪等预处理,以作为步骤二中LRDN模型的输入。

步骤二,特征提取;

本发明基于轻量化思想,提出了一种LRDN模型用于提取视频帧序列的空间特征。该网络的特点主要有:(1)为了提取图像中不同层次的信息,网络中采用了特征融合模块,通过将低层次与高层次的卷积核卷积得到的特征进行融合,使得网络可以提取出图像中更多的潜在信息,以此得到的图像分类结果将更为精准。(2)为了降低模型的参数数量与计算量,去除冗余信息,网络中采用了由特征压缩单元与下采样组成的过渡模块,以此提高模型的运行效率。(3)为了规避网络在训练时出现梯度消失或模型退化等问题,网络中采用了残差连接以及密集连接,通过跳跃连接,增强了网络中的特征复用,加强了特征在网络中的流通,提高了网络的可训练性。

LRDN模型以预处理后的RGB视频帧为输入,其主要通过浅层特征提取模块以及深层特征提取模块完成对输入视频帧的特征提取。

(一)浅层特征提取;

网络中输入的图像用Fin表示,通过1层标准卷积和1层改进的深度可分离卷积将图像中的浅层特征提取出来。先通过一层标准卷积把输入的特征进行收缩,其中标准卷积层所用的卷积核大小为3×3,步长为2,输出特征图个数为4k。其中超参数k为网络增长率,在密集连接网络中经过串联操作后每一层的特征通道数都是按k的数值大小增加的,这也是k被称为增长率的原因所在。该层卷积操作提取到的特征F-1将用于下一层卷积层更进一步地提取浅层特征。F-1可以通过式(1)得到:

F-1=HB(Fin) (1)

其中,HB(·)表示第一层卷积层所对应的标准卷积操作。

得到第一层浅层特征F-1之后,将该特征通过1层改进的深度可分离卷积得到浅层特征F0。与标准卷积相比,深度可分离卷积能够大幅度降低模型的参数量和计算量、减少计算所需的内存,但此操作又会使得模型损失少许的精度,为此,本发明对传统深度可分离卷积进行了改进,用以提取第二层浅层特征F0。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。因为深度卷积的计算特性决定了它本身没有改变通道数的能力,上一层给它多少通道,它就只能输出多少通道。所以如果上一层给的通道数很少,那么深度卷积也只能在低维空间提取特征,由此导致特征提取效果欠佳。而在每个深度卷积之前都配备一层逐点卷积,专门用以升维,则不管输入通道数是多还是少,经过第一个逐点卷积升维之后,深度卷积都将在相对的更高的维度进行特征提取。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。因为ReLU函数在高维空间能够有效地增加非线性特征,而在低维空间时则会破坏特征,即ReLU会对通道数低的张量造成较大的信息损耗。ReLU会将负值置零,通道数较低时会有相对高的概率使得某一维度的张量值全为0,这等同于减小了张量的维度,而且这一过程无法恢复。张量维度的减小即意味着特征描述容量的下降,导致其效果不如线性变换。由于第二个逐点卷积的主要作用就是降维,由此可知降维之后就不宜再使用ReLU。

本发明用于1×1卷积“扩张”层的扩张系数为6,深度卷积的卷积核大小为3×3,步长为1,输出特征图个数为64,则F0作为深层特征提取、融合阶段的输入,可以通过式(2)得到:

F0=HS(F-1) (2)

其中,HS(·)表示第二层卷积层所对应的深度可分离卷积操作。

(二)深层特征提取;

对于LRDN模型,深层特征提取模块是该网络模型的核心部分,其主要是由LRDB组成,而LRDB包含一个密集块、一个过渡块以及一个残差连接。

LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合。其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率。当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加。此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序。

假设LRDN中第一个LRDB的第一层输出为x1,则其特征处理表达如下:

其中,为第一层1×1Conv的卷积核;为第一层3×3Conv的卷积核;σ表示非线性激活函数ReLU函数;[·]表示特征融合函数;浅层特征F0为第一个LRDB的输入。

第二层的输出x2为:

其中,为第二层1×1Conv的卷积核;为第二层3×3Conv的卷积核。

以此类推,最后一层的输出为:

由于LRDB中每层卷积提取到的特征都属于不同层次的特征,而在视频帧图像的识别过程中如果能够充分地利用从低层次图像中提取到的特征,则可使得高层次图像包含的信息更全面,识别结果更精准,因此在LRDB中将每层复合卷积后得到的特征通过拼接操作进行特征融合,即有:

其中,表示第一个密集块的输出;[x1,...,x24,F0]表示对x1,...,x24,F0特征通过拼接操作进行特征融合。由于每层复合卷积输出的特征图个数均为k,且浅层特征F0的特征图个数为64,所以经过特征融合后的特征图个数为(64+24k)。

由于(64+24k)个特征图中包含有一定量的冗余信息,因此为了消除冗余信息以获取更精细的特征,同时为了降低网络训练的计算复杂度,将这(64+24k)个特征图通过一个结构由卷积核数量为4k、大小为1×1的卷积以及尺寸为2×2的平均池化组成的过渡块,使得(64+24k)个特征图转换为4k个特征图,获得融合后更精细的特征。对于过渡块,其作用主要是对来自密集块的输入进行下采样操作,降低特征图大小。

假设复合函数HT为代表BN,ReLU,1×1Conv及2×2Avg.Pooling顺序组合的非线性转化函数,则有:

其中表示由连接第一个LRDB的过渡块处理后得到的特征。

为了更好地获取学习低层次图像与高层次图像之间的映射关系以及更进一步提升网络的性能,LRDB在浅层特征F0与深层特征之间加入了残差连接,具体处理过程如下:

其中,F1表示第一个LRDB的输出;HP(·)表示平均池化函数。

为了解决特征图的尺寸不一致的问题,本发明在式(8)的逐元素求和时在跳跃连接中施加了进一步的下采样操作,因此HP(·)是平均池化函数而不是传统残差网络中使用的恒等映射。此外,因为HP(·)是非线性函数,因此不会导致有关图像原始状态的信息丢失的问题,如此,下一个LRDB的输入是包含原始数据的降采样版本。

如法炮制可得到LRDN中后续第i个LRDB的输出Fi,i∈[2,n-1]。因为LRDN将对提取到的深层特征Fn进行全局平均池化处理,用以网络模型后续部分的行为动作分类,所以本发明对LRDN中的最后一个LRDB做出了调整,在得到第n个密集块的输出后,利用1×1Conv对之前的特征进行压缩、整理,然后在深层特征Fn-1与压缩后的特征之间加入了残差连接,具体处理如下:

其中,Fn表示第n个LRDB融合后的深层特征;W1×1表示1×1卷积核;b表示偏置。

在得到深层特征Fn后,采用全局平均池化和全连接层聚合输出特征图,以减少参数数量和计算量。

步骤三,视频关键帧提取;

首先,利用步骤一获得的每一帧视频帧图像xj的深度特征τ(xj),利用递归的方式对相应的帧进行重要性预测,有:

Aj=fimp[ε(X,j-1),τ(xj)] (10)

其中,Aj表示第j张视频帧的重要性预测值,该值越大,表明该帧的重要性越大;fimp(·)表示预测函数;ε(X,j-1)表示从第0帧到第(j-1)帧的总特征,即表示对前(j-1)张视频帧特征的加和操作。

随后,为了更好地预测每一张视频帧的重要性,在关键帧提取模块中引入如式(12)所示的损失函数,以进行当前帧与下一帧之间的差异性比较,从而更高效地摒除冗余帧,保留有用帧,提高模型的鲁棒性。

L(X,y)=LCE(X,y)+μLν(V),μ≥0 (12)

其中,LCE(X,y)表示预测值和真实值之间的标准交叉熵损失函数;μ为平衡参数,其能够平衡所选择的视频帧数量,进一步优化关键帧的选择;(Aq≥0,)表示基于熵的正则化项,其能有效防止过拟合的出现。

最后,通过设定判断阈值去判断当前帧是属于关键帧还是冗余帧。

本发明的优点是:

本发明基于轻量型特征提取模型LRDN网络和递归方式,提出了一种提取视频关键帧的轻量化方法。其突出特点有:其一,利用轻量化卷积神经网络——LRDN模型去提取经预处理后的视频帧的深度特征,与传统卷积神经网络相比,极大地降低了模型的参数数量和计算量,节约了计算资源。其二,利用高效低耗的递归方式不断地预测每一张RGB视频帧的重要性,以摒弃冗余帧,保留有用帧。

附图说明

图1是本发明的技术路线图;

图2是本发明的密集块中每一层卷积内的具体操作流程图;

具体实施方式

为了验证本发明提出的方法的可行性和优越性,现结合应用场景对本发明做进一步的阐述:

一种提取视频关键帧的轻量化方法,包括如下步骤:

步骤一,视频预处理;

对输入的视频进行帧化处理,并对每一张RGB视频帧进行图像增强、去噪等预处理,以作为步骤二中LRDN模型的输入。

步骤二,特征提取;

本发明基于轻量化思想,提出了一种LRDN模型用于提取视频帧序列的空间特征。该网络的特点主要有:(1)为了提取图像中不同层次的信息,网络中采用了特征融合模块,通过将低层次与高层次的卷积核卷积得到的特征进行融合,使得网络可以提取出图像中更多的潜在信息,以此得到的图像分类结果将更为精准。(2)为了降低模型的参数数量与计算量,去除冗余信息,网络中采用了由特征压缩单元与下采样组成的过渡模块,以此提高模型的运行效率。(3)为了规避网络在训练时出现梯度消失或模型退化等问题,网络中采用了残差连接以及密集连接,通过跳跃连接,增强了网络中的特征复用,加强了特征在网络中的流通,提高了网络的可训练性。

LRDN模型以预处理后的RGB视频帧为输入,其主要通过浅层特征提取模块以及深层特征提取模块完成对输入视频帧的特征提取。

(一)浅层特征提取;

网络中输入的图像用Fin表示,通过1层标准卷积和1层改进的深度可分离卷积将图像中的浅层特征提取出来。先通过一层标准卷积把输入的特征进行收缩,其中标准卷积层所用的卷积核大小为3×3,步长为2,输出特征图个数为4k。其中超参数k为网络增长率,在密集连接网络中经过串联操作后每一层的特征通道数都是按k的数值大小增加的,这也是k被称为增长率的原因所在。该层卷积操作提取到的特征F-1将用于下一层卷积层更进一步地提取浅层特征。F-1可以通过式(1)得到:

F-1=HB(Fin) (1)

其中,HB(·)表示第一层卷积层所对应的标准卷积操作。

得到第一层浅层特征F-1之后,将该特征通过1层改进的深度可分离卷积得到浅层特征F0。与标准卷积相比,深度可分离卷积能够大幅度降低模型的参数量和计算量、减少计算所需的内存,但此操作又会使得模型损失少许的精度,为此,本发明对传统深度可分离卷积进行了改进,用以提取第二层浅层特征F0。其中,本发明对传统深度可分离卷积操作的改进有:第一,在深度卷积前增加一层1×1卷积的“扩张”层,目的是为了提升通道数,获得更多特征。因为深度卷积的计算特性决定了它本身没有改变通道数的能力,上一层给它多少通道,它就只能输出多少通道。所以如果上一层给的通道数很少,那么深度卷积也只能在低维空间提取特征,由此导致特征提取效果欠佳。而在每个深度卷积之前都配备一层逐点卷积,专门用以升维,则不管输入通道数是多还是少,经过第一个逐点卷积升维之后,深度卷积都将在相对的更高的维度进行特征提取。第二,最后不采用ReLU激活函数,而是直接线性输出,目的是防止ReLU破坏特征。因为ReLU函数在高维空间能够有效地增加非线性特征,而在低维空间时则会破坏特征,即ReLU会对通道数低的张量造成较大的信息损耗。ReLU会将负值置零,通道数较低时会有相对高的概率使得某一维度的张量值全为0,这等同于减小了张量的维度,而且这一过程无法恢复。张量维度的减小即意味着特征描述容量的下降,导致其效果不如线性变换。由于第二个逐点卷积的主要作用就是降维,由此可知降维之后就不宜再使用ReLU。

本发明用于1×1卷积“扩张”层的扩张系数为6,深度卷积的卷积核大小为3×3,步长为1,输出特征图个数为64,则F0作为深层特征提取、融合阶段的输入,可以通过式(2)得到:

F0=HS(F-1) (2)

其中,HS(·)表示第二层卷积层所对应的深度可分离卷积操作。

(二)深层特征提取;

对于LRDN模型,深层特征提取模块是该网络模型的核心部分,其主要是由LRDB组成,而LRDB包含一个密集块、一个过渡块以及一个残差连接。

LRDN中的密集块由24层卷积层密集连接而成,且每一层的非线性组合函数为BN+ReLU+1×1Conv+BN+ReLU+3×3Conv的组合。其中,1×1Conv在这里的作用是固定输出通道数,将输出的特征图个数降低为4k,达到降维的目的,从而提升计算效率。当网络中的十几个1×1Conv+3×3Conv的复合卷积相连接时,串联后的特征通道数会增加到上千,如果不增加1×1Conv来降维,那么后续3×3Conv所需的参数量会急剧增加。此外,因LRDB中包含有残差连接,故在密集块中采用了预激活设计,即激活函数在前、卷积层在后的BN-ReLU-Conv的顺序。

假设LRDN中第一个LRDB的第一层输出为x1,则其特征处理表达如下:

其中,为第一层1×1Conv的卷积核;为第一层3×3Conv的卷积核;σ表示非线性激活函数ReLU函数;[·]表示特征融合函数;浅层特征F0为第一个LRDB的输入。

第二层的输出x2为:

其中,为第二层1×1Conv的卷积核;为第二层3×3Conv的卷积核。

以此类推,最后一层的输出为:

由于LRDB中每层卷积提取到的特征都属于不同层次的特征,而在视频帧图像的识别过程中如果能够充分地利用从低层次图像中提取到的特征,则可使得高层次图像包含的信息更全面,识别结果更精准,因此在LRDB中将每层复合卷积后得到的特征通过拼接操作进行特征融合,即有:

其中,表示第一个密集块的输出;[x1,...,x24,F0]表示对x1,...,x24,F0特征通过拼接操作进行特征融合。由于每层复合卷积输出的特征图个数均为k,且浅层特征F0的特征图个数为64,所以经过特征融合后的特征图个数为(64+24k)。

由于(64+24k)个特征图中包含有一定量的冗余信息,因此为了消除冗余信息以获取更精细的特征,同时为了降低网络训练的计算复杂度,将这(64+24k)个特征图通过一个结构由卷积核数量为4k、大小为1×1的卷积以及尺寸为2×2的平均池化组成的过渡块,使得(64+24k)个特征图转换为4k个特征图,获得融合后更精细的特征。对于过渡块,其作用主要是对来自密集块的输入进行下采样操作,降低特征图大小。

假设复合函数HT为代表BN,ReLU,1×1Conv及2×2Avg.Pooling顺序组合的非线性转化函数,则有:

其中表示由连接第一个LRDB的过渡块处理后得到的特征。

为了更好地获取学习低层次图像与高层次图像之间的映射关系以及更进一步提升网络的性能,LRDB在浅层特征F0与深层特征之间加入了残差连接,具体处理过程如下:

其中,F1表示第一个LRDB的输出;HP(·)表示平均池化函数。

为了解决特征图的尺寸不一致的问题,本发明在式(8)的逐元素求和时在跳跃连接中施加了进一步的下采样操作,因此HP(·)是平均池化函数而不是传统残差网络中使用的恒等映射。此外,因为HP(·)是非线性函数,因此不会导致有关图像原始状态的信息丢失的问题,如此,下一个LRDB的输入是包含原始数据的降采样版本。

如法炮制可得到LRDN中后续第i个LRDB的输出Fi,i∈[2,n-1]。因为LRDN将对提取到的深层特征Fn进行全局平均池化处理,用以网络模型后续部分的行为动作分类,所以本发明对LRDN中的最后一个LRDB做出了调整,在得到第n个密集块的输出后,利用1×1Conv对之前的特征进行压缩、整理,然后在深层特征Fn-1与压缩后的特征之间加入了残差连接,具体处理如下:

其中,Fn表示第n个LRDB融合后的深层特征;W1×1表示1×1卷积核;b表示偏置。

在得到深层特征Fn后,采用全局平均池化和全连接层聚合输出特征图,以减少参数数量和计算量。

步骤三,视频关键帧提取;

首先,利用步骤一获得的每一帧视频帧图像xj的深度特征τ(xj),利用递归的方式对相应的帧进行重要性预测,有:

Aj=fimp[ε(X,j-1),τ(xj)] (10)

其中,Aj表示第j张视频帧的重要性预测值,该值越大,表明该帧的重要性越大;fimp(·)表示预测函数;ε(X,j-1)表示从第0帧到第(j-1)帧的总特征,即表示对前(j-1)张视频帧特征的加和操作。

随后,为了更好地预测每一张视频帧的重要性,在关键帧提取模块中引入如式(12)所示的损失函数,以进行当前帧与下一帧之间的差异性比较,从而更高效地摒除冗余帧,保留有用帧,提高模型的鲁棒性。

L(X,y)=LCE(X,y)+μLν(V),μ≥0 (12)

其中,LCE(X,y)表示预测值和真实值之间的标准交叉熵损失函数;μ为平衡参数,其能够平衡所选择的视频帧数量,进一步优化关键帧的选择;(Aq≥0,)表示基于熵的正则化项,其能有效防止过拟合的出现。最后,通过设定判断阈值去判断当前帧是属于关键帧还是冗余帧。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种多媒体播放方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类