一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法

文档序号:956300 发布日期:2020-10-30 浏览:14次 >En<

阅读说明:本技术 一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法 (Video image compression artifact removing method combining motion compensation and generation type countermeasure network ) 是由 陈卫刚 盛浩杰 于 2020-07-09 设计创作,主要内容包括:本发明公开了一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,基于运动补偿,以与当前解码帧间隔最小的帧内编码帧为参考图像,采用图像块扫描的形式处理当前解码帧从而形成一幅运动补偿图像;以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像,将当前解码帧图像、运动补偿图像和预测图像堆叠成一个三阶张量作为后续用于图像融合的深度卷积神经网络的输入,由深度卷积神经网络映射产生比当前解码图像具有更好视觉质量的输出图像,即去除压缩伪影后的图像。(The invention discloses a video image compression artifact removing method combining motion compensation and generation type countermeasure network, based on motion compensation, taking an intra-frame coding frame with minimum interval with a current decoding frame as a reference image, and processing the current decoding frame in the form of image block scanning to form a motion compensation image; and generating a predicted image by using a generation network in a generation countermeasure network trained in advance, stacking the current decoding frame image, the motion compensation image and the predicted image into a third-order tensor as the input of a subsequent depth convolution neural network for image fusion, and generating an output image with better visual quality than the current decoding image by mapping of the depth convolution neural network, namely the image after removing the compressed artifact.)

一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去 除方法

技术领域

本发明涉及计算机视觉领域,尤其涉及一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。

背景技术

有损图像或视频压缩中的量化运算是一个多对一的映射过程,在低码率编码时,解码端还原的图像与未经压缩的原始图像存在较大的差异。这种由于量化和反量化操作所引入的重建数据和原始数据之间的误差即为量化噪声,在解码图像或视频中将表现为块状、环状等伪影。

在解码端采用后处理算法抑制量化噪声、提升解码图像或视频的视觉质量,因其实施方便、成本低廉受到业界的广泛关注。随着深度学习在基于图像的超分辨率分析、去噪等各个领域取得极大的成功,启发了人们将其应用于图像压缩伪影去除。Jae Woong Soh等人在期刊IEEE Access发表的论文“Reduction of Video Compression Artifacts Basedon Deep Temporal Networks”提出了一种包含三个分支的时域网络,实验表明相比于通常的伪影抑制网络,该网络能获得0.23dB的PSNR增益;Zhenyu Guan等人在期刊IEEETransactions on Pattern Analysis and Machine Intelligence发表的论文“MFQE 2.0:A New Approach for Multi-frame Quality Enhancement on Compressed Video”提出利用相邻的质量较好的帧来辅助质量较差的帧提升视觉质量,并且提出了一种基于双向长短时记忆网络的无参考图像视觉质量评估方法。

本发明提供一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,基于运动补偿,以与当前帧间隔最小的帧内编码帧为参考图像,采用块匹配运动估计算法形成一幅运动补偿图像;以经预先训练的生成式对抗网络中的生成网络产生一幅预测图像,将上述两幅预测图像和当前解码图像堆叠成一个张量作为后续用于图像融合的深度卷积神经网络的输入,由该网络映射产生比当前解码图像具有更好视觉质量的输出。

发明内容

本发明目的在于针对现有技术的不足,提出一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法。

本发明的目的是通过以下技术方案来实现的:一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,包括如下步骤:

(1)设I为HEVC编码视频的当前解码帧,I(0)和I(1)分别为位于当前解码帧之前和之后的帧内编码帧,以间隔帧数为依据,在I(0)和I(1)两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧,记作I(r),设B为I帧中一个大小为N×N的图像块,以差值绝对值之和SAD为目标函数,搜索具有最小目标函数值的匹配位置,记作(u0,v0),在I(r)图像中取左上角坐标为(m+u0,n+v0)、大小为N×N的图像块作为B在I(r)中的最佳匹配块B(r)

Figure BDA0002577108610000021

其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标,(u,v)代表一个搜索位置,且-R≤u,v≤R,R代表预设的搜索范围;

(2)以图像块扫描的形式处理当前解码帧,将I帧中每一个N×N的块B在参考帧I(r)中的最佳匹配块B(r)拷贝到中与B相同的位置,构建对应参考图像I(r)且大小等于当前解码帧的运动补偿图像

(3)将I输入到一个经预先训练的生成式对抗网络GAN,所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D,由生成网络G输出对应I的预测图像

(4)I,分别被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量输入到融合模块,经过融合模块的计算,输出对当前解码帧去除压缩伪影后的图像;所述融合模块为深度卷积神经网络,深度卷积神经网络的输入模块包含1个卷积层,该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配;除了输入模块之外的其它部分,融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。

进一步地,所述生成网络G的输入模块包括一个卷积层,待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后,输出大小与输入图像相等的特征图z0

所述生成网络G的残差模块接在输入模块之后,由Nb个依次相连的残差块组成,其中Nb为一个预设的常数,除第一残差块之外的任意第k个残差块,1<k≤Nb,以第k-1个残差块的输出zk-1为输入,经过第k个残差块内的各个层次将zk-1映射为F(zk-1),最后以F(zk-1)+zk-1作为第k个残差块的输出;每个残差块包含两个卷积层和一个PReLU层,按数据前向传播时的流向,其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02;Conv_01层具有两倍于Conv_02层的卷积核数目,Conv_01的卷积核数目为48,Conv_02的卷积核数目为24;Conv_01层的卷积核大小为3×3×C1,Conv_02层的卷积核大小为3×3×C2,其中C1的值等于Conv_02的卷积核数目,C2的值等于Conv_01的卷积核数目,Conv_01层和Conv_02层的卷积步长均为1;

所述生成网络G的重建模块包括三个卷积层,其中的卷积层Conv_B01以最后一个残差块的输出

Figure BDA0002577108610000031

为输入,另一个卷积层Conv_B02以输入模块的输出z0为输入,Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图,输入到卷积层Conv_B03,经卷积运算后输出预测图像

Figure BDA0002577108610000032

Conv_B01和Conv_B02层各包含16Cout个卷积核,其中Cout为输出图像的通道数;卷积层Conv_B01的卷积核大小为3×3×C3,卷积层Conv_B02的卷积核大小为3×3×C4,其中C3和C4分别为输入到对应卷积层的特征图的通道数目;卷积层Conv_B03包含Cout个大小为3×3×16Cout的卷积核;卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1;

所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层,该卷积层之后依次连接了四个结构相同的层次,每个层次中依次为卷积层、批量正则化层和LeakyReLu层,从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×Cp的卷积核,第一个层次Cp=32,后续的各个层次,其Cp的值等于前一个层次的卷积核的数目,各个层次的卷积步长均为2;在上述四个层次之后,连接了两个全连接层和一个LeakyReLu层,按数据前向传播时的流向,依次为一个包含512个神经元的全连接层,LeakyReLu层和一个包含1个神经元的全连接层,最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。

进一步地,步骤(3)中,所述生成式对抗网络GAN的各个层次的参数以学习的方式确定,包括:

步骤3A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,用于训练生成网络的样本形如(xi,yi),xi∈RH×W,yi∈RH×W分别为来自I和Y的图像块,且左上角点坐标相同,大小为H×W;用于训练判别网络的样本形如(xi,ci),xi∈RH×W来自未经压缩编码的图像Y或者生成网络生成的图像,若xi来自Y,则标签ci=1,否则ci=0;

步骤3B、预训练生成网络G:批量加载步骤3A所述用于训练生成网络的样本,对每一个样本(xi,yi)按下式计算损失函数:

Figure BDA0002577108610000033

其中Gθ(x)是输入xi经生成网络映射后的输出,θ代表生成网络的参数集合;以最小化所有样本的损失函数累加和为目标,以Adam优化算法更新生成网络各层的参数;

步骤3C、训练判别网络D:根据步骤3A,由来自未经压缩编码的图像形成标签ci=1的样本,由来自生成网络产生的图像形成标签ci=0的样本,批量加载训练样本(xi,ci),固定生成网络的参数,以最大化如下的函数为目标,更新判别网络各层的参数:

其中xi~pdata代表从符合未经压缩编码图像分布的样本空间中采样的样本,E(.)代表数学期望,z~pGen代表从符合生成网络的输入样本分布的样本空间中采样的样本;步骤3C重复执行4次;

步骤3D、训练生成网络:批量加载步骤3A所述用于训练生成网络的样本,固定判别网络的参数,以最小化如下的函数为目标,更新生成网络各层的参数:

步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛,若是则结束训练,否则返回步骤3C。

进一步地,步骤(4)中,所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定,包括:

步骤4A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,根据步骤(1)和步骤(2)构建运动补偿图像

Figure BDA0002577108610000043

根据步骤(3)构建生成网络的预测图像

Figure BDA0002577108610000044

步骤4B、准备训练样本:设为训练样本集的一个样本,若y'i∈RH×W为来自未压缩图像Y的图像块,且左上角点坐标为(m,n),大小为H×W,则x'i∈RH×W×3是一个由3个图像块组成的三阶张量,所述三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像和由生成网络生成的预测图像每个图像块的大小均为H×W,左上角点位于各自对应图像的(m,n)位置;

步骤4C、训练:批量加载训练样本集中的样本,对每个训练样本(x'i,y'i)按下式计算损失函数:

其中是输入xi'经所述作为融合模块的深度卷积神经网络映射后的输出;以最小化训练集中所有样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。

进一步地,深度卷积神经网络的输入模块的卷积层具有Ni个大小为3×3×3的卷积核,其中Ni为一个预设的常数,卷积步长为1。

进一步地,所述当前解码帧为前向预测编码帧或双向预测编码帧。

本发明的有益效果在于,以运动补偿和生成式对抗网络预测的图像,通常包含比当前解码帧更多的高频分量,能有效地解决量化过程引入的高频分量丢失问题,从而有利于后续的融合模块产生具有更好视觉质量的输出。

附图说明

图1本发明的运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法框架示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述,以便本领域技术人员更好地理解本发明的实质。

如图1所示,本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,可运行于解码端处理亮度或色度分量。本发明实施例提供的方法以运动补偿为基础,即假设以视频摄像机采集的连续图像,某一帧中的任意一个小块,可在其相邻帧中找到相似的图像块;进一步地,压缩视频中的连续帧,其图像质量往往存在较大的的波动,对于质量较差的帧中的图像块,若以位于质量较好的相邻帧中的块为参考,则有利于提供恢复后的图像的质量。

本发明提供的一种运动补偿和生成式对抗网络结合的视频图像压缩伪影去除方法,包括如下步骤:

(1)设I为HEVC编码视频的当前解码帧,I(0)和I(1)分别为位于当前解码帧之前和之后的帧内编码帧,以间隔帧数为依据,在I(0)和I(1)两个帧内编码帧中选择离当前解码帧相对较近的作为参考帧,记作I(r),设B为I帧中一个大小为N×N的图像块,以差值绝对值之和SAD为目标函数,搜索具有最小目标函数值的匹配位置,记作(u0,v0),在I(r)图像中取左上角坐标为(m+u0,n+v0)、大小为N×N的图像块作为B在I(r)中的最佳匹配块B(r)

其中m和n分别为图像块的左上角点在图像中的水平和垂直坐标,(u,v)代表一个搜索位置,且-R≤u,v≤R,R代表预设的搜索范围;

(2)以图像块扫描的形式处理当前解码帧,将I帧中每一个N×N的块B在参考帧I(r)中的最佳匹配块B(r)拷贝到

Figure BDA0002577108610000052

中与B相同的位置,构建对应参考图像I(r)且大小等于当前解码帧的运动补偿图像

Figure BDA0002577108610000061

(3)将I输入到一个经预先训练的生成式对抗网络GAN,所述生成式对抗网络GAN包括一个生成网络G和一个判别网络D;

所述生成式对抗网络GAN的各个层次的参数以学习的方式确定,包括:

步骤3A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,用于训练生成网络的样本形如(xi,yi),xi∈RH×W,yi∈RH×W分别为来自I和Y的图像块,且左上角点坐标相同,大小为H×W;用于训练判别网络的样本形如(xi,ci),xi∈RH×W来自未经压缩编码的图像Y或者生成网络生成的图像,若xi来自Y,则标签ci=1,否则ci=0;

步骤3B、预训练生成网络G:批量加载步骤3A所述用于训练生成网络的样本,对每一个样本(xi,yi)按下式计算损失函数:

其中Gθ(x)是输入xi经生成网络映射后的输出,θ代表生成网络的参数集合;以最小化所有样本的损失函数累加和为目标,以Adam优化算法更新生成网络各层的参数;

步骤3C、训练判别网络D:根据步骤3A,由来自未经压缩编码的图像形成标签ci=1的样本,由来自生成网络产生的图像形成标签ci=0的样本,批量加载训练样本(xi,ci),固定生成网络的参数,以最大化如下的函数为目标,更新判别网络各层的参数:

Figure BDA0002577108610000063

其中xi~pdata代表从符合未经压缩编码图像分布的样本空间中采样的样本,E(.)代表数学期望,z~pGen代表从符合生成网络的输入样本分布的样本空间中采样的样本;步骤3C重复执行4次

步骤3D、训练生成网络:批量加载步骤3A所述用于训练生成网络的样本,固定判别网络的参数,以最小化如下的函数为目标,更新生成网络各层的参数:

Figure BDA0002577108610000064

步骤3E、判断是否达到预定的迭代次数或者生成式对抗网络达到收敛,若是则结束训练,否则返回步骤3C。

所述生成网络G的输入模块包括一个卷积层,待处理图像与该卷积层3×3×1大小的卷积核进行步长为1的卷积运算后,输出大小与输入图像相等的特征图z0

所述生成网络G的残差模块接在输入模块之后,由Nb个依次相连的残差块组成,其中Nb为一个预设的常数,除第一残差块之外的任意第k个残差块,1<k≤Nb,以第k-1个残差块的输出zk-1为输入,经过第k个残差块内的各个层次将zk-1映射为F(zk-1),最后以F(zk-1)+zk-1作为第k个残差块的输出;每个残差块包含两个卷积层和一个PReLU层,按数据前向传播时的流向,其顺序依次为卷积层Conv_01、PReLu层和卷积层Conv_02;Conv_01层具有两倍于Conv_02层的卷积核数目,Conv_01的卷积核数目为48,Conv_02的卷积核数目为24;Conv_01层的卷积核大小为3×3×C1,Conv_02层的卷积核大小为3×3×C2,其中C1的值等于Conv_02的卷积核数目,C2的值等于Conv_01的卷积核数目,Conv_01层和Conv_02层的卷积步长均为1;

所述生成网络G的重建模块包括三个卷积层,其中的卷积层Conv_B01以最后一个残差块的输出为输入,另一个卷积层Conv_B02以输入模块的输出z0为输入,Conv_B01和Conv_B02层输出的两个特征图以每个位置对应元素相加的形式加以融合形成一个新的特征图,输入到卷积层Conv_B03,经卷积运算后输出预测图像Conv_B01和Conv_B02层各包含16Cout个卷积核,其中Cout为输出图像的通道数;卷积层Conv_B01的卷积核大小为3×3×C3,卷积层Conv_B02的卷积核大小为3×3×C4,其中C3和C4分别为输入到对应卷积层的特征图的通道数目;卷积层Conv_B03包含Cout个大小为3×3×16Cout的卷积核;卷积层Conv_B01、Conv_B02、Conv_B03的卷积步长均为1;

所述判别网络D的输入层为一个包含32个3×3×1大小卷积核的卷积层,该卷积层之后依次连接了四个结构相同的层次,每个层次中依次为卷积层、批量正则化层和LeakyReLu层,从第一个层次到第四个层次中的卷积层分别包含32、64、128和256个大小为3×3×Cp的卷积核,第一个层次Cp=32,后续的各个层次,其Cp的值等于前一个层次的卷积核的数目,各个层次的卷积步长均为2;在上述四个层次之后,连接了两个全连接层和一个LeakyReLu层,按数据前向传播时的流向,依次为一个包含512个神经元的全连接层,LeakyReLu层和一个包含1个神经元的全连接层,最后由Sigmoid函数给出输入到判别网络的图像是否为未引入压缩伪影的图像的判断。

(4)I,

Figure BDA0002577108610000074

分别被当作一个二维矩阵,依次排列这些矩阵形成一个三阶张量输入到融合模块,经过融合模块的计算,输出对当前解码帧去除压缩伪影后的图像;所述融合模块为深度卷积神经网络,深度卷积神经网络的输入模块包含1个卷积层,该卷积层的卷积核大小与融合模块的深度卷积神经网络的输入相匹配,具有Ni个大小为3×3×3的卷积核,其中Ni为一个预设的常数,卷积步长为1;除了输入模块之外的其它部分,融合模块的深度卷积神经网络具有与步骤(3)所述的生成式对抗网络中的生成网络一致的结构。

所述作为融合模块的深度卷积神经网络的各个层次的参数以学习的方式确定,包括:

步骤4A、准备用于训练的图像:设Y为未经压缩编码的视频中的一帧,I为HEVC压缩视频解码后与Y对应的帧,I为前向预测编码帧或双向预测编码帧。根据步骤(1)和步骤(2)构建运动补偿图像

Figure BDA0002577108610000081

根据步骤(3)构建生成网络的预测图像

Figure BDA0002577108610000082

步骤4B、准备训练样本:设(x'i,y'i)为训练样本集的一个样本,若y'i∈RH×W为来自未压缩图像Y的图像块,且左上角点坐标为(m,n),大小为H×W,则x'i∈RH×W×3是一个由3个图像块组成的三阶张量,所述三个图像块分别来自于步骤4A中所述的HEVC压缩视频解码后与Y对应的帧I、运动补偿图像和由生成式对抗网络生成的预测图像每个图像块的大小均为H×W,左上角点位于各自对应图像的(m,n)位置;

步骤4C、训练:批量加载训练样本集中的样本,对每个训练样本(x'i,y'i)按下式计算损失函数:

Figure BDA0002577108610000085

其中

Figure BDA0002577108610000086

是输入xi'经所述作为融合模块的深度卷积神经网络映射后的输出;以最小化训练集中所有样本的损失函数累加和为目标,以Adam优化算法更新深度卷积神经网络各层的权值。

以本发明实施例提供的方法对不同QP值的HEVC编码视频进行压缩伪影去除处理,以未经压缩编码的视频图像为参考图像,计算压缩编码后的图像以及经去除压缩伪影操作后的图像与参考图像之间的峰值信噪比PSNR值和结构相似性SSIM值,以ΔPSNR和ΔSSIM的形式显示了经本发明提供的方法处理后的性能提升,结果如下表所示。

表1本发明实施例的实验结果

Figure BDA0002577108610000087

Figure BDA0002577108610000091

以上所述仅为本发明的较佳实施例,但本发明的保护范围并不局限于此,凡在本发明的精神和原则之内,所做的任何修改或替换等,都应涵盖在本发明的保护范围内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种录像数据编码方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类