一种无需运动补偿的压缩视频多帧质量增强方法

文档序号:107612 发布日期:2021-10-15 浏览:28次 >En<

阅读说明:本技术 一种无需运动补偿的压缩视频多帧质量增强方法 (Compressed video multi-frame quality enhancement method without motion compensation ) 是由 叶茂 罗登晏 朱策 郭红伟 于 2021-06-11 设计创作,主要内容包括:本发明公开了一种无需运动补偿的压缩视频多帧质量增强方法,属于属于视频压缩技术领域。本发明采用一种无需光流估计的多帧质量增强网络,解决了视频在多媒体应用中视频的清晰度和色彩丰富度与网络带宽有限之间存在矛盾,通过充分利用相邻帧间的时间信息来对低质量帧进行增强,使得压缩视频的主观和客观质量得以增强。同时,本发明不再需要利用光流估计来显示地补偿相邻帧间的运动,从而简化了网络训练。本发明的应用,既能保证高清视频在相同的码率下经过压缩后在网络中正常传输,也能保证更好的主观和客观质量。(The invention discloses a method for enhancing the multi-frame quality of a compressed video without motion compensation, belonging to the technical field of video compression. The invention adopts a multi-frame quality enhancement network without optical flow estimation, solves the contradiction between the definition and the color richness of the video and the limited network bandwidth in the multimedia application of the video, and enhances the low-quality frame by fully utilizing the time information between adjacent frames, so that the subjective and objective quality of the compressed video is enhanced. Meanwhile, the invention no longer needs to use optical flow estimation to compensate motion between adjacent frames in a display mode, and therefore network training is simplified. The application of the invention can ensure that the high-definition video is normally transmitted in the network after being compressed under the same code rate, and can also ensure better subjective and objective quality.)

一种无需运动补偿的压缩视频多帧质量增强方法

技术领域

本发明属于视频压缩技术领域,具体涉及一种无需运动补偿的压缩视频多帧质量增强方 法。

背景技术

压缩视频质量增强方法自视频压缩国际标准被提出以来,就得到了工业界和学术界的广 泛研究。在深度学习被提出之前,增强压缩视频质量的方法主要是以数学推导为基础的对单 帧图像进行增强的空域法和频域法。在深度学习成功地应用到图像增强领域之后,各种新的 方法被提出来用于增强压缩视频的质量,得到了比传统方法更好的结果和更强的泛化性。

现在最常用的H.265/HEVC标准,都采用基于块的混合编码框架,其核心过程包括:预测 编码、变换编码、量化和熵编码以及基于块的预测。变换和量化操作忽略了块与块之间的相 关性,导致编码重建图像呈现块效应,即人眼可以感知到块边界的明显不连续性(当步长较 大且比特率较低时,这些效果更加明显);同时,量化是基于变换域中的块扩展,这个量化过 程是不可逆的。另外,运动补偿中的高精度插值很容易产生振铃效应。由于帧间编码过程中 误差的积累,上述效应也会影响后续帧的编码质量,从而导致视频图像的客观评价质量下降, 人眼的视觉感知质量降低。

在现有的解决方案中,公开号为CN107481209A的中国专利申请提出了一种名为“一种基 于卷积神经网络的图像或视频质量增强方法”的增强方案,在该方案中,首先设计了两个用 于视频(或图像)质量增强的卷积神经网络,两个网络具有不同的计算复杂度;然后选择若 干个训练图像或视频对两个卷积神经网络中的参数进行训练;根据实际需要,选择一个计算 复杂度较为合适的卷积神经网络,将质量待增强的图像或视频输入到选择的网络中;最后, 该网络输出经过质量增强的图像或视频。该发明可以有效增强视频质量;用户可以根据设备 的计算能力或剩余电量指定选用计算复杂度较为合适的卷积神经网络来进行图像或视频的质 量增强。在该方案中,设计了两个不同复杂度的卷积神经网络,由用户根据设备的情况来选 择网络,两个网络的区别只是卷积神经网络的深度不同,仅仅通过加深网络深度来提高质量 增强效果的方案是不可行的,而且没有针对图像视频的特点设计网络,即网络未能利用视频 帧与帧之间的时间相关性,因此该方法质量增强的效果有限。

而公开号为CN108900848A的中国专利申请提出了一种名为“一种基于自适应可分离卷 积的视频质量增强方法”的增强方案,在该方案中,将自适应可分离卷积作为第一个模块应 用于网络模型当中,将每个二维卷积转化为一对水平方向和垂直方向的一维卷积核,参数量 由n2变为n+n。第二,利用网络对于不同输入学习出来的自适应变化的卷积核以实现运动矢 量的估计,通过选取连续的两帧作为网络输入,对于每两张连续输入可以得到一对可分离的 二维卷积核,而后该2维卷积核被展开成四个1维卷积核,得到的1维卷积核随输入的改变 而改变,提高网络自适应性。该发明用一维卷积核取代二维卷积核,使得网络训练模型参数 减少,执行效高。该方案采用了五个编码模块和四个解码模块、一个分离卷积模块和一个图 像预测模块,其结构是在传统的对称编解码模块网络的基础上,把最后一个解码模块替换为 一个分离卷积模块,虽然有效的降低了模型的参数,但是质量增强的效果还有待进一步的提 高。

此外,公开号为CN108307193A的中国专利申请提出了一种名为“一种有损压缩视频的 多帧质量增强方法及装置”的增强方案,在该方案中,针对解压缩的视频流的第i帧,采用 所述第i帧关联的m个帧对所述第i帧进行质量增强,以播放质量增强后的第i帧;所述m 个帧属于所述视频流中的帧,且所述m个帧中每一帧与所述第i帧分别具有相同或相应的像 素数量大于预设阈值;m为大于1的自然数。在具体应用中,可利用峰值质量帧增强两个峰 值质量帧之间的非峰值质量帧。该方案减轻了视频流播放过程中多帧之间的质量波动,同时 使得有损压缩后视频中的各帧质量得到增强。虽然该方案考虑到了相邻帧间的时间信息,但 设计的多帧卷积神经网络(MF-CNN)分为运动补偿子网(MC-subnet)和质量增强子网 (QE-subenet),其中运动补偿子网严重依赖于光流估计来补偿非峰值质量帧和峰值质量帧之 间的运动以实现对齐,光流计算中的任何错误都会在对齐的相邻帧中的图像结构周围引入伪 影。然而精确的光流估计本身就是具有挑战性的和耗时的,因此该发明质量增强的效果仍有 限。

发明内容

本发明的目的在于,采用一种无需光流估计的多帧质量增强网络,通过充分利用相邻帧 间的时间信息来对低质量帧进行增强,使得压缩视频的主观和客观质量得以增强。

本发明实施例提供了一种需运动补偿的压缩视频多帧质量增强方法,所述方法包括:

对待增强的压缩视频,将压缩视频序列的一个低质量帧和其相邻的两个高质量帧组成一 个输入序列;

将各输入序列输入质量增强网络,得到当前输入序列的增强的低质量帧;

所述质量增强网络包括预处理模块和增强模块,其中,预处理模块包括特征提取模块和 和特征融合模块,所述特征提取模块用于提取输入序列的每一帧的空间特征,得到每一帧的 特征图;所述融合模块用于融合相邻帧间的事件信息得到第一融合特征图并输入增强模块;

增强模块,包括非线性映射模块和重建模块,所述非线性映射模块用于对第一融合特征 图进行非线性映射,得到第二融合特征并输入重建模块;所述重建模块基于至少两层卷积层 堆积而成,用于预测增强残图,再基于增强残差图与输入序列的低质量帧的融合得到增强的 低质量帧。

本发明实施例通过充分利用帧与帧之间的时间信息来提高压缩视频的质量。同时,本发 明实施例所采用质量增强网络不再需要利用光流估计来显示地补偿相邻帧间的运动,从而简 化了网络结构,简化了网络训练。

在一种可能实现的方式中,所述特征提取模块为基于多尺度特征提取策略的特征提取网 络,以提取到丰富的特征信息。

在一种可能的实现方式中,所述非线性映射模块为基于分层残差和通道注意力机制的非 线性映射模块。

进一步的,所述非线性映射模块包括多个分层残差模块HR_block,所述HR_block包括: 下采样层、残差块R、残差块RA、卷积层和上采样层,所述残差块R包括至少两层卷积层, 所述残差块RA为:残差块R中添加一个通道注意力机制模块CA_block,以提取分层特征的 残差在不同通道上的信息,残差块RA包括两路输出,并定义残差输出为残差块RA的第一输 出,残差块RA的CA_block的输出为残差块RA的第二输出;将输入HR_block的特征图表示为Z,所述特征图Z经过一个第一残差块得到特征图ZS;同时,所述特征图Z经一个下采样 层得到特征图ZD并输入第二残差块中,基于第二残差块的第一输出得到特征图基于第二残差块的第二输出得到特征图所述特征图分别经过一层结构相同的上采样层得到 征图将特征图与ZS按通道拼接后输入到一个的卷积层得到分层残差模块输出的 特征图HR(Z)。

进一步的,所述非线性映射模块包括三个HR_block和两个通道注意力机制模块CA_block, 并按照网络的前向传播方向,将三个HR_block依次定义为第一HR_block、第二HR_block和 第三HR_block,将两个CA_block依次定义为第一CA_block和第二CA_block;所述第一 HR_block的输入特征图为特征图Z,第一HR_block输出的特征图HR(Z)与特征图Z相减后输 入第二HR_block,第二HR_block输出的特征图HR(Z)与特征图Z相加后输入第一CA_block, 将第一CA_block的输入特征图与其输出特征图相加后再输入第三HR_block;将特征图Z、第 一HR_block的输出的特征图HR(Z)和输入第三HR_block的特征图经拼接层得到第三融合特 征图;以及将第一HR_block输出的特征图第一CA_block的输出特征图和第三HR_block 输出的特征图经拼接层得到第四融合特征图;最后,将经过一层卷积层的第三融合特征图 和依次经过一层卷积层和一个第二CA_block的四融合特征图相加,得到非线性映射模块的输 出特征图。

在一种可能的实现方式中,所述CA_block的网络结构为:顺次连接的池化层、至少1个 卷积块、卷积层和sigmoid激活函数,其中,卷积块包括卷积层及其激活函数。

本发明实施例提供的技术方案至少带来如下有益效果:

在本发明实施例中,通过充分利用相邻高质量的信息帧来对低质量帧进行增强,使得压 缩视频的主观和客观质量都得到明显的增强,解决了视频在多媒体应用中视频的质量(清晰 度和色彩丰富度)与网络带宽有限之间存在矛盾,从而使得基于本发明的多媒体应用既能保 证高清视频在相同的码率下经过压缩后在网络中正常传输,也能保证更好的主观和客观质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附 图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域 普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施例提供的一种无需运动补偿的压缩视频多帧质量增强方法中所采用的 质量增强网络的结构示意图;

图2是本发明实施例中,采用的一种特征提取网络的结构示意图;

图3是本发明实施例中,采用的一种非线性映射模块的网络结构示意图;

图4是本发明实施例中,采用的一种分层残差模块(Hierarchical Residualblock, HR_block)的网络结构示意图;

图5是本发明实施例中,采用的一种通道注意力机制模块(Channel Attentionblock, CA_block)的网络结构示意图;

图6是本发明实施例中,本发明与现有对比方案的增强处理结果对比示图;

图7是本发明实施例中,本发明与现有对比方案对视频序列BQSquare中第6-36帧的增 强处理后的PSNR波动曲线对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进 一步地详细描述。

随着硬件和算法的不断进步,数字视频在分辨率越来越高和颜色越来越丰富的同时,未 经压缩的视频也包含了越来越多的数据量。视频压缩编码能够有效的减少视频数据量,但不 可避免的导致了主观和客观质量的下降,为了增强压缩视频的主观和客观质量,本发明实施 例提供的一种无需运动补偿的压缩视频多帧质量增强方法。在描述本发明实施例之前,对所 涉及的相关术语名词进行注释如下:

H.265/HEVC:是继H.264之后所制定的新的视频编码标准,保留了原有的H.264编码标 准的某些技术,同时对一些技术加以改进。使用的新技术以改善码流、编码质量、延时和算 法复杂度之间的关系,以求达到最优化设置。

GOP,Group of pictures(图像组):指两个I帧之间的距离。

I帧,Intra-coded picture(帧内编码图像帧):不参考其他图像帧,只利用本帧的信 息进行编码。

P帧,Predictive-coded picture(预测编码图像帧):利用之前的I帧或P帧,采用运 动预测的方式进行帧间预测编码。

Low Delay P(LDP):只有第一帧是I帧编码,而其他的都是P帧编码。

Peak Signal to Noise Ratio(PSNR):峰值信噪比,一种评价图像的客观标准。

structural similarity(SSIM):结构相似性,是一种全参考的图像质量评价指标,它 分别从亮度、对比度、结构三方面度量图像相似性。

振铃效应:对于图像里的强边缘,由于高频交流系数的量化失真,解码后会在边缘周围 产生波纹现象,这种失真被称为振铃效应。

PQF:峰值质量帧,即GOP中的高质量帧,也可以看作是GOP中的I帧。

non-PQF:非峰值质量帧,即GOP中的低质量帧,也可看作是GOP中P帧。

在一种可能的实现方案中,本发明实施例提供的一种无需运动补偿的压缩视频多帧质量 增强方法包括下列步骤:

对待增强的压缩视频,将压缩视频序列的一个低质量帧和其相邻的两个高质量帧组成一 个输入序列,例如将输入序列定义为X,其中X={x-1,x0,x+1},x0表示该输入序列的低质量 帧(即原始帧y0的压缩帧x0),x-1和x+1表示与x0相邻的高质量帧,从而使得当前输入的低质 量帧在其相邻的高质量帧的帮助下而得到增强;

将各输入序列输入质量增强网络,得到当前输入序列的增强的低质量帧;

所述质量增强网络包括一个预处理模块(Pre-processing Module)和一个增强模块 (Enhancement Module),如图1所示;

其中,预处理模块包括一个特征提取模块和(Feature Extraction Module)和一个特征 融合模块(Feature Fusion Module),所述特征提取模块用于提取输入序列的每一帧的空间 特征,得到每一帧的特征图;所述融合模块用于融合相邻帧间的事件信息得到第一融合特征 图并输入增强模块;

增强模块,包括非线性映射模块(Non-linear Mapping Module)和重建模块(Reconstruction Module),所述非线性映射模块用于对第一融合特征图进行非线性映射,得到第二融合特征并输入重建模块;所述重建模块基于卷积层堆积而成(至少包括两层卷积 层),用于预测增强残图,再基于增强残差图与输入序列的低质量帧的融合得到增强的低质量 帧。

本发明实施例的目的,就是根据原始帧y0的压缩帧x0推断出其高质量的帧即即增强 的低质量帧。通过预处理模块来提取和融合输入的x-1、x0和x+1的特征图,然后用一个增强 模块来减少x0的压缩伪影从而得到从而可以实现压缩视频中的低质量帧的质量通过充分 利用其相邻的高质量帧的信息而得到增强。

在一种可能实现的方式中,本发明实施例中,采用的特征提取模块为基于多尺度特征提 取策略的特征提取网络。

参见图2,本发明实施例中,采用了多层的卷积的特征提取网络,例如4层结构,前三 层的每层卷积层之后设置有ReLU激活函数,按照网络的前向传播方向,各卷积层的卷积核尺 寸依次设置为:3×3,5×5,7×7,3×3。

该特征提取网络用来提取输入序列X中的每一帧xt的空间特征,得到各帧的特征图T(xt):

T(xt)=Wt*M(S(xt);WM,BM)+bt

S(xt)=ReLU(Conv1(xt));

其中,Conv1表示特征提取网中的第一个卷积层,M表示权重为WM、偏置为BM的多尺度 特征提取函数,符号“*”指不同尺度的特征拼接后的卷积操作,Wt和bt分别代表其卷积层的权重和偏置。

在一种可能的实现方式中,特征融合模块得到的融合后的特征,即第一融合特征图F(x0):

F(x0)=Conv([T(x-1),T(x0),T(x+1)]),

其中[·,·,]表示拼接操作,T(x-1),T(x0),T(x+1)分别表示x-1、x0和x+1的特征图。

在增强处理模块中,首先用非线性映射模块来计算第一融合特征图F(x0)的更有用的表示 U(x0),得到第二融合特征图U(x0)。然后,将U(x0)输入到至少2个卷积层堆积而组成的重建 模块中来预测(学习)增强残差图R(x0)。注意,增强残差图是指原始帧与增强帧之间的差值。 最后,将学习到的增强残差图片(x0)与输入的x0逐元素求和后得到增强的低质量帧

在一种可能的实现方式中,所述非线性映射模块基于分层残差和通道注意力机制构建而 成,即非线性映射模块是基于分层残差和通道注意力机制的非线性映射模块。

进一步的,本发明实施例中,非线性映射模块包括多个分层残差模块(Hierarchicai Residual block,HR_block)和通道注意力机制模块(Channel Attentionblock,CA_block), 参见图3和图4,所采用的HR_block的网络结构包括:下采样层、残差块(Residual block)、 RA_block、卷积层和上采样层,基于输入的特征图及其处理输出来介绍所采用的HR_block 的网络结构。

为了方便表示,将输入HR_block的特征图表示为Z(即U(x0))。首先,将Z输入到一个 由至少2个卷积层和Relu激活函数组成的Residual block得到ZS

ZS=Conv(ReLU(Conv(ReLU(Z))))+Z;

然后,将特征图经下采样层后来实现分层操作得到下采样特征图ZD,再将特征图ZD输入 到一个Residual block中,但此时卷积操作采用的是瓶颈卷积且在Residual block中添加 了一个CA_block来提取分层特征的残差在不同通道上的信息(表示为),并将此添加了 CA_block的Residual block称为RA_block。将RA_blcok的输出记为随后将经过上 采样层后得到特征图最后,将特征图与ZS按通道拼接后(即经过一层Concat层)输 入到一个的卷积层得到分层残差模块输出的特征图HR(Z):

需要注意的时,特征图也经过相同的上采样层得到特征图作为后续网络的输入。

参见图3,作为一种可能的实现方式,本发明实施例中,非线性映射模块的优选网络结 构包括3个HR_block和2个CA_block,其中,第一HR_block的输入特征图为Z,第一HR_block 的输出的特征图HR(Z)与特征图Z相减后输入第二HR_block,第二HR_block输出的特征图 HR(Z)与特征图Z相加后输入第一CA_block,将第一CA_block的输入特征图与其输出特征图 相加后再输入第三HR_block;再将特征图Z、第一HR_block的输出的特征图HR(Z)和输入第 三HR_bloc的特征图经Concat层融合后得到第三融合特征图;以及将第一HR_block输出的 特征图第一CA_block的输出特征图和第三HR_block输出的特征图经Concat层融合 (按通道拼接)后得到第四融合特征图;最后,最后,将经过一层卷积层的第三融合特征图 和依次经过一层卷积层和一个第二CA_block的四融合特征图相加,得到非线性映射模块的输 出特征图。

优选的,Residual block中采用的卷积层的卷积核尺寸为5×5,输出特征图HR(Z)的卷 积层的卷积核大小为3×3。

优选的,下采样层的下采样策略可以采用文献“Sajjadi M S M,Vemulapalli R,Brown M.Frame-recurrent video super-resolution[C]//Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2018:6626-6634”或“SunW,He X,Chen H, et a1.A quality enhancement framework with noisedistributioncharacteristics for high efficiency video coding[J].Neurocomputing,2020,411:428-441”中所给出的方 式,本发明对下采样层的下采样策略不做具体限定。同样的,对于上采样层的上采样策略也 不做具体限定,优选采用文献“Shi W,Caballero J,Huszár F,et al.Real-time single image and video super-resolution using an efficientsub-pixel convolutional neural network[C]//Proceedings of the IEEE conferenceon computer vision and pattern recognition.2016:1874-188”所给出的上采样策略,例如,对于特组图其上采样后的 特组图可以表示为:

在一种可能的实现方式中,参见图5,采用的CA_block的结构包括顺次连接的池化层、 卷积层及其激活函数(层数可调整)、卷积层和sigmoid激活函数。sigmoid激活函数的输 出与CA_block的输出相乘得到CA_block的输出。

为了便于描述该层次结构,定义V=[v1,v2,...,vc]来表示CA_block的输入特征图,它由 C(输入通道数)个空间大小为H×W的特征图vi组成。这些特征图首先通过池化方式为均值 池化(average pooling)的池化层在空间维上进行降维,得到第c个通道的池化结果:

其中,vi(i,j)为第c个通道在位置(i,j)处的值,ec表示第c个通道averagepooling后的值。 随后一个sigmoid激活函数作为门控机制用来得到最相关的特征图:

αc=σ(Conv(ReLU(Conv(ec))))

其中,σ表示sigmoid激活函数,定义E=[e1,e2,...,ec]。最终基于通道权重α=[α1,α2,...,αC]来重新调整输入特征图V的通道之间的相互依赖:

作为一种优选的方式,CA_block的输入通道数为C,CA_block的第一个卷积层的输出通 道数设置为CA_block的池化层的核大小为1×1,卷积核大小为1×1。

在本发明实施例中,对于所采用的质量增强网络的网络参数的训练可以基于惯用的神经 网络参数的训练方式进行,作为中优选的方式,对本发明实施例提供的质量增强网络的预处 理模块和增强模块以端到端的方式联合训练,且网络不需要先训练收敛某一子网,因此损失 函数只由一项组成。例如采用L2-norm作为网络的损失函数:

在示例性实施例中,本发明实施例还提供了一种计算机设备,该计算机设备包括处理器 和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个 以上处理器加载并执行,以实现上述任一种无需运动补偿的压缩视频多帧质量增强方法。

在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存 储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并 执行,以实现上述任一种无需运动补偿的压缩视频多帧质量增强方法。

在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory, ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROMD)、磁带和光数据存储设备等。

需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别 类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况 下可以互换,以便这里描述的本发明的实施例方式并不代表与本发明相一致的所有实施方式。 想法,它们仅是与如所附权利要求书中所详细的、本发明的一些方面相一致的装置和方法的 例子。

为了定性地和定量地评估了本发明实施例提供的无需运动补偿的压缩视频多帧质量增强 方法的增强性能,本实施例采用图1至图5所示的质量增强网络对选取的待增强的压缩视频 进行质量增强处理,定量评估则根据ΔPSNR和ΔSSIM与现有的增强方案DCAD、DS-CNN、MFQE 和MFQE 2.0进了比较,如表1和2所示;定性评估则与MFQE 2.0进行了比较,如图6所示。 其中,增强方案DCAD可参考文献“Wang T,Chen M,Chao H.A novel deeplearning-based method of improving coding efficiency from the decoder-end forHEVC[C]//2017Data Compression Conference(DCC).IEEE,2017:410-419”,增强方案DS-CNN可参考文献“Yang R,Xu M,Wang Z.Decoder-side HEVC quality enhancement withscalable convolutional neural network[C]//2017IEEE International Conferenceon Multimedia and Expo(ICME). IEEE,2017:817-822”,增强放弃MFQE可参考文献“YangR,Xu M,Wang Z,et al.Multi-frame quality enhancement for compressed video[C]//Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2018:6664-6673”。

表1

表2

表1给出了ΔPSNR和ΔSSIM在每个测试序列的所有帧上的平均结果,共计五个QP点上HEVC 标准测试序列的ΔPSNR(dB)和ΔSSIM((×10-4)的总体比较。可以看出,本发明实施例所提 供的增强方案(ours)始终优于其他的视频质量增强方法。具体来说,在QP=37时,本发实 施例的最大ΔPSNR值达到了1.154dB,平均ΔPSNR为0.632dB,比MFQE 2.0(0.562dB)高 出12.5%,比MFQE(0.455dB)高出38.9%,比DCAD(0.322dB)高出96.3%,比DS-CNN(0.300 dB)高出110.7%。在其他的QP点时,本发明实施例在ΔPSNR和ΔSSIM上也都优于其他的方法。 此外,还用BD-rate的降低来对比了网络的性能,如表2所示,我们的网络的BD-rate平均 降低了17.18%,优于目前最好的MFQE 2.0(14.06%)。

表2给出了测试序列相较于HEVC基准下降的BD-rate(%),在QP=22、27、32、37和42五个点上计算得到。

图6展示了序列BasketballPass、PartyScene和BQMall在QP=37时的主观质量表现。 从图中可以看出,本发明实施例提供的增强方案比于MFQE 2.0方法可以减少更多的压缩伪影, 实现了更好的视觉体验。

对于无损视频,其在经过压缩过后,视频帧之间会存在一定的质量波动,如图7所示(HEVC 所对应的线条),而在增强方案MFQE 2.0(可参考文献“Guan Z,Xing Q,Xu M,etal.MFQE 2.0:A new approach for multi-frame quality enhancement on compressedvideo[J].IEEE transactions on pattern analysis and machine intelligence,2019”)使用相邻的高质 量帧增强中间低质量帧后的结果如7所示,可以看出高质量帧与低质量帧之间的PSNR波动依 然非常明显。同时,图7中还给出本发明实施例所提供的方案(ours)的PSNR波动。可以看 出本发明实施例所提供的增强方法比现有的MFQE 2.0更好地利用了高质量帧的信息,表现出 更低的增强质量波动。且增强方案MFQE 2.0是公开号CN108307193A的增强方案的改进方案。 即,本发明实施例提出的一种无需运动补偿的压缩视频多帧质量增强网络,通过充分利用相 邻高质量的信息帧来对低质量帧进行增强,使得压缩视频的主观和客观质量都得到明显的增 强。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照 前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前 述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本 发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:图像编码方法、装置、电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类