一种深度视频帧内智能编码方法

文档序号:1759080 发布日期:2019-11-29 浏览:27次 >En<

阅读说明:本技术 一种深度视频帧内智能编码方法 (Intelligent coding method in a kind of deep video frame ) 是由 雷建军 刘晓寰 侯春萍 张凯明 张静 何景逸 于 2019-08-22 设计创作,主要内容包括:本发明公开了一种深度视频帧内智能编码方法,包括:构建由下采样-上采样组成的变分辨率预测编码模式;对当前深度LCU下采样以降低其尺寸,得到低分辨率深度块并进行低分辨率编码;采用彩色特征辅助的卷积神经网络对编码后的低分辨率深度编码单元进行上采样,使用残差编码单元进行深度特征和彩色特征的提取;将提取的特征进行降维处理,然后将降维后的两种特征进行特征融合,得到最终的融合特征;将融合特征与离散余弦插值滤波的结果相加,使得训练过程的数据始终为预测值与真实值的残差;将上述步骤植入3D-HEVC中作为一种新的帧内预测模式,并与其他帧内预测模式进行率失真代价比较以选择出最优预测模式。(The invention discloses intelligent coding methods in a kind of deep video frame, comprising: the variable resolution predictive coding mode that building is made of down-sampling-up-sampling;To current depth LCU down-sampling to reduce its size, obtains low resolution depth block and carry out low resolution coding;The low resolution depth coding unit after coding is up-sampled using the convolutional neural networks that color property assists, the extraction of depth characteristic and color property is carried out using residual encoding unit;The feature of extraction is subjected to dimension-reduction treatment, two kinds of features after dimensionality reduction are then subjected to Fusion Features, obtain final fusion feature;By the results added of fusion feature and discrete cosine filtering interpolation, so that the data of training process are always the residual error of predicted value and true value;Above-mentioned steps are implanted into 3D-HEVC as a kind of new intra prediction mode, and to select optimal prediction modes compared with other intra prediction modes progress rate distortion costs.)

一种深度视频帧内智能编码方法

技术领域

本发明涉及视频编码、深度学习领域,尤其涉及一种深度视频帧内智能编码方法。

背景技术

3D视频由于能够给用户提供身临其境的立体感受而受到广泛关注。3D-HEVC(新一代高效率视频编码标准3D版本)作为HEVC的3D拓展编码方法,除了编码每个视点的彩***序列之外,还需编码每个视点对应的深度视频序列。深度视频包含了场景的深度和视差信息,反映了场景中物体的远近、纵深和分布状况,其编码性能直接影响场景的立体感知质量。深度视频由大面积的平滑区域和锐利的边界构成。大面积平滑区域存在大量空间冗余,边界对于区分场景中不同的物体、前景与背景有着重要的作用,因此需要研究高效的深度视频帧内预测方法。

传统2D视频的帧内预测基于图像统计特性的方法,即研究已编码像素与待预测像素间的线性关系,通过已编码像素值预测出当前像素。其主要流程是将真实值与预测值作差得到的两者间的残差值,并编入码流进行传输;解码端将残差值与参考像素值相加,便能得到相应的预测结果。此外,一些基于深度学习的2D视频帧内预测研究也取得了进展。Li等提出了基于全连接网络的帧内预测编码方法,通过多个全连接层级联的方式学习从相邻重建像素到当前块的端到端映射,从而充分利用了当前块的上下文信息,提高了编码效率。Li等提出了一种基于卷积神经网络上采样的帧内预测编码方法,首先对下采样后的低分辨率块进行帧内预测,然后将预测块输入到上采样CNN(卷积神经网络)中恢复编码块尺寸,经过与传统帧内预测模式进行率失真优化选择最佳的预测模式,提高了帧内预测的性能。

深度视频帧内预测继承了传统2D视频帧内方法,并加入了一些针对深度图特性的编码工具,优化了深度视频编码性能。国内外一些学者基于深度视频特性构建预测模型,提出了一系列方法。考虑到深度视频独特的视觉特性,Merkle等提出基于几何基元残差编码的帧内预测方法以替换传统深度视频帧内预测和变换方法,该方法使用三角几何单元对深度编码单元进行建模,有效提高了深度视频帧内预测编码的性能。Lei等分析了深度视频和彩***之间的运动相似性和结构相似性,提出了基于深度彩色联合聚类的帧内预测模式、基于加权的多方向预测方法和简单高效的深度彩色边界不对齐检测及处理机制,有效提高了编码性能。

发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:

现有的深度视频编码研究关注的焦点主要是如何基于深度视频特性构建预测模型,提出的方法大多模式固定,缺乏对不同场景的鲁棒性;此外,由于深度视频和彩***的特性不同,直接将彩***智能编码方法应用到深度视频必然会造成编码效率的下降。

发明内容

本发明提供了一种深度视频帧内智能编码方法,本发明基于卷积神经网络优良地自主学习特性,结合深度图自身内容特性与彩***相似性,提高了深度视频编码性能,详见下文描述:

一种深度视频帧内智能编码方法,借助了卷积神经网络优良地自主学习特性,并利用彩色特征信息辅助深度视频重建,所述方法包括以下步骤:

1)构建由下采样-上采样组成的变分辨率预测编码模式;

2)采用对当前深度LCU下采样以降低其尺寸,得到低分辨率深度块并进行低分辨率编码;

3)采用彩色特征辅助的卷积神经网络对编码后的低分辨率深度编码单元进行上采样,使用残差编码单元提取深度特征和对应的彩色特征;

4)将提取的彩色特征与深度特征进行降维处理,然后将降维后的两种特征进行特征融合,得到最终的融合特征;将融合特征与离散余弦插值滤波的结果相加,使得训练过程的数据始终为预测值与真实值的残差;

将上述步骤1)-4)植入3D-HEVC中作为一种新的帧内预测模式,并与其他帧内预测模式进行率失真代价比较以选择出最优预测模式。

所述方法还包括:利用更多相邻区域信息,进行二次上采样。

所述浅层特征具体为:

其中,DFD为反卷积操作,为提取的浅层特征,ID为深度流的输入。

所述深度特征具体为:

第n个RCU被表示为:

其中,n=1,2…N;为第n个RCU过程,为第n个RCU的输入,Sum为相加算子,为第n个RCU中的两个连续卷积操作。

所述将提取的浅层特征与深度特征进行降维处理,然后将降维后的两种特征进行特征融合具体为:

其中,分别为使用残差编码单元提取的深度特征和彩色特征,分别为用于深度特征和彩色特征降维的卷积操作。

本发明提供的技术方案的有益效果是:

1、本发明采用了帧内智能编码,能够较好地提升编码效率;

2、本发明由于采用了残差编码单元对深度信息进行逐级提取,并利用彩色信息辅助深度图的重建,提高了重建深度图的质量。

附图说明

图1为一种深度视频帧内智能编码方法的流程图;

图2为BDBR(相对比特率)实验结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

本发明实施例提出了一种深度视频帧内智能编码方法,首先为了有效减少深度视频中的空间冗余,使用下采样-上采样的变分辨率预测编码模式。然后为了高效提取深度特征信息,设计了残差编码单元对深度视频中的有效信息进行逐级提取;最后提取对应彩***的纹理信息以实现对缺失深度特征的补充。具体实现步骤如下:

一、下采样深度编码单元

为了更加高效地压缩深度视频,本发明实施例对下采样后的低分辨率深度视频进行预测编码。本发明实施例以深度编码单元,即深度块为单位进行操作。在每帧深度图中,不同编码块包含了不同的信息,将原始深度视频的一帧图像记为F(x,y),记深度视频中每帧的最大编码单元LCU为:f1(x,y)、f2(x,y)、……、fN(x,y)。

利用一个插值滤波器对每个LCU进行下采样,使其尺寸降为原来的一半,则下采样后的LCU为:其中下采样后的像素值为原周围像素的平均值。对于每个CTU(编码树单元)有两种编码方案,一种方案为全分辨率预测模式,采用原始预测编码方法,编码原始分辨率编码单元fi(x,y);另一种方案为基于卷积神经网络的下采样-上采样预测模式,编码下采样编码单元其中i=1,2,…,N。该方案首先采用对当前深度LCU下采样以降低其尺寸,得到低分辨率深度块然后对进行低分辨率编码,最后使用卷积神经网络进行超分辨率重建,恢复深度块的尺寸。

二、低分辨LCU编码

本发明实施例使用下采样后的深度LCU进行编码以节省比特率。该步骤主要包括了预测、变换、量化和熵编码等环节。

首先对低分辨率LCU遍历传统的35种帧内预测模式和深度图特有的若干种预测模式,得到最优预测值,然后通过变换操作将数据转化为变换系数;之后通过量化过程将连续的变换系数转换为离散的区间;最后通过熵编码将数据编入码流进行传输。

三、深度块特征提取

本发明实施例提出一个彩色特征辅助的卷积神经网络对编码后的低分辨率深度编码单元进行上采样,以恢复其尺寸大小。该卷积神经网络是一个双流网络,其中深度流的输入为从编码器中输出的低分辨率深度单元,其大小为原始LCU的一半,即32×32。

1)浅层特征提取

在使用残差编码单元提取深度CU的特征之前,首先使用一个反卷积层将输入深度CU由图像域映射至特征域。该反卷积层同时也是网络的上采样模块,其作用还包括将深度特征图的尺寸恢复至目标尺寸。记ID为深度流的输入,为提取的浅层特征,DFD为反卷积操作,那么浅层特征提取可以表示为:

其中,反卷积层中核的大小为12×12,特征维度为48。为了增加网络地非线性表达能力,在反卷积层之后还增加了一个ReLU激活层。

2)使用残差编码单元提取深度特征

为了抑制特征图中的噪声并强化能够反映边界区域的有效特征,提取出的深度块浅层特征将被残差编码单元(Residual Coding Unit,RCU)进一步精细化处理。RCU采取残差结构,以便实现更加高效的特征提取。每一个RCU包含了两个连续的卷积层,由于简单地堆叠卷积层并不会提升网络性能,为了继承浅层特征信息并减少训练数据量,将连续卷积后的特征图与当前RCU的输入相加,形成短跳步连接的残差结构。记为第n个RCU过程,为第n个RCU的输入,Sum为相加算子,为第n个RCU中的两个连续卷积操作,那么第n个RCU可以被表示为:

其中,n=1,2…N;当n=1时,即为提取的浅层特征反卷积层中核的大小为3×3,特征维度为48。

本发明实施例将三个RCU连续堆叠在深度流中,以实现深度特征的逐级提取。每个RCU拥有完全相同的结构,并且每个RCU中卷积核大小和特征维度也完全一致。记为最终提取的深度特征,那么使用残差编码单元进行深度特征提取的过程可以表示为:

四、彩色特征辅助的深度单元上采样

MVD(多视点加深度)视频格式中,每个深度视频拥有对应的彩***。在智能超分辨率重建的过程中,可以通过彩***特征引导深度视频的重建,从而提高重建质量。考虑到深度视频中每张深度图与对应彩色图的内容相似性,本发明实施例提取纹理特征协助深度块的上采样重建。将对应彩色块的亮度分量输入网络的彩色流中进行纹理特征的提取,其中彩色流的结构与深度流大致相同。由于彩色块的大小最初即为目标尺寸,因此进行浅层特征提取时使用卷积层而非反卷积层。

为了实现彩色特征对深度块重建的引导作用,首先将提取的彩色特征与深度特征进行降维处理,然后将降维后的两种特征进行特征融合,得到最终的融合特征。

本发明实施例使用两个卷积层分别对彩色流和深度流的特征图进行降维,并使用相加算子Sum进行融合操作,其融合过程可以表示为:

为了使设计的网络能在训练时更快地收敛,本发明实施例还使用残差训练来优化网络结构。首先将输入的低分辨率重建深度块通过离散余弦插值滤波器恢复至目标尺寸,然后将融合的特征图与离散余弦插值滤波的结果相加,使得训练过程的数据始终为预测值与真实值的残差,达到减少训练数据的目的。记DD为离散余弦插值滤波的结果,RD为最终重建的结果,则残差学习的过程可以表示为:

RD=Sum(DD,XD)

五、率失真优化

将上述提出的智能帧内编码方法植入3D-HEVC中作为一种新的帧内预测模式,并通过与其他帧内预测模式进行率失真代价比较(RDO)以选择出最优预测模式。视点合成优化(VSO)是3D-HEVC中另一种先进的失真代价度量模式,它将部分合成视点失真与重建深度图失真的加权和作为最终的目标失真,能够有效提高合成视点质量。

深度块的低分辨率编码时的VSO过程会用到对应的彩色块,此时深度块与彩色块的大小不一致,导致本发明提出模式与3D-HEVC的部分不兼容。因此在低分辨率编码过程中采用传统的RDO进行模式选择;深度块完成上采样之后,采用VSO对本方法提出的变分辨率预测与原分辨率预测再次进行模式选择。

六、二次上采样

为了达到更高的编码增益,本发明实施例还采用二次上采样。由于深度块的初次上采样过程中,当前块右方和下侧的像素值由于还未被预测而并不能被利用,因此当当前帧的所有LCU完成帧内预测之后,将进行二次上采样以利用更多相邻区域信息。二次上采样与一次上采样完全相同的步骤,只是输入深度块大小变为128×128,以包括更多的像素信息。

实施例2

下面结合图表说明实验效果

将本方法集成进入HTM16.2中,使用三个3D视频编码标准测试序列进行测试实验,它们分别为:Balloons,Kendo和Newspaper。实验设置为全帧内编码配置,量化参数对设置为{25/34,30/39,35/42,40/45}。本方法将HTM16.2原平台作为基准算法,以证明所提出方法的有效性。

图2的实验结果表明,与HTM相比,本方法在三个测试序列上均实现了码率的节省,且平均的BDBR降低值达到了6.5%。

本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:视频解码方法及装置,视频编码方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类