基于时空信息建模的全自动2d视频到3d视频的转换方法

文档序号:1508862 发布日期:2020-02-07 浏览:25次 >En<

阅读说明:本技术 基于时空信息建模的全自动2d视频到3d视频的转换方法 (Full-automatic 2D video to 3D video conversion method based on space-time information modeling ) 是由 陈蓓 袁家斌 包秀平 于 2019-10-09 设计创作,主要内容包括:本发明公开了一种基于时空信息建模的全自动2D视频到3D视频的转换方法,该方法首先,利用神经网络中的编码器网络提取2D视频的空间信息;同时,提取视频多帧之间的时间信息,利用空间信息与时间信息作为视频的表示方式;再利用神经网络中的解码器网络将视频的空间信息与时间信息解码为位移信息;然后利用空间变换器将位移信息与视频帧的像素信息结合起来得到视频帧对应的另一视角的视频帧。最后将两个视角的视频帧拼合为3D视频。本发明实施于2D视频到3D视频的转换,采用本发明的技术方案,将有效提高视频转换质量以及转换效率。(The invention discloses a method for converting a full-automatic 2D video into a 3D video based on space-time information modeling, which comprises the steps of firstly, extracting the space information of the 2D video by utilizing an encoder network in a neural network; meanwhile, extracting time information among multiple frames of the video, and using the space information and the time information as a video representation mode; decoding the spatial information and the time information of the video into displacement information by utilizing a decoder network in the neural network; and then, the displacement information is combined with the pixel information of the video frame by using a space transformer to obtain a video frame of another visual angle corresponding to the video frame. And finally, splicing the video frames of the two visual angles into a 3D video. The invention is applied to the conversion from the 2D video to the 3D video, and the technical scheme of the invention can effectively improve the video conversion quality and the conversion efficiency.)

基于时空信息建模的全自动2D视频到3D视频的转换方法

技术领域

本发明属于视频处理技术领域,具体涉及一种使用时空信息建模的全自动的2D视频到3D视频的转换。

背景技术

现有的2D视频到3D视频转换方法分为两步:1)从输入图像提取深度图;2)使用虚拟视点合成技术生成立体图像对。深度图的提取又根据操作人员是否参与其中可分为半自动和全自动两大类。半自动的方法由于需要人工的参与,在时间以及费用上开销较大,全自动的方法省去了人工成本,极大的提高了转换速度,但是在转换质量上并不能很好的满足人们的需求;同时由于后续还需要进行虚拟视点合成,限制了视频的转换效率。

深度学习的蓬勃发展,为2D视频到3D视频转换提供了新的思路。现有技术“J.Lee,H.Jung,Y.Kim,and K.Sohn.Automatic 2D-to-3D conversion using multi-scale deepneural network.IEEE International Conference on Image Processing IEEE,2018.”提出了一个利用多尺度的深度卷积神经网络提取视频空间信息的全自动的端到端的2D到3D视频转换模型,该模型简化了2D到3D视频转换过程。但是由于使用了多尺度模型,并没有解决转换效率的问题;同时,对于时间信息的缺失也导致了在转换质量上有所不足。

发明内容

为了解决现有技术中2D视频到3D视频转换算法中的问题,本发明提出了一种基于时空信息建模的全自动2D视频到3D视频的转换方法,本方法使用时空信息作为视频的表示方法,同时对特征提取模型进行改进,提高了视频转换质量与转换效率。

为实现上述目的,本发明采用的技术方案为:

一种基于时空信息建模的全自动2D视频到3D视频的转换方法,包括以下步骤:

步骤1,使用编码器网络提取多张视频帧

Figure BDA0002226250630000011

的时间信息ft与空间信息fs

步骤2,将时间信息ft与空间信息fs作为解码器网络的输入,分别得到视频帧对应的位移信息di

步骤3,将视频帧

Figure BDA0002226250630000013

与其相对应的位移信息di作为空间变换器的输入,使用变换矩阵Aθ与坐标变换公式得到视频帧

Figure BDA0002226250630000014

的另一视图

Figure BDA0002226250630000015

步骤4,将视频帧

Figure BDA0002226250630000021

与生成的对应视图

Figure BDA0002226250630000022

拼接为3D视频帧;

步骤5,重复步骤1-4,得到完整的3D视频。

进一步的,所述步骤1中使用的编码器网络为密集连接神经网络,同时需要将密集连接神经网络中的2D卷积替换为3D卷积。

进一步的,所述步骤2中使用的解码器各层网络的输入为上层网络的输出与所述步骤1使用的编码器对应网络层的输出之和。

进一步的,所述步骤3使用的变换矩阵Aθ与坐标变换公式分别为:

Figure BDA0002226250630000023

其中:d每个像素对应的位移,xs,ys为原始像素点坐标,xt,yt为目标像素点坐标。

本发明相比与现有技术,具有以下有益效果:

本发明在提取特征时,并未采用多尺度深度神经网络,而是采用了3D密集连接神经网络。3D密集连接神经网络不仅可以提取视频的空间信息,还可以提取视频的时间信息,提高了3D视频的转换质量。同时3D密集连接神经网络能够减少每层的计算量以及对特征进行复用,再加上其网络数量少于多尺度深度神经网络,故在转换效率上有很大的提升。

附图说明

图1是本发明的整体流程图;

图2是本发明的输入与输出形式;

图3是本发明中Dense Block结构图;

图4是本发明中transition结构图;

图5是本发明中空间变换器结构图;

图6是本发明中3D卷积操作示意图;

图7是本发明中反卷积操作示意图。

具体实施方式

一种基于时空信息建模的全自动2D视频到3D视频的转换方法,包括以下步骤:

步骤1:使用编码器网络提取多张视频帧

Figure BDA0002226250630000024

的时间信息ft与空间信息fs,对于编码器网络,我们使用密集连接神经网络,并将密集连接神经网络中的2D卷积替换为3D卷积;

1.1密集连接神经网络

假设输入为一个图片X0,经过一个L层的神经网络,密集连接神经网络第j层的输入不仅与j-1层的输出相关,还有所有之前层的输出有关,记作:

Xj=Hj([X0,X1,…,Xj-1])

其中:Xj为神经网络第i层的输出,Hj()为神经网络第j层的非线性变换,

密集连接神经网络包括密集连接块与转换层,如图3所示,密集连接块的结构,每一层的输入是前面所有层的输出的和;如图4所示,转换层的结构包括由标准化、修正线性单元、卷积以及平均池化。

1.2 3D卷积

普通的2D卷积是提取的单张静态图像的空间特征,同神经网络结合之后在图像的分类、检测等任务上取得了很好的效果。但是对视频,即多帧图像就束手无策了,因为2D卷积没有考虑到图像之间的时间维度上的物体运动信息,即光流场。因此,为了能够对视频进行特征,以便用来分类等任务,就提出了3D卷积,在卷积核中加入时间维度。

现有的2D-to-3D视频转换中基本都是使用2D卷积,提取单张图片的空间信息,忽略了视频帧之间时间维度上的特征,为了能够提取视频时间维度上的信息,本模型中所有的卷积层与反卷积层都采用3D卷积。如图6所示,3D卷积对视频进行卷积操作,对多个时间的信息进行卷积操作。

步骤2:将时间信息ft与空间信息fs作为解码器网络的输入,分别得到视频帧

Figure BDA0002226250630000031

对应的位移信息di,对于解码器网络,采用了5个反卷积层。解码器各层网络的输入为上层网络的输出与所述步骤1使用的编码器对应网络层的输出之和。

2.1反卷积

反卷积层其实本质上还是进行卷积操作,只不过与卷积层的输入输出关系正好相反,所以它们的前向传播和反向传播刚好交换过来,卷积层的前向传播过程就是反卷积层的反向传播过程,卷积层的反向传播过程就是反卷积层的前向传播过程。利用反卷积可以将前面因为卷积层改变的图像大小变回原大小。如图7所示,反卷积操作,对每个卷积块进行相应的放大操作。

步骤3:将视频帧

Figure BDA0002226250630000041

与其相对应的位移信息di作为空间变换器的输入,使用变换矩阵Aθ得到视频帧

Figure BDA0002226250630000042

的另一视图,即视频帧

Figure BDA0002226250630000043

3.1空间变换器

如图5所示,空间变换器结构中U和V分别表示输入图像与输出图像,且分别对应视频帧

Figure BDA0002226250630000044

和视频帧

Figure BDA0002226250630000045

首先进行参数预测得到变换矩阵Aθ中的参数θ,然后进行坐标映射,最后通过采样得到最终结果,空间变换器坐标变换公式Tθ(G)为:

其中:xs,ys为原始像素点坐标,xt,yt为目标像素点坐标,Aθ为变换矩阵。

由于左右视图像素位置之间只有位移没有旋转和缩放,所以变换矩阵Aθ可简化为:

其中:d1和d2分别表示水平方向与垂直方向的位移。

坐标变换公式变为:

Figure BDA0002226250630000048

对立体图像对进行进一步的分析发现,左右视图像素位置之间仅在水平方向上有位移,而在垂直方向上是完全平行的,即d2=0,所以可以把变换矩阵进一步化简为:

Figure BDA0002226250630000049

其中,将d1简化为d,这样可以得到最后的坐标变换公式:

Figure BDA00022262506300000410

每一个像素都对应一个位移d,所以位移图d像素密集的,神经网络的任务就是估计最佳的位移d。

在得到了像素位置的变换后,利用双线性插值将像素***相应位置,

Ir=B{Il,(xt,yt)}

其中:、Il、Ir分别表示左视图与右视图像素,B{}表示双线性插值。

则(xt,yt)仅与位移d有关,所以Ir可重新表示为:

Ir=B{Il,d}

已知双线性插值是可微的,所以公式对于d也是可微的,故误差可以反向传播,这样就通过空间变换器网络将2D-to-3D视频转换从独立的两个阶段变为一个端到端的系统;

3.2损失函数

L1损失使用平均绝对误差(MAE)作为衡量预测结果与标签之间误差的指标,所以损失函数l为:

Figure BDA0002226250630000051

其中,n表示输入的视频帧数量,yi

Figure BDA0002226250630000052

分别表示第i个视频帧的真实值以及预测值。

步骤4,将视频帧

Figure BDA0002226250630000053

与生成的对应视图

Figure BDA0002226250630000054

拼接为3D视频帧;

步骤5,重复步骤1-4,得到完整的3D视频。

本发明首先,利用神经网络中的编码器网络提取2D视频的空间信息;同时,提取视频多帧之间的时间信息,利用空间信息与时间信息作为视频的表示方式;再利用神经网络中的解码器网络将视频的空间信息与时间信息解码为位移信息;然后利用空间变换器将位移信息与视频帧的像素信息结合起来得到视频帧对应的另一视角的视频帧。最后将两个视角的视频帧拼合为3D视频。本发明实施于2D视频到3D视频的转换,采用本发明的技术方案,将有效提高视频转换质量以及转换效率。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种高清裸眼3D立体视频刺激下的双眼眼动采集系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类