一种立体视频裁剪方法
阅读说明:本技术 一种立体视频裁剪方法 (Three-dimensional video clipping method ) 是由 邵枫 李鹏飞 于 2019-09-18 设计创作,主要内容包括:本发明公开了一种立体视频裁剪方法,其将立体视频的左视点视频图像和右视点视频图像标记为关键帧或非关键帧,对于关键帧,通过计算左视点视频图像的三维显著图获得左视点视频图像的最佳裁剪框的左上角坐标位置,进而获得右视点视频图像的最佳裁剪框的左上角坐标位置;而对于非关键帧,直接根据前一帧的最佳裁剪框的左上角坐标位置和运动矢量,获得当前立体视频图像的最佳裁剪框的左上角坐标位置,最后根据最佳裁剪框的左上角坐标位置及宽度和高度,获得重定位立体视频,这样获得的重定位立体视频能够较好地保留重要的显著语义信息,能够较好地保持时域一致性,能够有效地调整立体视频的尺寸大小。(The invention discloses a three-dimensional video clipping method, which marks a left viewpoint video image and a right viewpoint video image of a three-dimensional video as key frames or non-key frames, and for the key frames, obtains the coordinate position of the upper left corner of the optimal clipping frame of the left viewpoint video image by calculating a three-dimensional salient image of the left viewpoint video image, and further obtains the coordinate position of the upper left corner of the optimal clipping frame of the right viewpoint video image; for non-key frames, the coordinate position of the upper left corner of the optimal cutting frame of the current stereo video image is obtained directly according to the coordinate position and the motion vector of the upper left corner of the optimal cutting frame of the previous frame, and finally the repositioning stereo video is obtained according to the coordinate position, the width and the height of the upper left corner of the optimal cutting frame.)
技术领域
本发明涉及一种视频信号的处理方法,尤其是涉及一种立体视频裁剪方法。
背景技术
随着立体显示技术的快速发展,各种具有不同立体显示功能的立体显示终端也广泛出现了,但是,由于立体显示终端的种类繁多,宽/高比规格不一,因此若将宽/高比一定的立体视频放在不同的立体显示终端上显示,则必须先对立体视频的尺寸进行调整,以达到立体显示的效果。传统的视频缩放方法是通过裁剪或者是按固定比例进行缩放,然而这样做可能会出现视频中的内容减少或者导致显著物体形变。
对于立体视频,如果直接对左视点视频和右视点视频分别采用相同的视频重定位方法,即单独处理立体视频中的左视点视频和右视点视频,则传统的接缝雕刻(seamcarving)方法需要左右两条细缝相一致,以避免破坏原始视频的立体性质,在时间维度上,相邻帧之间的细缝需要保持一致,以使重定向的结果不会产生抖动失真;网格形变方法需要保持视觉显著区域部分的网格尽量不发生形变,而把形变分配到非视觉显著区域部分,网格形变计算量较大,并且左右网格形变量不一致容易造成立体特性发生损失。因此,如何对立体视频进行缩放以优化深度运动、减少图像形变、避免时域抖动、突出显著内容,都是在对立体视频进行重定位过程中需要研究解决的问题。
发明内容
本发明所要解决的技术问题是提供一种立体视频裁剪方法,其符合显著语义特征,且能够有效地调整立体视频的尺寸大小。
本发明解决上述技术问题所采用的技术方案为:一种立体视频裁剪方法,其特征在于包括以下步骤:
步骤一:将原始立体视频序列中当前待处理的第t帧左视点视频图像定义为当前左视点视频图像,并将原始立体视频序列中当前待处理的第t帧右视点视频图像定义为当前右视点视频图像;其中,t为正整数,t的初始值为1,1≤t≤T-1,原始立体视频序列中包含的宽度为W且高度为H的左视点视频图像的总帧数为T帧,原始立体视频序列中包含的宽度为W且高度为H的右视点视频图像的总帧数也为T帧,T为正整数,T>1;
步骤二:将当前左视点视频图像记为
并将当前右视点视频图像记为其中,1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤三:将
标记为关键帧或非关键帧;同样,将标记为关键帧或非关键帧;步骤四:采用基于光流的视差估计方法,计算
与的左右视差,记为将中坐标位置为(x,y)的像素点的视差值记为并采用基于光流的估计方法,计算与的运动矢量,记为将中坐标位置为(x,y)的像素点的运动矢量记为 同样,采用基于光流的估计方法,计算与的运动矢量,记为将中坐标位置为(x,y)的像素点的运动矢量记为其中,表示原始立体视频序列中的第t+1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示原始立体视频序列中的第t+1帧右视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,用于表示水平方向,用于表示垂直方向,表示的水平偏移量,表示的垂直偏移量,表示的水平偏移量,表示的垂直偏移量;步骤五:若
和均为关键帧,则首先采用基于图论的视觉显著模型提取出的显著图,记为并计算的梯度图,记为然后根据和获取的三维显著图,记为再根据获取的最佳裁剪框的左上角坐标位置,记为最后根据和获取的最佳裁剪框的左上角坐标位置,记为 其中,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示求取使得的值最大时的(x0,y0)的值,x0表示横坐标,y0表示纵坐标,W'表示和的最佳裁剪框的宽度,H'表示和的最佳裁剪框的高度,1<W'<W,1<H'<H,1≤i≤W',1≤j≤H',表示中坐标位置为(x0+i,y0+j)的像素点的像素值,表示中坐标位置为的像素点的视差值,亦为中坐标位置为的像素点的像素值,中的“=”为赋值符号;步骤六:若
和均为非关键帧,则根据的最佳裁剪框的左上角坐标位置和获取的最佳裁剪框的左上角坐标位置,记为同样,根据的最佳裁剪框的左上角坐标位置和获取的最佳裁剪框的左上角坐标位置,记为其中,表示原始立体视频序列中的第t-1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示原始立体视频序列中的第t-1帧右视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示的最佳裁剪框的左上角坐标位置,表示的最佳裁剪框的左上角坐标位置,表示中坐标位置为的像素点的运动矢量的水平偏移量,表示中坐标位置为的像素点的运动矢量的垂直偏移量,表示中坐标位置为的像素点的运动矢量的水平偏移量,表示中坐标位置为的像素点的运动矢量的垂直偏移量;步骤七:根据
的最佳裁剪框的左上角坐标位置及宽度和高度,获得的裁剪图像作为重定位左视点视频图像,记为同样,根据的最佳裁剪框的左上角坐标位置及宽度和高度,获得的裁剪图像作为重定位右视点视频图像,记为其中,1≤x1≤W',1≤y1≤H',表示中坐标位置为(x1,y1)的像素点的像素值,表示中坐标位置为(x1,y1)的像素点的像素值;步骤八:令t=t+1;然后将原始立体视频序列中下一帧待处理的左视点视频图像作为当前左视点视频图像,并将原始立体视频序列中下一帧待处理的右视点视频图像作为当前右视点视频图像;再返回步骤二继续执行,直至获得原始立体视频序列中除最后一帧左视点视频图像外的每帧左视点视频图像的裁剪图像、原始立体视频序列中除最后一帧右视点视频图像外的每帧右视点视频图像的裁剪图像,进而得到包含T-1帧重定位左视点视频图像和T-1帧重定位右视点视频图像的重定位立体视频序列;其中,t=t+1中的“=”为赋值符号。
所述的步骤三的具体过程为:如果t=1,则将和
直接标记为关键帧;如果t≠1,则计算和各自的直方图分布,对应记为{Pt L[b]|1≤b≤B}和然后计算{Pt L[b]|1≤b≤B}、和各自的信息熵,对应记为和 再计算{Pt L[b]|1≤b≤B}与之间的信息熵变化值,记为最后判断是否成立,如果成立,则将和标记为关键帧;否则,将和标记为非关键帧;其中,表示原始立体视频序列中的第t+1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,b为正整数,b的初始值为1,1≤b≤B,B为正整数,和中所包含的灰度等级的总数目均为B,PtL[b]表示中灰度等级为b的像素点在中出现的概率,表示中灰度等级为b的像素点在中出现的概率,表示和中灰度等级为b的像素点在和中出现的概率的均值,log2()为以2为底的指数操作函数,符号“||”为取绝对值符号,th为设定阈值。所述的步骤五中,
其中,表示中坐标位置为(x,y)的像素点的水平梯度,表示中坐标位置为(x+1,y)的像素点的像素值,GYtL(x,y)表示中坐标位置为(x,y)的像素点的垂直梯度,表示中坐标位置为(x,y+1)的像素点的像素值。所述的步骤五中,
其中,λ1和λ2为权重系数,λ1+λ2=1。与现有技术相比,本发明的优点在于:
将立体视频的左视点视频图像和右视点视频图像标记为关键帧或非关键帧,对于关键帧,通过计算左视点视频图像的三维显著图获得左视点视频图像的最佳裁剪框的左上角坐标位置,进而获得右视点视频图像的最佳裁剪框的左上角坐标位置;而对于非关键帧,直接根据前一帧的最佳裁剪框的左上角坐标位置和运动矢量,获得当前立体视频图像的最佳裁剪框的左上角坐标位置,最后根据最佳裁剪框的左上角坐标位置及宽度和高度,获得重定位立体视频,这样获得的重定位立体视频能够较好地保留重要的显著语义信息,能够较好地保持时域一致性,能够有效地调整立体视频的尺寸大小。
附图说明
图1为本发明方法的总体实现框图;
图2a为“bunny”立体视频序列的第606时刻的原始左视点图像;
图2b为“bunny”立体视频序列的第606时刻的原始左视点图像的裁剪图像;
图2c为“bunny”立体视频序列的第607时刻的原始左视点图像的裁剪图像;
图2d为“bunny”立体视频序列的第608时刻的原始左视点图像的裁剪图像;
图3a为“bunny”立体视频序列的第606时刻的原始右视点图像;
图3b为“bunny”立体视频序列的第606时刻的原始右视点图像的裁剪图像;
图3c为“bunny”立体视频序列的第607时刻的原始右视点图像的裁剪图像;
图3d为“bunny”立体视频序列的第608时刻的原始右视点图像的裁剪图像;
图4a为“iceage”立体视频序列的第1193时刻的原始左视点图像;
图4b为“iceage”立体视频序列的第1193时刻的原始左视点图像的裁剪图像;
图4c为“iceage”立体视频序列的第1194时刻的原始左视点图像的裁剪图像;
图4d为“iceage”立体视频序列的第1195时刻的原始左视点图像的裁剪图像;
图5a为“iceage”立体视频序列的第1193时刻的原始右视点图像;
图5b为“iceage”立体视频序列的第1194时刻的原始右视点图像的裁剪图像;
图5c为“iceage”立体视频序列的第1195时刻的原始右视点图像的裁剪图像;
图5d为“iceage”立体视频序列的第1196时刻的原始右视点图像的裁剪图像;
图6a为“penguins”立体视频序列的第6736时刻的原始左视点图像;
图6b为“penguins”立体视频序列的第6737时刻的原始左视点图像的裁剪图像;
图6c为“penguins”立体视频序列的第6738时刻的原始左视点图像的裁剪图像;
图6d为“penguins”立体视频序列的第6739时刻的原始左视点图像的裁剪图像;
图7a为“penguins”立体视频序列的第6736时刻的原始右视点图像;
图7b为“penguins”立体视频序列的第6737时刻的原始右视点图像的裁剪图像;
图7c为“penguins”立体视频序列的第6738时刻的原始右视点图像的裁剪图像;
图7d为“penguins”立体视频序列的第6739时刻的原始右视点图像的裁剪图像;
图8a为“squirrel”立体视频序列的第2133时刻的原始左视点图像;
图8b为“squirrel”立体视频序列的第2134时刻的原始左视点图像的裁剪图像;
图8c为“squirrel”立体视频序列的第2135时刻的原始左视点图像的裁剪图像;
图8d为“squirrel”立体视频序列的第2136时刻的原始左视点图像的裁剪图像;
图9a为“squirrel”立体视频序列的第2133时刻的原始右视点图像;
图9b为“squirrel”立体视频序列的第2134时刻的原始右视点图像的裁剪图像;
图9c为“squirrel”立体视频序列的第2135时刻的原始右视点图像的裁剪图像;
图9d为“squirrel”立体视频序列的第2136时刻的原始右视点图像的裁剪图像。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种立体视频裁剪方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:将原始立体视频序列中当前待处理的第t帧左视点视频图像定义为当前左视点视频图像,并将原始立体视频序列中当前待处理的第t帧右视点视频图像定义为当前右视点视频图像;其中,t为正整数,t的初始值为1,1≤t≤T-1,原始立体视频序列中包含的宽度为W且高度为H的左视点视频图像的总帧数为T帧,原始立体视频序列中包含的宽度为W且高度为H的右视点视频图像的总帧数也为T帧,T为正整数,T>1,T的值根据实际立体视频序列而定。
步骤二:将当前左视点视频图像记为并将当前右视点视频图像记为
其中,1≤x≤W,1≤y≤H,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值。步骤三:为了降低视频处理复杂度,将
标记为关键帧或非关键帧;同样,将标记为关键帧或非关键帧。在此具体实施例中,步骤三的具体过程为:如果t=1,则将
和直接标记为关键帧;如果t≠1,则计算和各自的直方图分布,对应记为{Pt L[b]|1≤b≤B}和然后计算{Pt L[b]|1≤b≤B}、和各自的信息熵,对应记为和 再计算{Pt L[b]|1≤b≤B}与之间的信息熵变化值,记为最后判断是否成立,如果成立,则将和标记为关键帧;否则,将和标记为非关键帧;其中,表示原始立体视频序列中的第t+1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,b为正整数,b的初始值为1,1≤b≤B,B为正整数,和中所包含的灰度等级的总数目均为B,在本实施例中取B=256,Pt L[b]表示中灰度等级为b的像素点在中出现的概率,表示中灰度等级为b的像素点在中出现的概率,表示和中灰度等级为b的像素点在和中出现的概率的均值,log2()为以2为底的指数操作函数,符号“||”为取绝对值符号,th为设定阈值,在本实施例中取th=0.5。步骤四:采用现有的基于光流的视差估计方法,计算
与的左右视差,记为将中坐标位置为(x,y)的像素点的视差值记为并采用现有的基于光流的估计方法,计算与的运动矢量,记为将中坐标位置为(x,y)的像素点的运动矢量记为 同样,采用现有的基于光流的估计方法,计算与的运动矢量,记为将中坐标位置为(x,y)的像素点的运动矢量记为其中,表示原始立体视频序列中的第t+1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示原始立体视频序列中的第t+1帧右视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,用于表示水平方向,用于表示垂直方向,表示的水平偏移量,表示的垂直偏移量,表示的水平偏移量,表示的垂直偏移量。步骤五:若
和均为关键帧,则首先采用现有的基于图论的视觉显著(Graph-Based Visual Saliency,GBVS)模型提取出的显著图,记为并计算的梯度图,记为然后根据和获取的三维显著图,记为再根据获取的最佳裁剪框的左上角坐标位置,记为 最后根据和获取的最佳裁剪框的左上角坐标位置,记为其中,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示求取使得的值最大时的(x0,y0)的值,x0表示横坐标,y0表示纵坐标,W'表示和的最佳裁剪框的宽度,H'表示和的最佳裁剪框的高度,1<W'<W,1<H'<H,1≤i≤W',1≤j≤H',表示中坐标位置为(x0+i,y0+j)的像素点的像素值,表示中坐标位置为的像素点的视差值,亦为中坐标位置为的像素点的像素值,中的“=”为赋值符号。在此具体实施例中,步骤五中,其中,
表示中坐标位置为(x,y)的像素点的水平梯度, 表示中坐标位置为(x+1,y)的像素点的像素值,GYt L(x,y)表示中坐标位置为(x,y)的像素点的垂直梯度, 表示中坐标位置为(x,y+1)的像素点的像素值。在此具体实施例中,步骤五中,
其中,λ1和λ2为权重系数,λ1+λ2=1,在本实施例中取λ1=0.6、λ2=0.4。步骤六:若
和均为非关键帧,则根据的最佳裁剪框的左上角坐标位置和获取的最佳裁剪框的左上角坐标位置,记为同样,根据的最佳裁剪框的左上角坐标位置和获取的最佳裁剪框的左上角坐标位置,记为其中,表示原始立体视频序列中的第t-1帧左视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示原始立体视频序列中的第t-1帧右视点视频图像,表示中坐标位置为(x,y)的像素点的像素值,表示的最佳裁剪框的左上角坐标位置,表示的最佳裁剪框的左上角坐标位置,表示中坐标位置为的像素点的运动矢量的水平偏移量,表示中坐标位置为的像素点的运动矢量的垂直偏移量,表示中坐标位置为的像素点的运动矢量的水平偏移量,表示中坐标位置为的像素点的运动矢量的垂直偏移量。步骤七:根据
的最佳裁剪框的左上角坐标位置及宽度和高度,获得的裁剪图像作为重定位左视点视频图像,记为同样,根据的最佳裁剪框的左上角坐标位置及宽度和高度,获得的裁剪图像作为重定位右视点视频图像,记为其中,1≤x1≤W',1≤y1≤H',表示中坐标位置为(x1,y1)的像素点的像素值,表示中坐标位置为(x1,y1)的像素点的像素值。步骤八:令t=t+1;然后将原始立体视频序列中下一帧待处理的左视点视频图像作为当前左视点视频图像,并将原始立体视频序列中下一帧待处理的右视点视频图像作为当前右视点视频图像;再返回步骤二继续执行,直至获得原始立体视频序列中除最后一帧左视点视频图像外的每帧左视点视频图像的裁剪图像、原始立体视频序列中除最后一帧右视点视频图像外的每帧右视点视频图像的裁剪图像,进而得到包含T-1帧重定位左视点视频图像和T-1帧重定位右视点视频图像的重定位立体视频序列;其中,t=t+1中的“=”为赋值符号。
以下就利用本发明方法对“bunny”、“iceage”、“penguins”和“squirrel”四组立体视频序列进行重定位实验。图2a给出了“bunny”立体视频序列的第606时刻的原始左视点图像,图2b给出了“bunny”立体视频序列的第606时刻的原始左视点图像的裁剪图像,图2c给出了“bunny”立体视频序列的第607时刻的原始左视点图像的裁剪图像,图2d给出了“bunny”立体视频序列的第608时刻的原始左视点图像的裁剪图像;图3a给出了“bunny”立体视频序列的第606时刻的原始右视点图像,图3b给出了“bunny”立体视频序列的第606时刻的原始右视点图像的裁剪图像,图3c给出了“bunny”立体视频序列的第607时刻的原始右视点图像的裁剪图像,图3d给出了“bunny”立体视频序列的第608时刻的原始右视点图像的裁剪图像;图4a给出了“iceage”立体视频序列的第1193时刻的原始左视点图像,图4b给出了“iceage”立体视频序列的第1193时刻的原始左视点图像的裁剪图像,图4c给出了“iceage”立体视频序列的第1194时刻的原始左视点图像的裁剪图像,图4d给出了“iceage”立体视频序列的第1195时刻的原始左视点图像的裁剪图像;图5a给出了“iceage”立体视频序列的第1193时刻的原始右视点图像,图5b给出了“iceage”立体视频序列的第1194时刻的原始右视点图像的裁剪图像,图5c给出了“iceage”立体视频序列的第1195时刻的原始右视点图像的裁剪图像,图5d给出了“iceage”立体视频序列的第1196时刻的原始右视点图像的裁剪图像;图6a给出了“penguins”立体视频序列的第6736时刻的原始左视点图像,图6b给出了“penguins”立体视频序列的第6737时刻的原始左视点图像的裁剪图像,图6c给出了“penguins”立体视频序列的第6738时刻的原始左视点图像的裁剪图像,图6d给出了“penguins”立体视频序列的第6739时刻的原始左视点图像的裁剪图像;图7a给出了“penguins”立体视频序列的第6736时刻的原始右视点图像,图7b给出了“penguins”立体视频序列的第6737时刻的原始右视点图像的裁剪图像,图7c给出了“penguins”立体视频序列的第6738时刻的原始右视点图像的裁剪图像,图7d给出了“penguins”立体视频序列的第6739时刻的原始右视点图像的裁剪图像;图8a给出了“squirrel”立体视频序列的第2133时刻的原始左视点图像,图8b给出了“squirrel”立体视频序列的第2134时刻的原始左视点图像的裁剪图像,图8c给出了“squirrel”立体视频序列的第2135时刻的原始左视点图像的裁剪图像,图8d给出了“squirrel”立体视频序列的第2136时刻的原始左视点图像的裁剪图像;图9a给出了“squirrel”立体视频序列的第2133时刻的原始右视点图像,图9b给出了“squirrel”立体视频序列的第2134时刻的原始右视点图像的裁剪图像,图9c给出了“squirrel”立体视频序列的第2135时刻的原始右视点图像的裁剪图像,图9d给出了“squirrel”立体视频序列的第2136时刻的原始右视点图像的裁剪图像。从图2a至图9d中可以看出,采用本发明方法得到的裁剪图像能够较好地保留重要的显著语义信息,同时又能保证时域一致性。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:电控红外光发射器自适应驱动装置及驱动方法