一种结合梯度和纹理特征的单目图像深度估计方法

文档序号:1429648 发布日期:2020-03-17 浏览:23次 >En<

阅读说明:本技术 一种结合梯度和纹理特征的单目图像深度估计方法 (Monocular image depth estimation method combining gradient and texture features ) 是由 孔清 颜成钢 刘彦禹 管飞 孙垚棋 张继勇 张勇东 沈韬 于 2019-10-28 设计创作,主要内容包括:本发明公开了一种结合梯度和纹理特征的单目图像深度估计方法。本发明包含以下步骤:步骤1:预训练目标高维特征,设计训练编码深度高维特征,并解码成原输入深度图的模型结构;步骤2:提取单目图像的附加图像特征;附加特征主要是针对图像提取相应的纹理特征和梯度特征;步骤3:构造训练高维特征学习的编码器;步骤4:将训练完成的高维特征输入到步骤1训练练完成的解码器中,进行解码得到我们最后的深度输出图。本发明采取函数关系和图像存在的深度线索相结合的方式,弥补图像中实例的细节层面的深度信息缺失的问题。本发明把图像的梯度信息和纹理信息作为深度线索,协助深度卷积网络学习图像的深度信息。(The invention discloses a monocular image depth estimation method combining gradient and texture features. The invention comprises the following steps: step 1: pre-training target high-dimensional features, designing training coding depth high-dimensional features, and decoding the training coding depth high-dimensional features into a model structure of an original input depth map; step 2: extracting additional image features of the monocular image; the additional features mainly extract corresponding texture features and gradient features aiming at the image; and step 3: constructing an encoder for training high-dimensional feature learning; and 4, step 4: inputting the trained high-dimensional features into the decoder trained in the step 1, and decoding to obtain the final depth output image. The method adopts a mode of combining the functional relation with the depth clue existing in the image to make up the problem of depth information loss of the detail level of the example in the image. The method takes the gradient information and the texture information of the image as a depth clue to assist the depth convolution network in learning the depth information of the image.)

一种结合梯度和纹理特征的单目图像深度估计方法

技术领域

本发明涉及计算机视觉图像处理领域,特别涉及一种结合梯度和纹理特征的单目图像深度估计方法。

背景技术

图像深度估计指的是根据二维图像中恢复出现实场景的深度信息,其在场景理解、三维重建、自动驾驶等领域有着重要作用。由于普通相机拍摄的图片只记录了场景的二维信息,缺乏对场景的深度表示,因此如何恢复二维图像的深度信息成为了计算机视觉领域的一项重要任务。当前获取图像深度信息的方法主要有基于多相机视差、基于运动恢复结构和利用深度相机等方式。基于多相机视差的深度估计方法需要在场景中布置多台相机,每台相机同时记录场景点的角度和位置信息,利用各视角图像中的匹配点计算出相机的视差并恢复场景的深度信息。对于基于运动恢复结构的深度估计方法,其利用移动的单目相机对场景进行记录,仅仅通过比较视频各帧之间的差异来恢复深度信息,并不能很好地收集完整且全面的图像信息,因此无法对单幅图像进行深度重建。此外,当前存在的消费级深度相机由于对环境光照敏感,计算复杂度高等原因无法在现实中的各类场景下使用。

基于单目图像的深度只利用一个视点的图像进行估计,深度线索的缺乏,使得估计问题难度加大,为此人们进行了大量的先前工作,大致包括基于深度线索的深度估计方式、基于机器学习的方式以及基于深度学习的深度估计方式。常用的深度线索包括遮挡、法线、语义信息等,通常利用对应的深度线索与深度之间的关联从而来计算深度,通常能恢复较高精度的场景深度信息,对于深度估计有很大帮助,但同时这种方法也存在巨大缺陷:其受制于场景条件和设备条件,并且需要求解设备的内外参数这些问题都会影响深度估计速度。基于机器学习的深度估计方式有很好的适用性,它不受场景的限制。它通过以深度图作为标签,将原图输入到模型中进行经验学习。但这种方法的学习速度较慢效率不高。而基于深度学习的单目深度估计方式出现则在一定程度上弥补了这些缺陷,其主要依据像素值关系反应深度关系,拟合函数把图像像素值反映到深度空间,从而获得深度图轮廓。从大量实验结果可以看出存在这样的函数从像素值中恢复深度值,但其深度图的效果不佳,图片呈现模糊,并且与原图相比,只能学习到图像深度值的大致分布,在诸多细节上仍存在巨大缺陷,这也正表示单纯依赖这样的函数来反映空间信息是片面的。

为此,我们采取函数关系和图像存在的深度线索相结合的方式,由大量的先前的工作可以看出,使用深度学习可以学习到图像的深度空间的大致分布轮廓,与此同时一些细节层面的信息缺失可以通过传统的深度线索可以得到及时的弥补。例如图像的语义信息可以帮助机器理解图像中的实例,确定实例的区域,在同一块区域范围内,有着相近的深度信息,这可以很好地弥补图像中实例的细节层面的深度信息缺失的问题。而在发明中,我们把图像的梯度信息和纹理信息作为深度线索,协助深度卷积网络学习图像的深度信息。由大量的实验证明,本发明中的方法对图像的深度信息有着良好的学习能力。

目前基于单目图像的深度估计算法具有方便部署、计算成本低等优点,受到了学术界和工业界日益增长的关注。越来越多的人们开始利用深度学习的方式来获得图像的深度特征。如今深度估计在生活环境中的应用变得日益普遍,例如帮助潜在应用更好理解网络或是在社交媒体上发布的图像,又或者可以改善现有的识别任务,并支持3D建模,机器人等应用,在增强现实(AR),自动驾驶,场景重建等领域上发挥巨大的作用。

发明内容

本发明提出一种结合梯度和纹理特征的单目图像深度估计方法。该方法基于深度学习可以从单目图像中简单有效地提取出深度特征。

本发明主要依据数字图像处理的方式提取图像特征和利用深度学习进行监督学习。本发明提出了一种新颖的端到端深度预测模型结构,本发明工作主要分为高维深度特征编解码器训练和RGB图片高维特征编码器训练两部分:第一部分主要通过训练深度图自动编码到高维特征的编码器以及训练高维特征通过解码恢复到原先深度图的解码器,其目的是为了从单张深度图中自动编码得到包含深度信息的高维特征,通过对高维特征进行解码得到正确的深度图,为第二部分的工作提供准确的高维特征标签。第二部分训练部分主要是学习单张RGB图像自动编码得到等同的高维特征。通过数字图像处理的方法从图像中提取梯度特征和纹理特征;再将原图和得到的特征图通过编码器编码,把预训练的高维特征作为监督,从而得到与预训练等同的高维特征。而在编码的过程中加上梯度特征和纹理特征,是为了在模型学习的过程中可以提供深度线索,对学习深度提供导向作用。最后通过解码器解码学习到的高维特征,得到最终目标的深度特征图。实验验证,本发明提出的方法可以快速高效地得到单目图像的深度特征。

纹理特征是反映物体表面结构属性的周期性变化和缓慢变化,主要反映同质现象,不同于颜色等其他的图像特征那样基于像素点计算,纹理特征常是在包含多个像素点的区域内进行统计计算,包含了多个像素点的特征信息,反应出的属性周期性变化或缓慢变化中包含了大量的深度信息,这可作为深度信息线索。并且纹理特征对于图像的噪声具有较强的抵御能力,可以在室内这样场景中对提取深度特征起到重要作用。

图像的梯度特征常是根据梯度的方向密度分布和梯度大小分布反应物体的表象和形状,常分布在物体的边缘位置,对于模型学习图像中的物体,可以提供良好的轮廓信息。并且沿着图像梯度下降最快的方向和深度下降最快的方向存在大体上一致性,把握梯度下降的方向也为估计深度,提取深度信息提供了巨大的帮助。

一种结合梯度和纹理特征的单目图像深度估计方法,主要分成训练编码深度高维特征-训练编码RGB图高维特征-解码高维特征三个部分,具体包含以下步骤:

步骤1:预训练目标高维特征,设计训练编码深度高维特征,并解码成原输入深度图的模型结构,具体提取步骤如下:

1-1.设计深度图-高维特征的编码器模块,参照unet网络结构:通过初始卷积模块做初步的特征提取;再经过4次1/2的下采样模块,作为主要编码的主体,将特征达到一定高的维度空间内,让模型充分学习图像的深度特征信息。始卷积模块包括两个Conv卷积-BatchNormalization批正则化-ReLU激活操作模块;下采样模块包括Maxpooling最大池化-Conv卷积-BatchNormalization批正则化-ReLU激活-Conv卷积-ReLU激活操作模块;

1-2.设计高维特征-深度图的解码模块,通过上采样卷积模块作为解码的主体,以此重复4次执行,得到原深度图的等比例的输出图。上采样卷积模块主要包括upsampling上采样-Conv卷积-BatchNormalization批正则化-ReLU激活-Conv卷积-BatchNormalization批正则化-ReLU激活的操作模块;

1-3.选取最佳损失函数,高效地让模型学习高维特征,并把高维特征解码成等同的深度图。在本发明中,为了促进模型的收敛,我们把输出深度图和输入深度图的L1范数作为损失函数。

步骤2:提取单目图像的附加图像特征。附加特征主要是针对图像提取相应的纹理特征和梯度特征,具体提取步骤如下:

2-1.提取纹理特征:

2-1-1.选择适用的滤波器,降低或消除提取不同特征之间的相关性。

2-1-2.利用小波变换的变焦特性,通过在低频带中以高频率分辨率和低时间分辨率对图像进行水平和垂直两次滤波,以及在低频率分辨率和高时间分辨率的高频带中对图像进行水平和垂直方向上的两次滤波。

2-2.提取梯度特征:

2-2-1.对图像灰度化和Gamma归一化,减少其他因素对图像的影响。

2-2-2.对图像计算图像的梯度,保存每个像素的梯度值和梯度方向。

2-2-3.把图像划分成block,并在block内划分更小的单元格cell。选取所需尺寸大小的block滑动步长,从图像中选取block。

2-2-4.在block内的单元格cell内进行加权投影,在bin方向投影,并计算相应的投影和。

2-2-5.根据计算得到的单元格cell梯度特征,在全图内构建block梯度特征并进行归一化,获取梯度特征图。

步骤3:构造训练高维特征学习的编码器,该编码器包含具体步骤如下:

3-1.将图像的原图和梯度特征图进行封装,整体作为编码器的输入。

3-2.编码器的网络参照unet网络结构:通过两次初始卷积模块;再经过4次1/2的下采样模块,作为主要编码的主体,得到与预训练高维特征等同的高维特征。始卷积模块包括两个Conv卷积-BatchNormalization批正则化-ReLU激活操作模块;下采样模块包括Maxpooling最大池化-Conv卷积-BatchNormalization批正则化-ReLU激活-Conv卷积-ReLU激活操作模块;

3-3.选取损失函数,最小化训练部分的高维特征与预训练的目标高维特征的L1loss,高效地让模型学习高维特征的提取。

步骤4:将训练完成的高维特征输入到步骤1训练练完成的解码器中,进行解码得到我们最后的深度输出图。

本发明有益效果如下:

本发明采取函数关系和图像存在的深度线索相结合的方式,很好地弥补图像中实例的细节层面的深度信息缺失的问题。且本发明把图像的梯度信息和纹理信息作为深度线索,协助深度卷积网络学习图像的深度信息。由大量的实验证明,本发明中的方法对图像的深度信息有着良好的学习能力。

本发明中提出了一种新颖的模型结构。与常规的把深度图作为标签进行监督训练的方式不同,我们把深度图映射到一个高维特征上,并把这个高维特征作为我们的标签进行监督学习。与传统的深度图标签相比,使用高维特征进行特征匹配避免了特征数据在降维过程中导致的信息丢失,从而能够最大程度地将深度特征进行匹配。

本发明还提出了通过数字图像处理方法提取图像的纹理特征和梯度特征来作为新的附加特征加入到编码器中,它的主要作用是为了促进RGB编码的特征和深度特征一致。场景中物体表面总存在纹理,人观察视图中的物体表面含有某种纹理并且人的视线与纹理不垂直时,纹理被投影到视网膜并在视图中给出对应纹理梯度的渐进变化。这种近处稀疏和远处密集的结构密度级差对于深度估计提供了一定帮助。

附图说明

图1是单目图像深度估计的整体流程图;

图2是单目图像训练深度图-高维特征的编码器示意图;

图3是单目图像训练RGB图,梯度特征图和纹理特征图-高维特征的编码器示意图;

图4是图像提取纹理特征示意图;

图5是图像提取梯度特征示意图;

图6是高维特征-深度图解码器示意图。

具体实施方式

下面根据附图详细说明本发明,本发明的目的和效果将变得更加明显。

图2是单目图像预训练深度图-高维特征的编码器示意图。如图1所示,单目图像预训练深度图-高维特征的编码器结构:整体网络包括初始卷积块(主要包括2次conv卷积-BatchNormalization批正则化-ReLU激活处理)以及4次下采样卷积块(主要包括maxpooling最大池化-conv卷积-BatchNormalization批正则化-ReLU激活-conv卷积-ReLU激活操作模块);在卷积块中新增批正则化(BatchNormalization)不仅可以提高运算速度,也可使得深度特征提取更有效。对单目图像提取全局深度特征,先对图形做必要的预处理,变更图像规模和灰度化图像等预处理操作;将图像送入模型进行训练,以高维特征作为标签,实现监督学习;对学习率需做必要的衰退操作以促进模型学习效率,提高学习准确率。

图3是单目图像训练RGB图,梯度特征图和纹理特征图-高维特征的编码器示意图。编码器的主体与预训练的编码器主体是一致的,只改变了输入,由原来的深度图改成了由RGB图,梯度特征图以及纹理特征图融合输入。

图4是对图像进行纹理特征提取示意图。提取图像的纹理特征,先需对图像做灰度化和归一化等预处理,减少纹理提取过程中产生噪声对图像影响;对图像在横向(水平向右为正方向)和纵向(竖直向上为正方向)进行两次高频和低频滤波,保存变化结果图。

图5是对图像进行梯度特征提取示意图。提取图像的提取特征,先对图像做Gamma标准的归一化,减少其他因素如光照对整个图像影响;计算图像横坐标和纵坐标方向的梯度,同时保留梯度值和梯度方向。梯度特征依赖于求导操作,不仅能捕获图像的轮廓和局部纹理理信息,并能进一步弱化光照的影响,操作如下:

a)使用[-1,0,1]梯度算子对原图做卷积运算,得到图像在x方向(水平方向,以向右的方向作为正方向)。

b)使用[1,0,-1]梯度算子对原图做卷积运算,得到图像在y方向(竖直方向,以向上的方向作为正方向)。

对整个图像划分单元格cell,统计每个像素的梯度信息在cell内对n个方向块进行加权投影(映射到固定的角度范围)得到celldescrptor。再将单元格cell组合成大的block,在block的范围内,统计梯度信息对n个方向块进行加权投影得到blockdescrptor,并对梯度信息做进一步归一化,进一步地对光照、阴影和边缘进行压缩;压缩生成HOG特征和HOGimage进行保存。

图6是高维特征-深度图的解码器模型结构示意图。如6所示,先构造合适的上采样模块,将编码器所得到的特征图进行上采样处理,使得图像最后可以原比例进行输出。再通过上采样卷积模块(主要包括upsampling上采样-conv卷积-BatchNormalization批正则化-ReLU激活-conv卷积-BatchNormalization批正则化-ReLU激活的操作模块)以此重复4次执行,得到原深度图的等比例的输出。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:饮水机出水量的控制方法、装置、饮水机及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!