一种基于伪标签融合的双目深度估计方法

文档序号:1891130 发布日期:2021-11-26 浏览:15次 >En<

阅读说明:本技术 一种基于伪标签融合的双目深度估计方法 (Binocular depth estimation method based on pseudo label fusion ) 是由 张颖 魏杰科 曹豫 成二康 于 2021-10-29 设计创作,主要内容包括:本发明涉及自动驾驶技术领域,具体来说是一种基于伪标签融合的双目深度估计方法,包括通过双目相机获得左右图;对左右图进行立体匹配,计算出深度图作为伪标签;还包括:通过深度图和置信度网络对左右图进行训练,获得深度图与置信度图;将深度图、置信度图和立体匹配的深度图结合,放入融合网络;获取融合后的深度图,并与真值计算损失函数,反向传播训练模型。本发明所提供的一种基于伪标签融合的双目深度估计方法,既能保留深度学习方法泛化能力强的优势,又能结合传统方法精度高的优点,使本发明的深度图系统在各场景环境下均能保持良好的精度与鲁棒性。(The invention relates to the technical field of automatic driving, in particular to a binocular depth estimation method based on pseudo tag fusion, which comprises the steps of obtaining left and right images through a binocular camera; carrying out stereo matching on the left image and the right image, and calculating a depth image as a pseudo label; further comprising: training the left and right images through a depth image and a confidence coefficient network to obtain a depth image and a confidence coefficient image; combining the depth map, the confidence map and the stereo matching depth map, and putting the depth map, the confidence map and the stereo matching depth map into a fusion network; and acquiring the fused depth map, calculating a loss function with the true value, and reversely propagating the training model. The binocular depth estimation method based on pseudo tag fusion provided by the invention not only can retain the advantage of strong generalization capability of a depth learning method, but also can combine the advantage of high precision of the traditional method, so that the depth map system provided by the invention can keep good precision and robustness under various scene environments.)

一种基于伪标签融合的双目深度估计方法

技术领域

本发明涉及自动驾驶技术领域,具体来说是一种基于伪标签融合的双目深度估计方法。

背景技术

NHTSA将无人驾驶技术分为6个等级,分别是0-5,其中L0为全人工控制的一般车辆,L1级别又称辅助驾驶,可以实现简单的加减速,L2级别又称部分自动驾驶,可以实现L1级别的所有内容的同时还能实现自动泊车,而L4、L5级别都能实现全自动驾驶,区别在于L4级别只能在特定的道路和天气下实现全自动驾驶而L5级别可以适应全地形和全气候。深度估计是无人驾驶的重要技术,在自动驾驶过程中的障碍物检测,测距,三维目标检测都有着重要的应用。获取障碍物的距离信息,可以通过激光雷达,红外,单目相机,双目相机等多种传感器。相机是自动驾驶中最常见的传感器,单目相机进行深度估计很难获得尺度信息,且动态物体会对单目深度估计造成很大的挑战,双目相机可以利用左右目的基线信息恢复尺度,但现有技术中,由于光线和场景影响,基于视觉的双目深度图估计不够往往鲁棒。

传统方法通过寻找双目图像左右帧匹配点,计算匹配点数视差,再根据视差和基线距离来获得深度,比如专利号:TW1069348288B,将双目图像提取匹配点,之后计算视差,从而恢复出深度图,但这种方法对光照和场景纹理比较敏感,在光照条件差或者纹理稀缺的场景中不够鲁棒;基于深度学习的双目深度估计主要通过神经网络获取左图的视差图,再将左图通过视差图投影到右图并与真实右图做差来训练模型,但是这种方案对于一些不在训练数据中的场景不够鲁棒,且由于投影误差的存在,会导致深度图精度存在误差。因此需要在现有技术的基础上,提出一种能结合传统方法的精度与深度学习方法鲁棒性的方法。

发明内容

本发明的目的在于解决现有技术的不足,提供一种基于伪标签融合的双目深度估计方法,并将传统方法与深度学习结合,提高深度图的精度与鲁棒性。

为了实现上述目的,设计一种基于伪标签融合的双目深度估计方法,包括以下步骤,通过双目相机获得左右图;对左右图进行立体匹配,计算出深度图作为伪标签;

所述方法还包括:通过深度图和置信度网络对左右图进行训练,获得深度图与置信度图;将深度图、置信度图和立体匹配的深度图结合,放入融合网络;获取融合后的深度图,并与真值计算损失函数,反向传播训练模型。

本发明还具有如下优选的技术方案:

进一步的,所述方法具体如下:

步骤a.获得双目相机采集的左右视图;步骤b.深度学习神经网络包括获得深度图模型与置信度模型,输入左右图并通过深度图模型获得图像中每个像素点的深度,利用该深度与深度图真值构建损失函数;步骤c.将左右视图用双目立体匹配的方法获得深度图;步骤d.将深度学习的深度图、传统方法深度图、置信度图进行叠加,并放入融合网络,得到融合后的深度图,并将融合后的结果与真值构建损失函数;步骤e.将两个损失函数进行加权,反向传播训练模型,多轮训练反向传播后得到最终输出模型;步骤f.在推理阶段,通过训练好的模型预测深度图与置信度,同时计算传统深度图,进行融合得到最后结果。

进一步的,所述步骤b包括如下步骤:通过深度学习训练得到深度图模型与置信度模型后,输入左右图给深度图模型并获得当前帧左图的深度图D1,以及该深度图对应的置信度图,然后将深度图与真实深度图构建损失函数:loss1=L1(D1,Dgt),其中,L1()表示L1loss ,Dgt表示该帧图像对应的深度图真值,D1表示深度图模型得到的深度图。

进一步的,所述的步骤d包括如下步骤:将步骤b得到的深度图D1和步骤c得到深度图D2及置信度网络得到的置信度图C1在通道方向进行叠加,并将叠加后的图像放入融合网络,得到融合后的深度图D3,并将该深度图与真值求loss,构建有监督损失函数:loss2=L1(D3,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D3表示融合后的深度图。

发明的有益效果

本发明所提供的一种基于伪标签融合的双目深度估计方法的优点在于:对于双目相机获得的左右图,通过深度图/置信度网络对左右图进行训练,获得深度图与置信度图;并利用传统方法对左右图进行立体匹配,计算出深度图作为伪标签;然后将深度学习的深度图与置信度图和立体匹配的深度图结合,放入融合网络,获取融合后的深度图,并与真值计算损失函数,反向传播训练模型,既能保留深度学习方法泛化能力强的优势,又能结合传统方法精度高的优点,使本发明的深度图系统在各场景环境下均能保持良好的精度与鲁棒性。

附图说明

图1示例性示出了本发明的一种基于伪标签融合的双目深度估计方法;

图2示例性示出了在一实施例中拍摄的车辆上匝道情景示意图;

图3示例性示出了对图2使用传统立体匹配方法所获得的深度图结果;

图4示例性示出了对图2使用本发明所述方法得到的深度图结果。

具体实施方式

下面结合附图对本发明进一步说明,参见图1,所述的一种基于伪标签融合的双目深度估计方法具体包括以下步骤:

步骤a.获得双目相机采集的左右视图;

步骤b.深度学习神经网络包括获得深度图模型与置信度模型,输入左右图并通过深度图模型获得图像中每个像素点的深度,利用该深度与深度图真值构建损失函数;

步骤c.将左右视图用双目立体匹配的方法获得深度图;

步骤d.将深度学习的深度图、传统方法深度图、置信度图进行叠加,并放入融合网络,得到融合后的深度图,并将融合后的结果与真值构建损失函数;

步骤e.将两个损失函数进行加权,反向传播训练模型,多轮训练反向传播后得到最终输出模型;

步骤f.在推理阶段,通过训练好的模型预测深度图与置信度,同时计算传统深度图,进行融合得到最后结果。

在上述步骤中,所述的步骤b包括如下步骤:通过深度学习训练得到深度图模型与置信度模型后,输入左右图给深度图模型并获得当前帧左图的深度图D1,以及该深度图对应的置信度图,然后将深度图与真实深度图构建损失函数:loss1=L1(D1,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D1表示深度图模型得到的深度图。

所述的步骤c包括如下步骤:首先提取左图中像素梯度值大于一定阈值的像素点,然后在右图同一y值的基线上遍历搜索像素点,计算左右像素点周围一定区域的SAD值,从而找到对应的匹配点。然后根据匹配点得到像素视差d’=x2-x1,其中x2是左图中像素点的x坐标,x1是右图中对应点的x坐标,d’是视差值,最后根据视差值和相机参数求出像素点的深度值,得到深度图D2。

所述的步骤d包括如下步骤:将步骤b得到的深度图D1和步骤c得到深度图D2及置信度网络得到的置信度图C1在通道方向进行叠加,并将叠加后的图像放入融合网络,得到融合后的深度图D3,并将该深度图与真值求loss,构建有监督损失函数:loss2=L1(D3,Dgt),其中,L1()表示L1 loss ,Dgt表示该帧图像对应的深度图真值,D3表示融合后的深度图。

下面通过具体实施例,对本发明所采用的一种基于伪标签融合的双目深度估计方法做具体的说明,在本实施例中,通过本发明所提供的技术方案,具体实施在某一路段上。

步骤a.使用带32线激光雷达和双目摄像头的采集车在该路段随机采集约20万带激光点云信号的视频序列图片作为有监督训练数据使用,由于激光雷达的误差在厘米级,远小于视觉测距误差(米级),可以作为训练真值使用。

步骤b.使用具备大显存的gpu服务器进行有监督训练,其中模型结构和loss设计在上述技术方案中已做详细介绍,训练过程中batch size设为64,优化器使用SGD,初始learning rate为0.01并在第60 epoch时调整为0.001,一共训练120个 epoch 后loss完成收敛产出模型。

步骤c.使用带32线激光雷达和双目摄像头的采集车在该路段随机采集约1万带激光点云信号的视频序列图,该数据作为带深度真值的测试数据用来检验算法效果。

步骤d.使用步骤b中训练出的模型在服务器中对测试数据进行推理并得到每张测试图片的深度图。

步骤e.效果展示和模型性能统计,参见图2,是该路段上的上匝道场景,图4是使用本方法产生的深度图结果,可以看出车辆和路面的深度信息还原较好。图3是使用传统立体匹配方法得到的深度图,车辆和路面深度信息失真和丢失严重。最后在测试数据中的综合评估结果,传统立体匹配方法的深度平均误差超过15%,基于深度学习的双目深度图方法平均误差>8%,而使用本方法深度平均误差<6%。

以上所述,仅为此发明的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案和新型的构思加于等同替换或改变,都应涵盖在本发明的保护范围之内。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于测量身体部位的关键尺寸的方法、设备和介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!