深度图优化方法、装置、电子设备及存储介质

文档序号:450637 发布日期:2021-12-28 浏览:33次 >En<

阅读说明:本技术 深度图优化方法、装置、电子设备及存储介质 (Depth map optimization method and device, electronic equipment and storage medium ) 是由 周立阳 杨幸彬 刘嘉树 姜翰青 章国锋 于 2021-09-24 设计创作,主要内容包括:本公开提供了一种深度图优化方法、装置、电子设备及存储介质,该方法包括:获取目标图像和所述目标图像对应的待优化深度图;利用训练后的用于进行深度图优化的目标神经网络,对所述待优化深度图和所述目标图像进行特征提取,生成噪声图;其中,所述噪声图用于表征所述待优化深度图对应的噪声信息和/或深度缺失信息;利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图。(The disclosure provides a depth map optimization method, a depth map optimization device, an electronic device and a storage medium, wherein the method comprises the following steps: acquiring a target image and a depth map to be optimized corresponding to the target image; performing feature extraction on the depth map to be optimized and the target image by using a trained target neural network for depth map optimization to generate a noise map; the noise map is used for representing noise information and/or depth missing information corresponding to the depth map to be optimized; and optimizing the depth map to be optimized by using the target neural network and the noise map to obtain a target depth map.)

深度图优化方法、装置、电子设备及存储介质

技术领域

本公开涉及深度学习技术领域,具体而言,涉及一种深度图优化方法、装置、电子设备及存储介质。

背景技术

深度图像可以被称为距离影像,是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像,其中,深度图在虚拟现实和场景重建等应用场景中起到至关重要的作用。

一般的,可以使用深度相机获取深度图像,或者也可以使用三维视觉计算的方式获取深度图像。但是,由于受到纹理、反射条件、物体材质等因素的影响,会造成获取的深度图像的准确度较低。

发明内容

有鉴于此,本公开至少提供一种深度图优化方法、装置、电子设备及存储介质。

第一方面,本公开提供了一种深度图优化方法,包括:

获取目标图像和所述目标图像对应的待优化深度图;

利用训练后的用于进行深度图优化的目标神经网络,对所述待优化深度图和所述目标图像进行特征提取,生成噪声图;其中,所述噪声图用于表征所述待优化深度图对应的噪声信息和/或深度缺失信息;

利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图。

上述方法中,通过利用目标神经网络,对待优化深度图和目标图像进行特征提取,生成噪声图,该噪声图可以用于表征待优化深度图中包含的噪声信息和/或深度缺失信息,进而可以利用目标神经网络和噪声图,对待优化深度图进行优化处理,比如,可以消除待优化深度图中的噪声信息,和/或补充待优化深度图中缺失的深度信息,得到精准度较高的目标深度图。

一种可能的实施方式中,所述利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图,包括:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图;其中,所述目标特征图用于消除所述待优化深度图中的噪声信息,和/或,用于补充所述待优化深度图中的深度信息;

利用所述目标特征图对所述待优化深度图进行优化处理,生成所述目标深度图。

采用上述方法,通过生成目标特征图,该目标特征图能够消除待优化深度图中的噪声信息和/或能够补充待优化深度图中的深度信息,在利用目标特征图对待优化深度图进行优化处理,生成精准度较高的目标深度图。

一种可能的实施方式中,所述利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图,包括:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成多个不同尺寸的第一特征图;

将最小尺寸的第一特征图作为待处理特征图,对所述待处理特征图进行特征采样,生成第二特征图;其中,所述特征采样包括卷积处理和/或特征上采样;

基于所述第二特征图和与所述第二特征图尺寸一致的第一特征图,生成第三特征图;

将所述第三特征图作为更新后的待处理特征图,返回至对所述待处理特征图进行特征采样,生成第二特征图的步骤,直至生成的所述第三特征图的尺寸与第一特征图对应的最大尺寸一致,并将最大尺寸对应的第三特征图确定为所述目标特征图。

这里,在生成多个不同尺寸的第一特征图之后,可以对待处理特征图进行特征采样,生成第二特征图,并基于第二特征图和与第二特征图尺寸一致的第一特征图,生成第三特征图,由于与第二特征图尺寸一致的第一特征图中特征信息较为丰富,缓解了下采样过程中造成的信息缺失,使得第三特征图中的信息较为丰富,进而使得生成的目标特征图中的信息较为丰富,以便后续基于信息较为丰富的目标特征图,能够得到精准度较高的目标深度图。

一种可能的实施方式中,根据下述步骤训练所述目标神经网络:

获取训练样本,其中,所述训练样本中包括样本图像、样本图像对应的第一深度图和第二深度图,第一深度图的精准度大于第二深度图的精准度;

利用所述训练样本,训练待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,在所述训练样本还包括样本图像对应的样本法向图和样本语义图,所述目标神经网络中包括多任务网络和深度优化网络的情况下,所述利用所述训练样本,训练待训练神经网络,得到所述目标神经网络,包括:

将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的预测噪声图、预测语义图、和预测法向图;

将所述预测噪声图和所述第二深度图输入至所述深度优化网络中,生成所述预测深度图;

基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络。

这里,训练样本中包括样本语义图和样本法向图,通过增加样本语义图和样本法向图,使得训练后的目标神经网络能够较为准确的提取到图像中的语义信息和法向信息,由于深度信息与语义信息和法向信息之间存在一定的关联,故使得训练后的目标神经网络能够基于语义信息和法向信息,生成较为准确的目标深度图。

一种可能的实施方式中,所述基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络,包括:

基于所述预测深度图和所述第一深度图,确定用于表征深度信息偏差的第一损失值、和用于表征深度梯度偏差的第二损失值;基于所述预测语义图和所述样本语义图,确定用于表征语义信息偏差的第三损失值;基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值;以及基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值;

基于所述第一损失值、第二损失值、第三损失值、第四损失值、以及所述第五损失值中的一种或多种损失值,确定目标损失值;

基于所述目标损失值,训练所述待训练神经网络,得到所述目标神经网络。

这里,设置多种损失值,可以利用一种或多种损失值,确定目标损失值,在利用目标损失值训练神经网络时,可以使得得到的目标神经网络的精准度较高。

一种可能的实施方式中,在所述目标损失值包括第四损失值的情况下,所述基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值,包括:

基于所述预测法向图和所述样本法向图,确定所述预测法向图中每个第一像素点的第一像素信息、与所述样本法向图中和所述第一像素点匹配的第二像素点的第二像素信息之间的余弦相似度;

基于各个所述第一像素点分别对应的所述余弦相似度、以及所述第一像素点的数量,确定所述第四损失值。

一种可能的实施方式中,在所述目标损失值包括第二损失值的情况下,所述基于所述预测深度图和所述第一深度图,确定用于表征深度梯度偏差的第二损失值,包括:

确定所述预测深度图中每个像素点在横轴方向上的第一梯度和在纵轴方向上的第二梯度;以及

确定所述第一深度图中每个像素点在横轴方向上的第三梯度和在纵轴方向上的第四梯度;

基于所述预测深度图中各个第三像素点分别对应的所述第一梯度和所述第二梯度,以及所述第一深度图中与所述第三像素点匹配的第四像素点对应的所述第三梯度和所述第四梯度,确定所述第二损失值。

一种可能的实施方式中,在所述目标损失值包括第五损失值的情况下,所述基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值,包括:

利用训练后的特征提取网络,分别对所述预测深度图和所述第二深度图进行特征提取,生成所述预测深度图对应的第一目标特征图、和所述第二深度图对应的第二目标特征图;

基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值。

一种可能的实施方式中,所述基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值,包括:

确定所述第一目标特征图中每个第一特征点的第一特征值、与所述第二目标特征图中和所述第一特征点匹配的第二特征点的第二特征值之间的差值;

将各个所述第一特征点分别对应的所述差值的平方和,确定为所述第五损失值。

一种可能的实施方式中,在所述将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的预测噪声图、预测语义图、预测法向图之前,所述方法还包括:

对所述样本图像和所述第二深度图进行对齐操作,得到对齐操作后的样本图像和第二深度图,其中,所述对齐操作后的样本图像和第二深度图中,像素位置相同的像素点对应在现实场景中的同一位置。

一种可能的实施方式中,在所述目标图像包括可移动设备采集的现实图像的情况下,在所述得到目标深度图之后,所述方法还包括:

基于所述目标深度图,确定所述目标图像中包括的至少一个第一目标对象的深度信息;

基于每个所述第一目标对象的深度信息和预先确定的虚拟对象的展示位姿,确定所述虚拟对象与所述第一目标对象之间的遮挡状态;

基于所述遮挡状态和所述目标图像,生成添加有所述虚拟对象的展示图像,并控制所述可移动设备展示所述展示图像。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,能够更为准确的确定虚拟对象与第一目标对象之间的遮挡状态,进而基于遮挡状态和目标图像,生成添加有虚拟对象的展示图像时,可以使得生成的展示图像的显示效果更加真实。

一种可能的实施方式中,在所述目标图像中包括至少一帧场景图像的情况下,在所述得到目标深度图之后,所述方法还包括:

基于所述至少一帧场景图像,和每帧场景图像对应的所述目标深度图,构建三维场景地图。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,能够使得构建的三维场景地图的精准度较高。

一种可能的实施方式中,在所述目标图像包括行驶装置上设置的图像采集设备采集的道路图像的情况下,在所述得到目标深度图之后,所述方法还包括:

基于所述目标深度图,确定所述目标图像中包括的至少一个第二目标对象的深度信息;

基于各个所述第二目标对象的深度信息,控制所述行驶装置。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,可以较为准确的确定第二目标对象的深度信息,进而基于各个第二目标对象的深度信息,可以更为精准的控制行驶装置,提高行驶装置的安全性能。

以下装置、电子设备等的效果描述参见上述方法的说明,这里不再赘述。

第二方面,本公开提供了一种深度图优化装置,包括:

获取模块,用于获取目标图像和所述目标图像对应的待优化深度图;

提取模块,用于利用训练后的用于进行深度图优化的目标神经网络,对所述待优化深度图和所述目标图像进行特征提取,生成噪声图;其中,所述噪声图用于表征所述待优化深度图对应的噪声信息和/或深度缺失信息;

优化模块,用于利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图。

一种可能的实施方式中,所述优化模块,在利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图时,用于:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图;其中,所述目标特征图用于消除所述待优化深度图中的噪声信息,和/或,用于补充所述待优化深度图中的深度信息;

利用所述目标特征图对所述待优化深度图进行优化处理,生成所述目标深度图。

一种可能的实施方式中,所述优化模块,在利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图时,用于:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成多个不同尺寸的第一特征图;

将最小尺寸的第一特征图作为待处理特征图,对所述待处理特征图进行特征采样,生成第二特征图;其中,所述特征采样包括卷积处理和/或特征上采样;

基于所述第二特征图和与所述第二特征图尺寸一致的第一特征图,生成第三特征图;

将所述第三特征图作为更新后的待处理特征图,返回至对所述待处理特征图进行特征采样,生成第二特征图的步骤,直至生成的所述第三特征图的尺寸与第一特征图对应的最大尺寸一致,并将最大尺寸对应的第三特征图确定为所述目标特征图。

一种可能的实施方式中,所述装置还包括训练模块,用于根据下述步骤训练所述目标神经网络:

获取训练样本,其中,所述训练样本中包括样本图像、样本图像对应的第一深度图和第二深度图,第一深度图的精准度大于第二深度图的精准度;

利用所述训练样本,训练待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,在所述训练样本还包括样本图像对应的样本法向图和样本语义图,所述目标神经网络中包括多任务网络和深度优化网络的情况下,所述训练模块,在利用所述训练样本,训练待训练神经网络,得到所述目标神经网络时,用于:

将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的预测噪声图、预测语义图、和预测法向图;

将所述预测噪声图和所述第二深度图输入至所述深度优化网络中,生成所述预测深度图;

基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,所述训练模块,在基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络时,用于:

基于所述预测深度图和所述第一深度图,确定用于表征深度信息偏差的第一损失值、和用于表征深度梯度偏差的第二损失值;基于所述预测语义图和所述样本语义图,确定用于表征语义信息偏差的第三损失值;基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值;以及基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值;

基于所述第一损失值、第二损失值、第三损失值、第四损失值、以及所述第五损失值中的一种或多种损失值,确定目标损失值;

基于所述目标损失值,训练所述待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,在所述目标损失值包括第四损失值的情况下,所述训练模块,在基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值时,用于:

基于所述预测法向图和所述样本法向图,确定所述预测法向图中每个第一像素点的第一像素信息、与所述样本法向图中和所述第一像素点匹配的第二像素点的第二像素信息之间的余弦相似度;

基于各个所述第一像素点分别对应的所述余弦相似度、以及所述第一像素点的数量,确定所述第四损失值。

一种可能的实施方式中,在所述目标损失值包括第二损失值的情况下,所述训练模块,在基于所述预测深度图和所述第一深度图,确定用于表征深度梯度偏差的第二损失值时,用于:

确定所述预测深度图中每个像素点在横轴方向上的第一梯度和在纵轴方向上的第二梯度;以及

确定所述第一深度图中每个像素点在横轴方向上的第三梯度和在纵轴方向上的第四梯度;

基于所述预测深度图中各个第三像素点分别对应的所述第一梯度和所述第二梯度,以及所述第一深度图中与所述第三像素点匹配的第四像素点对应的所述第三梯度和所述第四梯度,确定所述第二损失值。

一种可能的实施方式中,在所述目标损失值包括第五损失值的情况下,所述训练模块,在基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值时,用于:

利用训练后的特征提取网络,分别对所述预测深度图和所述第二深度图进行特征提取,生成所述预测深度图对应的第一目标特征图、和所述第二深度图对应的第二目标特征图;

基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值。

一种可能的实施方式中,所述训练模块,在基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值时,用于:

确定所述第一目标特征图中每个第一特征点的第一特征值、与所述第二目标特征图中和所述第一特征点匹配的第二特征点的第二特征值之间的差值;

将各个所述第一特征点分别对应的所述差值的平方和,确定为所述第五损失值。

一种可能的实施方式中,在将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的样本噪声图、预测语义图、预测法向图之前,所述装置还包括:对齐模块,用于:

对所述样本图像和所述第二深度图进行对齐操作,得到对齐操作后的样本图像和第二深度图,其中,所述对齐操作后的样本图像和第二深度图中,像素位置相同的像素点对应在现实场景中的同一位置。

一种可能的实施方式中,在所述目标图像包括可移动设备采集的现实图像的情况下,在所述得到目标深度图之后,所述装置还包括:第一生成模块,用于:

基于所述目标深度图,确定所述目标图像中包括的至少一个第一目标对象的深度信息;

基于每个所述第一目标对象的深度信息和预先确定的虚拟对象的展示位姿,确定所述虚拟对象与所述第一目标对象之间的遮挡状态;

基于所述遮挡状态和所述目标图像,生成添加有所述虚拟对象的展示图像,并控制所述可移动设备展示所述展示图像。

一种可能的实施方式中,在所述目标图像中包括至少一帧场景图像的情况下,在所述得到目标深度图之后,所述装置还包括:第二生成模块,用于:

基于所述至少一帧场景图像,和每帧场景图像对应的所述目标深度图,构建三维场景地图。

一种可能的实施方式中,在所述目标图像包括行驶装置上设置的图像采集设备采集的道路图像的情况下,在所述得到目标深度图之后,所述装置还包括:第三生成模块,用于:

基于所述目标深度图,确定所述目标图像中包括的至少一个第二目标对象的深度信息;

基于各个所述第二目标对象的深度信息,控制所述行驶装置。

第三方面,本公开提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的深度图优化方法的步骤。

第四方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的深度图优化方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种深度图优化方法的流程示意图;

图2示出了本公开实施例所提供的一种深度图优化方法中,目标神经网络的结构示意图;

图3示出了本公开实施例所提供的一种深度图优化装置的架构示意图;

图4示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

一般的,可以使用深度相机获取深度图像,或者也可以使用三维视觉计算的方式获取深度图像。但是,由于受到纹理、反射条件、物体材质等因素的影响,会造成获取的深度图像的准确度较低。为了提高深度图像的准确度,本公开实施例提供了一种深度图优化方法、装置、电子设备及存储介质。

针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本公开实施例进行理解,首先对本公开实施例所公开的一种深度图优化方法进行详细介绍。本公开实施例所提供的深度图优化方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该深度图优化方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示,为本公开实施例所提供的深度图优化方法的流程示意图,该方法包括S101-S103,其中:

S101,获取目标图像和目标图像对应的待优化深度图;

S102,利用训练后的用于进行深度图优化的目标神经网络,对待优化深度图和目标图像进行特征提取,生成噪声图;其中,噪声图用于表征待优化深度图对应的噪声信息和/或深度缺失信息;

S103,利用目标神经网络和噪声图,对待优化深度图进行优化处理,得到目标深度图。

上述方法中,通过利用目标神经网络,对待优化深度图和目标图像进行特征提取,生成噪声图,该噪声图可以用于表征待优化深度图中包含的噪声信息和/或深度缺失信息,进而可以利用目标神经网络和噪声图,对待优化深度图进行优化处理,比如,可以消除待优化深度图中的噪声信息,和/或补充待优化深度图中缺失的深度信息,得到精准度较高的目标深度图。

下述对S101-S103进行具体说明。

在S101中,目标图像可以为现实场景中的任一帧图像,其中,目标图像可以为彩色图像,也可以为灰度图像。待优化深度图可以为得到的任一帧深度图像,比如待优化深度图可以为由深度相机采集到的目标图像对应的深度图像,也可以为使用立体匹配算法得到的目标图像对应的深度图像。

这里,待优化深度图与目标图像为对齐后的图像,比如,可以将待优化深度图进行对齐操作,使得目标图像和对齐操作后的待优化深度图中像素位置相同的像素点对应在现实场景中的同一位置。

在S102和S103中,目标深度网络可以包括多任务网络和深度优化网络,可以将待优化深度图和目标图像视作为多通道的第一图像,利用目标神经网络中的多任务网络对第一图像进行特征提取,生成噪声图。其中噪声图用于表征待优化深度图对应的噪声信息和/或深度缺失信息。再可以将噪声图和待优化深度图视作为多通道的第二图像,使用目标神经网络中的深度优化网络对第二图像进行特征提取,得到优化处理后的目标深度图。

示例性的,多任务网络中可以包括特征提取模块和多任务解码模块,特征提取模块可以为编码-解码的卷积神经网络,即特征提取模块中可以包含编码网络和解码网络。其中编码网络可以用于提取输入的待优化深度图和目标图像的特征信息。比如,编码网络可以由卷积层和/或下采样层构成,通过编码网络对待优化深度图和目标图像进行特征提取,得到第一中间特征图。这里通过卷积层和下采样层可以增加提取到的第一中间特征图的通道数,降低特征的分辨率。

解码网络中可以包括卷积层和/或上采样层,再可以利用解码网络对得到的第一中间特征图进行卷积提取和/或上采样处理,得到与目标图像具有相同分辨率的第二中间特征图。

多任务解码模块中可以包含有三个检测分支,三个检测分支分别用于检测得到噪声图、检测得到语义图和检测得到法向图。每个检测分支在结构上可以是由一个或多个卷积层级联组成。示例性的,每个检测分支中的卷积层的步长可以为1,可以得到通道数为1、且与目标图像的分辨率相同的预测图像(比如预测图像可以为预测噪声图、预测语义图或预测法向图)。其中,在目标神经网络训练时,可以将三个检测分支保留。在目标神经网络推理时,可以将语义图对应的检测分支和法向图对应的检测分支去除,仅保留噪声图对应的检测分支。

一种可选实施方式中,在S103中,利用目标神经网络和噪声图,对待优化深度图进行优化处理,得到目标深度图,可以包括:

S1031,利用目标神经网络对噪声图和待优化深度图进行特征提取,生成目标特征图;其中,目标特征图用于消除待优化深度图中的噪声信息,和/或,用于补充待优化深度图中的深度信息;

S1032,利用目标特征图对待优化深度图进行优化处理,生成目标深度图。

采用上述方法,通过生成目标特征图,该目标特征图能够消除待优化深度图中的噪声信息和/或能够补充待优化深度图中的深度信息,在利用目标特征图对待优化深度图进行优化处理,生成精准度较高的目标深度图。

在S1031中,可以利用目标神经网络中的深度优化网络对噪声图和待优化深度图进行特征提取,生成目标特征图。

一种可选实施方式中,在S1031中,利用目标神经网络对噪声图和待优化深度图进行特征提取,生成目标特征图,可以包括步骤A1-步骤A4,其中:

步骤A1,利用目标神经网络对噪声图和待优化深度图进行特征提取,生成多个不同尺寸的第一特征图;

步骤A2,将最小尺寸的第一特征图作为待处理特征图,对待处理特征图进行特征采样,生成第二特征图;其中,所述特征采样包括卷积处理和/或特征上采样;

步骤A3,基于第二特征图和与第二特征图尺寸一致的第一特征图,生成第三特征图;

步骤A4,将第三特征图作为更新后的待处理特征图,返回至对待处理特征图进行特征采样,生成第二特征图的步骤,直至生成的第三特征图的尺寸与第一特征图对应的最大尺寸一致,并将最大尺寸对应的第三特征图确定为目标特征图。

实施时,可以将噪声图和待优化深度图视作为多通道的第二图像,使用目标神经网络中的深度优化网络对第二图像进行特征提取,得到第一尺寸的第一特征图,再可以对第一尺寸的第一特征图进行特征提取,得到第二尺寸的第一特征图,依次类推,可以得到多个不同尺寸的第一特征图。比如,可以利用卷积层执行特征提取过程。

示例性的,多个不同尺寸的第一特征图可以包括第一尺寸的第一特征图、第二尺寸的第一特征图、第三尺寸的第一特征图,其中,第一尺寸大于第二尺寸,第二尺寸大于第三尺寸。

承接上述示例进行说明,可以将第三尺寸的第一特征图(即最小尺寸的第一特征图)作为待处理特征图,对待处理特征图(即第三尺寸的第一特征图)进行特征采样(比如,可以利用卷积层进行卷积处理,或者,也可以利用上采样层进行特征上采样),生成第一次处理后的第二特征图,此时第一次处理后的第二特征图的尺寸可以为第三尺寸。再可以将第一次处理后的第二特征图和与第二特征图尺寸一致的第一特征图(这里为第三尺寸的第一特征图)进行融合,生成第一次处理后的第三特征图。其中,第一次处理后的第三特征图的尺寸可以为第三尺寸。

比如,可以将第一次处理后的第二特征图(即第三尺寸的第二特征图)和第三尺寸的第一特征图进行级联,生成第一次处理后的第三特征图;或者,可以将第三尺寸的第二特征图和第三尺寸的第一特征图进行级联,并对级联后的特征图进行卷积处理,生成第一次处理后的第三特征图;再或者,也可以确定第三尺寸的第二特征图与第三尺寸的第一特征图中相同特征位置处特征值的差值,得到残差特征图,将该残差特征图确定为第一次处理后的第三特征图。

再可以将第一次处理后的第三特征图作为更新后的待处理特征图,对更新后的待处理特征图进行特征采样(比如特征采样可以包括卷积处理和/或特征上采样处理),生成第二次处理后的第二特征图,此时,第二次处理后的第二特征图的尺寸可以为第二尺寸。进而可以基于第二次处理后的第二特征图和第二尺寸的第一特征图进行融合,生成第二次处理后的第三特征图。其中,第二次处理后的第三特征图的尺寸可以为第二尺寸。

进而可以将第二次处理后的第三特征图作为更新后的待处理特征图,对更新后的待处理特征图进行特征采样,生成第三次处理后的第二特征图,此时,第三次处理后的第二特征图的尺寸可以为第一尺寸。进而可以基于第三次处理后的第二特征图和第一尺寸的第一特征图进行融合,生成第三次处理后的第三特征图。其中,第三次处理后的第三特征图的尺寸可以为第一尺寸。可知第一尺寸为第一特征图对应的最大尺寸,则将最大尺寸对应的第三特征图确定为目标特征图,即将第一尺寸的第三特征图确定为目标特征图。

示例性的,在生成多个不同尺寸的第一特征图之后,还可以将最小尺寸(第三尺寸)的第一特征图进行特征采样,生成第二尺寸的第二特征图;再可以将第二尺寸的第二特征图与第二尺寸的第一特征图级联,将级联后的第二尺寸的特征图进行特征提取,生成第一尺寸的第二特征图,再可以将第一尺寸的第二特征图与第一尺寸的第一特征图级联,将级联后的第一尺寸的特征图进行特征提取,生成第一尺寸的第二特征图,该第一尺寸(最大尺寸)的第二特征图可以为目标特征图。

这里,在生成多个不同尺寸的第一特征图之后,可以对待处理特征图进行特征采样,生成第二特征图,并基于第二特征图和与第二特征图尺寸一致的第一特征图,生成第三特征图,由于与第二特征图尺寸一致的第一特征图中特征信息较为丰富,缓解了下采样过程中造成的信息缺失,使得第三特征图中的信息较为丰富,进而使得生成的目标特征图中的信息较为丰富,以便后续基于信息较为丰富的目标特征图,能够得到精准度较高的目标深度图。

在S1032中,可以将目标特征图与待优化深度图进行特征融合,生成目标深度图。或者,也可以对目标特征图进行至少一次特征提取,将至少一次特征提取后的特征图与待优化深度图进行特征融合,生成目标深度图。比如,特征融合的过程可以为将目标特征图与待优化深度图中相同特征位置处的特征值相加;或者,也可以将目标特征图与待优化深度图进行级联,利用卷积层对级联后的特征图进行卷积处理等。

参见图2所示的目标神经网络的示意图,该目标神经网络可以包括多任务网络和深度优化网络。其中,目标神经网络中的深度优化网络的网络结构可以为残差U型卷积神经网络。即深度优化网络可以使用卷积层和/或下采样层来增加特征图的通道数,降低特征的分辨率,得到不同分辨率的特征图,记为特征图集合{F0,F1,…,Fn}。再可以利用卷积层和/或上采样层对提取到的特征图进行卷积处理和/或上采样处理,其中,在每次上采样和卷积处理之前,可以将当前特征图与特征图集合{F0,F1,…,Fn}中相同分辨率的特征图进行连接,来减少下采样造成的信息损失;该深度优化网络可以得到与目标图像具有相同分辨率(尺寸)的单通道图片,将该单通道图片作为残差图(即目标特征图)。最后将输入的原始深度图(待优化深度图)与残差图相加,得到了优化后的目标深度图。

结合图2对深度图优化方法进行示例说明,将待优化深度图和目标图像输入至目标神经网络的多任务网络中,多任务网络中的特征提取模块对待优化深度图和目标图像进行特征提取,生成第二中间特征图,将第二中间特征图输入至噪声图对应的第一检测分支中,得到噪声图。其中,在目标神经网络的训练过程中,还可以包括语义图对应的第二检测分支和法向图对应的第三检测分支。

再将噪声图和待优化深度图输入至深度优化网络中,深度优化网络可以对噪声图和待优化深度图进行特征提取,生成多个不同尺寸的第一特征图,即图2中的第一尺寸的第一特征图21、第二尺寸的第一特征图22、和第三尺寸的第一特征图23;再可以对第三尺寸的第一特征图23进行特征提取,生成第三尺寸的第二特征图24,将第三尺寸的第二特征图24与第三尺寸的第一特征图23进行级联,对级联后的第三尺寸的特征图进行卷积处理和上采样处理,生成第二尺寸的第二特征图25;再将第二尺寸的第二特征图25与第二尺寸的第一特征图22进行级联,对级联后的第二尺寸的特征图进行卷积处理和上采样处理,生成第一尺寸的第二特征图26,将第一尺寸的第二特征图26与第一尺寸的第一特征图21进行级联,对级联后的第一尺寸的特征图进行卷积处理和上采样处理,生成目标特征图;最后将目标特征图与待优化深度图进行融合,得到目标深度图。

一种可选实施方式中,可以根据下述步骤训练目标神经网络:

步骤B1,获取训练样本,其中,训练样本中包括样本图像、样本图像对应的第一深度图和第二深度图,第一深度图的精准度大于第二深度图的精准度;

步骤B2,利用训练样本,训练待训练神经网络,得到目标神经网络。

其中,样本图像可以为灰度图像或者彩色图像,样本图像对应的第一深度图和第二深度图,其中,第一深度图的精准度大于第二深度图的精准度,即第二深度图可以视作为第一深度图的真值数据。

这里样本图像中还可以包括样本图像对应的样本法向图和样本语义图。其中,样本法向图中每个像素点的像素信息表征了样本图像中位于相同像素位置处的像素点的法向量。

示例性的,可以将样本图像输入至训练后的语义分割神经网络中,得到样本图像对应的样本语义图。

一种可选实施方式中,在训练样本还包括样本图像对应的样本法向图和样本语义图,目标神经网络中包括多任务网络和深度优化网络的情况下,步骤B2,利用训练样本,训练待训练神经网络,得到目标神经网络,包括:

步骤B21,将第二深度图和样本图像,输入至多任务网络中,得到样本图像对应的预测噪声图、预测语义图、和预测法向图;

步骤B22,将预测噪声图和第二深度图输入至深度优化网络中,生成预测深度图;

步骤B23,基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练待训练神经网络,得到目标神经网络。

这里,训练样本中包括样本语义图和样本法向图,通过增加样本语义图和样本法向图,使得训练后的目标神经网络能够较为准确的提取到图像中的语义信息和法向信息,由于深度信息与语义信息和法向信息之间存在一定的关联,故使得训练后的目标神经网络能够基于语义信息和法向信息,生成较为准确的目标深度图。

其中,步骤B21和B22的过程可参考前述对目标神经网络的说明过程,此处不再进行详细说明。

在步骤B23中,预测语义图与样本语义图构成一个图组合,预测法向图与样本法向图构成一个图组合,预测深度图与第一深度图构成一个图组合,预测深度图与第二深度图构成一个图组合,得到四个图组合,可以基于四个图组合中的至少一个图组合,训练待训练神经网络,得到目标神经网络。

一种可选实施方式中,步骤B23,基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练待训练神经网络,得到目标神经网络,可以包括:

步骤C1,基于预测深度图和第一深度图,确定用于表征深度信息偏差的第一损失值、和用于表征深度梯度偏差的第二损失值;基于预测语义图和样本语义图,确定用于表征语义信息偏差的第三损失值;基于预测法向图和样本法向图,确定用于表征法向信息偏差的第四损失值;以及基于第二深度图和预测深度图,确定用于表征深度失真信息的第五损失值;

步骤C2,基于第一损失值、第二损失值、第三损失值、第四损失值、以及第五损失值中的一种或多种损失值,确定目标损失值;

步骤C3,基于目标损失值,训练待训练神经网络,得到目标神经网络。

这里,设置多种损失值,可以利用一种或多种损失值,确定目标损失值,在利用目标损失值训练神经网络时,可以使得得到的目标神经网络的精准度较高。

在步骤C1中,可以根据下述公式(1)计算第一损失值lossdepth

其中,n为预测深度图中像素点的数量,dpred(i)为预测深度图中像素点i的像素信息(即像素点i对应的深度值),dgt(i)为第一深度图中像素点i的像素信息。其中,预测深度图中的像素点i与第一深度图中的像素点i的像素位置一致。

一种可选实施方式中,在目标损失值包括第二损失值的情况下,基于预测深度图和第一深度图,确定用于表征深度梯度偏差的第二损失值,可以包括:

步骤D1,确定预测深度图中每个像素点在横轴方向上的第一梯度和在纵轴方向上的第二梯度;以及

步骤D2,确定第一深度图中每个像素点在横轴方向上的第三梯度和在纵轴方向上的第四梯度;

步骤D3,基于预测深度图中各个第三像素点分别对应的第一梯度和第二梯度,以及第一深度图中与第三像素点匹配的第四像素点对应的第三梯度和第四梯度,确定第二损失值。

实施时,可以根据下述公式(2)计算第二损失值lossedge

其中,为预测深度图中像素点i在横轴方向上的第一梯度,为预测深度图中像素点i在纵轴方向上的第二梯度;为第一深度图中像素点i在横轴方向上的第三梯度;为第一深度图中像素点i在纵轴方向上的第四梯度。示例性的,可以使用Sobel算子计算第一梯度、第二梯度、第三梯度、和第四梯度。

示例性的,可以使用多分类的交叉熵计算第三损失值。其中,第三损失值可以用于衡量输出的预测语义图与语义标注的真值(即样本语义图)之间的一致性。

一种可选实施方式中,在目标损失值包括第四损失值的情况下,基于预测法向图和样本法向图,确定用于表征法向信息偏差的第四损失值,可以包括:

步骤E1,基于预测法向图和样本法向图,确定预测法向图中每个第一像素点的第一像素信息、与样本法向图中和第一像素点匹配的第二像素点的第二像素信息之间的余弦相似度;

步骤E2,基于各个第一像素点分别对应的余弦相似度、以及第一像素点的数量,确定第四损失值。

其中,第四损失值可以用于衡量法向预测任务中输出的预测法向图与法向真值(样本法向图)之间的一致性。

可以根据下述公式(3)确定第四损失值lossnormal

其中,npred(i)为预测法向图中像素点i(即第一像素点)的第一像素信息,ngt(i)为样本法向图中像素点i(即与第一像素点匹配的第二像素点)的第二像素信息。

这里,第一像素点可以将预测法向图中的每个像素点,第二像素点可以为样本法向图中与第一像素点的像素位置一致的像素点。

一种可选实施方式中,在目标损失值包括第五损失值的情况下,基于第二深度图和预测深度图,确定用于表征深度失真信息的第五损失值,可以包括:

步骤F1,利用训练后的特征提取网络,分别对预测深度图和第二深度图进行特征提取,生成预测深度图对应的第一目标特征图、和第二深度图对应的第二目标特征图;

步骤F2,基于第一目标特征图和第二目标特征图,确定第五损失值。

其中,在步骤F2中,基于第一目标特征图和第二目标特征图,确定第五损失值,可以包括:

步骤F21,确定第一目标特征图中每个第一特征点的第一特征值、与第二目标特征图中和第一特征点匹配的第二特征点的第二特征值之间的差值;

步骤F22,将各个第一特征点分别对应的差值的平方和,确定为第五损失值。

实施时,训练后的特征提取网络可以为VGG网络。利用训练后的VGG网络分别对预测深度图和第二深度图进行特征提取,生成预测深度图对应的第一目标特征图、和第二深度图对应的第二目标特征图。

再可以确定第一目标特征图中每个第一特征点的第一特征值、与第二目标特征图中和第一特征点匹配的第二特征点的第二特征值之间的差值。并计算各个第一特征点(或者第二特征点)分别对应的差值的平方和,将该平方和确定为第五损失值。其中,第一特征点可以为第一目标特征图中的每个特征点,第二特征点可以为第二目标特征图上与第一特征点的特征位置信息一致的特征点。

在步骤C2和C3中,实施时,可以将第一损失值、第二损失值、第三损失值、第四损失值、和第五损失值中的任一损失值作为目标损失值;或者,也可以将第一损失值、第二损失值、第三损失值、第四损失值、以及第五损失值中的多种损失值相加,得到目标损失值;比如,可以将第一损失值与第二损失值的和作为目标损失值,也可以将第一损失值、第二损失值、第三损失值、第四损失值和第五损失值的和作为目标损失值。再可以利用目标损失值,训练待训练神经网络,得到目标神经网络。

一种可选实施方式中,在将第二深度图和样本图像,输入至多任务网络中,得到样本图像对应的预测噪声图、预测语义图、预测法向图之前,方法还包括:对样本图像和第二深度图进行对齐操作,得到对齐操作后的样本图像和第二深度图,其中,对齐操作后的样本图像和第二深度图中,像素位置相同的像素点对应在现实场景中的同一位置。

示例性的,可以使用RANSAC算法、图像配准算法等对样本图像和第二深度图进行对齐操作,得到对齐操作后的样本图像和第二深度图。其中,对齐操作的算法可以有多种,此处仅为示例性说明。

一种可算实施方式中,在目标图像包括可移动设备采集的现实图像的情况下,在得到目标深度图之后,方法还包括:

步骤一,基于目标深度图,确定目标图像中包括的至少一个第一目标对象的深度信息;

步骤二,基于每个第一目标对象的深度信息和预先确定的虚拟对象的展示位姿,确定虚拟对象与第一目标对象之间的遮挡状态;

步骤三,基于遮挡状态和目标图像,生成添加有虚拟对象的展示图像,并控制可移动设备展示展示图像。

实施时,目标深度图可以应用于AR场景中,在得到的目标深度图之后,可以基于目标深度图,确定目标图像中每个第一目标对象的深度信息,再可以根据第一目标对象的深度信息和虚拟对象的展示位姿,确定虚拟对象与第一目标对象之间的遮挡状态,其中,第一目标对象的深度信息和虚拟对象的展示位姿处于同一坐标系下。

进而可以基于遮挡状态和目标图像,生成添加有虚拟对象的展示图像,并可以控制可移动设备展示生成的展示图像。比如,若遮挡状态为第一目标对象遮挡虚拟对象,则生成的展示图像中的AR特效效果为第一目标对象遮挡虚拟对象的效果;若遮挡状态为虚拟对象遮挡第一目标对象,则生成的展示图像中的AR特效效果为虚拟对象遮挡第一目标对象的效果。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,能够更为准确的确定虚拟对象与第一目标对象之间的遮挡状态,进而基于遮挡状态和目标图像,生成添加有虚拟对象的展示图像时,可以使得生成的展示图像的显示效果更加真实。

一种可选实施方式中,在目标图像中包括至少一帧场景图像的情况下,在得到目标深度图之后,方法还包括:基于至少一帧场景图像,和每帧场景图像对应的目标深度图,构建三维场景地图。

实施时,可以从每帧场景图像中提取多个特征点,并根据该帧场景图像对应的目标深度图,确定每个特征点的深度值,进而可以得到至少一帧场景图像对应的多个特征点的特征信息和深度值;再使用多个特征点的特征信息和深度值,构建三维场景地图。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,能够使得构建的三维场景地图的精准度较高。

一种可选实施方式中,在目标图像包括行驶装置上设置的图像采集设备采集的道路图像的情况下,在得到目标深度图之后,方法还包括:基于目标深度图,确定目标图像中包括的至少一个第二目标对象的深度信息;基于各个第二目标对象的深度信息,控制行驶装置。

在目标图像包括行驶装置上设置的图像采集设备采集的道路图像时,可以得到道路图像对应的目标深度图,基于道路图像对应的目标深度图,可以确定目标图像中包括的至少一个第二目标对象的深度信息;并可以基于各个第二目标对象的深度信息,控制行驶装置。比如,在控制行驶装置时,可以控制行驶装置加速、减速、转向、制动等,或者可以播放语音提示信息,以提示驾驶员控制行驶装置加速、减速、转向、制动等。

这里,由于目标深度图的精准度较高,利用精准度较高的目标深度图,可以较为准确的确定第二目标对象的深度信息,进而基于各个第二目标对象的深度信息,可以更为精准的控制行驶装置,提高行驶装置的安全性能。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于相同的构思,本公开实施例还提供了一种深度图优化装置,参见图3所示,为本公开实施例提供的深度图优化装置的架构示意图,包括获取模块301、提取模块302、优化模块303,具体的:

获取模块301,用于获取目标图像和所述目标图像对应的待优化深度图;

提取模块302,用于利用训练后的用于进行深度图优化的目标神经网络,对所述待优化深度图和所述目标图像进行特征提取,生成噪声图;其中,所述噪声图用于表征所述待优化深度图对应的噪声信息和/或深度缺失信息;

优化模块303,用于利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图。

一种可能的实施方式中,所述优化模块303,在利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图时,用于:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图;其中,所述目标特征图用于消除所述待优化深度图中的噪声信息,和/或,用于补充所述待优化深度图中的深度信息;

利用所述目标特征图对所述待优化深度图进行优化处理,生成所述目标深度图。

一种可能的实施方式中,所述优化模块303,在利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成目标特征图时,用于:

利用所述目标神经网络对所述噪声图和所述待优化深度图进行特征提取,生成多个不同尺寸的第一特征图;

将最小尺寸的第一特征图作为待处理特征图,对所述待处理特征图进行特征采样,生成第二特征图;其中,所述特征采样包括卷积处理和/或特征上采样;

基于所述第二特征图和与所述第二特征图尺寸一致的第一特征图,生成第三特征图;

将所述第三特征图作为更新后的待处理特征图,返回至对所述待处理特征图进行特征采样,生成第二特征图的步骤,直至生成的所述第三特征图的尺寸与第一特征图对应的最大尺寸一致,并将最大尺寸对应的第三特征图确定为所述目标特征图。

一种可能的实施方式中,所述装置还包括训练模块304,用于根据下述步骤训练所述目标神经网络:

获取训练样本,其中,所述训练样本中包括样本图像、样本图像对应的第一深度图和第二深度图,第一深度图的精准度大于第二深度图的精准度;

利用所述训练样本,训练待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,在所述训练样本还包括样本图像对应的样本法向图和样本语义图,所述目标神经网络中包括多任务网络和深度优化网络的情况下,所述训练模块304,在利用所述训练样本,训练待训练神经网络,得到所述目标神经网络时,用于:

将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的预测噪声图、预测语义图、和预测法向图;

将所述预测噪声图和所述第二深度图输入至所述深度优化网络中,生成所述预测深度图;

基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,所述训练模块304,在基于所述预测语义图与所述样本语义图、所述预测法向图与所述样本法向图、所述预测深度图与所述第一深度图、所述预测深度图与所述第二深度图中的至少一种图组合,训练所述待训练神经网络,得到所述目标神经网络时,用于:

基于所述预测深度图和所述第一深度图,确定用于表征深度信息偏差的第一损失值、和用于表征深度梯度偏差的第二损失值;基于所述预测语义图和所述样本语义图,确定用于表征语义信息偏差的第三损失值;基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值;以及基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值;

基于所述第一损失值、第二损失值、第三损失值、第四损失值、以及所述第五损失值中的一种或多种损失值,确定目标损失值;

基于所述目标损失值,训练所述待训练神经网络,得到所述目标神经网络。

一种可能的实施方式中,在所述目标损失值包括第四损失值的情况下,所述训练模块304,在基于所述预测法向图和所述样本法向图,确定用于表征法向信息偏差的第四损失值时,用于:

基于所述预测法向图和所述样本法向图,确定所述预测法向图中每个第一像素点的第一像素信息、与所述样本法向图中和所述第一像素点匹配的第二像素点的第二像素信息之间的余弦相似度;

基于各个所述第一像素点分别对应的所述余弦相似度、以及所述第一像素点的数量,确定所述第四损失值。

一种可能的实施方式中,在所述目标损失值包括第二损失值的情况下,所述训练模块304,在基于所述预测深度图和所述第一深度图,确定用于表征深度梯度偏差的第二损失值时,用于:

确定所述预测深度图中每个像素点在横轴方向上的第一梯度和在纵轴方向上的第二梯度;以及

确定所述第一深度图中每个像素点在横轴方向上的第三梯度和在纵轴方向上的第四梯度;

基于所述预测深度图中各个第三像素点分别对应的所述第一梯度和所述第二梯度,以及所述第一深度图中与所述第三像素点匹配的第四像素点对应的所述第三梯度和所述第四梯度,确定所述第二损失值。

一种可能的实施方式中,在所述目标损失值包括第五损失值的情况下,所述训练模块304,在基于第二深度图和所述预测深度图,确定用于表征深度失真信息的第五损失值时,用于:

利用训练后的特征提取网络,分别对所述预测深度图和所述第二深度图进行特征提取,生成所述预测深度图对应的第一目标特征图、和所述第二深度图对应的第二目标特征图;

基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值。

一种可能的实施方式中,所述训练模块304,在基于所述第一目标特征图和所述第二目标特征图,确定所述第五损失值时,用于:

确定所述第一目标特征图中每个第一特征点的第一特征值、与所述第二目标特征图中和所述第一特征点匹配的第二特征点的第二特征值之间的差值;

将各个所述第一特征点分别对应的所述差值的平方和,确定为所述第五损失值。

一种可能的实施方式中,在将所述第二深度图和所述样本图像,输入至所述多任务网络中,得到所述样本图像对应的预测噪声图、预测语义图、预测法向图之前,所述装置还包括:对齐模块305,用于:

对所述样本图像和所述第二深度图进行对齐操作,得到对齐操作后的样本图像和第二深度图,其中,所述对齐操作后的样本图像和第二深度图中,像素位置相同的像素点对应在现实场景中的同一位置。

一种可能的实施方式中,在所述目标图像包括可移动设备采集的现实图像的情况下,在所述得到目标深度图之后,所述装置还包括:第一生成模块306,用于:

基于所述目标深度图,确定所述目标图像中包括的至少一个第一目标对象的深度信息;

基于每个所述第一目标对象的深度信息和预先确定的虚拟对象的展示位姿,确定所述虚拟对象与所述第一目标对象之间的遮挡状态;

基于所述遮挡状态和所述目标图像,生成添加有所述虚拟对象的展示图像,并控制所述可移动设备展示所述展示图像。

一种可能的实施方式中,在所述目标图像中包括至少一帧场景图像的情况下,在所述得到目标深度图之后,所述装置还包括:第二生成模块307,用于:

基于所述至少一帧场景图像,和每帧场景图像对应的所述目标深度图,构建三维场景地图。

一种可能的实施方式中,在所述目标图像包括行驶装置上设置的图像采集设备采集的道路图像的情况下,在所述得到目标深度图之后,所述装置还包括:第三生成模块308,用于:

基于所述目标深度图,确定所述目标图像中包括的至少一个第二目标对象的深度信息;

基于各个所述第二目标对象的深度信息,控制所述行驶装置。

在一些实施例中,本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。

基于同一技术构思,本公开实施例还提供了一种电子设备。参照图4所示,为本公开实施例提供的电子设备的结构示意图,包括处理器401、存储器402、和总线403。其中,存储器402用于存储执行指令,包括内存4021和外部存储器4022;这里的内存4021也称内存储器,用于暂时存放处理器401中的运算数据,以及与硬盘等外部存储器4022交换的数据,处理器401通过内存4021与外部存储器4022进行数据交换,当电子设备400运行时,处理器401与存储器402之间通过总线403通信,使得处理器401在执行以下指令:

获取目标图像和所述目标图像对应的待优化深度图;

利用训练后的用于进行深度图优化的目标神经网络,对所述待优化深度图和所述目标图像进行特征提取,生成噪声图;其中,所述噪声图用于表征所述待优化深度图对应的噪声信息和/或深度缺失信息;

利用所述目标神经网络和所述噪声图,对所述待优化深度图进行优化处理,得到目标深度图。

此外,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的深度图优化方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的深度图优化方法的步骤,具体可参见上述方法实施例,在此不再赘述。

本公开涉及增强现实领域,通过获取现实环境中的目标对象的图像信息,进而借助各类视觉相关算法实现对目标对象的相关特征、状态及属性进行检测或识别处理,从而得到与具体应用匹配的虚拟与现实相结合的AR效果。示例性的,目标对象可涉及与人体相关的脸部、肢体、手势、动作等,或者与物体相关的标识物、标志物,或者与场馆或场所相关的沙盘、展示区域或展示物品等。视觉相关算法可涉及视觉定位、SLAM、三维重建、图像注册、背景分割、对象的关键点提取及跟踪、对象的位姿或深度检测等。具体应用不仅可以涉及跟真实场景或物品相关的导览、导航、讲解、重建、虚拟效果叠加展示等交互场景,还可以涉及与人相关的特效处理,比如妆容美化、肢体美化、特效展示、虚拟模型展示等交互场景。

可通过卷积神经网络,实现对目标对象的相关特征、状态及属性进行检测或识别处理。上述卷积神经网络是基于深度学习框架进行模型训练而得到的网络模型。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于增强图像深度置信度图的方法、系统、制品和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!