估计单个图像的深度图的方法和设备

文档序号：1773179 发布日期：2019-12-03 浏览：9次 >En<

阅读说明：本技术 估计单个图像的深度图的方法和设备 (Estimate the method and apparatus of the depth map of single image ) 是由李斐刘汝杰于 2018-05-23 设计创作，主要内容包括：本发明公开了一种估计单个图像的深度图的方法和设备。该方法包括：a)获取标注有语义标签的单个图像；以及b)根据该图像及该图像的语义标签,估计该图像的深度图。(The invention discloses a kind of methods and apparatus of depth map for estimating single image.This method comprises: a) obtaining the single image for being labeled with semantic label；And the depth map of the image b) is estimated according to the image and the semantic label of the image.)

估计单个图像的深度图的方法和设备

技术领域

本发明一般地涉及三维图像处理领域。具体而言，本发明涉及一种能够估计单个图像的深度图的方法和设备。

背景技术

近年来，随着三维成像技术的发展，涌现了很多相关的应用，如增强现实、数字博物馆、三维打印等。三维成像技术的重要方面是三维重建技术。深度信息对于三维重建至关重要。一般而言，可以从单个图像、两个图像或多于两个图像估计深度。其中，从单个图像估计深度仅需一个图像，并且所估计的深度可便利地用于对象识别、姿态估计等计算机视觉应用。但是单个图像提供的信息有限，深度估计的精度有待提高。

传统的方法利用梯度数据和多尺度信息来从单个图像估计深度图。然而，图像的像素信息与深度信息之间的关系较为复杂，两者之间的直接映射难以学习。因此，需要利用额外的信息来帮助提高深度估计的精度。

本发明旨在利用语义标签信息提高从单个图像估计深度的精度。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的基本思想是像素级的语义标签能够指示每个像素属于图像中的哪个类型的区域，一些类型的区域，例如墙，具有相对统一或线性/均匀变化的深度，因此，这些语义标签对像素的深度具有强约束。利用深度神经网络可以学习这样的约束，并提供更加准确的深度估计结果。另外，发明人注意到语义标签与深度之间的影响是相互的，也可以从深度图出发估计语义标签，借助于深度图来提高语义标签的准确度。进一步地，可以通过深度图到语义标签再到深度图的不断迭代，进一步提高深度图/语义标签的估计精度。

为了实现上述目的，根据本发明的一个方面，提供了一种估计单个图像的深度图的方法，该方法包括：a)获取标注有语义标签的单个图像；以及b)根据该图像及该图像的语义标签，估计该图像的深度图。

根据本发明的另一个方面，提供了一种估计单个图像的深度图的设备，该设备包括：获取装置，被配置为：获取标注有语义标签的单个图像；以及估计装置，被配置为：根据该图像及该图像的语义标签，估计该图像的深度图。

根据本发明的再一方面，提供了一种估计单个图像的语义标签的方法，该方法包括：a′)获取具有深度图的单个图像；以及b′)根据该图像及该图像的深度图，估计该图像的语义标签。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明的实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了根据本发明的实施例的估计单个图像的深度图的方法的流程图；

图2示出了根据本发明的另一实施例的估计单个图像的深度图的方法的流程图；

图3示出了根据本发明的实施例的估计单个图像的深度图的设备的结构方框图；

图4示出了根据本发明的另一实施例的估计单个图像的深度图的设备的结构方框图；

图5示出了根据本发明的实施例的估计单个图像的语义标签的方法的流程图；

图6示出了根据本发明的另一实施例的估计单个图像的语义标签的方法的流程图；以及

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图1描述根据本发明的实施例的估计单个图像的深度图的方法的流程。

图1示出了根据本发明的实施例的估计单个图像的深度图的方法的流程图。如图1所示，该方法包括如下步骤：获取标注有语义标签的单个图像(步骤S1)；以及根据该图像及该图像的语义标签，估计该图像的深度图(步骤S2)。

具体地，在步骤S1中，获取标注有语义标签的单个图像。

语义标签指示该图像中的区域的类型。所述区域的类型对所述区域中的像素的深度之间的关系具有强约束。例如，语义标签指示墙的像素，一面墙的像素的深度值是统一的(正对着观看图像的观看者)，或者是线性/均匀变化的(倾斜或斜对着观看图像的观看者)。这样的语义标签就对所指示的区域内的像素的深度值具有强约束，足以用来辅助对深度的估计。类似的语义标签例如是地面、天花板、路面、建筑物的立面等。

作为一种实施方式，可以直接获得已经标注有语义标签的单个图像。其语义标签是与单个图像一起提供的现成的语义标签。

作为另一种实施方式，步骤S1可以包括：获得单个图像；根据该图像，获得该图像的语义标签。也就是说，这里的语义标签是本发明的方法自己获得的。可能是人工标注的，也可能是通过别的处理如语义分割生成的。此处可以采用本领域已知的所有从单个图像获得语义标签的技术实现。

在步骤S2中，根据该图像及该图像的语义标签，估计该图像的深度图。

步骤S2通过已经训练好的第一深度神经网络实现。该第一深度神经网络能够输入单个图像以及该图像的语义标签，并输出该图像的深度图。

通过利用标注有语义标签的训练图像及训练图像的深度图，训练第一深度神经网络。第一深度神经网络通过学习，可以知晓哪些语义标签对于深度具有强约束，如何利用强约束，生成准确的深度值。

图2示出了根据本发明的另一实施例的估计单个图像的深度图的方法的流程图。如图2所示，该方法包括如下步骤：获取标注有语义标签的单个图像(步骤S21)；根据该图像及该图像的语义标签，估计该图像的深度图(步骤S22)；根据该图像及所估计的深度图，获得该图像的语义标签(步骤S23)；以及根据该图像及所获得的语义标签，估计该图像的深度图(步骤S24)。

其中，步骤S21、S22与之前参照图1描述的步骤S1、S2相同。步骤S22由第一深度神经网络实现。

本实施例通过步骤S22获得的深度图，利用深度与语义标签互相参照、互相影响的原理，在步骤S23中，得到更为准确的语义标签，进而利用更为准确的语义标签，与步骤S22类似地，在步骤S24中再次估计出更为准确的深度图。

可想而知，在步骤S24之后，还可以继续迭代执行下述步骤：

i)根据该图像及所估计的深度图，获得该图像的语义标签；

i i)根据该图像及所获得的语义标签，估计该图像的深度图。

迭代次数例如是1、2次。

应注意，步骤S23由第二深度神经网络实现。第二深度神经网络利用训练图像、训练图像的深度图、训练图像的语义标签训练得到。第二深度神经网络通过训练学习到如何根据图像及其深度图获得图像中像素的语义标签。第二深度神经网络与第一深度神经网络训练不同、功能不同、网络参数不同。

步骤S24由第三深度神经网络实现。第三深度神经网络原理上类似于第一深度神经网络，但由于其输入是步骤S22估计的深度图为基础估计的语义标签，因此，其训练数据有别于实现步骤S22的第一深度神经网络的训练数据，故而，第三深度神经网络与第一深度神经网络的网络参数不同。

在多次迭代步骤i)、i i)的情况下，执行每个步骤i)、i i)的都是彼此不同的深度神经网络。

以上所有提及的深度神经网络可以同时训练，也可以分别训练。

下面，将参照图3描述根据本发明的实施例的估计单个图像的深度图的设备。

图3示出了根据本发明的实施例的估计单个图像的深度图的设备的结构方框图。如图3所示，根据本发明的深度图估计设备300包括：第一获取装置31，被配置为：获取标注有语义标签的单个图像；以及第一估计装置32，被配置为：根据该图像及该图像的语义标签，估计该图像的深度图。

在一个实施例中，所述第一获取装置31被进一步配置为：获得单个图像；根据该图像，获得该图像的语义标签。

图4示出了根据本发明的另一实施例的估计单个图像的深度图的设备的结构方框图。如图4所示，根据本发明的深度图估计设备400包括：第一获取装置41，被配置为：获取标注有语义标签的单个图像；第一估计装置42，被配置为：根据该图像及该图像的语义标签，估计该图像的深度图；第二获取装置43，被配置为：根据该图像及由第一估计装置42所估计的深度图，获得该图像的语义标签；第二估计装置44，被配置为：根据该图像及由第二获取装置43所获得的语义标签，估计该图像的深度图。

在一个实施例中，根据本发明的深度图估计设备400还包括：与第一获取装置41和第二获取装置43不同的多个获取装置，被配置为：根据该图像及由前级估计装置所估计的深度图，获得该图像的语义标签；与第一估计装置42和第二估计装置44不同的多个估计装置，被配置为：根据该图像及由前级获取装置所获得的语义标签，估计该图像的深度图。

在一个实施例中，所述语义标签指示该图像中的区域的类型。

在一个实施例中，所述区域的类型对所述区域中的像素的深度之间的关系具有强约束。

在一个实施例中，所述第一、第二、多个获取装置、所述第一、第二、多个估计装置分别由彼此不同的深度神经网络实现。

在一个实施例中，所述深度神经网络被分别或同时训练。

由于在根据本发明的深度图估计设备400中所包括的处理与上面描述的方法中所包括的各个步骤中的处理类似，因此为了简洁起见，在此省略这些处理的详细描述。

由于深度图与语义标签存在互相影响，可以彼此参考借鉴，因此，针对具有深度图的单个图像，可以根据深度图估计语义标签。

图5示出了根据本发明的实施例的估计单个图像的语义标签的方法的流程图。如图5所示，该方法包括如下步骤：获取具有深度图的单个图像(步骤S51)；以及根据该图像及该图像的深度图，估计该图像的语义标签(步骤S52)。

在一个实施例中，步骤S51可以包括：获得单个图像；根据该图像，获得该图像的深度图。

在另一个实施例中，如图6所示，估计单个图像的语义标签的方法包括如下步骤：获取具有深度图的单个图像(步骤S61)；根据该图像及该图像的深度图，估计该图像的语义标签(步骤S62)；根据该图像及所估计的语义标签，获得该图像的深度图(步骤S63)；根据该图像及所获得的深度图，估计该图像的语义标签(步骤S64)。

在一个实施例中，重复执行步骤S63、S64，达预定次数。

在一个实施例中，预定次数包括1、2次。

在一个实施例中，所述语义标签指示该图像中的区域的类型。

在一个实施例中，上述步骤S62、S63、S64分别由彼此不同的深度神经网络执行。

在一个实施例中，上述所有深度神经网络被分别或同时训练。

相应地，提供了一种估计单个图像的语义标签的设备，包括：获取单元，被配置为：获取具有深度图的单个图像；以及估计单元，被配置为：根据该图像及该图像的深度图，估计该图像的语义标签。

此外，这里尚需指出的是，上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图7示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，还根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记：

1.一种估计单个图像的深度图的方法，包括：

a)获取标注有语义标签的单个图像；以及

b)根据该图像及该图像的语义标签，估计该图像的深度图。

2.如附记1所述的方法，其中，所述步骤a)包括：

获得单个图像；

根据该图像，获得该图像的语义标签。

3.如附记1所述的方法，还包括：

c)根据该图像及所估计的深度图，获得该图像的语义标签；

d)根据该图像及所获得的语义标签，估计该图像的深度图。

4.如附记3所述的方法，还包括：

重复执行步骤c)、d)，达预定次数。

5.如附记1所述的方法，其中，所述语义标签指示该图像中的区域的类型。

6.如附记5所述的方法，其中，所述区域的类型对所述区域中的像素的深度之间的关系具有强约束。

7.如附记3所述的方法，其中，上述步骤b)、c)、d)分别由彼此不同的深度神经网络执行。

8.如附记7所述的方法，其中，所述深度神经网络被分别或同时训练。

9.一种估计单个图像的深度图的设备，包括：

第一获取装置，被配置为：获取标注有语义标签的单个图像；以及

第一估计装置，被配置为：根据该图像及该图像的语义标签，估计该图像的深度图。

10.如附记9所述的设备，其中，所述第一获取装置被进一步配置为：

获得单个图像；

根据该图像，获得该图像的语义标签。

11.如附记9所述的设备，还包括：

第二获取装置，被配置为：根据该图像及由第一估计装置所估计的深度图，获得该图像的语义标签；

第二估计装置，被配置为：根据该图像及由第二获取装置所获得的语义标签，估计该图像的深度图。

12.如附记11所述的设备，还包括：

与第一获取装置和第二获取装置不同的多个获取装置，被配置为：根据该图像及由前级估计装置所估计的深度图，获得该图像的语义标签；

与第一估计装置和第二估计装置不同的多个估计装置，被配置为：根据该图像及由前级获取装置所获得的语义标签，估计该图像的深度图。

13.如附记9所述的设备，其中，所述语义标签指示该图像中的区域的类型。

14.如附记13所述的设备，其中，所述区域的类型对所述区域中的像素的深度之间的关系具有强约束。

15.如附记12所述的设备，其中，所述第一、第二、多个获取装置、所述第一、第二、多个估计装置分别由彼此不同的深度神经网络实现。

16.如附记15所述的设备，其中，所述深度神经网络被分别或同时训练。

17.一种估计单个图像的语义标签的方法，包括：

a')获取具有深度图的单个图像；以及

b')根据该图像及该图像的深度图，估计该图像的语义标签。

18.如附记17所述的方法，还包括：

c')根据该图像及所估计的语义标签，获得该图像的深度图；

d')根据该图像及所获得的深度图，估计该图像的语义标签。

19.如附记18所述的方法，还包括：

重复执行步骤c’)、d’)，达预定次数。

20.如附记17所述的方法，其中，所述语义标签指示该图像中的区域的类型。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于计算鬼成像的三维目标重构方法

估计单个图像的深度图的方法和设备

相关技术

网友询问留言