将图像映射到合成域

文档序号：884219 发布日期：2021-03-19 浏览：6次 >En<

阅读说明：本技术 将图像映射到合成域 (Mapping images to composite domains ) 是由 B·普兰谢 S·扎卡罗夫 A·胡特 S·伊利克吴子彦于 2019-08-12 设计创作，主要内容包括：将图像映射到合成域。本发明涉及一种用于训练生成网络的方法,所述生成网络被设计用于将杂乱图像转换成合成域的表示。此外,本发明提供了一种用于从杂乱图像恢复对象的方法。(The image is mapped to the composite domain. The invention relates to a method for training a generating network designed to convert a scrambled image into a representation of a synthetic domain. Furthermore, the invention provides a method for restoring an object from a cluttered image.)

将图像映射到合成域

技术领域

本发明涉及一种用于训练生成网络的方法，该生成网络被设计用于将杂乱图像转换成合成域的表示，例如法线映射。这样的经训练的生成网络可以例如用于从有噪声的彩色图像识别对象或其属性。

背景技术

生成网络包括人工神经网络。深度卷积神经网络特别适合这个任务。深度卷积神经网络的日益普及似乎是理所应当的，因为它们被越来越多的复杂应用所采用。不过，这种成功必须稍有细微差别，因为这些方法通常依赖于大型带注释的数据集以用于它们的训练。仍然在许多情况下（例如，对于可扩展的工业应用），如果不是不可能的话，收集所需的数据将是极其昂贵的。然而，对于这样的用例和许多其它用例，表示目标元素的合成模型通常是预先可用的。这样的合成模型的示例是工业三维（3D）计算机辅助设计（CAD）蓝图、仿真模型等。因此，利用这样的数据来训练识别方法变得普遍，例如通过渲染相关合成图像及其注释的巨大数据集。

然而，开发行为类似于它们的真实副本的详尽、精确的模型通常与收集带注释的数据一样昂贵（例如获取精确的纹理信息以从CAD数据渲染适当的图像，实际上暗指捕获和处理目标对象的图像）。结果，基于模型的样本和目标真实样本之间的显著差异（称为“现实差距”）仍然严重影响合成训练的算法对真实数据的应用。域适应的研究因此在最近几年获得了动力。

已经提出了若干解决方案，但是它们中的大多数都需要访问真实的相关数据（即使未标记），或者访问对于可扩展的真实世界用例过于精确的合成模型（例如，访问3D模型的真实纹理）。

对于依赖于合成数据的计算机视觉方法，现实差距是众所周知的问题，因为在这些模态上获取的知识通常很难翻译成更复杂的真实域，导致准确度急剧下降。到目前为止，已经调查了解决这个问题的若干方式。

第一个提议是要提高合成模型的质量和真实性。若干工作试图推进感测设备和环境现象的仿真工具。例如，最先进的深度传感器仿真器工作得相当好，因为削弱深度扫描的机制已经被很好地研究，并且可以很好地再现，如例如由Planche, B., Wu, Z., Ma, K.,Sun, S., Kluckner, S., Chen, T., Hutter, A., Zakharov, S., Kosch, H.和Ernst,J.发表于2017年关于3D视觉的国际会议的会议记录："DepthSynth: Real-Time RealisticSynthetic Data Generation from CAD Models for 2.5D Recognition"。然而，在颜色数据的情况下，问题不在于传感器仿真，而在于颜色域的实际复杂性和可变性（例如，对照明条件的敏感性、随着磨损的纹理改变等）。这使得极其艰难得到令人满意的映射，除非提供精确、详尽的合成模型（例如，通过捕获真实的纹理）。然而，目标类别的适当建模通常是不足够的，因为识别方法还将需要关于它们的环境（背景、遮挡等）的信息以应用于真实生活场景。出于这个原因，并作为仿真工具的补充，最近基于CNN的方法正试图通过直接在图像域中学习从渲染数据到真实数据的映射来进一步填补现实差距。这些方法大多基于无监督的条件生成对抗网络（GAN）或风格转移解决方案，仍然需要真实样本集来学习它们的映射。

代替地，其它方法聚焦于适应识别方法本身，以使得它们对域改变更加鲁棒。例如，存在这样的解决方案，其也使用来自目标域的未标记样本连同源数据来教导任务特定方法的域不变特征。考虑到真实世界和工业用例，当仅提供无纹理的CAD模型时，目标域信息的缺乏也可以通过在大量图像增强或随机渲染引擎上训练它们的识别算法来补偿。声称的是，在仿真器中具有足够的可变性的情况下，真实数据可能出现，就像模型的另一变体一样。

发明内容

本发明的目标是提供一种如何填补现实差距的替代概念。本发明的一个特定目标是开发一种如何训练生成网络以从杂乱图像准确地生成合成域的表示（例如干净的法线映射）的方法。

总体目标通过独立权利要求的主题来实现。从属权利要求中描述了有利的实施例和变体。

本发明提供了一种用于训练生成网络的方法，该生成网络被设计用于将杂乱图像从真实域转换成合成域的表示。此外，本发明提供了一种用于从杂乱图像恢复对象的方法。在下文中，首先详细描述用于生成网络的训练方法；随后，处理用于对象恢复的方法。

被设计用于将杂乱图像转换成合成域的表示的生成网络（注意术语“生成（generative）网络”和“生成（generation）网络”贯穿本专利申请可互换使用）包括人工神经网络。训练生成网络的方法包括以下步骤：

-接收杂乱图像作为输入；

-借助于编码器子网络从杂乱图像提取多个特征；

-借助于第一解码器子网络将特征解码成第一模态；

-借助于第二解码器子网络，将特征解码成不同于第一模态的至少第二模态；

-借助于蒸馏子网络使第一模态和第二模态相关；以及

-返回合成域的表示作为输出。

值得注意，通过一起优化编码器子网络、第一解码器子网络、第二解码器子网络和蒸馏子网络来训练生成网络的人工神经网络。

人工神经网络（ANN）是受构成动物大脑的生物神经网络模糊启发的计算系统。人工神经网络通过考虑示例来“学习”施行任务，一般不用任何任务特定规则来编程。

ANN基于称为人工神经元的经连接的单元或节点的集合，该集合松散地对生物大脑中的神经元进行建模。每个连接——就像生物大脑中的突触一样——可以将信号从一个人工神经元传输到另一个人工神经元。接收信号的人工神经元可以对其进行处理，并且还生成与其连接的附加人工神经元。

在常见的ANN实施方式中，人工神经元之间连接处的信号是实数，并且每个人工神经元的输出由其输入之和的一些非线性函数计算。人工神经元之间的连接称为“边缘”。人工神经元和边缘通常具有随着学习进行而调整的权重。权重增加或减少连接处的信号强度。通常，人工神经元被聚集成层。不同的层可以对它们的输入施行不同种类的变换。信号从第一层（输入层）传播到最后一层（输出层），经常穿过之间的多个隐藏层。

对象的“杂乱”图像被理解为其中已经添加了某个种类的干扰（换句话说噪扰）的图像。“杂乱”包括但不限于，

-对象后面的背景，

-阴影，

-模糊，

-对象的旋转、平移、翻转和调整大小，以及

-对象的部分遮挡。

在输入表示没有纹理或颜色的情况下——例如在无纹理的CAD模型的情况下——则随机的

-表面纹理，和

-颜色

也可以以杂乱的意义分别添加到输入表示。

图像以及深度映射或法线映射原则上要么可以基于真实照片，要么它们可以从诸如计算机辅助设计（CAD）模型之类的模型合成地生成。此外，杂乱要么可以是对象的真实摄影的结果——其是在例如后面有一些背景且部分被遮挡的情况下拍摄的——要么可以是人工生成的。如果表示（即图像、深度映射、法线映射等）不包含任何杂乱，则它被称为“干净的”。

编码器子网络和解码器子网络在下文中也将分别简称为“编码器”和“解码器”。

存在表示对象的许多方式。例如，对象可以由深度映射表示，其中深度映射的每个点（像素）指示其相对于摄像机的距离。

对象也可以由法线映射来表征。法线映射是从特定视角的三维（3D）模型的表面法线的表示，其存储在二维彩色图像中，也称为RGB（即红色/绿色/蓝色）图像。本文中每个颜色对应于表面法线的取向。

表示对象的又另一方式是照明映射。在照明映射中，每个点（像素）表示在所述点处照射在对象上的光的强度。

表示对象的方面的又另一方式是对象的二进制掩模。对象的二进制掩模描述其轮廓，忽视所述对象的高度和深度。

表示对象的方面的又另一方式是UV映射。UV映射是将2D图像投影到3D模型的表面用于纹理映射的3D建模过程。

在本申请的上下文中，所有这些表示都被称为“模态”。每个模态从相同的基础（即编码在例如特征向量或特征映射中的多个特征）提取。

注意，本方法不限于上面提到的特定模态。原则上，可以采取任何表示，只要它可以简单地从输入模型（例如CAD模型）生成。

本发明的根本任务是当仅无纹理的CAD模型可用于训练时，训练网络来识别对象。该方法首先训练生成网络，以将杂乱图像转换成干净的几何表示，该几何表示可以用作识别网络的输入，所述识别网络被训练成从这样的干净的几何表示识别对象。这些几何表示也被称为来自合成域的表示。

这样的表示的示例是法线映射、深度映射、或者甚至UV映射。

表示应该是“干净的”，即它们不应该包含任何杂乱。

表示应该是进一步有区别的，这意味着表示应该包含任务所需要的所有信息，但如果可能的话，则不应包含更多信息。

有利地，表示也适合于从输入域回归，即从杂乱图像回归。例如，训练网络从对象的图像回归法线映射或深度映射是可能的，因为它可以使用先前的CAD知识和对象的轮廓来引导转换。回归与对象的外观完全断开的表示将更困难得多，因为例如蓝图就是这种情况。

本发明公开了一种新的生成网络。该网络相对复杂，但是预期从杂乱的输入图像产生特别准确的法线映射。该网络可以被描述为“具有自关注蒸馏的多任务自动编码器”。基本上，它具有以下组件：

第一，生成网络包括编码器子网络，其被设计用于从输入的杂乱图像提取有意义的特征。

第二，生成网络包括若干解码器。每个解码器从编码器获得特征，并具有将它们“解码”成不同模态的任务。例如，一个解码器具有从给定特征提取/恢复法线映射的任务，一个解码器具有提取/恢复深度映射的任务，一个解码器具有提取/恢复语义掩模的任务，一个解码器具有提取/恢复照明映射的任务等。与只获取在解码器中的一个中生成的法线映射相比，通过一起训练这些解码器，可以使网络更加鲁棒。这是由于在若干解码器一起优化时而导致的协同作用。这“迫使”编码器提取尽可能有意义的特征，该特征可以用于所有任务。

第三，生成网络包括在所有解码器之上的蒸馏子网络（其在下文中可互换地也称为“蒸馏模块”或“蒸馏网络”）。尽管一个解码器输出法线映射似乎将是充分的，但是假设通过考虑其它解码器的输出也可以进一步提高生成网络的质量。例如，返回法线映射的解码器可能未能正确恢复对象的一部分，而深度解码器成功了。通过将两个解码器的结果相关，可以获得精炼的（换句话说，“蒸馏的”）法线映射。若干解码器的单独输出的相关由蒸馏网络实行。它将解码器的结果作为输入，一起处理它们，并返回精炼的法线映射。

这个蒸馏模块利用“自关注”层，其基本上有助于评估每个中间结果的质量，以更好地将它们合并在一起。训练目标解码器连同其它解码器已经通过协同作用提高了其性能。然而，一个人可以通过在解码器之上添加蒸馏模块、合并它们的输出以蒸馏最终结果，来进一步利用多模态架构。

给定特征映射

自关注操作的输出可以示例性地是：

其中σ是softmax激活函数；

学习的权重矩阵（选择）；并且γ是可训练的标量权重。

将这个过程实例化并应用到每个重新编码的模态，在解码它们以获得最终输出之前，对结果特征映射进行求和。

这种新的蒸馏过程不仅允许在中间模态之间传递消息，而且允许在每个模态中的遥远区域之间传递消息。蒸馏网络与生成器的其余部分联合训练，其中最终生成损失L_g应用于蒸馏结果。因此，不仅整个生成器可以在单次传递中高效地训练，而且不需要手动加权子任务损失，因为蒸馏网络隐式地覆盖了它。这是特别有利的，因为仅当来自目标域的验证数据可用时，手动微调在技术上才是可能的。

描述性地说，本方法的主要优点是：

-通过为多任务学习生成所有这些不同的模态，充分利用合成数据（通常被认为是真实数据的不良代替品）；

-将多任务网络应用于“反向”域适应（即试图使真实数据看起来是合成的，以帮助进一步识别）；以及

-将用于神经网络的若干单独的架构模块组合在一起（例如，将自关注层用于蒸馏模块）。

有利地，作为生成网络的输入给定的杂乱图像是从增强流水线获得的。增强流水线借助于向干净的输入映射添加杂乱来将法线映射或深度映射增强成彩色图像。此外，信息损失是因为增强流水线的输出是二维彩色图像，而不是作为增强流水线输入的对象的精确3D表示。例如，可以从对象可用的CAD模型获得对象的干净的法线映射或深度映射。

如上面所描述的生成网络可以有利地用于从杂乱图像恢复对象的方法中。

“恢复”对象应理解为识别对象的类别（有时也称为对象的“实例”）、其相对于摄像机的姿态、或对象的其它属性。

从看不见的真实杂乱图像恢复对象的方法包括以下步骤：

-借助于已经根据上面所描述的方法之一训练的生成网络，从杂乱图像生成来自合成域的表示；

-将来自合成域的表示输入到识别网络中，其中识别网络已经被训练成从来自合成域的表示恢复对象；

-借助于识别网络从合成域的表示恢复对象；以及

-将结果输出到输出单元。

换句话说，本发明的生成网络可以有利地与已知的识别网络组合使用。识别网络的仅要求是它已经在生成网络输出的区别合成域（例如，法线映射）上被训练。

因为训练生成网络的方法实际上是在计算机上实行的，所以本专利申请还要求保护独立权利要求8和9中概述的对应计算机程序产品和计算机可读存储介质。

附图说明

现在，在附图的帮助下，仅以示例的方式描述本发明的实施例，其中：

图1图示了使用根据本发明的生成网络从看不见的真实彩色图像恢复对象类别的方法；

图2以简略的方式图示了恢复过程；以及

图3更详细地图示了本发明的生成网络的实施例。

具体实施方式

图1示出了从看不见的真实杂乱图像41恢复对象的某个特征的本发明方法的示例性实施例。该方法通过描绘包括对应的输入和输出数据的生成网络G和任务特定识别网络T^S来图示。

生成网络G包括一个编码器11、若干（这里：三个）解码器12和蒸馏网络14。生成网络G接收真实的杂乱图像41，并将它映射到合成域中。在图1中所示出的示例中，例如，生成网络G返回法线映射15。这个法线映射15随后被馈送到识别网络T^S中。识别网络被布置成对关于法线映射中描绘的对象的预定义属性进行任务特定的估计。识别网络的一个任务可以是辨别预确定对象集中的哪一个实际上被描绘在法线映射中（例如，猫）。这个任务也被称为“对象分类”。

识别网络的另一示例性任务将是评估猫是从前面、后面还是从侧面示出的。这个任务也被称为“姿态估计”。

识别网络的又另一任务将是确定图像中实际描绘了多少只猫，即使它们部分地掩模，即彼此遮挡。这个任务也被称为“对象计数”。

识别网络的又另一常见的示例性任务将是仅检测图像上的对象（单个或多个），例如通过定义边界框。这个任务也被称为“对象检测”。

因此，对象分类和对象检测之间的差异是，对象检测仅标识图像中存在描绘的任何对象，而对象分类还确定对象的类别（或实例）。

在图1中所示出的示例中，识别网络T^S的任务是对对象进行分类。这里，识别网络T^S正确地声明对象是台钳（因此，缩写为“ben”）。

解码器包括三个单独的实体，即第一解码器子网络121、第二解码器子网络122和第三解码器子网络123。所有三个解码器子网络121-123接收相同的输入，即已经由编码器11编码的特征向量（或特征映射，视情况而定）。每个解码器子网络121-123本身是人工神经网络，并将特征向量转换成预定义的模态，其将在图3的上下文中更详细地描述和例示。

图2浓缩了图1的流水线。左列涉及真实域，并表示三个真实杂乱彩色图像，即描绘台钳的第一图像（第一真实杂乱图像411）、描绘熨斗的第二图像（第二真实杂乱图像412）和描绘电话的第三图像（第三真实杂乱图像413）。这些真实的杂乱图像411-413借助于生成网络G被转换成干净的法线映射。“干净的”法线映射指如这样的对象已经从背景成功分割的事实。像法线映射一样，对象表面处的法线取向由相应的颜色表示。法线映射被描绘在图2的中间列中（即，通过第一法线映射151、第二法线映射152和第三法线映射153）。

最后，生成网络G的输出数据（即法线映射151-153）被作为识别网络T^S的输入。图2的示例中的识别网络T^S的任务是对象的分类。因此，识别网络T^S将第一类211“台钳”（缩写为“ben”）、第二类212“熨斗”和第三类213“电话”（缩写为“tel”）作为结果返回。

图3图示了生成网络G，并且此外，图示了从合成输入数据生成（合成）增强数据的增强流水线A。实际上是杂乱的彩色图像的增强数据充当用于生成网络G的训练数据。

在图3所示出的示例中，增强流水线A的合成输入数据是合成法线映射31。替代地，合成法线映射31也可以作为增强流水线A的合成输入数据。

在本实施例中，合成法线映射31是从要由识别网络恢复的对象的无纹理CAD模型获得的。“无纹理”CAD模型被理解为仅包含纯语义和几何信息，但不包含关于例如其外观（颜色、纹理、材料类型）、场景（光源的位置、摄像机、外围对象）或动画（如果是这种情况，模型如何移动）的信息的CAD模型。将随机外观或场景特征添加到无纹理CAD模型的干净法线映射将是增强流水线的任务之一。纹理信息基本上包括对象的表面的每个点的颜色信息、表面粗糙度和表面光泽度。注意，对于许多3D模型，对象的一些部分是仅可区分的，因为对象的表面的每个点的纹理信息的改变是已知的。

因此，从杂乱的彩色图像识别对象是通过仅回复到要恢复对象的无纹理CAD模型来获得的。

图3还更详细地示例性地图示了三个解码器子网络。第一解码器子网络121被设计成从编码器11提供的特征向量提取深度映射131；第二解码器子网络122被设计成提取法线映射132；以及第三解码器子网络123被设计成提取照明映射133。尽管生成网络G从特征向量返回法线映射的“任务”原则上已经由第二解码器子网络122独自实现，但是本发明的发明人已经认识到，通过组合和使若干子网络的结果相关，导致更准确和更鲁棒的结果。因此，借助于蒸馏子网络14，获得了“精炼的”法线映射15。除其它方式之外，这尤其是通过一起优化中间映射的相应损失来实现的，即对于深度映射131是L _g ^D，对于法线映射132是L _g ^N，以及对于照明映射133是L _g ^L。可选地，也可以包括直接应用于从编码器11返回的特征向量的三重损失L _t。

12页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：小占用面积高性能无源RFID标签

将图像映射到合成域

相关技术

网友询问留言