对象抓取方法及装置

文档序号：551884 发布日期：2021-05-14 浏览：1次 >En<

阅读说明：本技术 对象抓取方法及装置 (Object grabbing method and device ) 是由段文杰夏冬青陈亚南耿嘉王正丁有爽邵天兰于 2021-02-05 设计创作，主要内容包括：本发明公开了一种对象抓取方法及装置,方法包括：沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于所述二维彩色图的深度图；将所述二维彩色图以及所述深度图输入深度学习模型,根据输出结果预测所述二维彩色图中包含的多个可抓取对象；根据与所述三维物品区域相对应的点云信息,计算各个可抓取对象的三维位姿信息；根据所述三维位姿信息将各个可抓取对象沿所述预设深度方向进行排序,根据排序结果确定各个可抓取对象的抓取顺序。该方式通过深度学习模型能够实现任意物品的抓取操作,并且,通过将各个可抓取对象沿预设深度方向进行排序,能够确保在多个物品之间存在堆叠情况时先抓取位于上层的物品,从而保障抓取效率,提高抓取质量。(The invention discloses an object grabbing method and device, wherein the method comprises the following steps: acquiring a two-dimensional color image corresponding to a three-dimensional object area and a depth image corresponding to the two-dimensional color image along a preset depth direction; inputting the two-dimensional color image and the depth image into a depth learning model, and predicting a plurality of graspable objects contained in the two-dimensional color image according to an output result; calculating three-dimensional pose information of each object capable of being grabbed according to the point cloud information corresponding to the three-dimensional object area; and sequencing the grabbed objects along the preset depth direction according to the three-dimensional pose information, and determining the grabbing sequence of the grabbed objects according to a sequencing result. This mode can realize the operation of snatching of arbitrary article through the degree of depth learning model to, through sequencing each object that can snatch along predetermineeing the depth direction, can ensure to snatch earlier the article that is located the upper strata when having the circumstances of piling up between a plurality of articles, thereby the guarantee snatchs efficiency, improves and snatchs the quality.)

对象抓取方法及装置

技术领域

本发明涉及机械手控制技术领域，具体涉及一种对象抓取方法及装置。

背景技术

目前，随着机械手等智能机器人的广泛普及，越来越多的物品能够借助智能机器人实现抓取以及运输操作。例如，物流包装能够通过智能机器人进行抓取，从而大幅提升抓取效率。

在现有技术中，为了实现准确抓取，需要预先针对待抓取的物品进行注册，从而确定待抓取的物品的数量、形状以及位置等特征，然后，再根据待抓取的物品的数量、形状以及位置等特征控制机器人执行抓取操作。

然而，发明人在实现本发明的过程中发现，现有的抓取方式只能用于抓取预先注册的物品，而对于未注册的物品而言，由于无法确定未注册物品的形状以及位置等信息，则无法正常抓取。由此可见，现有的抓取方式无法针对任意物品进行灵活抓取，使用场景受限。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对象抓取方法及装置。

根据本发明的一个方面，提供了一种对象抓取方法，包括：

沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于所述二维彩色图的深度图；

将所述二维彩色图以及所述深度图输入深度学习模型，根据输出结果预测所述二维彩色图中包含的多个可抓取对象；

根据与所述三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息；

根据所述三维位姿信息将各个可抓取对象沿所述预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序。

可选的，所述方法执行之前，进一步包括：

采集与三维样本区域相对应的样本图像，确定所述样本图像中包含的多个物品对象；

根据所述多个物品对象之间的位置关系，对所述样本图像中包含的可抓取区域以及不可抓取区域分别进行标注，根据标注后的样本图像训练所述深度学习模型。

可选的，所述根据所述多个物品对象之间的位置关系，对所述样本图像中包含的可抓取区域以及不可抓取区域分别进行标注包括：

确定各个物品对象沿所述预设深度方向的堆叠次序，将位于顶层的物品对象所对应的区域标注为可抓取区域，将位于底层的物品对象所对应的区域标注为不可抓取区域；和/或，

根据各个物品对象的暴露比例，将暴露比例大于预设阈值的物品对象所对应的区域标注为可抓取区域，将暴露比例不大于预设阈值的物品对象所对应的区域标注为不可抓取区域；和/或，

根据各个物品对象的形状和/或类型确定各个物品对象中包含的接触区域，将接触区域未受到遮挡的物品对象所对应的区域标注为可抓取区域，将接触区域受到遮挡的物品对象所对应的区域标注为不可抓取区域。

可选的，所述根据标注后的样本图像训练所述深度学习模型包括：

将标注后的样本图像作为原始训练集，通过随机调节图片亮度和/或对比度、图片仿射变换方式和/或图片白平衡变换方式，对所述原始训练集进行扩充处理，通过扩充后得到的扩充训练集训练所述深度学习模型。

可选的，所述点云信息根据所述二维彩色图以及对应于所述二维彩色图的深度图构建得到，则所述计算各个可抓取对象的三维位姿信息包括：

建立与所述三维物品区域相对应的三维坐标系；其中，所述三维坐标系中包含的第一坐标轴以及第二坐标轴的方向与所述二维彩色图相匹配，所述三维坐标系中的第三坐标轴的方向与所述预设深度方向相匹配；

计算各个可抓取对象对应于所述第三坐标轴的深度坐标值，根据所述深度坐标值计算各个可抓取对象的三维位姿信息。

可选的，预设深度方向包括以下中的至少一个：相机拍照方向、重力方向以及物品承载面的垂直线所在的方向，其中，所述物品承载面为用于放置三维物品的载体所在的平面，所述载体包括：地面、托盘、传送带和/或物料筐；所述根据所述三维位姿信息将各个可抓取对象沿所述预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序包括：

将各个可抓取对象按照与摄像头或物品承载面之间的距离远近进行排序，并根据排序结果确定各个可抓取对象的抓取顺序；

其中，距离摄像头越近的可抓取对象的抓取顺序越靠前；距离摄像头越远的可抓取对象的抓取顺序越靠后；或者，距离物品承载面越近的可抓取对象的抓取顺序越靠后；距离物品承载面越远的可抓取对象的抓取顺序越靠前。

可选的，所述根据排序结果确定各个可抓取对象的抓取顺序之后，进一步包括：

获取相机坐标系与机器人坐标系之间的转换关系；

根据所述转换关系，将对应于相机坐标系的各个可抓取对象的三维位姿信息转换到机器人坐标系中，向机器人输出转换后的各个可抓取对象的三维位姿信息，以供机器人执行抓取操作。

可选的，所述三维位姿信息为位置信息；所述三维物品区域中包括多个沿预设深度方向堆叠的可抓取对象；其中，所述可抓取对象包括：纸箱、纸盒、信封、塑料软包、药妆品、和/或玩具。

根据本发明的又一个方面，还提供了一种对象抓取装置，包括：

获取模块，适于沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于所述二维彩色图的深度图；

预测模块，适于将所述二维彩色图以及所述深度图输入深度学习模型，根据输出结果预测所述二维彩色图中包含的多个可抓取对象；

计算模块，适于根据与所述三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息；

排序抓取模块，适于根据所述三维位姿信息将各个可抓取对象沿所述预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序。

可选的，所述预测模块进一步适于：

采集与三维样本区域相对应的样本图像，确定所述样本图像中包含的多个物品对象；

可选的，所述预测模块具体适于：

可选的，所述点云信息根据所述二维彩色图以及对应于所述二维彩色图的深度图构建得到，则所述计算模块具体适于：

计算各个可抓取对象对应于所述第三坐标轴的深度坐标值，根据所述深度坐标值计算各个可抓取对象的三维位姿信息。

可选的，预设深度方向包括以下中的至少一个：相机拍照方向、重力方向以及物品承载面的垂直线所在的方向，其中，所述物品承载面为用于放置三维物品的载体所在的平面，所述载体包括：地面、托盘、传送带和/或物料筐；所述排序抓取模块具体适于：

将各个可抓取对象按照与摄像头或物品承载面之间的距离远近进行排序，并根据排序结果确定各个可抓取对象的抓取顺序；

可选的，所述排序抓取模块进一步适于：

获取相机坐标系与机器人坐标系之间的转换关系；

根据本发明的又一方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述对象抓取方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述对象抓取方法对应的操作。

在本发明所提供的对象抓取方法及装置中，沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于二维彩色图的深度图，将二维彩色图以及深度图输入深度学习模型，从而预测二维彩色图中包含的多个可抓取对象。并且，进一步根据与三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息，从而根据三维位姿信息将各个可抓取对象沿预设深度方向进行排序，以便根据排序结果确定各个可抓取对象的抓取顺序。由此可见，该方式通过深度学习模型能够实现任意物品的抓取操作，并且，通过将各个可抓取对象沿预设深度方向进行排序，能够确保在多个物品之间存在堆叠情况时先抓取位于上层的物品，从而保障抓取效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的对象抓取方法的流程示意图；

图2示出了根据本发明另一个实施例的对象抓取方法的流程示意图；

图3示出了根据本发明又一个实施例的对象抓取装置的结构示意图；

图4示出了根据本发明的一种电子设备的结构示意图；

图5示出了一个示例中的深度学习模型的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的对象抓取方法的流程示意图，如图1所示，该方法包括：

步骤S110：沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于二维彩色图的深度图。

其中，预设深度方向包括以下中的至少一个：相机拍照方向、重力方向以及物品承载面的垂直线所在的方向。其中，物品承载面为用于放置三维物品的载体所在的平面，该载体包括：地面、托盘、传送带和/或物料筐。

例如，预设深度方向可以是相机拍照时所沿的深度方向，也叫拍照方向。相应的，相机的摄像头产生的光线从第一方位出发，并向第二方位延伸，则预设深度方向为从第一方位指向第二方位的方向。例如，当相机的摄像头从上往下拍照时，预设深度方向则为从上往下的方向；当相机的摄像头从左往右拍照时，预设深度方向则为从左往右的方向。另外，三维物品区域是指：堆叠有多个物品的三维区域。由于本实施例中的多个物品之间往往存在堆叠现象，仅通过平面图像无法准确描述物品间的方位关系，因而通过三维物品区域进行描述。

具体实施时，通过3D相机获取与三维物品区域相对应的二维彩色图以及对应于二维彩色图的深度图。其中，二维彩色图对应于与预设深度方向垂直的平面区域的图像；对应于二维彩色图的深度图中的各个像素点与二维彩色图中的各个像素点一一对应，且各个像素点的取值为该像素点的深度值。其中，深度值根据物品距离相机摄像头的远近确定。例如，当相机从上向下拍摄时，二维彩色图对应于俯视平面图，而深度图则用于表示各个物品距离相机的远近。

由此可见，通过二维彩色图以及对应于二维彩色图的深度图能够从三维立体角度准确描述物品之间的方位关系。

步骤S120：将二维彩色图以及深度图输入深度学习模型，根据输出结果预测二维彩色图中包含的多个可抓取对象。

其中，深度学习模型通过预先生成的多个训练样本训练得到。具体的，深度学习模型通过学习训练样本，能够基于二维彩色图以及深度图预测二维彩色图中包含的多个可抓取对象。具体实施时，可以预先对多个训练样本中包含的可抓取对象进行标注，相应的，基于标注后的深度学习模型预测二维彩色图中包含的多个可抓取对象。其中，深度学习模型可以为各种类型的机器学习模型，本发明对具体细节不作限定。

步骤S130：根据与三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息。

其中，点云是预设坐标系下的点的数据集。点包含了丰富的信息，包括三维坐标X，Y，Z、颜色、分类值、强度值、时间等。点云能够将现实世界原子化，通过高精度的点云数据可以还原现实世界。由此可见，点云信息能够反映三维物品区域的三维立体特征，具体可根据上述的二维彩色图以及深度图构建点云信息，或者也可以另外结合激光探测器、红外探测器、可见光探测器(如LED等可见光探测器)、雷达探测器等元件生成点云信息，本发明对点云信息的具体生成方式不作限定。

通过点云信息能够计算各个可抓取对象的三维位姿信息。其中，三维位姿信息用于描述可抓取对象在三维世界的姿态。在本实施例中，主要关注三维位姿信息中的深度值信息，该深度值信息可以为可抓取对象距离相机摄像头的远近。

步骤S140：根据三维位姿信息将各个可抓取对象沿预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序。

由于三维位姿信息中包含深度值信息，因此，根据三维位姿信息能够将各个可抓取对象沿预设深度方向进行排序。在本实施例中，预设深度方向与相机的拍摄方向一致。例如，当相机从上往下拍摄时，则将各个可抓取对象按照高度信息进行排序：高度越高的排序越靠前，高度越低的排序越靠后。相应的，在根据排序结果确定各个可抓取对象的抓取顺序时，高度高的先抓取，而高度低的后抓取，由此能够确保机器人从上往下依次抓取物品。

由此可见，该方式通过深度学习模型能够实现任意物品的抓取操作，并且，通过将各个可抓取对象沿预设深度方向进行排序，能够确保在多个物品之间存在堆叠情况时先抓取位于上层的物品，从而保障抓取效率。

图2示出了根据本发明另一个实施例的对象抓取方法的流程示意图。如图2所示，该方法包括：

步骤S200：通过预先采集的与三维样本区域相对应的样本图像，训练深度学习模型。

具体的，深度学习模型通过以下方式训练得到：

首先，采集与三维样本区域相对应的样本图像，确定样本图像中包含的多个物品对象。其中，三维样本区域中包含多个作为样本的待抓取物品。与三维样本区域相对应的样本图像包括：沿预设深度方向获取的与三维样本区域相对应的二维彩色图以及对应于该二维彩色图的深度图。具体获取方式可参照步骤S110中的相应描述，此次不再赘述。其中，在确定样本图像中包含的多个物品对象时，可通过实例分割的方式识别各个物品之间的轮廓、边界线等信息，进而根据识别结果分割出样本图像中包含的多个物品对象。

然后，根据多个物品对象之间的位置关系，对样本图像中包含的可抓取区域以及不可抓取区域分别进行标注。由于本实施例中的多个物品对象之间存在堆叠现象，因此，被堆放在下方的物品对象可能不易抓取，因而需要标注出可抓取的物品对象对应的区域以及不可抓取的物品对象对应的区域。具体的，在根据多个物品对象之间的位置关系，对样本图像中包含的可抓取区域以及不可抓取区域分别进行标注时，可通过以下实现方式中的至少一种实现：

在一种可选的实现方式中，确定各个物品对象沿预设深度方向的堆叠次序，将位于顶层的物品对象所对应的区域标注为可抓取区域，将位于底层的物品对象所对应的区域标注为不可抓取区域。常规的实例分割算法对场景中物品是否可抓没有区分，即：对场景中全部的物品都需要给出完整准确的实例掩码。因此，若直接将传统的实例分割算法应用于可抓取区域的识别，会造成位于底层的被压物品被识别为可抓取物品或将背景无关物品识别为可抓取物品，进而造成识别错误。为了防止上述问题，在该实现方式中，确定各个物品对象沿预设深度方向的堆叠次序，从而将位于顶层的物品对象所对应的区域标注为可抓取区域，将位于底层的物品对象所对应的区域标注为不可抓取区域，从而避免机器人抓取底层物品所导致的异常。例如，在纸箱拆垛场景中，需要由最上层至最下层逐层拆垛，不可在一层纸箱未被完全抓取的情况下抓取下层纸箱。因此，在类似场景中，仅标注最上层的纸箱为可抓取对象，除此之外的其余纸箱都标注为不可抓取对象。通过该标注方式能够准确区分最上层与非最上层的物品，进而给出准确的像素级物品定位。

在又一种可选的实现方式中，根据各个物品对象的暴露比例，将暴露比例大于预设阈值的物品对象所对应的区域标注为可抓取区域，将暴露比例不大于预设阈值的物品对象所对应的区域标注为不可抓取区域。在一些场景中，物品之间的相互堆叠关系不容易确定，且同层物品之间可能存在相互压叠的情况，此时，难以准确标注顶层物品。例如，在商超货品拣选场景中，货品之间的上下层关系并不明确，同时同一层物品之间还存在压叠情况，因此，对于抓取顺序的要求并不严格，而对于可抓取物品以及不可抓取物品之间的区分较为严格。此时，对于表面暴露较少的物品，或者抓取后可能造成场景内其他物品飞出的物品，则不应将其标注为可抓取物品。相应的，在上述场景中，可以设定一个标注阈值，如85％。若物品暴露的表面积大于85％，则标注为可抓取物品；若物品暴露的表面积不大于85％，则标注为不可抓取物品。当然，物品的暴露比例除通过暴露表面积进行量化外，也可以通过暴露体积进行量化，本发明对具体细节不作限定。

在再一种可选的实现方式中，根据各个物品对象的形状和/或类型确定各个物品对象中包含的接触区域，将接触区域未受到遮挡的物品对象所对应的区域标注为可抓取区域，将接触区域受到遮挡的物品对象所对应的区域标注为不可抓取区域。其中，接触区域是指物品对象中便于抓取的受力区域。例如，对于金属零件类的物品而言，为了防止零件损坏，需要抓取金属零件中的特定区域，该特定区域即为接触区域，通常是金属零件中较为牢固且不易脱落的区域。因此，在标注该类物品时，还需要判断接触区域是否完整暴露且无遮挡。若该类物品虽暴露表面积较大，但接触区域受到遮挡，则仍将其标注为不可抓取物品。

上述的几种标注方式既可以单独使用，也可以结合使用，本发明对此不作限定。

最后，根据标注后的样本图像训练深度学习模型。为了提升模型效果，样本数量越大，训练效果越好，为了防止因样本量少而导致的训练效果不佳的问题，在本实施例中，通过对样本数据应用倍增方式，增加训练样本的数量，以达到训练深度学习模型的目标。其中，为了实现数据倍增的效果，可以采用多种方式。具体的，可以将标注后的样本图像作为原始训练集，通过随机调节图片的亮度、对比度、图片仿射变换方式和/或图片白平衡变换方式，对原始训练集进行扩充处理，通过扩充后得到的扩充训练集训练深度学习模型。通过扩充处理方式，能够增加样本数量，提升训练效果。

步骤S210：沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于二维彩色图的深度图。

其中，预设深度方向可以根据实际业务场景灵活设定，具体的，预设深度方向包括以下中的至少一个：相机拍照方向、重力方向以及物品承载面的垂直线所在的方向。

在一种实现方式中，预设深度方向为：相机拍照时所沿的深度方向，也叫相机拍照方向。具体的，相机的摄像头产生的光线从第一方位出发，并向第二方位延伸，则预设深度方向为从第一方位指向第二方位的方向。例如，当相机的摄像头从上往下拍照时，预设深度方向则为从上往下的方向；当相机的摄像头从左往右拍照时，预设深度方向则为从左往右的方向。例如，若通过一台相机进行拍照，则预设深度方向为：由相机指向物品区域的方向。又如，若通过两台相机进行拍照，则预设深度方向为：由两台相机的中点位置指向物品区域的方向。当然，对于多台相机的场景与之类似，可以根据多台相机的中心位置指向物品区域的方向设置预设深度方向，本发明对具体细节不作限定。

在又一种实现方式中，预设深度方向为：物品承载面的垂直线所在的方向，即：垂直于物品承载面的方向。具体的，考虑到相机的拍摄角度可以灵活设定，例如，相机的拍摄角度可能与物品放置方向之间呈现一定角度，即：相机呈倾斜状态。因此，为了准确描述，预设深度方向还可以是垂直于物品承载面的方向，具体实施时，该预设深度方向可以为任意方向，例如，既可以是竖直方向，也可以是某一倾斜方向，本发明对其不作限定。

其中，物品承载面是指：用于放置三维物品的载体所在的平面。例如，当三维物品放置于地面上时，地面即为用于放置三维物品的载体，相应的，物品承载面即为地面所在的平面；又如，当三维物品放置于托盘、传送带、或物料筐等部件上时，该托盘、传送带、或物料筐等部件即为用于放置三维物品的载体，相应的，物品承载面即为该托盘、传送带、或物料筐所在的平面。在特定场景中，托盘、传送带、或物料筐等载体可能是倾斜设置的，例如，为了便于装卸，传送带所在的平面可能与水平面之间呈预设角度，相应的，预设深度方向垂直于传送带所在的平面，因而也与竖直方向之间呈预设角度，本发明对具体实现细节不作限定。

另外，预设深度方向还可以为重力方向。例如，当物品承载面与水平面一致时，预设深度方向即为重力方向。

另外，三维物品区域是指：堆叠有多个物品的三维区域。由于本实施例中的多个物品之间往往存在堆叠现象，仅通过平面图像无法准确描述物品间的方位关系，因而通过三维物品区域进行描述。

步骤S220：将二维彩色图以及深度图输入上述的深度学习模型，根据输出结果预测二维彩色图中包含的多个可抓取对象。

由于深度学习模型根据标注了可抓取区域以及不可抓取区域的样本生成，因此，通过该模型能够预测二维彩色图中包含的多个可抓取对象。具体的，将二维彩色图以及深度图输入上述的深度学习模型后，模型将输出二维彩色图中包含的可抓取区域以及不可抓取区域，其中，可抓取区域对应于可抓取对象。

具体实施时，模型在输出与各个像素区域相对应的预测结果时，可通过多种方式表示该预测结果。例如，在一种表示方式中，预测结果包括：可抓取以及不可抓取两种状态。又如，在又一种表示方式中，预测结果可以为各个像素区域的抓取点预测概率：当输入二维彩色图和相应的深度图后，深度学习模型预测出图像2D空间中，各个像素点上能用吸盘或其他抓取工具成功将物体抓取起来的2D概率图，图中的每一个像素的值，都表示模型所预测的“控制吸盘运动至此点，能成功将一个物体从框中捡出的概率”。由此可见，在后一种方式中，预测结果能够精确到各个像素点所对应的可抓取概率。可抓取概率越大，说明从对应的像素点执行抓取操作的成功率越大；可抓取概率越小，说明从对应的像素点执行抓取操作的成功率越小。

步骤S230：根据与三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息。

其中，点云是预设坐标系下的点的数据集。点包含了丰富的信息，包括三维坐标X，Y，Z、颜色、分类值、强度值、时间等。点云能够将现实世界原子化，通过高精度的点云数据可以还原现实世界。由此可见，点云信息能够反映三维物品区域的三维立体特征。在本实施例中，根据上述的二维彩色图以及深度图能够构建点云信息。或者，也可以另外结合激光探测器、红外探测器或雷达探测器等元件生成点云信息，从而使点云信息更加准确。

通过点云信息能够计算各个可抓取对象的三维位姿信息。其中，三维位姿信息用于描述可抓取对象在三维世界的立体姿态。其中，可抓取对象的三维位姿信息也叫物体位置信息、对象位置信息，所述三维位姿信息可通过多种方式确定。

其中，三维位姿信息可通过可抓取对象中包含的抓取点或抓取区域描述。例如，三维位姿信息通过抓取点表示。相应的，在确定可抓取对象对应的抓取点时，可通过多种方式实现：可以将可抓取对象对应的区域内可抓取概率最大的点作为抓取点；也可以计算可抓取区域(可以是可抓取对象的一个部分、或者一个可抓取对象有多个可抓取区域)的2D重心，从而根据2D重心确定抓取点。抓取点用于描述可抓取对象在三维空间中的大致方位。

另外，由于抓取点为三维坐标系下的点，因此，能够根据三维位姿信息确定抓取点对应的深度值信息，即：可抓取对象距离相机摄像头的远近。

在一个具体示例中，通过以下方式计算各个可抓取对象的三维位姿信息：首先，建立与三维物品区域相对应的三维坐标系；其中，三维坐标系中包含的第一坐标轴以及第二坐标轴的方向与二维彩色图相匹配，三维坐标系中的第三坐标轴的方向与预设深度方向相匹配。然后，计算各个可抓取对象对应于第三坐标轴的深度坐标值，根据深度坐标值计算各个可抓取对象的三维位姿信息。由此可见，深度坐标值用于反映可抓取对象到相机摄像头之间的距离。

步骤S240：根据三维位姿信息将各个可抓取对象沿预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序。

具体的，根据三维位姿信息能够确定各个可抓取对象的深度坐标值，该深度坐标值的数值即可反映各个可抓取对象沿预设深度方向的排序情况。具体实施时，将各个可抓取对象按照与摄像头或物品承载面之间的距离远近进行排序，并根据排序结果确定各个可抓取对象的抓取顺序；其中，距离摄像头越近的可抓取对象的抓取顺序越靠前；距离摄像头越远的可抓取对象的抓取顺序越靠后。或者，距离物品承载面越近的可抓取对象的抓取顺序越靠后；距离物品承载面越远的可抓取对象的抓取顺序越靠前。通常情况下，由于相机从上往下拍摄，因此，距离摄像头近的可抓取对象位于顶层，而距离摄像头远的可抓取对象位于底层。其中，可抓取对象与物品承载面之间的距离为：可抓取对象沿物品承载面的垂直线到物品承载面的间隔距离。即：可抓取对象与物品承载面之间的距离是指可抓取对象与物品承载面之间的垂直距离。

因此，通过排序结果能够将各个可抓取对象按照从顶层到底层的顺序依次排列，进而在抓取时能够按照从顶层到底层的顺序依次抓取。

步骤S250：向机器人输出抓取指令，以供机器人根据抓取指令执行抓取操作。

具体的，上述步骤主要根据相机拍摄的信息进行处理，以实现可抓取对象的识别以及抓取顺序的确定。通常情况下，相机与机器人分别属于不同的设备，因此，需要进一步向机器人输出抓取指令，以供机器人根据抓取指令执行抓取操作。

考虑到相机所处位置与机器人所处位置往往并不相同。因此，可通过坐标系转换的方式定位可抓取对象，具体通过以下方式实现：获取相机坐标系与机器人坐标系之间的转换关系；根据该转换关系，将对应于相机坐标系的各个可抓取对象的三维位姿信息转换到机器人坐标系中，向机器人输出转换后的各个可抓取对象的三维位姿信息，以供机器人执行抓取操作。其中，上述各个步骤中描述的可抓取对象的三维位姿信息都是根据相机坐标系确定的，为了便于机器人实现抓取操作，需要将其转换至机器人坐标系中。其中，相机坐标系与机器人坐标系之间的转换过程可根据相机所处方位与机器人所处方位之间的相对关系确定。

由此可见，本实施例中的三维物品区域中包括多个沿预设深度方向堆叠的可抓取对象，其中，可抓取对象包括：纸箱、纸盒、塑料软包(包括但不限于零食包装、牛奶利乐枕包装、牛奶塑料包装等等)、信封、文件袋、明信片、药妆瓶、药妆品、和/或不规则的玩具物品等。由此可见，本实施例中的可抓取对象包括但不限于：纸箱、纸盒、塑料软包(如袋装牛奶、零食包装等)、药膏、牙膏、圆柱状化妆品瓶子、和/或等常见商品包装。其中，“物品”包括但不限于：快递行业的纸箱，零售行业的纸盒、牛奶软包装、利乐枕包装、零食包装、药盒等塑料软包，圆柱体药妆品、不规则的各种玩具，零售业的小件商品(如药妆，零食等)，信封、文件袋、明信片等片状物体。进而模型提供各物品的可抓取区域。该方式可帮助末端装配有真空吸盘的工业机器人，从混乱堆叠的物品堆中，将物品逐个捡出，用于后续的扫码，装载等工位流程。总之，本实施例中的物品以及可抓取对象可以为各类物品对象，本发明对其具体内涵不作限定。

综上可知，通过本实施例中的方式，能够通过深度学习模型能够实现任意物品的抓取操作，并且，通过将各个可抓取对象沿预设深度方向进行排序，能够确保在多个物品之间存在堆叠情况时先抓取位于上层的物品，从而保障抓取效率。

为了便于理解，最后，以一个具体示例为例，详细介绍上述方案中的深度学习网络部分的实现细节：

首先，在常规处理方式中，通过模型输入物品区域的彩色图，预测出此彩色图中，各个物体实例所占区域的掩膜。利用模型所预测出来的掩膜，截取3D相机所采集到的点云中与掩膜相匹配的点云。将所截取出来的点云，与已注册的目标物体点云进行点云匹配，计算得到所截取点云与目标物体点云间的位姿变换关系，由于目标物体点云中预先标记了可抓取部位，进而可以得出所截取点云中的可抓取部位。具体实施时，可通过关键点检测领域中，的CPN(Cascaded Pyramid Network)网络模型实现。在该模型中，对神经网络不同层的特征首先通过全局网络GlobalNet进行粗提取，而后粗提取特征经过RefineNet精细提取后，不同层的特征结合后作为网络输出。该方式能够处理图片中较小的特征，进而可准确识别各种场景中目标的关键点。但是，上述常规处理方式仅能够处理预先已经注册训练的物体。因此无法处理目标物体种类多达数千种的情况。

为了解决上述问题，在本示例中，改进了CPN结构的网络模型，使网络对于细长物体、小物体的预测更加敏感准确。

图5示出了本示例中的深度学习模型的结构示意图。本示例的深度学习模型的第一部分包括两组并行的全局网络(GlobalNet)，左右两组全局网络的特征层结构图，如图5所示，图5中一个矩形块表示一个特征层。两组全局网络的结构相同但识别特征的性质不同，其中一全局网络对彩色图的色彩特征进行识别，另一全局网络对深度图的距离特征进行识别。距离特征由深度图形成过程中相机的位置转换属性等相关参数决定，色彩特征可以准确定位图片中的目标物体(细长物体)在二维平面(与视角方向垂直平面)内的位置、姿态，距离特征可以准确识别在视角方向物体表面各个部位至视点的距离。彩色特征和距离特征可以起到互补的作用。比如：多个等高盒子并排摆放时，距离特征无法将它们区分开，而彩色特征可通过盒子边界的纹理将它们区分开。再比如，某一颜色均匀，但表面曲面复杂的物体，彩色特征无法判断此物体上的抓取位置，但网络可以通过距离特征，找到物体表面适合抓取的区域(比如更加平整的面)。本示例的全局网络中各特征层输出不经过RefineNet进行精细提取，且网络架构与CPN中的相异。

另外，本方案的全局网络部分中各特征层内包括主干网络部分及其他部分。主干网络部分得出特征层，主干网络部分包括卷积层、激活函数层、池化层、归一化层、上采样层。主干网络部分采用残差学习架构，对卷积层中的每两层(或者三层)的输入/输出的残差进行学习，进而对输出进行修正，例如将第一层卷积的输入与第二层卷积的输出进行对比，学习期间所丢失特征的特征，进而用于修正第二层卷积输出；或者将第一层卷积的输入与第三层卷积的输出进行对比得出丢失特征，进而修正第三层卷积的输出。其他部分则抽取出主干网络所处理得到的各特征层，并从最深的特征层开始上采样，经过卷积层后，与其前一个特征层相加，以此类推，得到全局网络的输出。

本示例中的深度学习模型的第二部分，融合两并行全局网络的结果，具体上将两全局网络输出通道进行合并。比如，若彩色图输出256通道结果、深度图也输出256通道结果，则融合后为512通道结果。最后将合并后的网络再进行上采样，得到可以精确识别目标物体的可抓部位概率预测结果图。具体的，在模型训练过程中，计算模型在训练集上的输出与对应标签的稀疏交叉熵作为损失函数，并进行反向转播更新模型内的参数。当损失函数几乎不再下降时，结束模型的训练。本示例中的深度学习模型能够有效预测出非常细长盒子上的可吸取区域。

图3示出了根据本发明又一个实施例的对象抓取装置的结构示意图，如图3所示，该装置包括：

获取模块31，适于沿预设深度方向获取与三维物品区域相对应的二维彩色图以及对应于所述二维彩色图的深度图；

预测模块32，适于将所述二维彩色图以及所述深度图输入深度学习模型，根据输出结果预测所述二维彩色图中包含的多个可抓取对象；

计算模块33，适于根据与所述三维物品区域相对应的点云信息，计算各个可抓取对象的三维位姿信息；

排序抓取模块34，适于根据所述三维位姿信息将各个可抓取对象沿所述预设深度方向进行排序，根据排序结果确定各个可抓取对象的抓取顺序。

可选的，所述预测模块进一步适于：

采集与三维样本区域相对应的样本图像，确定所述样本图像中包含的多个物品对象；

可选的，所述预测模块具体适于：

将标注后的样本图像作为原始训练集，通过亮度对比度调节方式、图片仿射变换方式和/或图片白平衡随机变换方式，对所述原始训练集进行扩充处理，通过扩充后得到的扩充训练集训练所述深度学习模型。

可选的，所述点云信息根据所述二维彩色图以及对应于所述二维彩色图的深度图构建得到，则所述计算模块具体适于：

计算各个可抓取对象对应于所述第三坐标轴的深度坐标值，根据所述深度坐标值计算各个可抓取对象的三维位姿信息。

将各个可抓取对象按照与摄像头或物品承载面之间的距离远近进行排序，并根据排序结果确定各个可抓取对象的抓取顺序；其中，距离摄像头越近的可抓取对象的抓取顺序越靠前；距离摄像头越远的可抓取对象的抓取顺序越靠后；或者，距离物品承载面越近的可抓取对象的抓取顺序越靠后；距离物品承载面越远的可抓取对象的抓取顺序越靠前。

可选的，所述排序抓取模块进一步适于：

获取相机坐标系与机器人坐标系之间的转换关系；

可选的，所述三维位姿信息为位置信息；所述三维物品区域中包括多个沿预设深度方向堆叠的可抓取对象；其中，所述可抓取对象包括：纸箱、纸盒、物品包装、药妆品、和/或玩具。

上述各个模块的具体结构和工作原理可参照方法实施例中相应步骤的描述，此处不再赘述。

本申请实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的对象抓取方法。

图4示出了根据本发明实施例的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述域名解析方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行上述方法实施例中的各项操作。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：对象抓取方法及装置

对象抓取方法及装置

相关技术

网友询问留言