CN110632608A - 一种基于激光点云的目标检测方法和装置 - Google Patents
一种基于激光点云的目标检测方法和装置 Download PDFInfo
- Publication number
- CN110632608A CN110632608A CN201810642417.6A CN201810642417A CN110632608A CN 110632608 A CN110632608 A CN 110632608A CN 201810642417 A CN201810642417 A CN 201810642417A CN 110632608 A CN110632608 A CN 110632608A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- dimensional detection
- candidate
- frame
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/02—Systems using the reflection of electromagnetic waves other than radio waves
- G01S17/06—Systems determining position data of a target
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S7/00—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
- G01S7/48—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
- G01S7/4802—Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00 using analysis of echo signal for target characterisation; Target signature; Target cross-section
Abstract
本发明公开了一种基于激光点云的目标检测方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;对三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;对应三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从三维检测框中选出候选三维检测框;对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图;根据对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。该实施方式能够不依赖于激光雷达与摄像头之间的标定,检测结果的准确性高。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于激光点云的目标检测方法和装置。
背景技术
利用目标检测技术,可以在三维空间中的激光点云中确定能够包络检测目标的最小的三维长方体框,以自动驾驶领域的车辆检测为例,一个车辆对应一个三维长方体框。目前目标检测效果较好的是基于图像的目标检测的结果,但是仅依靠图像难以得到准确的位置信息,因此需要对激光雷达与摄像头进行标定,之后再把图像中检测到的目标映射到激光点云上,再根据点云上的位置信息做决策。如果标定得不准确,则映射到激光点云上的目标的位置就不准确,从而影响检测结果的准确性。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有方法依赖于对激光雷达与摄像头的标定,检测结果的准确性差。
发明内容
有鉴于此,本发明实施例提供一种基于激光点云的目标检测方法和装置,能够不依赖于激光雷达与摄像头之间的标定,检测结果的准确性高。
为实现上述目的,根据本发明实施例的一个方面,提供了一种基于激光点云的目标检测方法和装置。
一种基于激光点云的目标检测方法,包括:将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;对所述三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;对应所述三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从所述三维检测框中选出候选三维检测框;对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI(感兴趣的区域)降采样,以得到对应各三维检测框的相同大小特征图;根据所述对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。
可选地,对应所述三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从所述三维检测框中选出候选三维检测框的步骤,包括:对应所述三维特征图的每一位置生成具有相同高度的多个三维检测框,并确定各三维检测框属于前景的概率;利用非极大值抑制算法对各三维检测框去重,从去重后的各三维检测框中选出属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框。
可选地,通过如下方法确定三维检测框属于前景的概率:将所述三维检测框映射到二维平面上,得到与所述三维检测框对应的第一二维检测框;将预设长方体映射到所述二维平面上,得到与所述预设长方体对应的矩形框,所述预设长方体为经预先标注的检测目标样本;根据所述第一二维检测框与所述矩形框的交并比,确定所述三维检测框属于前景的概率。
可选地,对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图的步骤,包括:对每一候选三维检测框对应的三维特征图,基于长度和宽度维度,得到四个第二二维检测框对应的特征图;对各第二二维检测框对应的特征图进行ROI降采样,得到各第二二维检测框对应的相同大小特征图;将各第二二维检测框对应的相同大小特征图,按照对应的候选三维检测框,组合为对应各三维检测框的相同大小特征图。
根据本发明实施例的另一方面,提供了一种基于激光点云的目标检测装置。
一种基于激光点云的目标检测装置,包括:点云数据处理模块,用于将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;特征图生成模块,用于对所述三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;候选框生成模块,用于对应所述三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从所述三维检测框中选出候选三维检测框;ROI降采样模块,用于对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图;检测模块,用于根据所述对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。
可选地,所述候选框生成模块还用于:对应所述三维特征图的每一位置生成具有相同高度的多个三维检测框,并确定各三维检测框属于前景的概率;利用非极大值抑制算法对各三维检测框去重,从去重后的各三维检测框中选出属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框。
可选地,所述候选框生成模块包括前景确定子模块,用于:将所述三维检测框映射到二维平面上,得到与所述三维检测框对应的第一二维检测框;将预设长方体映射到所述二维平面上,得到与所述预设长方体对应的矩形框,所述预设长方体为经预先标注的检测目标样本;根据所述第一二维检测框与所述矩形框的交并比,确定所述三维检测框属于前景的概率。
可选地,所述检测模块还用于:对每一候选三维检测框对应的三维特征图,基于长度和宽度维度,得到四个第二二维检测框对应的特征图;对各第二二维检测框对应的特征图进行ROI降采样,得到各第二二维检测框对应的相同大小特征图;将各第二二维检测框对应的相同大小特征图,按照对应的候选三维检测框,组合为对应各三维检测框的相同大小特征图。
可选地,所述基于激光点云的目标检测装置还包括训练模块,用于:通过OHEM训练方法训练所述特征图生成模块、所述候选框生成模块、所述ROI降采样模块和所述检测模块。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明提供的基于激光点云的目标检测方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的基于激光点云的目标检测方法。
上述发明中的一个实施例具有如下优点或有益效果:将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;对三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;对应三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从三维检测框中选出候选三维检测框;对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图;根据对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。本发明通过直接对采集的三维的激光点云数据进行处理,能够不依赖于激光雷达与摄像头之间的标定,检测结果的准确性高。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的基于激光点云的目标检测方法的主要步骤示意图;
图2是根据本发明一个实施例的目标检测模型的构成示意图;
图3是根据本发明实施例的基于激光点云的目标检测装置的主要模块示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的基于激光点云的目标检测方法的主要步骤示意图。
如图1所示,本发明实施例的基于激光点云的目标检测方法主要包括如下的步骤S101至步骤S105。
步骤S101:将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据。
将激光点云数据栅格化可以是对预设范围内的激光点云数据进行栅格化,该预设范围与目标检测的任务相关,其数值可以根据经验设定。例如无人驾驶中的车辆检测任务中,可以选取前向40米、左右各20米、高度0到10米的范围内的激光点云数据。
三维点阵数据包括每一栅格对应的四个特征值。四个特征值分别是栅格中点云的最大高度、具有最大高度的点云的反射强度、栅格中点云的数量、以及指示栅格中是否有点的指示值(1表示栅格中有点,0表示栅格中无点)。通过该四个特征值可以很好地表示当前栅格是否为检测目标的一部分。
步骤S102:对三维点阵数据进行三维卷积和三维降采样,以得到三维特征图。
步骤S103:对应三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从三维检测框中选出候选三维检测框。
步骤S103具体可以包括:对应三维特征图的每一位置生成多个三维检测框,以确定各三维检测框属于前景的概率、位置信息和尺度信息,各三维检测框的尺度信息包括相同高度;利用非极大值抑制算法对各三维检测框去重,从去重后的各三维检测框中选出属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框。
其中,通过如下方法确定三维检测框属于前景的概率:将三维检测框映射到二维平面上,得到与该三维检测框对应的第一二维检测框;将预设长方体映射到二维平面上,得到与预设长方体对应的矩形框,该预设长方体为经预先标注的检测目标样本;根据该第一二维检测框与该矩形框的交并比,确定该三维检测框属于前景的概率。
步骤S104:对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图。
步骤S104具体可以包括:对每一候选三维检测框对应的三维特征图,基于长度和宽度维度,得到四个第二二维检测框对应的特征图;对各第二二维检测框对应的特征图进行ROI降采样,得到各第二二维检测框对应的相同大小特征图;将各第二二维检测框对应的相同大小特征图,按照对应的候选三维检测框,组合为对应各三维检测框的相同大小特征图。
通过在长度和宽度维度上进行ROI降采样,使得ROI降采样可以用来处理三维特征图,进而使得可以便捷地直接对采集的三维的激光点云数据进行处理,而不依赖于激光雷达与摄像头之间的标定。
步骤S105:根据对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。
具体地,对对应各三维检测框的相同大小特征图进行连续的两次三维卷积处理,然后对经过该三维卷积处理的对应各三维检测框的相同大小特征图,进行分类和回归处理,以确定检测目标的类别和位置信息。
下面以自动驾驶领域的车辆检测为例,详细介绍本发明实施例的基于激光点云的目标检测方法。本发明实施例的基于激光点云的目标检测方法不仅限于检测车辆,还可以用于检测行人等其他目标。
本发明实施例直接对采集的三维的激光点云数据进行处理,检测其中的车辆,而不依赖于激光雷达与摄像头之间的标定,使车辆检测的结果更加准确。
首先,把采集的三维空间中的激光点云数据栅格化,具体地,选取前向40米、左右各20米、高度0到10米的范围内的激光点云数据,并且对于选取出的上述范围的激光点云数据栅格化,其中前向和左右每0.1米对应一个栅格,高度每0.4米对应一个栅格,从而,激光点云数据被分成了400*400*25个三维的栅格,选取出的上述范围的激光点云数据都落入这些栅格中的其中一个,对每个栅格提取4个特征,分别是栅格中点云的最大高度、具有最大高度的点云的反射强度、栅格中点云的数量、以及指示栅格中是否有点的指示值,该指示值可以为0或1,其中,栅格中有点则指示值为1、无点则指示值0,其中,点即为组成激光点云的点。
对激光点云数据栅格化,并对每个栅格提取上述4个特征,从而得到400*400*25的三维点阵数据,三维点阵数据中每个栅格的位置有4个通道的值,即上述四个特征的值。通过提取该4个特征,可以很好地代表当前栅格是否是车辆的一部分。需要说明的是,如果检测目标为行人或其他物体,上述的进行激光点云数据栅格化时所选取的激光点云数据的范围需要根据检测目标的大小进行适应性调整。
本发明实施例可以基于Faster RCNN(更快速基于图像区域的卷积神经网络)框架构建目标检测模型,以执行目标检测。
首先,可以基于VGG16网络等卷积神经网络的网络结构,构建三维卷积神经网络,以对三维点阵数据进行三维卷积和三维降采样,从而得到三维特征图。例如,保持VGG16网络的卷积核的数量、卷积核的大小、步长不变,增加卷积核的维度,使原有的二维卷积核变为三维卷积核,从而二维卷积层变为三维卷积层,可以实现在三维立体上进行卷积。本发明还可以基于其他卷积神经网络(例如GoogleNet MobileNet等)的网络结构来构建上述三维卷积神经网络。
具体的,保留VGG16网络的除最后一个降采样层的所有的卷积层和降采样层,之所以去掉最后一个降采样层,是因为经过该层处理后数据会丢失一些对车辆检测任务有用的信息。根据上文介绍,将VGG网络原有的二维卷积层变为三维卷积层,相应地,二维的参数变成了三维的参数,此外,降采样层改为三维的降采样,但是只在前向和左右两个方向进行降采样,由于高度方向上维度较少(本例中高度只有25),为了避免降采样失去重要信息,因此在高度上不进行降采样。经过三维卷积与三维降采样之后,得到25*25*25的三维特征图。
然后,在三维卷积神经网络的最后一层(为relu层,即激活层)的后面接一个分类层(也称第一分类层)和回归层(也称第一回归层),这两个层是全连接层。通过该第一分类层和第一回归层,对应三维特征图的每一位置,生成具有相同高度的多个三维检测框。三维特征图的每一位置都对应一个三维检测框,生成该三维检测框的过程即分别利用第一分类层、第一回归层确定各三维检测框属于前景的概率、位置信息和尺度信息的过程。
其中,第一分类层用于判断三维检测框属于前景还是背景,第一回归层用于确定三维检测框的位置信息。需要说明的是,在本发明实施例的目标检测模型的训练阶段,第一回归层学习的是三维检测框的6个值,分别是三维检测框的中心点的坐标(x,y,z)与三维检测框的长度、宽度和高度。
三维检测框生成的方式如下,首先把25*25*25的三维特征图的每个位置生成多个三维检测框。具体地,利用第一分类层确定各三维检测框属于前景的概率,通过第一回归层确定各三维检测框的位置信息和尺度信息。为了判断三维检测框属于前景还是背景,把三维检测框映射到二维平面上,得到一个二维检测框(即第一二维检测框)。然后把三维的可能包含车辆的长方体映射到二维平面上,得到一个矩形框,该长方体是经过预先标注的包含车辆的长方体。在判断三维检测框属于前景还是背景时,根据三维检测框映射到二维平面而得到的二维检测框,以及可能包含车辆的长方体映射到二维平面而得到的矩形框,计算二者的IOU(交并比),如果IOU大于0.7,则属于前景的概率较大,认为是前景,小于0.5则属于背景的概率较大,认为是背景,其余数值忽略。需要说明的是,上述矩形框的边可能与图像的x方向(或y反向)有一个旋转角度,在对第一回归层训练时,把第一回归层需要学***行于x方向与y方向的长方体的中心点的坐标以及长度、宽度和高度。
对三维卷积神经网络输出的三维特征图上的每个位置,生成4个三维检测框,其中,(长度,宽度,高度)分别等于(39,16,4)、(16,39,4)、(10,6,4)、(6,10,4)共4种,单位都是点的个数,这样尺度的三维检测框是符合车辆大小的。如果检测目标为行人或其他物体,则生成与行人或其他物体的大小相符合的尺度的三维检测框。
从三维检测框中选出候选三维检测框。具体地,从属于前景的三维检测框中挑选出置信度高的三维检测框,即选择第一分类层输出的属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框。在目标检测模型的训练阶段,选择12000个三维检测框,在测试阶段选择6000个三维检测框,再用非极大值抑制算法,对重叠高(例如重叠率高于某预设的阈值)的三维检测框只保留一个置信度最高的三维检测框,并且,训练阶段可以选取抑制后的前2000的三维检测框作为候选三维检测框,测试阶段可以选取抑制后的前300的三维检测框作为候选三维检测框。
用一个ROI降采样层,根据VGG16最后一层输出的三维特征图,以及上述得到的候选三维检测框,对不同大小的候选三维检测框进行降采样,以得到对应各三维检测框的相同大小特征图。
ROI降采样层和传统降采样层的区别在于,ROI降采样层可以把不同尺度的检测框对应的特征图降采样到同样大小的特征图,由于候选三维检测框的高度都4(根据本例上文,高度每0.4米一个栅格,4代表1.6米,如果检测目标为行人或其他物体,则高度为其他数值,具体数值与检测目标的大小相关),因此,只对长度和宽度这两个维度进行ROI降采样,使所有候选三维检测框具有相同的长度、宽度(高度相同)的特征图,这样各三维检测框的相同大小特征图既有长度、宽度、高度,并对应VGG16网络的512维通道。在ROI降采样层之后再连接两个三维卷积层,卷积核数量为128,卷积核大小为1*1*1,步长为1,该两个三维卷积层用于提取特征。
两个三维卷积层之后,再连接一个分类层(也称第二分类层)和回归层(也称第二回归层),该第二分类层用于确定候选三维检测框的类别,该第二回归层用于确定候选三维检测框的具***置信息。候选三维检测框的类别有两种,即车辆或者背景,候选三维检测框的具***置信息是三维框的8个顶点的坐标,共24个值。
本发明实施例的目标检测模型可以如图2所示。
在训练如图2所示目标检测模型的网络时,可以从2000个候选框中任意选择A个样本(A=128或256),其中有一定比例的负样本,即背景,利用选择的这些样本对网络进行梯度下降,网络的学习采用反向传播算法和随机梯度下降方法。具体地,在训练之前标注好训练样本的真值标签,对于第一分类层和第一回归层,每次训练时根据标注好的真值标签(即前景或背景,以及三维检测框的位置信息),以及第一分类层和第一回归层输出的结果,计算分类代价和回归代价,对于第二分类层和第二回归层,按照标注好的真值标签(即车辆或背景,以及车辆的具***置),以及第二分类层和第二回归层的输出结果,计算分类代价和回归代价,不断地缩小总Loss值(总Loss即总代价,包括分类代价与回归代价),最后得到输出比较准确的分类层(第一分类层和第二分类层)和回归层(第一回归层和第二回归层)的输出值,梯度下降通过使Loss值向当前点对应梯度的反方向不断移动,来降低Loss,随机梯度下降每次只更新一个训练样本所计算的梯度,其中,采用反向传播算法来求梯度。
本发明实施例还可以采用OHEM(Online hard example mining)方法对网络进行训练,与上述训练过程中任意选择A个样本不同的是,本发明实施例采用OHEM方法,将每一候选框作为样本,计算其总Loss值,并对各样本的总Loss值从大到小进行排序,选择总Loss值最大的A个样本(A=128或256),利用选择的这些样本对网络进行梯度下降,同样地,网络的学习采用反向传播算法和随机梯度下降方法,此处不再赘述。这样使得一些较难学习的样本也可以得到很好地学习,使得车辆检测的结果更加准确。
图3是根据本发明实施例的基于激光点云的目标检测装置的主要模块示意图。
本发明实施例的基于激光点云的目标检测装置300主要包括点云数据处理模块301、特征图生成模块302、候选框生成模块303、ROI降采样模块304、检测模块305。
点云数据处理模块301用于将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据,三维点阵数据包括每一栅格对应的四个特征值(通过对每一栅格提取四个特征而得到),每一栅格的四个特征值为:该栅格中点云的最大高度、具有最大高度的点云的反射强度、该栅格中点云的数量、以及指示该栅格中是否有点的指示值。
特征图生成模块302用于对三维点阵数据进行三维卷积和三维降采样,以得到三维特征图。
候选框生成模块303用于对应三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从三维检测框中选出候选三维检测框。
候选框生成模块303具体可以用于:对应三维特征图的每一位置生成多个三维检测框,以确定各三维检测框属于前景的概率、位置信息和尺度信息,各三维检测框的尺度信息包括相同高度;利用非极大值抑制算法对各三维检测框去重,从去重后的各三维检测框中选出属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框。
ROI降采样模块304用于对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图。
检测模块305用于根据对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。
候选框生成模块303可以包括前景确定子模块,用于:将三维检测框映射到二维平面上,得到与三维检测框对应的第一二维检测框;将预设长方体映射到二维平面上,得到与预设长方体对应的矩形框,预设长方体为经预先标注的检测目标样本;根据第一二维检测框与矩形框的交并比,确定三维检测框属于前景的概率。
检测模块305具体可以用于:对每一候选三维检测框对应的三维特征图,基于长度和宽度维度,得到四个第二二维检测框对应的特征图;对各第二二维检测框对应的特征图进行ROI降采样,得到各第二二维检测框对应的相同大小特征图;将各第二二维检测框对应的相同大小特征图,按照对应的候选三维检测框,组合为对应各三维检测框的相同大小特征图。
基于激光点云的目标检测装置300还可以包括训练模块,用于通过OHEM训练方法训练特征图生成模块302、候选框生成模块303、ROI降采样模块304和检测模块305。
本发明的基于激光点云的目标检测装置300可以基于上述构建的目标检测模型来实现,具体地,在通过点云数据处理模块301得到三维点阵数据之后,可以将该三维点阵数据作为目标检测模型的输入,可以通过目标检测模型中的三维卷积神经网络实现特征图生成模块302的相应功能。可以通过第一分类层和第一回归层实现候选框生成模块303的生成具有相同高度的多个三维检测框的功能,再选择分类层输出的属于前景的概率最大的预设数量的三维检测框,作为候选三维检测框,从而实现候选框生成模块303的选出候选三维检测框的功能。通过ROI降采样层实现ROI降采样模块304的相应功能,或者,通过ROI降采样层与两个三维卷积层结合,来实现ROI降采样模块304的相应功能。通过第二分类层和第二回归层实现检测模块305的相应功能。因此,上述的训练模块还可用于训练本发明实施例的目标检测模型的各层。由于上文已经详细介绍了OHEM训练方法,此处不再赘述。
另外,在本发明实施例中基于激光点云的目标检测装置的具体实施内容,在上面所述基于激光点云的目标检测方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的基于激光点云的目标检测方法或基于激光点云的目标检测装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的目标信息查询请求等数据进行分析等处理,并将处理结果(例如目标信息)反馈给终端设备。
需要说明的是,本发明实施例所提供的基于激光点云的目标检测方法可以由服务器405或终端设备401、402、403执行,相应地,基于激光点云的目标检测装置可以设置于服务器405或终端设备401、402、403中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的主要步骤示意图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括点云数据处理模块301、特征图生成模块302、候选框生成模块303、ROI降采样模块304、检测模块305。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,点云数据处理模块301还可以被描述为“用于将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;对所述三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;对应所述三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从所述三维检测框中选出候选三维检测框;对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图;根据所述对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。
根据本发明实施例的技术方案,将采集的激光点云数据栅格化,并对每一栅格提取特征,以得到三维点阵数据;对三维点阵数据进行三维卷积和三维降采样,以得到三维特征图;对应三维特征图的每一位置,生成具有相同高度的多个三维检测框,并从三维检测框中选出候选三维检测框;对每一候选三维检测框对应的三维特征图,在长度和宽度维度上进行ROI降采样,以得到对应各三维检测框的相同大小特征图;根据对应各三维检测框的相同大小特征图进行分类和回归处理,以确定检测目标的类别和位置信息。能够不依赖于激光雷达与摄像头之间的标定,检测结果的准确性高。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。