一种基于深度学习的2d图像场景深度预测及语义分割方法和系统

文档序号:1273102 发布日期:2020-08-25 浏览:5次 >En<

阅读说明:本技术 一种基于深度学习的2d图像场景深度预测及语义分割方法和系统 (Depth learning-based 2D image scene depth prediction and semantic segmentation method and system ) 是由 不公告发明人 于 2020-05-09 设计创作,主要内容包括:本发明公开了一种基于深度学习的2D图像场景深度预测及语义分割方法和系统,其中场景深度预测方法包括:获取多张RGB-D图像;以各RGB-D图像为训练样本,并基于卷积神经网络训练形成场景深度预测初始模型;通过场景深度预测初始模型对RGB-D图像进行场景深度预测,得到一个验证结果;根据验证结果,调整模型训练参数,然后以RGB-D图像为训练样本对深度预测初始模型进行更新训练,最终训练形成场景深度预测模型;通过场景深度预测模型对输入的RGB 2D图像进行场景深度预测,得到场景深度预测结果。本发明可实现对2D图像场景的深度预测以及实现对场景图像的语义分割,预测速度和预测精度较高,并且具有较高地语义分割准确度。(The invention discloses a depth prediction and semantic segmentation method and system for a 2D image scene based on depth learning, wherein the scene depth prediction method comprises the following steps: acquiring a plurality of RGB-D images; each RGB-D image is taken as a training sample, and a scene depth prediction initial model is formed on the basis of convolutional neural network training; scene depth prediction is carried out on the RGB-D image through a scene depth prediction initial model to obtain a verification result; adjusting model training parameters according to a verification result, then carrying out updating training on the depth prediction initial model by taking the RGB-D image as a training sample, and finally training to form a scene depth prediction model; and carrying out scene depth prediction on the input RGB 2D image through a scene depth prediction model to obtain a scene depth prediction result. The method can realize depth prediction of 2D image scenes and semantic segmentation of scene images, has high prediction speed and prediction precision, and has high semantic segmentation accuracy.)

一种基于深度学习的2D图像场景深度预测及语义分割方法和 系统

技术领域

本发明涉及深度学习和图像分析技术领域,具体涉及一种基于深度学习的2D图像场景深度预测及语义分割方法和系统。

背景技术

深度估计方法用于估计待处理的图像中各像素点的深度信息,获取待处理的图像的全局深度图,在计算机视觉和计算机图像学应用领域发挥着重要作用。然而现有的深度信息估计方法,通常仅依据图像中像素点的位置信息确定深度信息,依据自下向上的原则,将图像底部的物体视为近景,图像顶部的物体视为远景,确定得到图像的深度信息。这样的深度信息估计方法估计的深度值通常并不准确,深度图层次感不强,最为重要的是无法对输入的彩色图像进行深度图预测。

语义分割是在像素级别上的分类,属于同一类的像素被归为一类,以实现对图像上不同种类物体的图像分割。传统的语义分割方法比如基于随机森林分类器等的语义分割方法得到的分割图分割准确率并不高。虽然目前也存在一些基于深度学习的语义分割方法,但由于无法对彩色图做出准确的深度信息估计,依旧无法解决现有的语义分割方法分割准确率较低的问题。

发明内容

本发明的目的在于提供一种基于深度学习的2D图像场景深度预测及语义分割方法和系统,以解决上述技术问题。

为达此目的,本发明采用以下技术方案:

提供一种基于深度学习的2D图像场景深度预测方法,包括:

获取多张RGB-D图像,形成一个图像数据集;

将所述图像数据集按预设划分比例划分为训练集和验证集;

以训练集中的各所述RGB-D图像为训练样本,并基于卷积神经网络训练形成一个场景深度预测初始模型;

通过所述场景深度预测初始模型对所述验证集中的所述RGB-D图像进行场景深度预测,以验证所述场景深度预测初始模型的模型性能,得到一个验证结果;

根据所述验证结果,调整模型训练参数,然后以样本集中的所述RGB-D图像为训练样本对所述深度预测初始模型进行更新训练,最终训练形成场景深度预测模型;

通过所述场景深度预测模型对输入的RGB图像进行场景深度预测,输出场景深度预测结果。

作为本发明的一种优选方案,通过对所述RGB-D图像进行随机翻转、随机裁剪、缩放或随机旋转中的任意一种或多种图像处理,以扩充训练所述场景深度预测模型的所述训练样本。

作为本发明的一种优选方案,基于ResNet卷积神经网络架构训练所述场景深度预测模型。

作为本发明的一种优选方案,利用Huber回归损失函数验证所述场景深度预测初始模型的模型性能。

本发明还提供给了一种基于深度学习的2D图像场景深度预测系统,可实现所述图像场景深度预测方法,包括:

图像获取模块,用于从外部图像数据库中获取所述RGB-D图像;

图像存储模块,连接所述图像获取模块,用于存储获取的所述RGB-D图像;

图像划分模块,连接所述图像存储模块,用于按照预设的划分比例将存储的所述RGB-D图像划分为训练集和验证集;

初始模型训练模块,连接所述图像存储模块,用于以训练集中的各所述RGB-D图像为训练样本,训练形成所述场景深度预测初始模型;

模型性能预测模块,分别连接所述模型训练模块和所述图像存储模块,用于以所述验证集中的所述RGB-D图像为验证样本验证所述场景深度预测初始模型的预测性能,得到所述验证结果;

验证结果展示模块,连接所述模型性能预测模块,用于向用户展示所述验证结果;

模型参数调整模块,连接所述验证结果展示模块,用于提供给所述用户根据所述验证结果调整模型训练参数;

模型更新训练模块,分别连接所述图像存储模块、所述初始模型训练模块和所述模型参数调整模块,用于以训练集中的各所述RGB-D图像为训练样本,并根据所调整的所述模型参数,对所述深度预测初始模型进行更新训练,最终训练形成所述场景深度预测模型;

场景深度预测模块,连接所述模型更新训练模块,用于通过所述场景深度预测模型对输入的所述RGB图像进行图像场景深度预测。

本发明还提供了一种基于深度学习的2D图像场景语义分割方法,包括:

将RGB-D图像输入到一个特征提取器中,以提取所述RGB-D图像中的RGB图像对应的RGB特征图;

将所述RGB-D图像对应的地面真值深度图输入到所述特征提取器中,以提取所述地面真值深度图对应的真值深度特征图;

将所述RGB特征图和所述真值深度特征图进行图像融合,得到一个特征融合图;

通过一个预先训练的语义分割模型对所述特征融合图进行语义分割,输出语义分割结果。

作为本发明的一种优选方案,训练所述语义分割模型的方法包括:

获取所述RGB-D图像和所述RGB-D图像对应的所述地面真值深度图,形成一个图像数据集;

按预定划分比例将所述图像数据集划分为训练集和验证集;

以所述训练集中的各所述RGB-D图像以及所述RGB-D图像对应的所述地面真值深度图为训练样本,并基于卷积神经网络训练形成语义分割初始模型;

通过所述语义分割初始模型对所述验证集中的RGB图像进行语义分割,以验证所述语义分割初始模型的模型性能,得到一个验证结果;

根据所述验证结果,调整模型训练参数,然后以所述训练集中的图像数据为训练样本对所述语义分割初始模型进行更新训练,最终训练形成所述语义分割模型。

作为本发明的一种优选方案,所述特征提取器输出的所述RGB特征图或所述真值深度特征图的图像尺寸为160*128*64。

作为本发明的一种优选方案,训练所述语义分割模型的所述卷积神经网络的网络结构至少包括上卷积层、第一卷积层、第二卷积层和上采样层,所述第一卷积层连接所述上卷积层,所述第二卷积层连接所述第一卷积层,所述上采样层连接所述第二卷积层,所述上卷积层对所述特征融合图进行上卷积操作,所述上采样层对所述第二卷积层输出的特征图进行上采样处理后输出语义分割结果。

本发明还提供了一种基于深度学习的2D图像场景语义分割系统,可实现所述2D图像场景语义分割方法,包括:

第一图像获取模块,用于获取所述RGB-D图像并存储;

第二图像获取模块,用于获取所述RGB-D图像对应的所述地面真值深度图;

第一图像特征提取模块,连接所述第一图像获取模块,用于提取所述RGB-D图像中的所述RGB图像对应的所述RGB特征图;

第二图像特征提取模块,连接所述第二图像获取模块,用于提取所述地面真值深度图对应的所述真值深度特征图;

特征融合模块,分别连接所述第一图像特征提取模块和所述第二图像特征提取模块,用于将所述RGB特征图和所述真值深度特征图进行图像融合,得到所述特征融合图;

语义分割模块,连接所述特征融合模块,用于通过一个预先训练的所述语义分割模型对所述特征融合图进行语义分割,输出语义分割结果。

本发明实现了对2D图像场景的深度预测,并且预测速度和预测精度较高,能够较为准确地得到输入彩图的深度信息。另外本发明基于准确预测的深度信息对彩图进行语义分割,分割准确率得到了大幅提升。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例所述的基于深度学习的2D图像场景深度预测方法的步骤图;

图2是本发明一个实施例所述的基于深度学习的2D图像场景深度预测系统的结构图;

图3是本发明一个实施例所述的基于深度学习的2D图像场景语义分割方法的步骤图;

图4是训练所述语义分割模型的方法步骤图;

图5是本发明一个实施例所述的基于深度学习的2D图像场景语义分割系统的结构图;

图6是提取所述RGB特征图或所述真值深度特征图的所述特征提取器的网络结构图;

图7是预测2D图像场景深度和进行图像场景语义分割的示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

图1示出了本发明实施例提供的基于深度学习的2D图像场景深度预测方法。请参照图1,本实施例提供的基于深度学习的图像场景深度预测方法包括如下步骤:

步骤S1,获取多张RGB-D图像,形成一个图像数据集;RGB-D图像为彩色-深度图像,RGB-D图像实际包含两张图像,一张为RGB图像,另一张为该RGB图像对应的深度图像(D图像);

步骤S2,将图像数据集按预设划分比例划分为训练集和验证集;

步骤S3,以训练集中的各RGB-D图像为训练样本,并基于卷积神经网络训练形成一个场景深度预测初始模型;

步骤S4,通过场景深度预测初始模型对验证集中的RGB-D图像进行场景深度预测,具体地,该场景深度预测初始模型对RGB-D图像中的RGB图像进行场景深度预测,以验证场景深度预测初始模型的模型性能,得到一个验证结果;

步骤S5,根据验证结果,调整模型训练参数,然后以样本集中的RGB-D图像为训练样本对深度预测初始模型进行更新训练,最终训练形成场景深度预测模型;

步骤S6,通常场景深度预测模型对输入的RGB图像进行场景深度预测,输出场景深度预测结果。

为确保训练样本的多样性,优选地,本发明实施例通过对RGB-D图像进行图像随机翻转、随机裁剪、缩放或随机旋转等图像预处理方式,以扩充训练场景深度预测模型的训练样本,进而确保训练形成的场景深度预测模型具有更高地预测精度。

步骤S3中,本发明实施例优选基于ResNet卷积神经网络架构训练场景深度预测模型。ResNet残差网络的具体网络结构请参照图7a。图7a中的特征提取器的内部网络结构请参照图6。由图7a可知,输入到卷积神经网络的RGB图像的图像尺寸同一为304*228*3,特征提取器输出的特征图的图像尺寸为160*128*64,特征提取器输出的特征图经过尺寸为3*3的卷积核的卷积特征提取后输出尺寸为160*128*1的特征图,然后对160*128*1的特征图进行上采样后最终输出尺寸为640*480的预测深度图。

本发明实施例中,优选采用Huber归回损失函数验证场景深度预测初始模型的模型性能。具体地,通过Huber损失函数计算输入的RGB图像对应的预测深度图和真实深度图之间的损失量,以验证场景深度预测初始模型的模型性能。由于Huber损失函数计算预测深度图和真实深度图之间的损失量并非本发明要求权利保护的范围,所以关于Huber损失函数的损失计算过程在此不做阐述。

请参照图2,本发明还提供了一种基于深度学习的2D图像场景深度预测系统,可实现上述的图像场景深度预测方法,该系统包括:

图像获取模块1,用于从外部图像数据库中获取RGB-D图像;

图像存储模块2,连接图像获取模块1,用于存储获取的RGB-D图像;

图像划分模块3,连接图像存储模块2,用于按照预设的划分比例将存储的RGB-D图像划分为训练集和验证集;

初始模型训练模块4,连接图像存储模块2,用于以训练集中的各RGB-D图像为训练样本,训练形成场景深度预测初始模型;

模型性能预测模块5,连接初始模型训练模块4,用于以验证集中的RGB-D图像为验证样本验证场景深度预测初始模型的预测性能,得到验证结果;

验证结果展示模块6,连接模型性能预测模块5,用于向用户展示验证结果;

模型参数调整模块7,连接验证结果展示模块6,用于提供给用户根据验证结果调整模型训练参数;

模型更新训练模块8,分别连接图像存储模块2、初始模型训练模块4和模型参数调整模块7,用于以训练集中的各RGB-D图像为训练样本,并根据所调整的模型参数,对深度预测初始模型进行更新训练,最终训练形成场景深度预测模型;

场景深度预测模块9,连接模型更新训练模块8,用于通过场景深度预测模型对输入的RGB图像进行图像场景深度预测。

本发明还提供了一种基于深度学习的2D图像场景语义分割方法,请参照图3和图7b,该方法具体包括如下步骤:

步骤L1,将RGB-D图像输入到一个特征提取器中,以提取RGB-D图像中的RGB图像对应的RGB特征图;

步骤L2,将RGB-D图像对应的地面真值深度图输入到特征提取器中,以提取地面真值深度图对应的真值深度特征图;

步骤L3,将RGB特征图和真值深度特征图进行图像融合,得到一个特征融合图;

步骤L4,通过一个预先训练的语义分割模型对特征融合图进行语义分割,输出语义分割结果。

步骤L1和步骤L2中所述的特征提取器的内部网络结构请参照图6。输入到特征提取器的RGB图像或该RGB图像对应的地面真值深度图的图像尺寸同一为304*228*3,特征提取器输出的RGB特征图或真值深度特征图的图像尺寸为160*128*64。

步骤L3中,RGB特征图和真值深度特征图进行图像融合后形成的特征融合图的图像尺寸为160*128*64。

步骤L4中,训练语义分割模型的卷积神经网络的网络结构至少包括上卷积层、第一卷积层、第二卷积层和上采样层,第一卷积层连接上卷积层,第二卷积层连接第一卷积层,上采样层连接第二卷积层,上卷积层对特征融合图进行上卷积操作,上采样层对第二卷积层输出的特征图进行上采样处理后输出语义分割结果。

本实施例中,第一卷积层和第二卷积层的卷积核大小优选为3*3。语义分割模型输出的分割图的尺寸为640*480*38,“38”用于表示分割出的语义标签的数量。

请参照图4,本发明实施例训练语义分割模型的方法包括如下步骤:

步骤M1,获取RGB-D图像和RGB-D图像对应的地面真值深度图,形成一个图像数据集;

步骤M2,按预定划分比例将图像数据集划分为训练集和验证集;

步骤M3,以训练集中的各RGB-D图像以及RGB-D图像对应的地面真值深度图为训练样本,并基于卷积神经网络训练形成语义分割初始模型;优选地,采用ResNet卷积神经网络架构训练语义分割初始模型;

步骤M4,通过语义分割初始模型对验证集中的RGB图像进行语义分割,以验证语义分割初始模型的模型性能,得到一个验证结果;优选地,通过L2损失函数验证语义分割初始模型的模型性能,具体的验证过程在此不作阐述;

步骤M5,根据验证结果,调整模型训练参数,然后以训练集中的图像数据为训练样本对语义分割初始模型进行更新训练,最终训练形成语义分割模型。

请参照图5,本发明还提供了一种基于深度学习的2D图像场景语义分割系统,可实现上述的图像场景语义分割方法,该系统包括:

第一图像获取模块11,用于获取RGB-D图像并存储;

第二图像获取模块12,用于获取RGB-D图像对应的地面真值深度图;

第一图像特征提取模块13,连接第一图像获取模块11,用于提取RGB-D图像中的RGB图像对应的RGB特征图;请参照图7a,RGB特征图的图像尺寸为160*128*64;

第二图像特征提取模块14,连接第二图像获取模块12,用于提取地面真值深度图对应的真值深度特征图;请参照图7b,真值深度特征图的图像尺寸同样为160*128*64;

特征融合模块15,分别连接第一图像特征提取模块13和第二图像特征提取模块14,用于将RGB特征图和真值深度特征图进行图像融合,得到特征融合图;特征融合图的图像尺寸为160*128*128;

语义分割模块16,连接特征融合模块15,用于通过预先训练的语义分割模型对特征融合图进行语义分割,输出语义分割结果。

需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种单帧结构光场三维成像方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!