一种基于多通道模型融合的深度学习物体分类方法

文档序号:105807 发布日期:2021-10-15 浏览:12次 >En<

阅读说明:本技术 一种基于多通道模型融合的深度学习物体分类方法 (Deep learning object classification method based on multi-channel model fusion ) 是由 安康 李国承 林雪松 刘翔鹏 李一染 于 2021-04-02 设计创作,主要内容包括:本发明公开了一种基于多通道模型融合的深度学习物体分类方法,其步骤如下:将待分类物品放在视觉图像采集系统的转盘中心上,开启视觉图像采集系统采集待分类物品的图像;将各图像采集设备采集到的图像分别对应输入与图像采集设备对应的多个第一处理模型得到各图像采集设备对应的预测概率矩阵;对各预测概率矩阵进行融合得到融合矩阵;将融合矩阵输入第二处理模型即得到待分类物品的分类结果。本发明的基于多通道模型融合的深度学习物体分类方法,针对多个特征面建立多个网络提取特征并融合的模型,与现有技术相比,具有更强的特征提取能力;与传统方法相比有更高的精度,尤其对于相似零件分类极大地提高了分类精度,极具应用前景。(The invention discloses a deep learning object classification method based on multi-channel model fusion, which comprises the following steps: placing the articles to be classified on the center of a turntable of a visual image acquisition system, and starting the visual image acquisition system to acquire images of the articles to be classified; correspondingly inputting the images acquired by each image acquisition device into a plurality of first processing models corresponding to the image acquisition devices respectively to obtain a prediction probability matrix corresponding to each image acquisition device; fusing the prediction probability matrixes to obtain a fusion matrix; and inputting the fusion matrix into a second processing model to obtain a classification result of the articles to be classified. The deep learning object classification method based on the multi-channel model fusion is characterized in that a plurality of network extraction feature fusion models are established for a plurality of feature planes, and compared with the prior art, the deep learning object classification method based on the multi-channel model fusion has stronger feature extraction capability; compared with the traditional method, the method has higher precision, particularly greatly improves the classification precision for the classification of similar parts, and has great application prospect.)

一种基于多通道模型融合的深度学习物体分类方法

技术领域

本发明属于视觉检测技术领域,涉及一种基于多通道模型融合的深度学习物体分类方法,特别涉及一种多面采集物品图像后应用基于模型融合的卷积神经网络完成物品分类的方法。

背景技术

随着多媒体技术及互联网的迅速发展,物体图像的分类已成为国内外研究的热点问题。快速、高精度的图像分类识别算法是实现各种实际应用的基本前提,因此对图像分类的研究具有十分重要的意义。

深度学习与传统图像分类方法的最大不同在于它是从大数据中自动学习特征,而非采用手工设计的特征,好的特征可以极大提高图像识别的性能。深度学习可以从大数据中自动学习特征的表示,其中可以包含成千上万的参数。手工设计出有效的特征是一个相当漫长的过程。回顾计算机视觉发展的历史,往往需要五到十年才能出现一个受到广泛认可的好的特征。而深度学习可以针对新的应用从训练数据中很快学习得到新的有效的特征表示。

基于深度学习的分类方法已经得到了一定的应用,但在不同场景存在精度不高的缺点。基于深度学习的物体分类在相似物品的分类上存在以下问题:同一大类物品中特征大体相同,其区别往往在于细节,往往难以在一特征面中体现出来,而当前的算法没有兼顾到多个特征面,同时当前在物体分类前还需对物体进行理料,这一方面增大了成本,另一方面其适用性有限,难以实现高度相似物体的分类。

因此,开发一种能够实现物品快速精确低成本分类且适应性好的方法极具现实意义。

发明内容

本发明的目的在于克服现有物品识别分类效果差且适用性较差的缺陷,提供一种能够实现物品快速精确低成本分类且适应性好的方法。

为实现上述目的,本发明提供如下技术方案:

一种基于多通道模型融合的深度学习物体分类方法,其步骤如下:

(1)将待分类物品放在视觉图像采集系统的转盘中心上,开启视觉图像采集系统采集待分类物品的图像;

(2)将各图像采集设备采集到的图像分别输入第一处理模型得到各图像采集设备对应的预测概率矩阵;

(3)对步骤(2)获得的各预测概率矩阵进行融合得到融合矩阵;

(4)将步骤(3)获得的融合矩阵输入第二处理模型即得到待分类物品的分类结果;

所述视觉图像采集系统,包括一用于放置待分类物品的转盘,所述转盘与转盘驱动装置连接,在转盘驱动装置的驱动下可水平旋转;

围绕所述转盘布置有两个以上视野中心对准转盘中心的图像采集设备,所述图像采集设备位于所述转盘的上方,所述图像采集设备布置在所述转盘的不同方位上且其与转盘间的高度差不同;

所述图像采集设备、转盘驱动装置分别与中央处理单元连接;

每个第一处理模型均与图像采集设备一一对应,第一处理模型为Densenet模型,其训练过程即以已知类别的物品图像为输入,以物品的对应类别概率为理论输出,不断调整模型参数的过程,训练的终止条件为达到训练次数上限;

所述第二处理模型为BP神经网络(其中初始化权重W为采用高斯分布随机初始化),其训练过程即以已知类别的物品各图像融合矩阵为输入,以物品的对应类别概率为理论输出,不断调整模型参数的过程,训练的终止条件为达到训练次数上限(如50次),所述已知类别的物品各图像融合矩阵是指将已知类别的物品的各图像输入第一处理模型后得到的各预测概率矩阵融合后得到的矩阵。其中BP神经网络采用Adam优化器,学习率为0.001。

转盘可控制零件的方位,增加数据丰富性与可靠性,相比于传统机器视觉中只采用俯视图像进行识别,多视角的图像能提供更多的零件信息,有利于深度学习模型学习到更为完整的零件信息,并且可以防止过拟合,提升模型泛化能力。

本发明的基于多通道模型融合的深度学习物体分类方法,针对当前待分类物体的几何结构具有较高的相似度,并且在大类别相同的种类中物体的俯视图可以达到完全一样,有不少工业物料仅从单个角度拍摄照片区分度较低的问题,使用通用式视觉图像采集系统采用多角度采集图像的方式获取物品图像(提取特征能力更强,采集的特征多),然后采用特定的Densenet模型对各图像采集设备采集的图像(各Densenet模型与图像采集设备一一对应)进行处理后,融合后再将其输入到BP神经网络,完成基于多模型融合的深度学习实现物品识别,其分类准确率高,极具应用前景。

作为优选的技术方案:

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述已知类别的物品图像是将已知类别的物品放置在视觉图像采集系统的转盘中心上开启视觉图像采集系统采集得到的,即其对应的类别概率是确定的。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述中央处理器通过旋转转盘驱动装置后即可通过图像采集设备获取待采集图像件不同角度的图片,对采集到的待采集图像件不同角度的图片进行处理后即可完成数据增强。

即应用以上方法进行数据扩充:

将图像预处理为80*80像素大小,对每一张图像进行数据增强处理,即将每张图像看作80*80的矩阵,对每张图像随机进行偏移、旋转、镜像、翻折操作,使其偏移、翻折都在一定范围(使用逆时针旋转和顺时针旋转范围在10度之内,比例为0.1范围之内的水平偏移或者垂直偏移)之内,每张图像经过处理后将生成全新的N张图像,即数据库扩充了N倍(如可扩展到10倍)。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述增强后的数据对应的状态相比于增强对象对应的状态左右或上下平移小于等于20%或者顺或逆时针的随机旋转角度小于等于30°,此处仅给出一种可行的技术方案,本领域技术人员可根据实际需求通过平移和旋转操作生成增强数据。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述转盘布置在一框架内,所述图像采集设备固定在框架上,框架上还固定有光源;

所述转盘下布置黑色背板;

所述转盘驱动装置为驱动电机。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述光源布置在转盘的上方,所述框架外套有柔光罩;

所述框架为方形框架;

所述图像采集设备共有三个,分别布置在框架的A侧、B侧及顶部,且三个图像采集设备与转盘的高度差均不相同,A侧与B侧相互垂直。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述框架的转角处圆角过渡;所述框架由多根铝合金方管固定拼接而成。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述第一处理模型具体为Densenet121网络模型;其以Densenet为基础,网络总共121层,其采用Input-BN-Dropout(0.4)-Dense100(Input表示输入层,BN代表批归一化层,Dropout代表随机丢失权重比例,其后所带数字表示丢弃权重所占比例,Dense代表全连接层,其后数字表示这一层神经元数量)的重复结构,其中结构重复4次,最后一层采用Dense层,激活函数使用softmax,softmax分类器计算各个种类的分类概率:

根据概率yi得到最终的预测结果,预测概率矩阵中最大的概率yi的下标i就是预测的结果;

在模型训练过程中根据预测的结果判断模型是否训练完成,若训练完成则保存Densenet121模型和参数,反之,则再次进行训练;

Densenet121网络模型用于进行特征提取,使用前向传播对卷积层、全连接层和池化层计算;

训练第一处理模型所用的一组数据组包括对应图像采集设备采集得到的已知类别的物品的图像和其对应的类别。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,训练第二处理模型所用的一组数据组包括视觉图像采集系统中各图像采集设备采集得到的已知类别的一物品的图像输入对应的第一处理模型后得到的矩阵融合后的矩阵和其对应的类别。

其中BP神经网络主体由19层,由三种网络层构成,分别是Dense层,Dropout层,BatchNormalization层。Dense层有400个神经元,激活函数设置为relu函数,为了减少发生过拟合使Dropout的参数设置为0.4,使用BatchNormalization层将每一批数据进行归一化处理,防止梯度弥散,进一步的提升学习效率。

第二处理模型的输入是不同图像采集设备采集到的图片经Densenet121网络模型处理得到结果后融合后的结果,以三台图像采集设备为例,将其分别输入对应的第一处理模型(D1、D2、D3,其中每个图像采集设备对应的第一处理模型的训练库及其使用均不同且相互独立)后得到对应的输出向量,将其分别保存命名为P1、P2、P3,而后将三个文件合并为一个A矩阵(即第二处理模型的输入),在训练过程中使用的数据(A矩阵)对应的物品的类别(即第二处理模型的输出)是已知的。

样本图像标注的过程为:基于图像采集设备,通过opencv函数调用三个摄像头获取物体在黑色背景下的图像,物体选用不同形状、不同材质、不同大小的N类作为待采集对象,编号分别为1~N作为物体深度学习的标签;对每个摄像头采集到的图像分文件夹存储,分为训练集与测试集,编号为camera1-camera3,在每个camera文件夹下有N个文件夹,文件名为物体编号,分别保存对应类别的物体图像。

融合过程(扩充维度)具体如下:

令融合后的特征输入为D1,则D1

D1=concatenate(A,B,C)

得到其中一张图像的处理结果D1为[a1,a2,...,an,b1,b2,...,bn,c1,c2,...,cn]。

融合过程并不仅限于此,也可采用特征相加的形式进行融合,具体如下:

D2=A+B+C

得到的结果D2为[a1+b1+c1,a2+b2+c2,……an+bn+cn]。

同时还可使用扩充维度与特征相加叠加的形式,其具体如下:

D3=concatenate(D1,D2)

得到的结果D3为[a1,a2……an,……c1,……cn,a1+b1+c1,a2+b2+c2,……an+bn+cn]。

如上所述的一种基于多通道模型融合的深度学习物体分类方法,所述图像采集设备采集到的图像在应用前需要进行如下预处理:

(1)灰度化;

(2)使用高斯模糊去除噪声,高斯矩阵的大小设置为9*9,标准差设置为0,然后进行高斯滤波;

(3)使用canny算子进行边缘检测,将canny算子的两个阈值设置为25-150,找到整个物品边缘;

(4)根据边缘找出最小外接正方形,将整个外接正方形截取;

(5)将正方形的图像采用双线性插值的方法缩放至合适大小(具体为80*80像素)。

有益效果:

(1)本发明的基于多通道模型融合的深度学习物体分类方法,针对多个特征面建立多个网络提取特征并融合的模型,与现有技术相比,具有更强的特征提取能力;

(2)本发明的基于多通道模型融合的深度学习物体分类方法,与传统方法相比有更高的精度,尤其对于相似零件分类极大地提高了分类精度,极具应用前景。

附图说明

图1为本发明的视觉图像采集系统的整体结构示意图;

图2为本发明的视觉图像采集系统的数据采集流程示意图;

图3为本发明的基于多通道模型融合的深度学习物体分类方法的流程示意图;

图4为Densenet121的结构图;

图5为BP层网络结构图;

图6为图片预处理的流程及效果示意图;

图7为数据经第一处理模型→第二处理模型处理的流程图;

图8为测试结果示意图。

具体实施方式

下面结合附图,对本发明的具体实施方式做进一步阐述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

一种基于多通道模型融合的深度学习物体分类方法,其步骤如图3所示:

(1)将待分类物品放在视觉图像采集系统的转盘中心上,开启视觉图像采集系统采集待分类物品的图像(数据处理流程如图2所示);

视觉图像采集系统,如图1所示,包括一用于放置待采集图像件的转盘,转盘与转盘驱动装置(驱动电机)连接,在转盘驱动装置的驱动下可水平旋转,转盘布置在一框架(方形框架,由多根铝合金方管固定拼接而成,框架的转角处圆角过渡)内,转盘下布置黑色背板,框架外套有柔光罩;

围绕转盘布置有三个视野中心对准转盘中心的图像采集设备,图像采集设备位于转盘的上方固定在框架上,三个图像采集设备分别布置在框架的A侧、B侧(A侧与B侧相互垂直)及顶部,且三个图像采集设备与转盘的高度差均不相同,框架上还固定有光源,光源布置在转盘的上方;

图像采集设备、转盘驱动装置分别与中央处理单元连接,中央处理器通过旋转转盘驱动装置后即可通过图像采集设备获取待采集图像件不同角度的图片,对采集到的待采集图像件不同角度的图片进行处理后即可完成数据增强:

(2)图像采集设备采集到的图进行预处理,具体如图6所示:

(2.1)灰度化;

(2.2)使用高斯模糊去除噪声,高斯矩阵的大小设置为9*9,标准差设置为0,然后进行高斯滤波;

(2.3)使用canny算子进行边缘检测,将canny算子的两个阈值设置为25-150,找到整个物品边缘;

(2.4)根据边缘找出最小外接正方形,将整个外接正方形截取;

(2.5)将正方形的图像采用双线性插值的方法缩放至合适大小(具体为80*80像素);

(3)将各图像采集设备采集到的图像分别输入对应的第一处理模型得到各图像采集设备对应的预测概率矩阵,步骤(3)~(5)的处理流程如图7所示;

第一处理模型为Densenet121网络模型(如图4所示),其训练过程即以已知类别的物品图像为输入,以物品的对应类别概率为理论输出,不断调整模型参数的过程,训练的终止条件为达到训练次数上限(50次),训练第一处理模型所用的一组数据组(训练第一处理模型所用的数据组即为训练集,其具体是使用视觉图像采集系统采集到50张或以上的图像而后进行数据增强后得到的,图像的大小为640*480像素)包括对应图像采集设备采集得到的已知类别的物品的图像和其对应的类别,且已知类别的物品的图像是将已知类别的物品放置在视觉图像采集系统的转盘中心上开启视觉图像采集系统采集得到的;

(4)对步骤(3)获得的各预测概率矩阵进行融合得到融合矩阵;

(5)将步骤(4)获得的融合矩阵输入第二处理模型即得到待分类物品的分类结果;

第二处理模型为BP神经网络(如图5所示),其训练过程即以已知类别的物品各图像融合矩阵为输入,以物品的对应类别概率为理论输出,不断调整模型参数的过程,训练的终止条件为达到训练次数上限(50次),其采用Input-BN-Dropout(0.4)-Dense100(Input表示输入层,BN代表批归一化层,Dropout代表随机丢失权重比例,其后所带数字表示丢弃权重所占比例,Dense代表全连接层,其后数字表示这一层神经元数量)的重复结构,其中结构重复4次,最后一层采用Dense层,激活函数使用softmax,BP神经网络采用Adam优化器,学习率为0.001,训练第二处理模型所用的一组数据组包括视觉图像采集系统中各图像采集设备采集得到的已知类别的一物品的图像输入第一处理模型后得到的矩阵融合后的矩阵和其对应的类别,已知类别的物品各图像融合矩阵是指将已知类别的物品的各图像输入第一处理模型后得到的各预测概率矩阵融合后得到的矩阵,以各图像输入第一处理模型后得到的各预测概率矩阵具体为A1、A2、A3,已知类别的物品各图像融合矩阵即为将A1,A2,A3采用矩阵扩充维度的方式进行连接得到的矩阵B。

以上实施例具体采用以下方案:

采集设备说明:

本专利的采集器如图1所示,由型材支架、照明装置、相机、旋转底盘、不透光罩等组成,首先将3个相机分别固定在零件的正上方,零件前方斜45度和零件后方斜45度,然后盖上不透光罩,放入零件,然后使用opencv函数打开相机图像,并调节照明装置亮度使零件图像清晰。

数据采集与处理:

本实施例选用不同形状、不同材质、不同大小的411类零件作为待采集对象,编号为001~411,作为零件深度学习的标签。首先通过opencv函数调用三个相机获取零件在黑色背景下的图像,3个相机从3个不同的角度分别采集数量大于30的图片,以此来获得零件同一时刻不同位面的特征情况,直接划分为3组互不相交却又属于同种类别的数据集。对每个摄像头采集到的图像分文件夹存储,分为训练集与测试集,编号为camera1-camera3,在每个camera文件夹下/有411个文件夹,文件名为零件编号,分别保存对应类别的零件图像。(文件目录如:train_data/camera1/001/1.jpg)

相机所采集的图像分辨率为640*480,图像分辨率过大并且包含了零件之外的图像,需要处理图像。首先对训练集和测试集图片进行灰度化,使用高斯模糊去除噪声,高斯矩阵的大小设置为9*9,标准差设置为0,然后进行高斯滤波。然后对图像进行二值化操作,使用canny算子进行边缘检测,canny算子的最小阈值设置为25,最大阈值设置为150,裁剪图片同时将图像放缩为80*80。对训练集进行数据增强,对所有训练集中的数据使用逆时针旋转和顺时针旋转范围在10度之内,比例为0.1范围之内的水平偏移或者垂直偏移,采用水平翻转或者垂直翻转的方式增强数据,使训练集大小增加10倍或以上。

模型训练与测试:

实验平台为windows7系统,英伟达1080ti显卡,vscode软件。模型网络如图7所示两层,第一层由三个并列的densenet121网络d1、d2、d2组成。第二层是一个BP网络。BP神经网络主体有19层,由三种网络层构成,分别是Dense层,Dropout层,BatchNormalization层。Dense层有400个神经元,激活函数设置为relu函数,为了减少发生过拟合使Dropout的参数设置为0.4,使用BatchNormalization层将每一批数据进行归一化处理,防止梯度弥散,进一步的提升学习效率。

将处理过的训练集数据输入图7所示模型,训练50个轮次,学习率设置为0.001,选用Adam优化器。将测试集数据输入训练过的网络,得到本模型的准确率。

选择传统深度学习分类算法,对单个相机数据集进行实验,得到传统算法的准确率,与本发明提出的方法比较。

实验结果:

实验表明,训练50轮时,只使用单个相机数据集的传统方法最终准确率是84.996%。使用三个相机数据集构建多通道深度学习模型,在测试集上得到的准确率为89.5%,与传统模型预测结果相比,本发明采用的多通道输入深度学习模型具有更高的准确率,比传统方法精度高约5%,测试结果如图8和表1所示。

表1多通道模型不同融合方式测试集准确度

模型类别 加法融合 扩维融合 加法扩维融合
多通道多模型 89.500% 88.200% 88.500%

经验证,本发明的基于多通道模型融合的深度学习物体分类方法,针对多个特征面建立多个网络提取特征并融合的模型,与现有技术相比,具有更强的特征提取能力;与传统方法相比有更高的精度,尤其对于相似零件分类极大地提高了分类精度,极具应用前景。

虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应该理解,这些仅是举例说明,在不违背本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于奇异值分解的实例物体自标注方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!