一种基于图像文本的仪表检测分类方法

文档序号:1862007 发布日期:2021-11-19 浏览:5次 >En<

阅读说明:本技术 一种基于图像文本的仪表检测分类方法 (Instrument detection and classification method based on image text ) 是由 田联房 王昭霖 杜启亮 于 2021-07-28 设计创作,主要内容包括:本发明公开了一种基于图像文本的仪表检测分类方法,包括:1)仪表定位数据集的构建,改进YOLO网络训练,使用网络输出表盘图像;2)字符检测数据集的构建,改进EAST网络训练,使用网络输出字符图像;3)字符识别数据集的构建,CRNN网络训练,使用网络输出字符信息;4)文本分类数据集的构建,TextCNN网络训练,使用网络输出仪表类型。本发明使用神经网络实现仪表检测及仪表文本信息检测识别,具有更高的精度以及在不同背景下有更好的泛化能力,对于不同尺寸的仪表均能进行准确检测,不存在采集角度与距离的局限,利用仪表上的字符信息,可解决在机器视觉领域中能识别出仪表位置但难以区分仪表类型的问题,做到了不仅能检测出仪表并能识别出仪表的类型。(The invention discloses an instrument detection and classification method based on an image text, which comprises the following steps: 1) constructing an instrument positioning data set, improving YOLO network training, and outputting a dial plate image by using a network; 2) constructing a character detection data set, improving EAST network training, and outputting character images by using a network; 3) constructing a character recognition data set, performing CRNN network training, and outputting character information by using a network; 4) and constructing a text classification data set, carrying out TextCNN network training, and outputting an instrument type by using a network. The invention realizes instrument detection and instrument text information detection and identification by using the neural network, has higher precision and better generalization capability under different backgrounds, can accurately detect instruments with different sizes, has no limitation of acquisition angle and distance, can solve the problem that the positions of the instruments can be identified but the types of the instruments are difficult to distinguish by using character information on the instruments, and can detect the instruments and identify the types of the instruments.)

一种基于图像文本的仪表检测分类方法

技术领域

本发明涉及图像处理与神经网络的技术领域,尤其是指一种基于图像文本的仪表检测分类方法。

背景技术

仪表作为一种监测装置,主要有压力仪表、温度仪表、流量仪表、电工仪表、电子测量仪表,它也被广泛应用于工业生产和社会生活的各个方面,为生产生活提供了极大的便利。通过图像采集设备采集仪表图像进行检测分类,相较于人工分类方法具有适用范围广、分类效率高的优势,随着图像处理技术和神经网络技术的发展,这种方法也在逐步成为主流,该方法中的关键环节就包括仪表中文本的定位与识别,文本定位与识别信息的精确与否对于仪表的分类和量纲读取具有重要影响。

目前对于仪表分类方法的研究与实现,主要集中在使用神经网络对不同类型的仪表图像进行分类训练,这种方法存在一些缺陷,比如对需要识别的仪表图像都需要训练,不同类型的仪表在图像上的区分度不是很大,深度网络对不同的仪表的识别分类性能并不理想。目前对于仪表上的字符识别方法的研究与实现,主要集中在传统图像处理技术的应用上,具体通过滤波、灰度化、阈值化、边缘检测、模板检测一系列图像处理技术实现字符信息的获取,这种方法虽然简单易行,但是泛化能力不足,对于不同环境下的各类型仪表的字符信息的识别并不具有普适性,需要频繁更换参数,而且精度不高。随着近年来图像处理和神经网络技术的迅猛发展,使得使用神经网络进行字符定位识别分类成为可能。其中主要有文本检测、文本识别和文本分类三种算法,文本检测主要通过神经网络对字符信息进行四边形框定位,再通过文本识别算法实现仪表上的文本信息读取,再通过文本分类算法将文本信息进行分类得到仪表的类型。

综合以上论述,发明一种具备实时性和高精度的仪表检测分类方法具有较高的实际应用价值。

发明内容

本发明的目的在于克服现有技术的缺点与不足,提出了一种基于图像文本的仪表检测分类方法,使用神经网络实现仪表检测及仪表文本信息检测识别,具有更高的精度以及在不同背景下有更好的泛化能力,对于不同尺寸的仪表均能进行准确检测,不存在采集角度与距离的局限,利用仪表上的字符信息,能够解决在机器视觉领域中能识别出仪表位置但难以区分仪表类型的问题,做到了不仅能检测出仪表并能识别出仪表的类型。

为实现上述目的,本发明所提供的技术方案为:一种基于图像文本的仪表检测分类方法,包括以下步骤:

1)使用仪表图像对表盘位置进行标注构建仪表定位数据集,并将仪表定位数据集分为训练集和测试集,再装载参数使用训练集训练改进YOLO网络,训练完毕后得到最优的改进YOLO网络,将测试集输入最优的改进YOLO网络,输出表盘图像并将表盘图像裁剪出来;其中,改进YOLO网络是将骨干网络优化为mobilenet轻量化网络以减少网络参数和计算量,提高运算速度;

2)对步骤1)裁剪出来的表盘图像中字符位置进行标注构建字符检测数据集,并将字符检测数据集分为训练集和测试集,再装载训练参数使用训练集训练改进EAST网络,训练完毕后得到最优的改进EAST网络,将测试集输入最优的改进EAST网络,输出字符检测数据集中的字符位置并裁剪为字符图像;其中,改进EAST网络是将骨干网络换为VGG以提高网络检测准确性,其输出层结构修改预测模块只用头部元素预测顶点,以提高对长字符的预测性能;

3)对步骤2)裁剪好的字符图像中字符信息进行标注构建字符识别数据集,并将字符识别数据集分为训练集和测试集,再装载训练参数使用训练集训练CRNN网络,训练完毕后得到最优的CRNN网络,将测试集输入最优的CRNN网络,输出字符信息;

4)将步骤3)输出的字符信息拼接为文本,再将文本对应的仪表类型进行标注构建文本分类数据集,将文本分类数据集分为训练集和测试集,再装载训练参数使用训练集训练TextCNN网络,训练完毕后得到最优的TextCNN网络,将测试集输入最优的TextCNN网络输出文本对应的仪表类型。

进一步,在步骤1)中,首先,通过摄像机采集不同环境下的各类仪表图像,并对仪表图像进行滤波、图像增强的预处理操作,然后将其中的异常数据剔除,包括存在表面脏污、光照极端以及拍摄不全异常的数据,再对其余数据进行标注,标注内容为表盘位置,构建仪表定位数据集,并分为训练集和测试集。

进一步,在步骤1)中,所述改进YOLO网络的具体情况如下:

a、根据实时性和高精度要求构建特征提取网络:

第一层为组合卷积模块1-A,它由一个零填充层、一个卷积层、一个批归一化层和一个激活层组成;

第二层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第三层为组合卷积模块1-C,它由一个零填充层、一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第四层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第五层为组合卷积模块1-C,它由一个零填充层、一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第六层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第七层为组合卷积模块1-C,它由一个零填充层、一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第八层为组合卷积模块1-D,它由五个组合卷积模块1-B组成;

第九层为组合卷积模块1-C,它由一个零填充层、一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第十层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

b、根据特征提取网络不同层的输出构建输出预测不同尺寸目标的预测网络,有大尺寸目标预测网络、中等尺寸目标预测网络和小尺寸目标预测网络;

b1、输入为特征提取网络第十层输出,大尺寸目标预测网络由多种组合卷积模块和卷积层组成,其结构如下:

第一层为组合卷积模块1-D,它由五个组合卷积模块1-B组成;

第二层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第三层为一个卷积层;

b2、输入为特征提取网络第八层输出和大尺寸目标预测网络第一层输出,中等尺寸目标预测网络由多种组合卷积模块和卷积层组成,其结构如下:

第一层为输入融合模块1-E,它由一个组合卷积模块1-B、一个上采样层和一个张量拼接层组成;

第二层为组合卷积模块1-D,它由五个组合卷积模块1-B组成;

第三层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第四层为一个卷积层;

b3、输入为特征提取网络第六层输出和中等尺寸目标预测网络第二层输出,小尺寸目标预测网络由多种组合卷积模块和卷积层组成,其结构如下:

第一层为输入融合模块1-E,它由一个组合卷积模块1-B、一个上采样层和一个张量拼接层组成;

第二层为组合卷积模块1-D,它由五个组合卷积模块1-B组成;

第三层为组合卷积模块1-B,它由一个深度卷积层、两个批归一化层、两个激活层和一个卷积层组成;

第四层为一个卷积层;

最后,将大尺寸目标预测网络、中等尺寸目标预测网络和小尺寸目标预测网络的输出通过非极大值抑制层得到预测目标位置和类别;

c、设置损失函数有中心坐标损失函数、宽高损失函数、置信度损失函数和类别损失函数;

中心坐标损失函数公式如下:

Lossxy=markobject*(2-w*h)*Losslog(xytrue,xypredict)

式中,Lossxy代表中心坐标损失,markobject代表锚点框否存在物体的标志位,w代表锚点框的宽,h代表锚点框的高,Losslog代表二值交叉熵损失,xytrue代表真实中心坐标值,xypredict代表预测中心坐标值;

宽高损失函数公式如下:

Losswh=0.5*markobject*(2-w*h)*(whtrue-whpredict)2

式中,Losswh代表宽高损失,whtrue代表真实宽高值,whpredict代表预测宽高值;

置信度损失函数公式如下:

Lossconfidence=markobject*Losslog(markobject,cpredict)+(1-markobject)*Losslog(markobject,cpredict)*markignore

式中,Lossconfidence代表置信度损失,cpredict代表预测框的置信度值,markignore代表IOU小于阈值的锚点框的标志位;

类别损失函数公式如下:

Losscls=markobject*Losslog(clstrue,clspredict)

式中,Losscls代表类别损失,clstrue代表真实类别,clspredict代表预测类别;

总损失函数公式如下:

Loss=(Lossxy+Losswh+Lossconfidence+Losscls)/numf

式中,Loss代表总损失,numf代表输入总数的浮点数;

装载训练参数训练改进YOLO网络,训练参数的设置为:设置训练优化器为Adam、初始学习率为0.001、最大训练周期为500以及批次大小为8;并设置验证集间隔检测训练精确度,训练完成标志为达到最大训练周期或均交并比满足要求,训练完成达到最优后保存网络;

将测试集输入最优的改进YOLO网络得到表盘位置和表盘图像。

进一步,在步骤2)中,所述改进EAST网络的具体情况如下:

a、构建特征提取网络,其结构如下:

第一层为组合卷积模块2-B,它由两个组合卷积模块2-A和一个最大池化层组成,组合卷积模块2-A由一个零填充层、一个卷积层和一个激活层组成;

第二层为组合卷积模块2-B,它由两个组合卷积模块2-A和一个最大池化层组成;

第三层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;

第四层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;

第五层为组合卷积模块2-C,它由三个组合卷积模块2-A和一个最大池化层组成;

b、构建特征融合网络,其结构如下:

第一层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;

第二层为组合卷积模块2-E,它由两个批归一化层、一个组合卷积模块2-D和一个组合卷积模块2-A组成;其中组合卷积模块2-D由一个零填充层、一个卷积层和一个激活层组成;

第三层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;

第四层为组合卷积模块2-E,它由两个批归一化层、一个组合卷积模块2-D和一个组合卷积模块2-A组成;

第五层为输入融合模块2-G,它由一个上采样层和一个张量拼接层组成;

第六层为组合卷积模块2-F,它由三个批归一化层、一个组合卷积模块2-D和两个组合卷积模块2-A组成;

c、构建预测网络,其结构如下:

第一层分为三个分支,第一个分支由一个组合卷积模块2-D组成;第二个分支由一个组合卷积模块2-D组成;第三个分支由一个组合卷积模块2-D组成;

第二层为输入融合模块,它由第一层的三个分支拼接组成;

d、设置损失函数有类别损失函数、几何形状损失函数和角度损失函数;

类别损失函数公式如下:

式中,LS代表类别损失,β表示权重,是预测的类别,Y*是真实的类别;

几何形状损失函数公式如下:

式中,LAABB代表几何形状损失,表示预测四边形文本框AABB的几何形状,R*表示真实的四边形文本框AABB的几何形状,IoU表示交并比;

角度损失函数公式如下:

式中,Lθ θ*)是角度损失,是对旋转角的预测值,θ*是旋转角的实际值;

装载训练参数训练改进EAST网络,训练参数的设置如下:设置训练优化器为Adam、初始学习率为0.001、最大训练周期为500以及批次大小为8;并设置验证集间隔检测训练精确度,训练完成标志为达到最大训练周期或均交并比满足要求,训练完成达到最优后保存网络;

将测试集输入最优的改进EAST网络得到文本位置,并裁剪为字符图像。

进一步,在步骤3)中,所述CRNN网络的具体情况如下:

a、构建特征提取网络,其结构如下:

第一层为组合卷积模块3-A,它由一个零填充层、一个卷积层和一个激活层组成;

第二层为最大池化层;

第三层为组合卷积模块3-A,它由一个零填充层、一个卷积层和一个激活层组成;

第四层为最大池化层;

第五层为组合卷积模块3-B,它由一个零填充层、一个卷积层、一个批归一化层和一个激活层组成;

第六层为组合卷积模块3-A,它由一个零填充层、一个卷积层和一个激活层组成;

第七层为最大池化层;

第八层为组合卷积模块3-B,它由一个零填充层、一个卷积层、一个批归一化层和一个激活层组成;

第九层为组合卷积模块3-A,它由一个零填充层、一个卷积层和一个激活层组成;

第十层为最大池化层;

第十一层为组合卷积模块3-C,它由一个零填充层、一个卷积层、一个批归一化层和一个激活层组成;

b、构建预测网络,其结构如下:

第一层为循环卷积模块,它由一个双向LSTM组成;

第二层为全连接层;

第三层为循环卷积模块,它由一个双向LSTM组成;

第四层为全连接层;

c、设置解码器,将输出的序列转化为字符信息;

d、设置损失函数为CTC(Connectionist Temporal Classification)损失函数;

CTC损失函数公式如下:

LCTC=-ln∏(x,z)p(z|x)=-∑(x,z)∈Slnp(z|x)

式中,LCTC代表CTC损失,p(z|x)代表给定输入x输出序列z的概率,S为训练集;

装载训练参数训练CRNN网络,训练参数的设置如下:设置训练优化器为Adam、初始学习率为0.0001、最大训练周期为100以及批次大小为32;并设置验证集间隔检测训练精确度,训练完成标志为达到最大训练周期或识别准确率满足要求,训练完成达到最优后保存网络;

将测试集输入最优的CRNN网络得到字符信息。

进一步,在步骤4)中,所述TextCNN网络的具体情况如下:

a、构建网络结构,如下:

第一层为嵌入层;

第二层为卷积模块;

第三层为最大池化层;

第四层由全连接层、Dropout层和激活层组成;

第五层由全连接层和激活层组成;

b、设置损失函数为多分类交叉熵,公式如下:

式中,LCrossEntropy代表损失,n代表类别数,yi代表对应i类别的真实概率,代表对应i类别的预测概率;

装载训练参数训练TextCNN网络,训练参数的设置如下:设置训练优化器adam、初始学习率为0.001、迭代次数1000、批次大小64;并设置验证集间隔检测训练精确度,训练完成标志为达到最大迭代次数以及精确度满足要求,训练完成达到最优后保存网络;

将测试集输入最优的TextCNN网络得到对应的仪表类型。

本发明与现有技术相比,具有如下优点与有益效果:

1、本发明使用神经网络实现仪表定位及仪表上的字符检测识别,其与传统图像处理方法相比具有更高的精度以及在不同背景下有更好的泛化能力。

2、本发明使用改进YOLO网络可预测不同尺寸的目标,并综合选择最适合尺寸的预测框,对于不同尺寸的仪表均能进行准确检测,不存在采集角度与距离的局限。

3、本发明的改进EAST网络相比于其它的目标检测网络对字符有着更好的检测性能、更快的检测速度,对于不同角度拍摄的字符都能有较好的检测效果。

4、本发明利用仪表上的字符信息拼接成文本,能够解决在机器视觉领域中能识别出仪表位置但难以区分仪表类型的问题,做到了不仅能检测出仪表并能识别出仪表的类型。

附图说明

图1为本发明方法的流程图。

图2为改进YOLO网络的模块示意图。

图3为改进EAST网络的模块示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

如图1所示,本实施例所提供的图像文本的仪表检测分类方法,包括以下步骤:

1)收集不同实际场景下拍摄到的仪表图像,将其中存在模糊、角度极端及仪表缺失的影响识别的干扰数据剔除,并使用开源标注工具labelImg对其余数据中的表盘位置进行标注,构建仪表定位数据集,并将仪表定位数据集分为训练集和测试集,再装载参数使用训练集训练改进YOLO网络,训练完毕后得到最优的改进YOLO网络,将测试集输入最优的改进YOLO网络,输出表盘图像并将表盘图像裁剪出来;其中,改进YOLO网络是将骨干网络优化为mobilenet轻量化网络以减少网络参数和计算量,提高运算速度。

根据具体应用场景和识别对象的特点,设计改进YOLO网络,本步骤中激活层若未额外声明,均为Leaky Relu激活函数,包括以下步骤:

a、构建特征提取网络

根据实时性和高精度要求构建特征提取网络。特征提取网络主要由多个组合卷积模块组成。

特征提取网络其结构如下:

输入图像为416×416×3。

第一层为组合卷积模块1-A,如图2中(a)所示。模块首先经过零填充层,输出为418×418×3。再经过卷积层、批归一化层和激活层,卷积核为(3,3),步长为2,滤波器数量为32,输出为208×208×32。

第二层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为208×208×32。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为64,使用填充使得输入输出大小一致,输出为208×208×64。

第三层为组合卷积模块1-C,如图2中(c)所示。模块首先经过零填充层,输出为210×210×64。再经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为2,输出为104×104×64。最后经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为128,使用填充使得输入输出大小一致,输出为104×104×128。

第四层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为104×104×128。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为128,使用填充使得输入输出大小一致,输出为104×104×128。

第五层为组合卷积模块1-C,如图2中(c)所示。模块首先经过零填充层,输出为106×106×128。再经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为2,输出为52×52×128。最后经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为52×52×256。

第六层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为52×52×256。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为52×52×256。

第七层为组合卷积模块1-C,如图2中(c)所示。模块首先经过零填充层,输出为54×54×256。再经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为2,输出为26×26×256。最后经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为26×26×512。

第八层为组合卷积模块1-D,如图2中(d)所示。模块依次经过五个组合卷积模块1-B,如图2中(b)所示。其中在每个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为26×26×512。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为26×26×512。依次经过相同的组合卷积模块1-B后,输出为26×26×512。

第九层为组合卷积模块1-C,如图2中(c)所示。模块首先经过零填充层,输出为28×28×512。再经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为2,输出为13×13×512。最后经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为1024,使用填充使得输入输出大小一致,输出为13×13×1024。

第十层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为13×13×1024。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为1024,使用填充使得输入输出大小一致,输出为13×13×1024。

b、构建预测网络

根据特征提取网络不同层的输出构建输出预测不同尺寸目标的预测网络,有大尺寸目标预测网络、中等尺寸目标预测网络和小尺寸目标预测网络。

b1、大尺寸目标预测网络

输入为特征提取网络第十层输出,大尺寸目标预测网络主要由多种组合卷积模块和卷积层组成。

输入图像为13×13×1024。

大尺寸目标预测网络其结构如下:

第一层为组合卷积模块1-D,如图2中(d)所示。模块依次经过五个组合卷积模块1-B,如图2中(b)所示。在第一个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(1,1),步长为1,使用填充使得输入输出大小一致,输出为13×13×1024。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为13×13×512。在第二个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为13×13×512。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为1024,使用填充使得输入输出大小一致,输出为13×13×1024。之后交替输入两种不同参数的组合卷积模块1-B后,输出为13×13×512。

第二层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为13×13×512。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为1024,使用填充使得输入输出大小一致,输出为13×13×1024。

第三层为一个卷积层。卷积核为(1,1),步长为1,滤波器数量为256,输出为13×13×256。

b2、中等尺寸目标预测网络

输入为特征提取网络第八层输出和大尺寸目标预测网络第一层输出,中等尺寸目标预测网络主要由多种组合卷积模块和卷积层组成。

输入图像为26×26×512和13×13×512。

中等尺寸目标预测网络结构为:

第一层为输入融合模块,如图2中(e)所示。输入13×13×512首先经过组合卷积模块1-B,在其中首先经过深度卷积、批归一化层和激活层,卷积核为(1,1),步长为1,使用填充使得输入输出大小一致,输出为13×13×512。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为13×13×512。再经过上采样层,采样因子为2,输出为26×26×512。最后该输出和输入26×26×512经过张量拼接层,输出为26×26×1024。

第二层为组合卷积模块1-D,如图2中(d)所示。模块依次经过五个组合卷积模块1-B,如图2中(b)所示。在第一个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(1,1),步长为1,使用填充使得输入输出大小一致,输出为26×26×1024。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为26×26×256。在第二个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为26×26×256。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为26×26×512。之后交替输入两种不同参数的组合卷积模块1-B后,输出为26×26×256。

第三层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为26×26×256。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为512,使用填充使得输入输出大小一致,输出为26×26×512。

第四层为一个卷积层。卷积核为(1,1),步长为1,滤波器数量为256,输出为26×26×256。

b3、小尺寸目标预测网络

输入为特征提取网络第六层输出和中等尺寸目标预测网络第二层输出,小尺寸目标预测网络主要由多种组合卷积模块和卷积层组成。

输入图像为52×52×256和26×26×256。

小尺寸目标预测网络结构为:

第一层为输入融合模块,如图2中(e)所示。输入26×26×256首先经过组合卷积模块1-B,在其中首先经过深度卷积、批归一化层和激活层,卷积核为(1,1),步长为1,使用填充使得输入输出大小一致,输出为26×26×256。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为26×26×256。再经过上采样层,采样因子为2,输出为52×52×256。最后该输出和输入52×52×256经过张量拼接层,输出为52×52×512。

第二层为组合卷积模块1-D,如图2中(d)所示。模块依次经过五个组合卷积模块1-B,如图2中(b)所示。在第一个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(1,1),步长为1,使用填充使得输入输出大小一致,输出为52×52×512。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为128,使用填充使得输入输出大小一致,输出为52×52×128。在第二个组合卷积模块1-B中,输入首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为52×52×128。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为52×52×256。之后交替输入两种不同参数的组合卷积模块1-B后,输出为52×52×128。

第三层为组合卷积模块1-B,如图2中(b)所示。模块首先经过深度卷积、批归一化层和激活层,卷积核为(3,3),步长为1,使用填充使得输入输出大小一致,输出为52×52×128。再经过卷积、批归一化层和激活层,卷积核为(1,1),步长为1,滤波器数量为256,使用填充使得输入输出大小一致,输出为52×52×256。

第四层为一个卷积层。卷积核为(1,1),步长为1,滤波器数量为256,输出为52×52×256。

最后将大尺寸目标预测网络的输出13×13×256、中等尺寸目标预测网络的输出26×26×256和小尺寸目标预测网络的输出52×52×256通过非极大值抑制层得到预测目标位置和类别。

c、设置损失函数

设置损失函数为中心坐标损失函数、宽高损失函数、置信度损失与类别损失函数的求和均值。损失函数公式如下:

Loss=(Lossxy+Losswh+Lossconfidence+Losscls)/numf

其中Loss代表总损失,Lossxy代表中心坐标损失,Losswh代表宽高损失,Lossconfidence代表置信度损失,Losscls代表类别损失,numf代表输入总数的浮点数。各个损失函数公式如下:

Lossxy=markobject*(2-w*h)*Losslog(xytrue,xypredict)

Losswh=0.5*markobject*(2-w*h)*(whtrue-whpredict)2

Lossconfidence=markobject*Losslog(markobject,cpredict)+(1-markobject)*Losslog(markobject,cpredict)*markignore

Losscls=markobject*Losslog(clstrue,clspredict)

其中markobject代表锚点框否存在物体的标志位,w代表锚点框的宽,h代表锚点框的高,Losslog代表二值交叉熵损失,xytrue代表真实中心坐标值,xypredict代表预测中心坐标值,whtrue代表真实宽高值,whpredict代表预测宽高值,cpredict代表预测框的置信度值,markignore代表IOU小于阈值的锚点框的标志位,clstrue代表真实类别,clspredict代表预测类别。

训练改进YOLO网络,包括以下步骤:

d1、设置训练参数

设置训练优化器为Adam、初始学习率为0.001、迭代次数为500、批次大小为8以及对所有标签进行K means聚类生成初始先验框为(38,29)、(65,52)、(94,87)、(142,134)、(195,69)、(216,206)、(337,320)、(397,145)、(638,569)。

d2、在线数据增强

对输入图像进行数据增强,扩充数据集,数据增强的方法如下:随机镜像翻转、随机添加噪声、随机调整对比度。

d3、设置训练完成标志

设置验证集间隔检测训练精确度,训练完成标志为达到最大迭代次数500以及精确度满足要求,训练完成达到最优后保存网络。

将测试集输入最优的改进YOLO网络得到表盘位置和表盘图像。

2)对步骤1)裁剪出来的表盘图像中字符位置进行标注构建字符检测数据集,并将字符检测数据集分为训练集和测试集,再装载训练参数使用训练集训练改进EAST网络,训练完毕后得到最优的改进EAST网络,将测试集输入最优的改进EAST网络,输出字符检测数据集中的字符位置并裁剪为字符图像;其中,改进EAST网络是将骨干网络换为VGG以提高网络检测准确性,其输出层结构修改预测模块只用头部元素预测顶点,以提高对长字符的预测性能。

根据具体应用场景和识别对象的特点,设计改进EAST网络,以下激活层若未额外声明,均为Relu激活函数。包括以下步骤:

a、构建特征提取网络

特征提取网络其结构如下:

输入图像为256×256×3。

第一层为组合卷积模块2-B,如图3中(b)所示,由两个组合卷积模块2-A和一个最大池化层组成。第一个组合卷积模块2-A首先经过零填充层,输出为258×258×3,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为64,输出为256×256×64。第二个卷积模块2-A,首先经过零填充层,输出为258×258×64,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为64,输出为256×256×64。再经过一个最大池化层,池化核大小为(2,2)步长为2,输出为128×128×64。

第二层为组合卷积模块2-B,由两个组合卷积模块2-A和一个最大池化层组成。第一个组合卷积模块2-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为128。第二个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为128。再经过一个最大池化层,池化核大小为(2,2)步长为2,输出为64×64×128。

第三层为组合卷积模块2-C,如图3中(c)所示,由三个组合卷积模块2-A和一个最大池化层组成。第一个组合卷积模块2-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为256。第二个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为256。第三个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为256。再经过一个最大池化层,池化核大小为(2,2)步长为2,输出为32×32×256。

第四层为组合卷积模块2-C,由三个组合卷积模块2-A和一个最大池化层组成。第一个组合卷积模块2-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。第二个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。第三个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。再经过一个最大池化层,池化核大小为(2,2)步长为2,输出为16×16×512。

第五层为组合卷积模块2-C,由三个组合卷积模块2-A和一个最大池化层组成。第一个组合卷积模块2-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。第二个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。第三个卷积模块2-A,首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为512。再经过一个最大池化层,池化核大小为(2,2),步长为2,输出为8×8×512。

b、构建特征融合网络

第一层为输入融合模块2-G,如图3中(g)所示。特征提取网络最后一层输出8×8×512首先经过上采样层,采样因子为2,输出为16×16×512。该输出和特征提取网络第四层输出16×16×512经过张量拼接层,输出为16×16×1024。

第二层为组合卷积模块2-E,如图3中(e)所示,由两个批归一化层、一个组合卷积模块2-D和一个组合卷积模块2-A组成。组合卷积模块2-D由一个零填充层、一个卷积层和一个激活层组成。首先经过一个批归一化层,再经过组合卷积模块2-D。组合卷积模块2-D首先经过零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为128,输出为16×16×128。再经过一个批归一化层,再经过组合卷积模块2-A。组合卷积模块2-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为64,输出为16×16×64。

第三层为输入融合模块2-G。特征融合网络第二层输出16×16×64首先经过上采样层,采样因子为2,输出为32×32×64。该输出和特征提取网络第三层输出32×32×256经过张量拼接层,输出为32×32×320。

第四层为组合卷积模块2-E。首先经过一个批归一化层,再经过组合卷积模块2-D。组合卷积模块2-D首先经过零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为128,输出为32×32×128。再经过一个批归一化层,再经过一个组合卷积模块1-A。组合卷积模块1-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为64,输出为32×32×64。

第五层为输入融合模块1-G。特征融合网络第二层输出32×32×64首先经过上采样层,采样因子为2,输出为64×64×64。该输出和特征提取网络第二层输出64×64×128经过张量拼接层,输出为64×64×192。

第六层为组合卷积模块1-F,如图3中(f)所示,由三个批归一化层、一个组合卷积模块1-D和两个组合卷积模块1-A组成。首先经过一个批归一化层,再经过组合卷积模块1-D。组合卷积模块1-D首先经过零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为32,输出为64×64×32。再经过一个批归一化层,再经过一个组合卷积模块1-A。组合卷积模块1-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为32,输出为64×64×32。再经过一个批归一化层,再经过一个组合卷积模块1-A。组合卷积模块1-A首先经过零填充层,再经过卷积层和激活层,卷积核为(3,3),步长为1,滤波器数量为32,输出为64×64×32。

c、构建预测网络

第一层有三个分支,第一个分支由一个组合卷积模块1-D组成,首先经过一个零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为1,输出为64×64×1。第二个分支由一个组合卷积模块1-D组成,首先经过一个零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为2,输出为64×64×2。第三个分支由一个组合卷积模块1-D组成,首先经过一个零填充层,再经过卷积层和激活层,卷积核为(1,1),步长为1,滤波器数量为4,输出为64×64×4。

第二层为输入融合模块,它由预测网络第一层三个分支拼接组成,输出为64×64×7。

d、设置损失函数

设置损失函数为类别损失、几何形状损失和角度损失的求和。

类别损失函数公式如下:

其中LS代表类别损失,β表示权重,是预测的类别,Y*是真实的类别。

几何形状损失函数公式如下:

其中其中LAABB代表几何形状损失函数,表示预测AABB的几何形状,R*表示真实的AABB的几何形状,IoU表示交并比。

角度损失函数公式如下:

其中Lθ θ*)是角度损失函数,是对旋转角的预测,θ*是旋转角的真实情况。

训练改进EAST网络,包括以下步骤:

e1、设置训练参数

设置训练优化器、初始学习率、迭代次数、批次大小及初始先验框。

e2、在线数据增强

对输入图像进行数据增强,扩充数据集,数据增强主要方法如下:随机添加噪声、随机调整对比度。

e3、设置训练完成标志

设置验证集间隔检测训练精确度,训练完成标志为达到最大迭代次数以及精确度满足要求,训练完成达到最优后保存网络。

将测试集输入最优的改进EAST网络得到字符图像。

3)对步骤2)裁剪好的字符图像中字符信息进行标注构建字符识别数据集,并将字符识别数据集分为训练集和测试集,再装载训练参数使用训练集训练CRNN网络,训练完毕后得到最优的CRNN网络,将测试集输入最优的CRNN网络,输出字符信息。

构建CRNN网络,包括以下步骤:

a、构建特征提取网络

输入图像为w×32×1,其中w为输入图像的宽,根据输入图片大小自适应变化。

第一层为组合卷积模块3-A,首先经过一个零填充层,再经过一个卷积层和一个激活层,卷积核为(3,3),步长为1,滤波器为64,输出为w×32×64。

第二层为最大池化层,池化核大小为(2,2),步长为2,输出为

第三层为组合卷积模块3-A,首先经过一个零填充层,再经过一个卷积层和一个激活层,卷积核为(3,3),步长为1,滤波器为128,输出为

第四层为最大池化层,池化核大小为(2,2),步长为2,输出为

第五层为组合卷积模块3-B,首先经过一个零填充层,再经过一个卷积层、一个批归一化层和一个激活层,卷积核为(3,3),步长为1,滤波器为256,输出为

第六层为组合卷积模块3-A,首先经过一个零填充层,再经过一个卷积层和一个激活层,卷积核为(3,3),步长为1,滤波器为256,输出为

第七层为最大池化层,池化核大小为(2,2),步长为2,输出为

第八层为组合卷积模块3-B,首先经过一个零填充层,再经过一个卷积层、一个批归一化层和一个激活层,卷积核为(3,3),步长为1,滤波器为512,输出为

第九层为组合卷积模块3-A,首先经过一个零填充层,再经过一个卷积层和一个激活层,卷积核为(3,3),步长为1,滤波器为512,输出为

第十层为最大池化层,池化核大小为(2,2),步长为2,输出为

第十一层为组合卷积模块3-C,经过一个卷积层、一个批归一化层和一个激活层,卷积核为(2,2),步长为1,滤波器为512,输出为

b、构建预测网络

第一层为循环卷积模块,它由一个双向LSTM组成,输出为

第二层为全连接层,输出为

第三层为循环卷积模块,它由一个双向LSTM组成,输出为

第四层为全连接层,输出为

c、设置解码器

将预测网络的输出转化为的序列,每个元素的范围从0-6735,分别对应一个独立字符(其中0对应的为空字符),相当于把一行文字分成个字符预测块。再对序列按从左到右的顺序进行处理,当元素不为0且与上一个元素相同时,根据字符库对应的元素值,输出字符信息。

d、设置损失函数

设置损失函数为CTC(Connectionist Temporal Classification)损失函数。

CTC损失函数公式如下:

LCTC=-lnΠ(x,z)p(z|x)=-∑(x,z)∈S lnp(z|x)

其中LCTC代表CTC损失函数,p(z|x)代表给定输入x输出序列z的概率,S为训练集。

训练CRNN网络,包括以下步骤:

e1、设置训练参数

设置训练优化器、初始学习率、迭代次数、批次大小。

e2、设置训练完成标志

设置验证集间隔检测训练精确度,训练完成标志为达到最大迭代次数以及精确度满足要求,训练完成达到最优后保存网络。

将测试集输入最优的CRNN网络得到字符信息。

4)将步骤3)输出的字符信息拼接为文本,再将文本对应的仪表类型进行标注构建文本分类数据集,将文本分类数据集分为训练集和测试集,再装载训练参数使用训练集训练TextCNN网络,训练完毕后得到最优的TextCNN网络,将测试集输入最优的TextCNN网络输出文本对应的仪表类型。

构建TextCNN网络,包括以下步骤:

a、构建网络结构:

第一层为嵌入层,输入文本长度m,词向量化为600×64,即为输入张量;

第二层为卷积模块,卷积核为(5,5),步长为1,滤波器数量为256,输出为596×256;

第三层为最大池化层,输出为1×256;

第四层由全连接层、Dropout层和激活层组成,输出为1×128;

第五层由全连接层和激活层组成,输出为1×cls,cls为类别数;

b、设置损失函数

设置损失函数为多分类交叉熵

其中LCrossEntropy代表损失,n代表类别数,yi代表对应i类别的真实概率,代表对应i类别的预测概率。

训练TextCNN网络,包含以下步骤:

c1、设置训练参数

设置训练优化器、初始学习率为、迭代次数、批次大小。

c2、设置训练完成标志

设置验证集间隔检测训练精确度,训练完成标志为达到最大迭代次数以及精确度满足要求,训练完成达到最优后保存网络。

将测试集输入最优的TextCNN网络输出文本对应的仪表类型。

综上所述,在采用以上方案后,本发明为仪表图像的检测分类提供了新的方法,将神经网络作为仪表检测分类的有效方法,能够有效解决难以读取仪表类型的问题,有效推动自动化仪表识别技术的发展,具有实际推广价值,值得推广。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种结合特征点和锚框共同预测和回归的目标检测算法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!