一种基于深度学习的船名字符区域检测方法

文档序号:1505622 发布日期:2020-02-07 浏览:8次 >En<

阅读说明:本技术 一种基于深度学习的船名字符区域检测方法 (Ship name character region detection method based on deep learning ) 是由 张三元 吴书楷 祁忠琪 涂凯 于 2019-10-08 设计创作,主要内容包括:本发明公开了一种基于深度学习的船名字符区域检测方法。通过摄像机采集大运河过往货船的高清图片,预处理后对图片中船名字符区域进行标注,构建船名字符区域检测数据集;搭建基于特征融合策略的深度学习检测网络,将数据集送入网络进行训练;利用训练好的检测网络对原图中的目标区域进行计算,根据置信度阈值和非极大值抑制算法对检测结果进行筛选获得最终的检测框,并绘制在图片上。本发明能够快速、准确地对自然场景中的货船船名字符区域进行检测,相比于传统检测方法采用阈值分割、边缘检测等技术,其不容易受光线、雨水等复杂环境的影响,在智能交通领域具有较好的应用前景。(The invention discloses a ship name character region detection method based on deep learning. Acquiring a high-definition picture of a cargo ship passing by a large canal through a camera, preprocessing the picture, labeling a ship name character region in the picture, and constructing a ship name character region detection data set; building a deep learning detection network based on a feature fusion strategy, and sending a data set into the network for training; and calculating a target area in the original image by using the trained detection network, screening a detection result according to a confidence threshold and a non-maximum suppression algorithm to obtain a final detection frame, and drawing the final detection frame on a picture. The method can quickly and accurately detect the name character area of the cargo ship in the natural scene, is not easily influenced by complex environments such as light rays and rainwater compared with the traditional detection method adopting the technologies such as threshold segmentation and edge detection, and has a better application prospect in the field of intelligent transportation.)

一种基于深度学习的船名字符区域检测方法

技术领域

本发明涉及船名字符区域的检测方法,具体涉及一种基于深度学习的船名字符区域检测方法。

背景技术

水路运输作为一种高效、快捷的运输方式,对经济的发展起到了一定的助推作用。为了方便对运河进行管理,往往需要了解过往船只的身份信息,因此船名的自动识别技术具有重大意义。当前船名识别技术包括船名字符区域的定位和船名识别两个主要步骤,快速、准确地定位出船名字符区域作为第一步至关重要,因为检测质量的高低将影响后续的识别过程。

传统的检测方法选择采用二值化、边缘检测等技术对目标区域进行计算,这种方法很容易受到外界自然环境的影响,检测的准确度偏低,效果不理想。

发明内容

为了解决背景技术中的问题,本发明提出了一种基于深度学习的船名字符区域检测方法。该方法通过深度神经网络对船名字符区域的位置进行计算,实现了高效、准确、快速的定位功能,且鲁棒性和抗干扰能力强,易于移植。

本发明采用技术方案如下:

本发明包括以下步骤:

步骤1)采集经过运河的货船图片作为样本图片,然后对样本图片进行预处理,所有样本图片及其标注信息作为数据集;

步骤2)构建船名字符区域检测网络,使用步骤1)的数据集训练船名字符区域检测网络,得到训练后的船名字符区域检测网络;

步骤3)对待测货船图片进行预处理后输入步骤2)训练后的船名字符区域检测网络,获得包含置信度得分的目标框;

步骤4)根据置信度阈值筛选出高得分的目标框,然后通过非极大值抑制算法剔除位置重合度高的目标框,最终保留的目标框作为最终检测结果。

所述步骤1)和步骤4)中的预处理为将图片缩放至500×500的固定尺寸。

所述步骤1)具体为:对样本图片进行预处理后使用标注软件对船名字符区域的位置进行矩形框框定标注,并赋予船名字符区域标签序号1,赋予船名字符区域以外的背景区域标签序号0;所有样本图片及其标注信息作为数据集,标注信息包括标签序号和矩形框的位置信息,矩形框的位置信息为矩形框左上角的坐标值以及矩形框的宽度值和长度值。

所述步骤2)具体为:

2.1)构建包括输入层、特征提取模块、特征融合模块、预测模块和输出层的船名字符区域检测网络;

特征提取模块包括基础网络模块和三个卷积模块,输入层依次经基础网络模块、第一个卷积模块、第二个卷积模块连接到第三个卷积模块,基础网络模块为去除全连接层后的VGG16网络,每个卷积模块均包括两个依次连接的卷积层;

特征融合模块包括四个依次连接的子单元,每个子单元包括依次连接的一个反卷积层、一个Eltwise层和一个卷积层,卷积层作为每个子单元的输出;第二个子单元、第三个子单元和第四个子单元中反卷积层的输入分别为上一个子单元的输出,第一个子单元中反卷积层的输入为第三个卷积模块中第二个卷积层的输出;基础网络模块中的卷积层和池化层分别输入第四个子单元和第三个子单元中的Eltwise层,第一个卷积模块和第二个卷积模块中的第二个卷积层分别输入第二个子单元和第一个子单元中的Eltwise层;

预测模块包括五个预测单元,每个预测单元的输出均连接至输出层,第二个、第三个、第四个和第五个预测单元的输入分别为第一个、第二个、第三个和第四个子单元中卷积层的输出;

2.2)将步骤1)的数据集送入船名字符区域检测网络,采用随机梯度下降法训练神经网络,直到网络的误差达到最小值;其中,前20K次迭代学习率设置为1×10-4,后10K次迭代学习率衰减为1×10-5

检测网络采用多任务损失函数,损失函数为类别损失和位置损失之和;其中,类别损失采用交叉熵代价函数,位置损失使用smooth L1损失函数。

船名字符区域检测网络中高层次的特征图经过子单元中反卷积层的反卷积操作后与网络中低层次的特征图大小一致,即输入子单元中反卷积层的特征图经反卷积操作后与输入当前子单元Eltwise层的特征图大小一致;

所述子单元的Eltwise层用于将输入的两个特征图中相同位置的像素值相加以实现特征的增强。

特征图经过预测单元生成多个以特征图中每个像素点为中心的默认包围框,所述默认包围框为一系列面积相同纵横比不同的矩形框,矩形框的纵横比分别为1、1/2、1/3、1/5、1/7和1/10;

对于每个矩形框,预测单元采用两个1×5大小卷积核的卷积层分别进行类别得分和位置偏移的计算,所述类别得分为矩形框内船名字符区域的置信度得分,所述位置偏移为船名字符区域位置的计算,计算结果包括矩形框左上角的坐标值以及矩形框的宽度值和长度值。

所述的步骤4)中,每张图片输入船名字符区域检测网络后输出大量重复的矩形框,首先根据预设的置信度阈值选出高得分的矩形框,然后利用非极大值抑制算法剔除冗余的矩形框,保留船名字符区域邻域里置信度得分最高的矩形框,最终保留的矩形框作为最终检测结果。

本发明的有益效果是:

1)本发明的船名字符区域检测功能完全通过神经网络算法实现,相比传统的方法,该方法很好地学习到了字符区域的细节特征,大大提升了检测的精度和稳定性。

2)本发明对于一张500×500分辨率的图片检测时间只需要约210ms,速度快,具有时效性。

3)本发明应用范围较为广泛,迁移后可应用于车牌区域检测等领域,具有较好的应用前景。

4)本发明能够快速、有效地对船名字符区域进行自动检测,且具备一定的检测精度和速度,相比于传统检测方法采用阈值分割、边缘检测等技术,其不容易受光线、雨水等复杂环境的影响,在智能交通领域具有较好的应用前景。

附图说明

图1是本发明的流程图。

图2是本发明的船名字符区域检测网络的结构图。

图3是本发明所要检测的原图,(a)(b)(c)(d)分别为四张不同的样本图片。

图4是本发明的检测结果图,(a)(b)(c)(d)分别为图3四张不同的样本图片对应的检测结果。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

如图1所示,本发明的实施过程如下:

步骤一:通过安装在运河两岸的高清摄像头采集过往货船图片作为样本图片,对样本图片进行预处理,构建船名位置数据集,具体的过程为:

将获取的原图片缩放到500×500的固定尺寸。使用标注软件对船名字符区域进行矩形框框定标注,赋予标签序号1,对于背景区域不需要框定,赋予标签序号0。其中,框定的位置信息为矩形框左上角坐标的x、y值(以图片左上角为原点建立坐标系),以及矩形框的宽度值和长度值。所有图片及即标注信息构成船名字符区域检测数据集,标注信息包括标签序号和矩形框的位置信息。数据集根据4:1的比例划分为训练集和验证集,用于检测网络的训练。

步骤二:搭建如图2所示的船名字符区域检测网络,将步骤一中构建的数据集送入网络进行训练,具体过程为:

2.1)构建深度学习检测网络,该网络主要分为三个模块:特征提取模块、特征融合模块和预测模块。

特征提取模块由基础网络模块和若干卷积模块组成。数据输入特征提取模块后首先会通过基础网络模块进行特征提取,其中基础网络模块是去除了全连接层的VGG16网络。在基础网络模块后添加了三个连续的卷积模块,每个卷积模块中有两个卷积层。第一个卷积模块的第一个卷积层(Conv6_1)包含了256个1×1大小的卷积核,步长为1,填充大小为0,第二个卷积层(Conv6_2)包含了512个3×3大小的卷积核,步长为2,填充大小为1。第二个卷积模块的第一个卷积层(Conv7_1)包含了128个1×1大小的卷积核,步长为1,填充大小为0,第二个卷积层(Conv7_2)使用了256个3×3大小的卷积核,步长为2,填充大小为1。第三个卷积模块的第一个卷积层(Conv8_1)包含了128个1×1大小的卷积核,步长为1,填充大小为0,第二个卷积层(Conv8_2)包含了256个3×3大小的卷积核,步长为2,填充大小为1。以上所有卷积层的结果都会通过ReLU函数激活。

特征融合模块分为四个子单元,每个子单元包括依次连接的一个反卷积层(Deconv)、一个Eltwise层和一个卷积层(Conv_Eltwise),卷积层作为每个子单元的输出;在每个子单元内部依次执行反卷积、对应位置像素值相加和卷积操作。具体流程为首先对Conv8_2进行反卷积,使其与Conv7_2大小一致,然后将Conv8_2与Conv7_2进行对应位置的元素值相加,随后再通过一个使用了256个3×3大小的卷积核,步长为1,填充大小为1,激活函数为ReLU的卷积层(Conv_Eltwise_1)处理。至此,形成了第一个子单元。接下来,再将第一个子单元的卷积层(Conv_Eltwise_1)的结果送入下一个子单元处理,形成第二个子模块。依次类推,可形成四个子单元。将第一个子单元的卷积层(Conv_Eltwise_1)、第二个子单元的卷积层(Conv_Eltwise_2)、第三个子单元的卷积层(Conv_Eltwise_3)、第四个子单元的卷积层(Conv_Eltwise_4)和Conv8_2层的结果送入预测模块进行处理。

预测模块包括五个预测单元,每个预测单元在特征图上以每个像素点为中心生成特定数量的默认包围框,包围框的纵横比分别为1、1/2、1/3、1/5、1/7和1/10。对于每个包围框,预测单元采用两个1×5大小卷积核的卷积层分别进行类别得分和位置偏移的计算。其中,位置偏移有四个值,依次代表包围框左上角坐标点的x、y值(以图片左上角为原点建立坐标系)以及包围框的宽度值和长度值。

检测网络采用多任务损失函数,损失函数为类别损失和位置损失之和。其中,类别损失采用交叉熵代价函数,位置损失使用smooth L1损失函数。

2.2)将步骤1)构建的数据集送入深度学习检测网络,采用随机梯度下降法训练神经网络,直到网络的误差达到最小值。其中,前20K次迭代学习率设置为1×10-4,后10K次迭代学习率衰减为1×10-5

步骤三:首先根据预设的置信度阈值选出高得分的检测框,然后利用非极大值抑制算法对检测结果中位置重合度高的框进行剔除,保留下来的框即为最终的检测结果。最终,将检测结果绘制在原图上。

具体实施例:

本发明采用图3所示的摄像机拍摄到的原始图片,原始图片经过预处理后送入船名字符区域检测网络进行计算,根据预设的阈值和非极大值抑制算法自动对检测结果进行筛选,并将目标框绘制在原图上,最终检测结果如图4所示。如果不存在目标框,则对原图不做任何处理。

本发明可在复杂的自然场景下实现较为精确的船名字符区域检测功能,生成高质量的目标框,有利于后续船名字符识别过程的进行,并且具备一定的时效性,便于工作人员及时了解过往船只的身份信息,具有较大的应用前景。

上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于卷积神经网络的片段和链接的场景文字的检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!