一种基于多尺度特征金字塔的场景文本检测方法及系统

文档序号:1862004 发布日期:2021-11-19 浏览:6次 >En<

阅读说明:本技术 一种基于多尺度特征金字塔的场景文本检测方法及系统 (Scene text detection method and system based on multi-scale feature pyramid ) 是由 万洪林 王嘉鑫 赵莹莹 王晓敏 于 2021-07-13 设计创作,主要内容包括:本公开提供了一种基于多尺度特征金字塔的场景文本检测方法及系统,包括:对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;用测试集验证模型的有效性;本公开用特征金字塔网络作为骨干网,在骨干网中加入用空洞卷积调节感受野的多尺度模块,以此来提高检测大小差异较大文本的精确度。(The invention provides a scene text detection method and a scene text detection system based on a multi-scale feature pyramid, wherein the method comprises the following steps: marking scene texts of the images; acquiring a data set with a calibrated text position, and dividing the data set into a training set and a test set; performing feature extraction on the training set from top to bottom by adopting a feature pyramid network, and simultaneously performing feature extraction on the training set at a C2 layer of the feature pyramid network in different scales; fusing output features extracted from top to bottom with output features extracted from features of different scales at a C2 layer by using a feature fusion network to obtain a fused feature map; fusing and mapping the fused feature graph and features of branch outputs of other layers of the feature pyramid network to obtain a training model; verifying the validity of the model by using the test set; the method uses the characteristic pyramid network as a backbone network, and adds a multi-scale module for adjusting the receptive field by cavity convolution in the backbone network, so as to improve the accuracy of detecting the text with larger size difference.)

一种基于多尺度特征金字塔的场景文本检测方法及系统

技术领域

本公开属于计算机视觉技术领域,尤其涉及一种基于多尺度特征金字塔的场景文本检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的

背景技术

信息,不必然构成在先技术。

自然场景下的文字检测与识别技术是计算机视觉领域的研究热点,大量的研究人员对该方向进行了长期的探索,自然场景中的文字提取技术研究成果可以应用到智能城市交通系统、盲人视觉辅助系统、无人驾驶技术和工业自动化系统等领域。与传统的光学字符提取技术不同,自然场景中包含了丰富的场景信息,自然场景中的文字面临着字体多变、背景复杂、图像质量低等诸多难点,有效提高场景文字提取的准确率具有重要的实际应用价值。

场景文本是指存在于任意场景下的文本内容,例如道路路牌、广告牌、商场指示牌、商品包装等;其目的是对自然图像中每个文本实例的区域或包围框进行定位;它的发展历程与绝大多数的计算机视觉任务相似;在深度学习方法尚未占据主导地位之前,文本检测主要是以手动提取特征为主;传统的检测方法包括基于连通域的方法和基于滑动窗口的方法。

但是这两种方法存在如下不足:(1)基于连通域的方法大量依赖文本连通区域的检测结果,然而,在自然场景中,由于光照变化、褪色、噪声干扰等因素,图像处理往往十分复杂,很难从中准确地检测出文本连通区域,进而稳定地检测自然场景文本;(2)基于滑动窗口的方法通常是基于单个字符的分类器,将滑动窗口作用于候选框,当场景很复杂时,比如受光照、阴影、遮挡等自然条件影响下,导致字符分类稳定性会变差,进而使检测结果降低;随着深度学习的发展,场景文本检测也进入了一个新阶段,涌现了大量基于深度学习的方法;基于深度学习的方法使用效果更加稳定的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型;其研究方法主要包含:基于回归的方法和基于分割的方法;但是这两种方法在面对大小差异较大的文本时,由于特征图的感受域是固定的,所以检测的精确度较低。

发明内容

本公开为了解决上述问题,提出了一种基于多尺度特征金字塔的场景文本检测方法及系统,本公开用特征金字塔网络作为骨干网,在骨干网中加入用空洞卷积调节感受野的多尺度模块,以此来提高检测大小差异较大文本的精确度。

为了实现上述目的,本发明是通过如下的技术方案来实现:

第一方面,本公开提供了一种基于多尺度特征金字塔的场景文本检测方法,包括:

输入图像,对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;

采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;

采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;

用测试集验证模型的有效性;利用测试后的模型对图像的场景文本进行检测。

进一步的,每个图像都有属于自己的标注txt文件;单个图像中,标注文件每一行代表一个文本目标,前八个数字为矩形文本框四个顶点的坐标信息,最后一列是文本的字符内容。

进一步的,特征提取网络的基础框架为ResNet50网络,初步提取特征的网络为特征金字塔网络,在特征金字塔网络的C2层融合多尺度模块,用于提取不同尺度的特征;所述多尺度模块采用空洞卷积,并引入多尺度信息;该模块在不改变特征图大小的同时控制感受野。

进一步的,所述多尺度模块包括:

一个全局平均池化层,得到image-level特征,然后进行1×1卷积,双线性插值到原始大小;

一个1×1卷积层,以及三个3×3的空洞卷积;

将5个不同尺度的特征在通道维度concat在一起,然后送入1×1的卷积进行融合输出。

进一步的,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合过程为:

特征金字塔网络自上而下的过程采用上采样进行,将C5层的输出P5上采样处理,将上采样结果和C4层输出的特征图融合,融合结果为P4,然后将P4上采样处理与C3层输出的特征图融合,融合结果为P3,以此类推,P3和C2层进行融合,融合结果为P2。

进一步的,将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射过程为:

C2层网络的输出P2与多尺度模块的输出逐点相乘融合,输出结果为M1,最后将M1,P3,P4,P5四个支路相加,实现对不同尺度文本大小的检测。

进一步的,将测试集输入到训练好的模型中,通过标准的自然场景文本检测评估指标;所述评估指标包括准确率、召回率和调和平均值。

第二方面,本公开还提供了一种基于多尺度特征金字塔的场景文本检测系统,包括数据采集模块、特征提取模块、特征融合模块和模型测试模块;

所述数据采集模块,被配置为:输入图像,对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;

所述特征提取模块,被配置为:采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;

所述特征融合模块,被配置为:采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;

所述模型测试模块,被配置为:用测试集验证模型的有效性。

第三方面,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序,用于指纹图谱相似度计算,该程序被处理器执行时实现如第一方面所述的基于多尺度特征金字塔的场景文本检测方法方法。

第四方面,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的基于多尺度特征金字塔的场景文本检测方法方法。

与现有技术相比,本公开的有益效果为:

本公开采用特征金字塔模块,自上而下提取文本特征信息,针对形状、尺度不一的文本进行多样化提取,在底层金字塔上我们增加多尺度模块,以进一步增强文本检测的精度,使自然场景下的文本检测得到更加多样化处理,提高场景文本检测的精度。

附图说明

构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。

图1为本公开实施例1的流程图;

图2为本公开实施例1的stage1、2网络结构;

图3为本公开实施例1的stage3网络结构;

图4为本公开实施例1的stage4网络结构;

图5为本公开实施例1的stage5网络结构;

图6为本公开实施例1的整体网络;

图7为本公开实施例1的多尺度模块。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

实施例1:

如图所示,本实施例提供了一种基于多尺度特征金字塔的场景文本检测方法,具体方案如下:

(1)获取文本位置标定好的数据集,将数据集分为训练集和测试集。

数据集为每个图片提供了单词的边界框的标注,每个图像都有属于自己的标注txt文件,以一个单独的图像为例,标注文件每一行代表一个文本目标,前八个数字为坐标信息(x1,y1,x2,y2,x3,y3,x4和y4)是矩形文本框的四个顶点;最后一列是文本的字符内容,如果字体模糊,则用###代替。

(2)将数据集的训练部分输入到特征提取网络,特征提取网络的基础框架是ResNet50网络,初步提取特征的网络为FPN(特征金字塔网络),并且在FPN网络的C2层融合了多尺度模块,用于提取不同尺度的特征。

FPN由自下而上和自上而下两部分构成;自下而上的就是传统的卷积网络做特征提取,骨干网ResNet50生成的特征,一般按stage划分,分别记作C1、C2、C3、C4、C5,其中的数字与stage的编号相同,代表的是分辨率减半的次数,如C2代表stage2输出的特征图,分辨率为输入图片的1/4,C5代表stage5输出的特征图,分辨率为输入图片的1/32;随着卷积的深入,空间分辨率减少,空间信息丢失,但是高级语义信息被更多地检测到;自上而下的过程采用上采样进行,而横向连接则是将上采样的结果和自下而上生成的相同大小的feature map进行融合。

如图7所示,多尺度模块采用了空洞卷积,主要是为了提高网络的感受野,并引入多尺度信息。该模块可以在不改变特征图大小的同时控制感受野,这有利于提取多尺度信息;其中rate控制着感受野的大小,rate越大感受野越大;多尺度模块主要包含以下几个部分:a.一个全局平均池化层得到image-level特征,然后进行1×1卷积,并双线性插值到原始大小;b.一个1×1卷积层,以及三个3×3的空洞卷积;c.将5个不同尺度的特征在通道维度concat在一起,然后送入1×1的卷积进行融合输出。

(3)将提取完特征的特征图输入到特征融合网络。

特征融合网络首先是FPN的自上而下的的上采样融合输出,同时FPN自下而上部分的C2层网络的输出P2与多尺度模块的输出逐点相乘融合,最后将融合后的特征图与特征金字塔其他支路输出的特征融合映射。

FPN自上而下的过程采用上采样进行,首先将C5的输出P5上采样处理,将上采样结果和C4输出的特征图融合,融合结果为P4,然后将P4上采样处理与C3输出的特征图融合,融合结果为P3,以此类推,P3和C2进行融合,融合结果为P2。

C2层网络的输出P2与多尺度模块的输出逐点相乘融合,提高对大尺度文本的检测精度,输出结果为M1,最后将M1,P3,P4,P5四个支路相加,实现对不同尺度文本大小的检测。

(4)用测试集验证模型的有效性。

将数据集的测试部分输入到训练好的模型中,通过标准的自然场景文本检测评估指标:准确率(P)、召回率(R)和调和平均值(F)来验证模型的有效性,公式如下:

其中TP表示检测正确的文本框数量,B表示模型检测出的文本框数量;G表示ground truth中真实的文本框数量。

实施例2:

本实施例提供了一种基于多尺度特征金字塔的场景文本检测系统,包括数据采集模块、特征提取模块、特征融合模块和模型测试模块;

所述数据采集模块,被配置为:输入图像,对图像的场景文本进行标注;获取文本位置标定好的数据集,将数据集分为训练集和测试集;

所述特征提取模块,被配置为:采用特征金字塔网络,对训练集进行自上而下的特征提取,同时,在特征金字塔网络的C2层对训练集进行不同尺度的特征提取;

所述特征融合模块,被配置为:采用特征融合网络,对自上而下特征提取的输出特征在C2层与不同尺度特征提取的输出特征进行融合,得到融合后的特征图;将融合后的特征图与特征金字塔网络其他层的支路输出的特征融合映射,得到训练模型;

所述模型测试模块,被配置为:用测试集验证模型的有效性。

实施例3:

本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所述的一种基于多尺度特征金字塔的场景文本检测方法。

实施例四:

本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现实施例1所述的一种基于多尺度特征金字塔的场景文本检测方法。

以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:电力专业的设备铭牌识别算法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!