一种基于深度神经网络的文本检测目标提取关系的端到端方法

文档序号:1379196 发布日期:2020-08-14 浏览:2次 >En<

阅读说明:本技术 一种基于深度神经网络的文本检测目标提取关系的端到端方法 (End-to-end method for text detection target extraction relation based on deep neural network ) 是由 丛建亭 侯进 黄贤俊 于 2020-04-28 设计创作,主要内容包括:本发明公开了一种基于深度神经网络的文本检测目标提取关系的端到端方法,属于计算机视觉技术领域。所述方法在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。通过将文字结构化提取做到深度学习网络结构中,实现端到端的提取功能,从而达到节省提取功能的维护成本目的。本发明所述基于深度神经网络的方法,在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。(The invention discloses an end-to-end method for extracting a target extraction relation based on a text detection of a deep neural network, and belongs to the technical field of computer vision. According to the method, a matching relation judgment module of the detection target is added in a second-stage structural flow of the existing two-stage target detection algorithm based on the deep neural network, so that training and prediction of whether the detection target is matched or not are achieved. The character structured extraction is carried out in a deep learning network structure, and an end-to-end extraction function is realized, so that the aim of saving the maintenance cost of the extraction function is fulfilled. The method based on the deep neural network can realize end-to-end training and prediction in text detection, can achieve strong robustness, does not need to use a rule base for relation extraction, and reduces the development and maintenance cost of extracting relation resources.)

一种基于深度神经网络的文本检测目标提取关系的端到端 方法

技术领域

本发明属于计算机视觉技术领域,特别是涉及基于深度神经网络的文本检测目标提取关系的端到端方法。

技术背景

OCR(Optical Character Recognition光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将文字图像翻译成计算机文字的过程。目前,深度学习在图片识别领域取得非常大的进步。相比传统的图片识别方法使用的色彩、HOG等低级视觉特征;深度神经网络能学得更多高级的、抽象的特征,这使得深度神经网络的性能远远超越传统方法。特别是,2014年以来,深度学习开始在物体检测,物体分割等领域取得优秀成果,涌现出Deeplab,YOLO,Faster RCNN,等一序列方法,识别准确率在特定任务上已经超越了人类识别的水平,并在生成环境中得到大规模使用。然而,现有技术中,在文字识别后,通常会对识别结果进行结构化提取,目前大多数结构化提取功能是通过建立规则库来实现的,例如基于先验知识的枚举,模板规则,通常这类方法需要针对具体问题编写大量代码,开发和维护成本高,泛化性能差,不够鲁棒,可维护性较差。

发明内容

针对上述技术问题,本发明提出了一种基于深度神经网络的文本检测目标提取关系的端到端方法,将文字结构化提取做到深度学习网络结构中,实现端到端的提取功能,从而达到节省提取功能的维护成本目的。

本发明包含以下技术方案:

一种基于深度神经网络的文本检测目标提取关系的端到端方法,在现有的基于深度神经网络的二阶段的目标检测算法的第二阶段结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。本方法通过将文本目标匹配关系显式标注,从而实现文本目标匹配关系的端到端训练和预测,具有较好的鲁棒性,同时维护成本非常低。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述检测目标的匹配关系判断模块只针对前景roi(感兴趣区域region of interest)特征序列相互之间的匹配关系进行判断。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述前景roi特征序列和背景roi特征序列的确定方法具体为:通过该roi的位置坐标与真值位置的iou交集来确定,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景。其中,iou(Intersection-Over-Union)的定义为:两个矩形框(bounding box)的重叠度,矩形框A、B的重叠度iou计算方法:iou=(A∩B)/(A∪B),即A、B矩形框的重叠面积与他们面积的并集之比。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述检测目标的匹配关系判断模块具体包括以下流程:

(1)获取前景roi序列特征;

(2)将任意两个前景roi特征联接;

(3)基于标注真值判断联接的两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;

(4)将联接后的特征向量再经过特征提取网络,并进行分类识别,从而实现任意两个拼接的前景roi特征判断。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*512,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*1024。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述步骤(2)中每个roi特征形状是1*1*2048,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*4096。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,所述文本检测基础框架为任意的二阶段的目标检测算法,如Faster RCNN、R2CNN、mask_rcnn中的任意一种。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,基于Faster RCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,具体流程如下:

(1)输入图像;

(2)第一阶段:通过RPN网络(区域生成网络Region Proposal Network)提取目标候选区域,生成roi特征序列;

(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络分离出前景roi特征序列和背景roi特征序列,然后通过文本检测目标匹配关系判断模块对前景roi特征序列相互之间的匹配关系进行判断。

作为可选方式,在上述文本检测目标提取关系的端到端方法中,具体包括以下步骤:

(1)输入图像;

(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;

(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第2步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本目标匹配关系判断结果。

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本发明的有益效果:

本发明所述基于深度神经网络的方法,在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。

附图说明:

图1为本发明实施例1中采用的Faster RCNN的网络结构示意图;

图2为本发明实施例1中在RCNN网络结构中增加文本检测目标匹配关系判断模块的示意图;

图3为roi前景目标关系判断模块实现流程示意图;

具体实施方式

以下通过实施例的具体实施方式对本发明的上述内容作进一步的详细说明。但不应当将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明的精神和原则之内做的任何修改,以及根据本领域普通技术知识和惯用手段做出的等同替换或者改进,均应包括在本发明的保护范围内。

实施例1

一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于FasterRCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测(如图2所示)。

目前文本检测技术方案或采用Faster RCNN等两阶段深度网络结构,或采用YOLO等单阶段深度网络结构,本实施例所述的端到端方案采用Faster RCNN两阶段深度网络结构实现,该技术网络结构通常图1所示。

本实施例所述方法具体包括以下步骤:

(1)输入图像;

(2)第一阶段:通过RPN网络提取目标候选区域,生成roi特征序列;

(3)第二阶段:第一阶段RPN网络推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*1024,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*2048;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果(如图3所示)。

该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。

实施例2

一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于RCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。

本实施例所述方法具体包括以下步骤:

(1)输入图像;

(2)第一阶段:通过RPN提取目标候选区域,生成roi特征序列;

(3)第二阶段:第一阶段推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*2048,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*4096;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果。

该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。

实施例3

一种基于深度神经网络的文本检测目标提取关系的端到端方法,基于FasterRCNN框架下,在第二阶段的RCNN网络结构流程中增加检测目标的匹配关系判断模块,从而实现检测目标是否匹配的训练和预测。

本实施例所述方法具体包括以下步骤:

(1)输入图像;

(2)第一阶段:通过RPN提取目标候选区域,生成roi特征序列;

(3)第二阶段:第一阶段推送的roi特征序列进入第二阶段RCNN网络,通过roi的位置坐标与真值位置的iou交集来确定来分离出前景roi特征序列和背景roi特征序列,当iou交集高于0.50时认定是前景,低于0.50时则认定是背景;然后随机筛选出两个前景roi特征,每个roi特征形状是1*1*512,将这两个特征进行concat联接,从而得到联接后的特征向量形状是1*1*1024;对于任意两个拼接的前景roi特征,基于标注真值判断这两个前景roi特征是否存在匹配关系,如果匹配,则训练的类别标签设置成1,如果不匹配,则训练的类别标签设置成0;将第(2)步的特征向量再经过全连接或卷积层特征提取网络,再送入softmax分类识别,最终输出文本检测结果。

该方法基于深度神经网络在文本检测中能够实现端到端的训练和预测,能够达到鲁棒性强,无需再使用规则库进行关系提取,从而降低提取关系资源开发和维护成本。

以上所述仅为本发明的优选实施例,对本发明而言仅是说明性的,而非限制性的;本领域普通技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行许多改变,修改,甚至等效变更,但都将落入本发明的保护范围。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于深度神经网络的文本识别训练优化方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!