一种基于深度学习的图像文本坐标定位方法

文档序号：1113567 发布日期：2020-09-29 浏览：9次 >En<

阅读说明：本技术 一种基于深度学习的图像文本坐标定位方法 (Image text coordinate positioning method based on deep learning ) 是由王春宝于 2020-02-19 设计创作，主要内容包括：本发明公开了一种基于深度学习的图像文本坐标定位方法,并应用于机器人流程自动化(Robotic Process Automation,RPA)相关领域。其原理是：当获取到原始图像后,对原始图像进行预处理,其中包括图像增强算法及图像的比例缩放。通过RPN神经网络对预处理后的图像进行候选区域提取,基于此,使用CNN卷积神经网络及RNN循环神经网络对候选区域进行特征提取,从而获得多个候选文本区域及候选框坐标点。然后再使用CNN卷积神经网络与CTC神经网络对候选文本区域进行初步文本识别,经语言模型纠错后处理后获取最终识别结果。本发明极大提高了图像中文本识别速度及识别准确率,并可以获取所需准确的文本坐标点以促进相关产业的智能化进程。(The invention discloses an image text coordinate positioning method based on deep learning, and is applied to the related field of Robot Process Automation (RPA). The principle is as follows: after the original image is acquired, the original image is preprocessed, wherein the preprocessing comprises an image enhancement algorithm and image scaling. And extracting candidate regions of the preprocessed image through an RPN neural network, and extracting features of the candidate regions through a CNN convolutional neural network and an RNN recurrent neural network based on the candidate regions, so that a plurality of candidate text regions and candidate frame coordinate points are obtained. And then, carrying out primary text recognition on the candidate text region by using the CNN convolutional neural network and the CTC neural network, and obtaining a final recognition result after the processing is carried out after the language model is corrected. The invention greatly improves the speed and accuracy of text recognition in the image, and can acquire the text coordinate points required to be accurate so as to promote the intelligent process of related industries.)

一种基于深度学习的图像文本坐标定位方法

技术领域

本发明涉及人工智能中的图像目标检测和识别领域，一种基于深度学习的图像文本坐标定位方法，并应用于机器人流程自动化等相关领域。

背景技术

传统光学字符识别主要面向高质量的文档图像，此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。图像中文字的字体、颜色、排布相比文档文字复杂得多，并且广告、商标等文宣中的图像文字具有强烈的艺术风格，其字体、尺寸、颜色、排版、纹理等很容易发生剧烈变化。由此可见，传统的光学字符识别已经不能够满足当前企业及工业的需求。此外，许多智能应用需要通过获取文本的准确坐标点来完成整个生产开发流程，如机器人流程自动化等。

随着企业实施其智能化转型愿景，但数据消费增加而导致的技术复杂性仍然是需要解决的最大挑战之一，而机器人流程自动化

（Robotic Process Automation，RPA）可以很好地降低其复杂性。将人工智能和RPA 相结合，可以很好的利用两者的优点来解决实际问题，并能够在探索新的商业模式方面发挥至关重要的作用。

发明内容

本发明公开了一种基于深度学习的图像文本坐标定位方法，并应用于机器人流程自动化相关领域。其原理是：当获取到原始图像后，对原始图像进行预处理，其中包括图像增强算法及图像的比例缩放。通过RPN神经网络对预处理后的图像进行候选区域提取，基于此，使用 CNN卷积神经网络及RNN循环神经网络对候选区域进行特征提取，从而获得多个候选文本区域及候选框坐标点。然后再使用CNN卷积神经网络与CTC神经网络对候选文本区域进行初步文本识别，经语言模型纠错后处理后获取最终识别结果。本发明极大提高了图像中文本识别速度及识别准确率，并可以获取所需准确的文本坐标点以促进相关产业的智能化进程。

本发明的有益效果为：传统由人类进行的基于感知和判断的活动现在可以通过共享的方式完成，如今在多数情况下通过机器人能够很快的完成。因为人工智能可以从历史数据建立知识库，并将其用于行为决策和预测，AI技术与RPA技术的结合有助于克服RPA的局限性。通过 RPA技术与深度学习技术相结合，并借助图片中的文本识别及定位技术，可以帮助企业实现智能的自动化解决方案，从而降低企业管理的复杂度，并极大地提高生产效率及降低生产成本。

本方法结合基于CNN的图像特征提取技术和基于RNN的序列翻译技术，提出了一种新的图像文本坐标定位方法，以达到以下两个目标:

(1) 实现端到端的无约束字符识别;

(2) 对图像中的文本的坐标进行定位，并提供通过检索来获取字符坐标。

附图说明

附图 1 为本发明的基于深度学习的图像文本坐标定位方法的处理流程图。

具体实施方式

根据附图1及具体实施例，对本发明作进一步说明，应当理解为此处所描述的具体实施步骤仅仅用以解释本发明，但并不限定本发明。具体实施步骤如下：

1、获取原始图像并进行初步处理。

2、检测步骤得到的文字区域通常包含噪音等影响识别的因素。因此，在进行文字识别前，需要对图像进行预处理。对原始图像进行预处理，其中主要包括图像比例缩放及图像增强；

2.1 缩放图片为适于处理的大小；

2.2 对图像进行去噪、图像增强操作，其目的是去除背景或者噪点，从而增加对比度，以达到突出文字的目的。

3、对预处理的图像进行RPN区域提议。通过在CNN卷积神经网络上增加全链接层的分类层和边框回归层，用以对图像进行目标区域提议。

4、使用CNN卷积神经网络及RNN循环神经网络对候选区域进行特征提取，从而获得多个候选文本区域及候选框坐标点；

4.1 通过 CNN卷积神经网络对来自行RPN神经网络的区域提议进行特征提取；

4.2 使用RNN循环神经网络对4.1中的提取到的特征向量进行进一步处理，从而获取每一行的区域特征；

4.3 使用LSTM长短时记忆网络对候选文本区域的候选框坐标进行修正和调整，进而获取到更精确的候选框坐标。

5、再使用CNN卷积神经网络与CTC神经网络对候选文本区域进行初步文本识别；

5.1 通过CNN卷积神经网络对每个候选文本区域进行特征提取；

5.2 再通过CTC解码机制进一步对识别提取到的特征内的文本内容进行识别。CTC主要用于序列解码，通过步骤4获取到文本在输入图像中具***置后来进一步的识别图像中的文本，极大降低了任务的复杂性，提高了图像中文本的识别速度。

6、经语言模型纠错后处理后获取最终识别结果；

6.1 建立语料库，以便后面使用语料库训练词向量和语言模型；

6.2 将上述语料库中的文本输入到深度学习神经网络中，对文本识别修正模型进行训练；

6.3 因此，步骤5后识别的结果通过训练后的语言模型输出修正后的文本信息。

7、通过检索文本，来获取相应文本的候选框坐标及中心坐标点；

7.1 通过步骤4获取的各文本候选框坐标，可以进一步的获取文本段中心点坐标及每个字符的坐标；

7.2 通过将检索的文本与图像中识别出的文本进行匹配，返回匹配度最高的文本及其坐标点。

8、机器人流程自动化相关软件通过调用将文本识别工具的接口，进一步地完成其工作。

上述具体实施方式仅是本发明的具体个案，本发明的专利保护范围包括但不限于上述具体实施方式，任何符合本发明的一种基于深度学习的图像文本识别方法的权利要求书且任何所述技术领域的普通技术人员对其所做的适当变化或替换，皆应落入本发明的专利包含范围。

6页详细技术资料下载

一种基于深度学习的图像文本坐标定位方法

相关技术

网友询问留言