一种纸质文本图像处理方法、装置及电子设备

文档序号：1956886 发布日期：2021-12-10 浏览：12次 >En<

阅读说明：本技术 一种纸质文本图像处理方法、装置及电子设备 (Paper text image processing method and device and electronic equipment ) 是由郭彦军郝志军刘子强于 2021-09-10 设计创作，主要内容包括：本发明公开了一种纸质文本图像处理方法、装置及电子设备,包括：获取纸质文本图像；对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息；根据所述定位框的坐标信息,对所述定位框内文本进行分类识别；当所述定位框内文本中的文本为反向文本,对识别到的反向文本响应清除操作。通过识别纸质文本图像将图像中的反向文本去除,使得转化后的文本更加清晰,提高了纸质文本数字化转换过程中的效率。(The invention discloses a paper text image processing method, a paper text image processing device and electronic equipment, wherein the paper text image processing method comprises the following steps: acquiring a paper text image; performing text recognition on the paper text image to obtain a positioning box of a text contained in the paper text image and coordinate information of the positioning box; classifying and identifying texts in the positioning frame according to the coordinate information of the positioning frame; and when the text in the positioning box is the reverse text, responding to the recognized reverse text by clearing operation. The reverse text in the image is removed by identifying the paper text image, so that the converted text is clearer, and the efficiency of the paper text in the digital conversion process is improved.)

技术领域

本发明涉及图像识别技术领域，具体涉及一种纸质文本图像处理方法、装置及电子设备。

背景技术

随着互联网的发展，数字化的存储管理管理方法，可以显著提高存储、管理、检索等的效率及安全性。在纸质文件进行数字化转换的过程中，各种纸质文件的情况极其复杂，例如，有些纸质文件由于存放时间的久远，存在着纸张背面的信息可能会渗透到纸张的正面的问题，使得在纸张的正面形成反向文本。由于文件的数字化有着严格的标准，在数字化的过程中，需要花费大量的人力和时间保证纸质文件在数字化过程中的信息完整清晰，严重的影响数字化的效率。

发明内容

因此，本发明要解决的技术问题在于克服本纸质本间背面字体渗透到正面对数字化文本识别造成干扰的缺陷，从而提供一种纸质文本图像处理方法、装置及电子设备。

根据第一方面，本发明实施例公开了一种纸质文本图像处理方法，包括：获取纸质文本图像；对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息；根据所述定位框的坐标信息，对所述定位框内文本进行分类识别；当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作。

可选地，所述当所述文本信息中包含反向文本，对识别到的反向文本响应清除操作之后，所述方法还包括：对进行清除操作后的纸质文本图像进行高清处理，得到高清纸质文本图像；当所述纸质文本图像包含图片时，确定所述图片在所述高清纸质文本图像中的位置信息；根据所述位置信息，利用所述纸质文本图像中的图片替换所述高清纸质文本图像中的图片。

可选地，对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息之前，所述方法还包括：基于所述纸质文本图像进行纠偏和切边处理。

可选地，所述对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息，包括：对所述纸质文本图像进行缩小得到缩小后的纸质文本图像；对所述缩小后的纸质文本图像进行特征提取，得到特征图；对所述特征图进行滑动窗特征截取得到特征子图；基于所述特征子图得到所述纸质文本图像的特征向量，并根据所述特征向量得到所述文本的定位框坐标信息。

可选地，基于所述特征子图得到纸质文本图像的特征向量，包括：将所述特征子图输入到循环神经网络得到所述特征子图的序列特征；将所述特征子图的序列特征再次输入到循环神经网络进行还原操作得到还原后的特征子图；将所述还原后的特征子图输入到全连接层得到包含所有信息的特征向量。

可选地，当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作，包括：将满足目标条件的反向文本的定位框进行放大；对对放大后的定位框中的反向文本进行去除。

根据第二方面，本发明实施例还公开了一种纸质文本图像处理装置，包括：获取模块，用于获取纸质文本图像；识别模块，用于对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息；分类模块，用于根据所述定位框的坐标信息，对所述定位框内文本进行分类识别；清除模块，用于当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作。

可选地，所述装置还包括：高清处理模块，用于对进行清除操作后的纸质文本图像进行高清处理，得到高清纸质文本图像；定位模块，用于当所述纸质文本图像包含图片时，确定所述图片在所述高清纸质文本图像中的位置信息；替换模块，用于根据所述位置信息，利用所述纸质文本图像中的图片替换所述高清纸质文本图像中的图片。

根据第三方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的纸质文本图像处理方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的纸质文本图像处理方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的纸质文本图像处理方法，获取纸质文本图像，对纸质文本图像进行文本识别得到纸质文本图像中所包含的文本的定位框以及定位框的坐标信息，根据定位框的坐标信息，对定位框内文本进行分类识别，当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作。通过对纸质文本图像的识别将反向文本去除，使得转化后的文本更加清晰，提高了纸质文本数字化转换过程中的效率。

附图说明

为了更清楚地说明本发明

具体实施方式

或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中纸质文本图像处理方法的一个具体示例的流程图；

图2为本发明实施例中纸质文本图像处理装置的一个具体示例的原理框图；

图3为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种纸质文本图像处理方法，如图1所示，该方法包括如下步骤：

步骤101：获取纸质文本图像。

示例性地，纸质文本图像为纸质文件经过扫描、拍照等方式转换为数字化的电子文件，纸质文件可以是纸质的档案文件，使用设置好固定参数的扫描仪扫描得到的档案图像，本实施例对纸质文件的类型和纸质文件转化为电子文件的方式不作限定，本领域技术人员可以根据实际需要确定，本申请实施例以纸质文本图像为纸质档案图像为例进行说明。

步骤102：对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息。

示例性地，对纸质文本图像中的文本信息进行识别，识别的内容可以是图像中包含的文本，通过对文本的识别得到文本的定位框和定位框的坐标信息。对档案图像中的文本的识别定位可以采用CTPN(Connection Text Proposal Network，是连接文本区域网络，用于进行横向文本检测)对档案图像中的文本进行定位，例如对档案图像进行缩小，使用CTPN模型对所述缩小的档案图像中的文本进行定位，得到定位框，本实施例对识别文本信息的方法不作限定，本领域技术人员可以根据实际需要确定。

步骤103：根据所述定位框的坐标信息，对所述定位框内文本进行分类识别。

示例性地，定位框中的文本信息可以包括纸质档案文件正面的文本形成到的正向文本以及纸质档案文件背面字体渗透到文件的正面形成的反向文本，将所有的正向文本和反向文本进行定位，识别文本的方法可以采用二分类进行判断，本实施例对识别文本是正向还是反向的识别方法不作限定，本领域技术人员可以根据实际需要确定。

步骤104：当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作。

示例性地，对识别到是反向文本的文本框中的文本进行去除，例如，可以是将定位得到的文本框中的文本信息输入图像分类模型miniVGG，获取置信度超过0.9的反向文本框，对置信度超过0.9的反向文本框进行放大，获得纸质文本图像中字体为反向字体的文本框，对文本框中的文字进行清除，本实施例对置信度的阈值大小和去除反向文本的方法不作限定，本领域技术人员可以根据实际需要确定。

本发明提供的纸质文本图像处理方法，获取纸质文本图像，对纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息；根据所述定位框的坐标信息，对所述定位框内文本进行分类识别；当所述定位框内文本中的文本为反向文本，对识别到的反向文本响应清除操作。通过识别对纸质文本图像的识别将反向文本去除，使得转化后的文本更加清晰，提高了纸质文本数字化转换过程中的效率。

作为本发明一个可选实施方式，步骤104之后，所述方法还包括：对进行清除操作后的纸质文本图像进行高清处理，得到高清纸质文本图像；当所述纸质文本图像包含图片时，确定所述图片在所述高清纸质文本图像中的位置信息；根据所述位置信息，利用所述纸质文本图像中的图片替换所述高清纸质文本图像中的图片。

示例性地，对已经将反向文本清除的档案图像进行高清处理，使得数字化后的档案图像清晰整洁，可以使用AutoEncoder深度学习方法对去除反向文本的档案图像进行高清化处理，在对高清化的高清档案图像进行微调，对微调后的高清档案图像进行基于规则的规范化处理，获得最终的高清档案图像，例如，对去除反向文本的档案图像进行分割，对分割后的档案图像使用Encoder进行编码，对编码后的档案图像再次使用Decoder进行解码，获得高清后档案图像，对高清后的档案图像进行合并，获得高清后的档案图像。本实施例对高清处理方法不作限定，本领域技术人员可以根据实际需要确定。对高清后的档案图像中的人像等图片进行识别得到图片的坐标信息，根据识别的坐标信息将档案图像中的人像图片替换到高清处理后的档案图像中，保持了档案图像中人像图片的不变，保证了档案的真实性。

作为本发明一个可选实施方式，所述步骤102之前，所述方法还包括：基于所述纸质文本图像进行纠偏和切边处理。

示例性地，在获取到的数字化的档案图像的过程中，由于在扫描的过程中扫描仪的位置以及出现的操作问题等可能会造成到档案图像是倾斜的，因此在进行文本识别之前需要进行纠偏和切边处理，得到档案图像的有效部分，更有利于对档案图像的识别和高清处理，提高了识别的准确性。

作为本发明一个可选实施方式，所述步骤102包括：对所述纸质文本图像进行缩小得到缩小后的纸质文本图像；对所述缩小后的纸质文本图像进行特征提取，得到特征图；对所述特征图进行滑动窗特征截取得到特征子图；基于所述特征子图得到所述纸质文本图像的特征向量，并根据所述特征向量得到所述文本的定位框坐标信息。

示例性地，对档案图像的识别可以通过对档案图像的特征进行识别，例如基于VGG16卷积计算模型对所述档案图像进行特征提取，以第五层卷积层作为输出，获取特征矩阵，特征提取的步骤包括：采用CTPN(文字检测算法)将纠偏切边后的档案图像进行缩小，对所述缩小后的档案图像使用VGG16卷积计算模型进行卷积运算，获得档案的特征图，使用3x3的空间滑动窗口，以步长为1，在所述特征图上密集地进行滑动，获得一系列3x3的特征子图，本实施例对特征提取的方法不作限定，本领域技术人员可以根据实际需要确定。

作为本发明一个可选实施方式，基于所述特征子图得到纸质文本图像的特征向量，包括：将所述特征子图输入到循环神经网络得到所述特征子图的序列特征；将所述特征子图的序列特征再次输入到循环神经网络进行还原操作得到还原后的特征子图；将所述还原后的特征子图输入到全连接层得到包含所有信息的特征向量。

示例性地，特征子图为上述根据滑动窗口得到的特征子图，通过CTPN可以对特征子图进行BLSTM解码运算，将3x3的特征子图进行reshape操作调整特征子图的特征矩形的形状，将所述调整后的序列特征再次进行reshape操作，还原得到3x3的特征子图，该特征子图包含了空间和序列特征，将还原后的特征子图输入全连接层，得到包换所有信息的一维特征向量。通过CTPN对一维特征向量坐标信息、类别信息和边缘调节信息进行运算，得到定位框的坐标信息。

作为本发明一个可选实施方式，所述步骤104包括：将满足目标条件的反向文本的定位框进行放大；对放大后的定位框中的反向文本进行去除。

示例性地，在进行反向本文的去除之前，对反向文本的定位框进行放大，在放大后的反向文本框中进行反向文本的去除，可以提高反向文本去除的精度，避免了识别不准确将正向文字去掉。

本发明实施例还公开了一种纸质文本图像处理装置，如图2所示，该装置包括：

获取模块201，用于获取纸质文本图像。示例性地，详细内容见上述步骤101，此处不再赘述。

识别模块202，用于对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息。示例性地，详细内容见上述步骤102，此处不再赘述。

分类模块203，用于根据所述定位框的坐标信息，对所述定位框内文本进行分类识别。示例性地，详细内容见上述步骤103，此处不再赘述。

清除模块204，用于当所述定位框内的文本为反向文本，对识别到的反向文本响应清除操作。示例性地，详细内容见上述步骤104，此处不再赘述。

本发明提供的纸质文本图像处理装置，获取纸质文本图像；对所述纸质文本图像进行文本识别得到所述纸质文本图像中所包含的文本的定位框以及定位框的坐标信息；根据所述定位框的坐标信息，对所述定位框内文本进行分类识别；当所述定位框内文本中的文本为反向文本，对识别到的反向文本响应清除操作。通过识别对纸质文本图像的识别将反向文本去除，使得转化后的文本更加清晰，提高了纸质文本数字化转换过程中的效率。

作为本发明一个可选实施方式，所述装置还包括：高清处理模块，用于对进行清除操作后的纸质文本图像进行高清处理，得到高清纸质文本图像；定位模块，用于当所述纸质文本图像包含图片时，确定所述图片在所述高清纸质文本图像中的位置信息；替换模块，用于根据所述位置信息，利用所述纸质文本图像中的图片替换所述高清纸质文本图像中的图片。

本发明实施例还提供了一种电子设备，如图3所示，该电子设备可以包括处理器301和存储器302，其中处理器301和存储器302可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器301可以为中央处理器(Central Processing Unit，CPU)。处理器301还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器302作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的纸质文本图像处理方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的纸质文本图像处理方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器301所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至处理器301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器302中，当被所述处理器301执行时，执行如图1所示实施例中的纸质文本图像处理方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random AccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：图像形成装置及其驱动下载提示方法、打印系统

一种纸质文本图像处理方法、装置及电子设备

相关技术

网友询问留言