一种ocr图像识别的图像处理方法及系统

文档序号:1379195 发布日期:2020-08-14 浏览:5次 >En<

阅读说明:本技术 一种ocr图像识别的图像处理方法及系统 (Image processing method and system for OCR image recognition ) 是由 宋国梁 颜长华 于 2020-04-26 设计创作,主要内容包括:本发明公开了一种OCR图像识别的图像处理方法,包括S1.对待识别图像进行预处理,以输出符合预设规范的图像数据;S2.对预处理后的图像进行再处理以确定图像位置并进行图像上的字符定位;S3.进行文字识别、校正,并在字符识别、校正过程中进行反馈式重复识别,以获得最终的OCR识别结果。本方法和系统主要针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强,通过图像预处理校正和字符定位,增强OCR中的抗干扰能力,并基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。(The invention discloses an image processing method for OCR image recognition, which comprises the following steps of S1, preprocessing an image to be recognized to output image data which accords with a preset specification; s2, reprocessing the preprocessed image to determine the position of the image and positioning characters on the image; and S3, performing character recognition and correction, and performing feedback type repeated recognition in the character recognition and correction processes to obtain a final OCR recognition result. The method and the system mainly aim at identifying machine-issued tickets, various forms and documents, have high identification precision, high identification speed and strong adaptability, enhance the anti-interference capability in OCR through image preprocessing correction and character positioning, improve the accuracy of OCR through a feedback algorithm (namely a feedback model) based on comprehension degree, and have strong correction capability on partial information loss and identification errors; compared with the recognition effect of the traditional OCR recognition technology, the recognition accuracy is greatly improved.)

一种OCR图像识别的图像处理方法及系统

技术领域

本发明涉及汉字识别技术领域,具体而言,为一种OCR图像识别方法及系统。

背景技术

OCR(Optical Character Recognition,光学字符识别)技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

随着图像传感器的不断发展,尤其是各种手机和专业(如安防)摄像头数目的指数增加,计算机图像数据在飞速增加;但图像质量则相对传统扫描仪或各种专业相机又相对降低;传统汉字OCR技术面临源图像数据质量不高,污染严重时,识别率会剧烈下降的问题。

计算机图像的汉字内容识别(汉字OCR)是图像识别中的难点问题,相对于英文字符识别,汉字数量众多,基本字符相似度高,易受干扰,分辨困难。对于票据,还会受到各种票据底纹、打印位置、打印清晰程度、覆盖污染物(章)的剧烈影响。根据2018年的相关市场调查,针对手机拍照的各种票据,市场上多家传统OCR厂商的测试效果均不理想,虽然新一代以深度神经网络为基础的端到端的OCR的方案在西方字符OCR领域取得了较好效果,但汉字由于基数庞大,需要的训练数据集要超过西方字符集的上千倍(保守估算),因此至今开放AI平台上的汉字OCR在较差的图像上表现相当不理想,并且,端到端的深度神经网络存在天然的误识别,易受到攻击。

有鉴于此,特提出本发明。

发明内容

针对现有技术中的缺陷,本发明提供一种OCR图像识别的图像处理方法及系统,以提高OCR的准确率。

为实现上述目的,本发明的技术方案如下:

一种OCR图像识别的图像处理方法,包括

S1.对待识别图像进行预处理,以输出符合预设规范的图像数据;

S2.对预处理后的图像进行再处理以确定图像位置并进行图像上的字符定位;

S3.进行文字识别、校正,并在字符识别、校正过程中进行反馈式重复识别,以获得最终的OCR识别结果。

进一步的,上述的OCR图像识别的图像处理方法中,所述对待识别图像进行预处理包括图像校正,图像校正包括三个阶段:

图像初步处理阶段,将待识别图像校正到规范形态;

初步字符识别反馈阶段,通过增设目标函数,根据字符识别过程反馈的信息对待识别图像进行再次校正处理;

字符识别并理解反馈阶段,通过增设目标函数,根据对字符识别信息进行检验过程中反馈的信息,对待识别图像进行再次校正处理。

进一步的,上述的OCR图像识别的图像处理方法中,所述对预处理后的图像进行处理以确定图像位置并进行图像上的字符定位,包括

去除待识别图像干扰信息,然后将图像二值化;

对待识别图像进行模糊处理,获得充分模糊的图像;

识别图像上的待识别文字的中心位置,对这些中心进行序列化处理,在其周围进行神经网络滑窗处理获取图像字符位置。

进一步的,上述的OCR图像识别的图像处理方法中,所述对预处理后的图像进行处理以确定图像位置并进行图像上的字符定位,还包括

对于满足序列化要求的合并中心的对应位置进行合并;

序列化处理后,连续序列头尾额外的增加两次的滑窗处理;

如果收到文字识别和文字校正过程中的反馈信息,则根据反馈信息再次对待识别图像数据进行滑窗处理。

进一步的,上述的OCR图像识别的图像处理方法中,所述基进行文字识别、校正,并在字符识别、校正过程中进行反馈式重复识别,以获得最终的OCR识别结果,包括

对经过字符定位后的图像信息,进行后续文字识别;

对文字识别结果进行文字校正;

并构建反馈模型进行反馈式重复识别。

进一步的,上述的OCR图像识别的图像处理方法中,所述构建反馈模型进行反馈式重复识别,包括

1)在文字识别时,根据识别结果产生反馈信息并转至初步字符识别反馈阶段,再次重复预处理和字符定位后,进行字符识别;

2)在文字识别时,根据识别结果产生反馈信息,并转至步骤S2.中,进行重新字符定位;

3)文字校正时,其针对的图像数据未达到校正标准,则产生反馈确信息,返回至字符识别并理解反馈阶段,重新调整优化图像整体校正;

4)文字校正时,根据验证结果产生反馈信息并转回至步骤S2.中,进行重新字符定位;

5)文字校正时,根据验证结果反馈寻找信息,返回至文字识别步骤,要求重新验证错误字符。

一种OCR图像识别的系统,包括图像校正模块、字符定位模块、文字识别模块以及文字校正模块;其中

图像校正模块,用于对获取的待识别图像进行预处理校正获得符合预设规范的图像数据;

字符定位模块,用于对图像校正模块输出的图像数据进行处理以确定图像位置并进行图像上的字符定位;

文字识别模块,用于对字符定位模块定位的字符数据进行字符识别,并输出识别信息至文字校正模块和/或输出反馈信息至图像校正模块;

文字校正模块,用于对文字识别模块识别的字符进行字符理解,输出校正结果;以及反馈校正信息至所述图像校正模块。

进一步的,上述的OCR图像识别的系统中,图像校正模块包括三阶段工作程序:

图像初步处理阶段,将待识别图像校正到规范形态;

初步字符识别反馈阶段,通过增设目标函数,根据文字识别模块反馈的信息对待识别图像进行再次校正处理;

字符识别并理解反馈阶段,通过增设目标函数,根据文字校正模块反馈的信息,对待识别图像进行再次校正处理。

进一步的,上述的OCR图像识别的系统中,所述字符定位模块工作步骤包括

去除待识别图像干扰信息,然后将图像二值化;

对待识别图像进行模糊处理,获得充分模糊的图像;

识别图像上的待识别文字的中心位置,对这些中心进行序列化处理,在其周围进行神经网络滑窗处理获取图像字符位置;

对于满足序列化要求的合并中心的对应位置进行合并;

序列化处理后,连续序列头尾额外的增加两次的滑窗处理;

如果收到文字识别和文字校正过程中的反馈信息,则根据反馈信息再次对待识别图像数据进行滑窗处理。

进一步的,上述的OCR图像识别的系统中,所述文字校正模块工作步骤包括包括

文字校正时,其针对的图像数据未达到校正标准,则产生反馈确信息,返回至图像校正模块中进行字符识别并理解反馈阶段,重新调整优化图像整体校正;

文字校正时,根据验证结果产生反馈信息并转回至字符定位模块,进行重新字符定位;

文字校正时,根据验证结果反馈寻找信息,返回至文字识别模块,要求重新验证错误字符。

与现有技术相比,本发明的有益效果体现在:

本方法和系统主要针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强,尤其是图像质量不高、打印差错严重(漏线,污染,拖影,串行)时,通过图像预处理校正和字符定位,增强OCR中的抗干扰能力,并基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。

附图说明

为了更清楚地说明本发明

具体实施方式

或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1为本发明OCR图像识别的图像处理方法一个具体实施例的流程图;

图2为本发明OCR图像识别的系统的逻辑框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限制本发明的保护范围。

需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

实施例1

如图1所示,一种OCR图像识别的图像处理方法,包括

S1.对待识别图像进行预处理,以输出符合预设规范的图像数据;

S2.对预处理后的图像进行再处理以确定图像位置并进行图像上的字符定位;

S3.进行文字识别、校正,并在字符识别、校正过程中进行反馈式重复识别,以获得最终的OCR识别结果。

本发明方法在对待识别图像进行预处理阶段,进行具有反馈信息的阶段式校正,并采用多轮模糊化寻找极小值和极大值用于确定文字位置范围的方式进行文字定位,为后续文字识别提供高质量的图像,提高识别准确率,并利于提高识别效率。

具体的,本发明中步骤S1.中所述对待识别图像的预处理过程首先通过图像降噪初步提高待识别图像的像素质量,然后进一步对其校正;

对待识别图像进行校正时,包括基于3*3的9点校正法对待识别图像进行校正;

在这种校正法中,图像的变相可以看做是九个基准点的移动,整体可表示为一个高维向量[fr],这个向量包含9个点在x,y方向的两个分量(共9*2=18个分量),每个分量仅能取-1,0,1这三种值。除了上述每个基准点独立变动形成的18种校正模式外,本发明还预制旋转、斜切、梯形和鱼眼等多种优先校正效果模式,该校正优先校正效果模式为本领域成熟技术,此处不再赘述。

在校正过程中对所有预定义的校正(优先校正模式和单点独立校正模式)进行遍历,使得图像校正的目标函数最大化。

本发明给出的具体实施例中,图像校正分三阶段进行:

A1.图像初步处理阶段

图像边缘是图像识别的重要特征,该步骤中,获取图像信息后,将图像边缘化(可采用canny算法,ths=0.5),将所有连续边缘点在x,y方向的增量dx和dy作为目标函数,使得其中之一最小化,这样,对于有明确表格边缘的图像可以将其校正到尽可能的矩形的形态;计算函数为:

Ωr1=∑(|dx|+|dy|)e-dxdy

其中Ωr1表示第一阶段的计算函数;dx和dy为连续边缘点在x,y方向的增量;e为常数系数。

A2.初步字符识别反馈阶段

增加一项成串字符(即中心位置)的相对增量,构造新的目标函数,新目标函数两倍于第一阶段(A1.阶段)目标函数,计算函数Ωr2为:

Ωr2=Ωr1+2∑(|dx|+|dy|)e-dxdy

在后续字符识别过程中对于存在难以识别的问题、初步识别结果不理想等,反馈到该阶段通过该目标函数再次处理待识别图像,进行后续其他识别处理,以获得更为准确的识别结果。其中成串字符即有趋势成为连续字符串的字符,考虑初步字符识别后成串字符的相对增量构造新的目标函数,对Ω进行偏微分进而求出最优结果。

A3.字符识别并理解反馈阶段

除了前二阶段的目标函数外,再度增加一项可理解的成串字符(中心位置)的相对增量,构造新的目标函数;新目标函数0.5倍于第一阶段(A1.阶段)目标函数,计算函数Ωr3为:

Ωr3=Ωr1r1+0.5∑(|dx|+|dy|)e-dxdy

在后续对字符识别信息进行检验过程中,对验证出字符定位误差或错误等问题的情况,反馈到该阶段通过该目标函数再次处理待识别图像,进行后续其他识别处理,以获得更为准确的识别结果。其中“可理解的成串字符”是指在后续字符校正过程中通过语义推理机器等手段能够确定正确“理解”的字符,是反馈回来的数据,这些反馈回来的正确的数据也需要加入到优化目标函数Ω中。

经过上述校正以后的图像,进行图像分层处理,利于提高图像处理效率。

S2.对预处理后的图像进行处理以确定图像位置并进行图像上的字符定位

该步骤即是对预处理后的图像进行版面分析,实现文字定位;具体的,包括:

S21.首先将图像背景去除,表格线去除,然后将图像二值化;

待识别图像经过上述步骤的边缘化处理和校正后,识别出背景、表格线等内容,然后剔除;经过二值化处理呈现出明显的黑白效果,利于识别文字。

S22.对待识别图像进行模糊处理,获得充分模糊的图像;

本实施例中,模糊处理可以使用最简单的平均值算法,即相当于一个3*3的等值卷积核函数或者5*5等值卷积核函数,但不限于此,例如一般性的模糊核函数也可以。优选地,进行至少三次模糊处理后可以获得充分模糊的图像。

S23.识别图像上的待识别文字的中心位置;

记录模糊后的待识别图像中的最大值位置(默认文字部分已经翻转高亮过)以及最大值和周围平均值之差dp,按照差值dp大小顺序,选择出dp值最大的前n个这样的位置,n根据实际情况确定;这些位置被作为图像中待识别文字的中心位置,对这些中心(通过坐标表示)进行序列化处理,在其周围进行神经网络滑窗处理来获得精确的图像字符位置。

S24.中心合并;

优选的,部分上述中心可能需要合并,对于满足序列化要求的合并中心的对应位置合并后用于后续识别,由后续识别模块完成取舍;

S25.序列化处理后,连续序列头尾需要额外的增加两次的滑窗处理,以保障头尾不遗失特殊字符。

S26.在S23.阶段和S24.阶段中,可以获得后续处理模块(如字符识别和字符校正模块)反馈过来的额外信息,根据获得的反馈信息进行滑窗处理;

在S23.阶段和S24.阶段时,如果获取的反馈信息表示需要根据相应要求在对应的位置(如字符之前、字符之后、两字符之间等)重新进行字符定位,则对这些位置进行额外的滑窗处理,并给出最可能的多个位置。

S27.定位信息输出

字符(位置)定位后输出定位信息,其输出的数据包含字符区域id,位置[top,left,dx,dy]参数以及字符的可能性p,如p值为0.99表示很大可能为字符,0.10表示很小可能;还包含不同区域id的重叠积分S[id1,id2],如果被识别出两个汉字区域有重叠,即重叠积分大于零,则有两种可能:

1.确实仍然是两个汉字,只是因为打印的原因重叠在一起了;

2.并不是两个汉字,是因为划分区域的原因导致识别出了两个汉字;例如:“例”字,可能识别出例和列两个字,但这两个字的位置是重叠的。

该步骤中,识别字符的时候不做判断,识别完成后一并交给后续语义分析去统一判断合法性;此处重叠积分结果可用于后续步骤的判断。

字符定位的目的是获得字符(单个或多个)所在的最可能位置[top,left,dx,dy],即通过top(上边距),left(左边距),dx(宽度),dy(高度)几个参数表示;传统的OCR技术中,字符定位多是通过空白背景分析,或通过神经网络通用的全图滑窗自动搜索目标区域的方案,属于图像预处理的早期步骤,不确定性又高,其准确率将显著影响整个后续结果。本发明方法在字符定位过程中去除干扰信息(背景、表格线),进行多轮模糊化后寻找极小值和极大值用于确定文字位置范围的方式,利于提高识别精度。

S3.进行文字识别、校正,并在字符识别、校正过程中进行反馈式重复识别,以获得最终的OCR识别结果。

通过本步骤对经过字符定位后的图像信息,进行后续文字识别;文字识别结果再进一步进行文字校正,即对文字识别结果进行检验、纠正。并进一步进行反馈式重复识别,在识别效果不佳时,向上反馈可靠程度信息并给出数据进一步挖掘的建议。

本步骤包括S31.构建反馈模型,对于规则符合程度很高或者很低的数据,向上反馈可靠程度信息。该反馈模型的反馈规则包括:

1).在文字识别时,存在难以识别或识别不理想的问题时,产生反馈信息并转至步骤S1.中的A2.阶段,再次重复预处理和字符定位后,进行字符识别,以提高识别精度。

2).如果在文字识别时,识别出来字符存在定位错误,则产生反馈信息,并转至步骤S2.的S23.或S24.中,采用多轮模糊化后寻找极小值和极大值来确定文字位置范围,进行重新字符定位;然后再进行文字识别。

3).文字校正时,其针对的图像数据未达到校正标准(即校正规则符合程度高于预设值),则产生反馈确信息(如确定的字符序列位置信息等),返回至步骤S1.中,通过A3.阶段函数,重新调整优化图像整体校正,然后重复后续其他识别处理,以获得更为准确的识别结果。

4).如果校正时,验证出字符定位误差或错误等问题的情况(如缺失一个或者两个字符),产生反馈信息(例如要求在前、中、后、上、下等适当位置进一步寻找新的字符位置)并转回至步骤S2.中的S23.或S24.中,采用多轮模糊化后寻找极小值和极大值来确定文字位置范围,进行重新字符定位;再执行步骤S3.,直至获得最终的OCR识别结果。

5).如果校正时,验证文字识别错误一个或两个字符,反馈寻找信息,返回至字符识别步骤,要求重新验证错误字符。

本发明步骤还包括S32.识别内容的串行处理;

对识别内容进行串行处理,串行目标函数最小化,误差小,输出结果精确度高。

本方法主要针对机打发票、各种表格、单证进行识别,识别精度高,识别速度快,适应性强,尤其是图像质量不高、打印差错严重(漏线,污染,拖影,串行)时,通过图像预处理校正和字符定位,增强OCR中的抗干扰能力,并基于理解度的反馈算法(即反馈模型)可以提高OCR的准确率,对于部分信息缺失以及识别错误有很强的纠正能力;能够相对传统OCR识别技术的识别效果,大大提升识别准确度。

实施例2

如图2所示的,本发明还提供一种OCR识别系统,包括图像校正模块、字符定位模块、文字识别模块以及文字校正模块;其中

图像校正模块,用于对获取的待识别图像进行预处理校正获得符合预设规范的图像数据;

字符定位模块,用于对图像校正模块输出的图像数据进行处理以确定图像位置并进行图像上的字符定位;

文字识别模块,用于对字符定位模块定位的字符数据进行字符识别,并输出识别信息至文字校正模块和/或输出反馈信息至图像校正模块;

文字校正模块,用于对文字识别模块识别的字符进行字符理解,输出校正结果;以及在校正结果不精确时,反馈校正信息至所述图像校正模块。

本发明系统图像校正模块在对获取的待识别图像进行预处理校正以输出符合预设规范的图像数据过程中,包括图像降噪、图像校正等;其中

图像校正模块首先通过图像降噪初步提高待识别图像的像素质量,然后对待识别图像进行校正,本实施例中,基于3*3的9点校正法对待识别图像进行校正:

在这种校正法中,图像的变相可以看做是九个基准点的移动,整体可表示为一个高维向量[fr],这个向量包含9个点在x,y方向的两个分量(共9*2=18个分量),每个分量仅能取-1,0,1这三种值。除了上述每个基准点独立变动形成的18种校正模式外,本发明还预制旋转、斜切、梯形和鱼眼等多种优先校正效果模式,该校正优先校正效果模式为本领域成熟技术,此处不再赘述。

在校正过程中,通过所有预定义的校正(优先校正模式和单点独立校正模式)进行遍历,使得图像校正的目标函数最大化。

本发明给出的具体实施例中,图像校正模块进行三阶段工作程序:

A1.图像初步处理阶段

图像边缘是图像识别的重要特征,在预处理过程中,图像校正模块获取图像信息后,将图像边缘化(可采用canny算法,ths=0.5),将所有连续边缘点在x,y方向的增量dx和dy作为目标函数,使得其中之一最小化,这样,对于有明确表格边缘的图像可以将其校正到尽可能的矩形的形态;计算函数为:

Ωr1=∑(|dx|+|dy|)e-dxdy

其中Ωr1表示第一阶段的计算函数;dx和dy为连续边缘点在x,y方向的增量;e为常数系数。

A2.初步字符识别反馈阶段

增加一项成串字符(即中心位置)的相对增量,构造新的目标函数,新目标函数两倍于第一阶段(A1.阶段)目标函数,计算函数Ωr2为:

Ωr2=Ωr1+2∑(|dx|+|dy|)e-dxdy

后续文字识别模块对于字符识别过程中存在难以识别的问题、初步识别结果不理想等,向图像校正模块输出再次处理的反馈建议信息,令图像校正模块通过该目标函数再次处理待识别图像,进行后续其他识别处理,以获得更为准确的识别结果。

A3.文字校正(字符识别并理解)反馈阶段

除了前二阶段的目标函数外,再度增加一项可理解的成串字符(中心位置)的相对增量,构造新的目标函数;新目标函数0.5倍于第一阶段(A1.阶段)目标函数,计算函数Ωr3为:

Ωr3=Ωr1r1+0.5∑(|dx|+|dy|)e-dxdy

文字校正模块在对字符识别理解后,向图像校正模块输出识别的结果并反馈再次处理的建议信息,令图像校正模块通过该目标函数再次处理待识别图像,进行后续其他识别处理,以获得更为准确的识别结果。

经过上述校正以后的图像,进行图像分层处理,利于提高图像处理效率。

所述字符定位模块对图像校正模块输出的待识别图像进行版面分析,实现文字定位;具体的,包括:

B1.首先将图像背景去除,表格线去除,然后将图像二值化;

待识别图像经过上述步骤的边缘化处理和校正后,识别出背景、表格线等内容,然后剔除;经过二值化处理呈现出明显的黑白效果,利于识别文字。

B2.对待识别图像进行模糊处理,获得充分模糊的图像;

本实施例中,模糊处理可以使用最简单的平均值算法,即相当于一个3*3的等值卷积核函数或者5*5等值卷积核函数,但不限于此,例如一般性的模糊核函数也可以。优选地,进行至少三次模糊处理后可以获得充分模糊的图像。

B3.识别图像上的待识别文字的中心位置;

记录模糊后的待识别图像中的最大值位置(默认文字部分已经翻转高亮过)以及最大值和周围平均值之差dp,按照差值dp大小顺序,选择出dp值最大的前n个这样的位置,n在10-999之间,对于不同的表格取值不同,根据实际情况确定;这些位置被作为图像中待识别文字的中心位置,对这些中心(通过坐标表示)进行序列化处理,在其周围进行神经网络滑窗处理来获得精确的图像字符位置。

B4.中心合并;

优选的,部分上述中心可能需要合并(中心坐标加和求平均),对于满足序列化要求的合并中心的对应位置合并后用于后续识别,由后续识别模块完成取舍。

B5.序列化处理后,连续序列头尾需要额外的增加两次的滑窗处理,以保障头尾不遗失特殊字符。

B6.在B3.阶段和B4.阶段中,可以获得后续处理模块(如字符识别和字符校正模块)反馈过来的额外信息,根据获得的反馈信息进行滑窗处理;

在B3.阶段和B4.阶段时,如果获取的反馈信息表示需要根据相应要求在对应的位置(如字符之前、字符之后、两字符之间等)重新进行字符定位,则对这些位置进行额外的滑窗处理,并给出最可能的多个位置。

B7.定位信息输出

字符(位置)定位后输出定位信息,其输出的数据包含字符区域id,位置[top,left,dx,dy]参数以及字符的可能性p,如p值为0.99表示很大可能为字符,0.10表示很小可能;还包含不同区域id的重叠积分S[id1,id2],如果被识别出两个汉字区域有重叠,即重叠积分大于零,则有两种可能:

1.确实仍然是两个汉字,只是因为打印的原因重叠在一起了;

2.并不是两个汉字,是因为划分区域的原因导致识别出了两个汉字;例如:“例”字,可能识别出例和列两个字,但这两个字的位置是重叠的。

本系统文字识别模块用于获取字符定位模块输出的待识别图像数据,进行字符识别。

进一步的,在文字识别模块对经过字符定位的图像数据进行文字识别时,存在难以识别或识别不理想的问题时,产生反馈信息并转至图像校正模块中进行A2.阶段处理,即再次重复预处理和字符定位后,进行字符识别,以提高识别精度。

进一步的,在文字识别模块进行文字识别时,识别出来字符存在定位错误,则产生反馈信息,并转至字符定位模块进行B3.或B4.程序处理,采用多轮模糊化后寻找极小值和极大值来确定文字位置范围,进行重新字符定位;然后再进行文字识别。

文字校正模块用于理解分析文字识别模块识别出的字符并输出。对于文字识别模块对字符的识别结果,如果待识别图像质量非常好的时候,理论上无需校正;但是对于打印出来的有污染的或者未完整输出的发票,各种表格文档,各种中英数字及符号文混排的文档等,其直接识别输出的识别结果正确率总是不能得到保障的,例如10.00可能将中间的10识别成lO,即英文字符L和O。这部分差错需要在字符校正模块中进行处理。

进一步的,文字校正模块进行文字校正时,其针对的图像数据未达到校正标准(即校正规则符合程度高于预设值),则产生反馈确信息(如确定的字符序列位置信息等),返回至图像校正模块中进行A3.阶段处理,重新调整优化图像整体校正,然后重复后续其他识别处理,以获得更为准确的识别结果。

进一步的,文字校正模块进行文字校正时,验证出字符定位误差或错误等问题的情况(如缺失一个或者两个字符),产生反馈信息(例如要求在前、中、后、上、下等适当位置进一步寻找新的字符位置)并转回至字符定位模块进行B3.或B4.程序处理,采用多轮模糊化后寻找极小值和极大值来确定文字位置范围,进行重新字符定位,识别,直至获得最终的OCR识别结果。

进一步的,文字校正模块进行文字校正时,验证文字识别错误一个或两个字符,反馈寻找信息,返回至字符识别模块,要求重新验证错误字符。

本发明系统文字校正模块对识别内容进行串行处理,串行目标函数最小化,误差小,输出结果精确度高。

本发明系统用于实施上述本发明的OCR图像识别方法,主要针对机打发票、各种表格、单证进行识别;当输入图片质量不高、打印差错严重,例如有严重的漏线导致字符某些像素缺失,又如打印位置叠加到其他字符上,打印污染,拖影等等,这些均会导致传统识别技术中的字符定位完全失效,字符识别错误百出,本发明系统会通过构建的模块、规则与模型,不断反馈重新定位字符位置范围,重新识别新的字符可能性,最终给出符合规则的最合理的OCR结果,因此识别效果较于通用OCR效果有很大提升。

特别的,根据本发明公开的实施例,其参考的附图(逻辑框图的功能模块、流程图的程序步骤)描述的结构可以被实现为计算机软件程序,例如上述公开的实施例中包括各模块的系统,其可以为承载在计算机可读介质上的计算机程序,该计算机程序包含用于实现附图结构中所示模块的功能的代码。

构建本发明系统的程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。构建出的所述OCR图像识别系统作为程序代码可以完全地在用户计算机/智能移动终端(如手机、pad等)上执行、部分地在用户计算机/智能移动终端(如手机、pad等)上执行、作为一个独立的软件包执行、部分在用户计算机/智能移动终端(如手机、pad等)上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机或智能移动终端,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于深度神经网络的文本检测目标提取关系的端到端方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!