文本图像角度纠偏方法、装置及计算机可读存储介质

文档序号:1545166 发布日期:2020-01-17 浏览:3次 >En<

阅读说明:本技术 文本图像角度纠偏方法、装置及计算机可读存储介质 (Text image angle deviation rectifying method and device and computer readable storage medium ) 是由 王博 于 2019-09-06 设计创作,主要内容包括:本发明涉及一种人工智能技术,揭露了一种文本图像角度纠偏方法,包括获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像;通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到二值拷贝图像;对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图集;计算所述频数投影直方图集的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,从而完成对所述文本图像的角度纠偏。本发明还提出一种文本图像角度纠偏装置以及一种计算机可读存储介质。本发明实现了文本图像角度的精准纠偏。(The invention relates to an artificial intelligence technology, and discloses a text image angle deviation rectifying method, which comprises the steps of obtaining a text image, and carrying out preprocessing operation on the text image to obtain a binary text image; detecting a skewed text in the binary text image through an iterative algorithm to obtain a skewed text image, and cutting the skewed text image to obtain a binary copy image; the binary copy image is rotated progressively, and the binary copy image after progressive rotation is converted into a frequency projection histogram set; and calculating the standard deviation of the peak top point and the peak valley point of the frequency projection histogram set to obtain a standard deviation set, and taking the maximum standard deviation in the standard deviation set as the deviation correction angle of the text image, thereby completing the angle deviation correction of the text image. The invention also provides a text image angle deviation rectifying device and a computer readable storage medium. The invention realizes the accurate correction of the text image angle.)

文本图像角度纠偏方法、装置及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于投影的文本图像角度纠偏方法、装置及计算机可读存储介质。

背景技术

光学字符识别技术在当前社会已有极其广泛的应用场景。所述光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文字的过程,其主要过程为输入图像并进行预处理、二值化处理、去噪、字符切割和字符识别,现今大部分OCR算法基于决策树和支持向量机(Support Vector Machine,SVM)实现的,其识别的精度对于字符的偏转非常敏感,然而文本图像的采集很难做到零偏转,如需精确的计算出纠偏角度也存在一定难度。

发明内容

本发明提供一种文本图像角度纠偏方法、装置及计算机可读存储介质,其主要目的在于当用户在知识库中进行文本图像角度纠偏时,给用户呈现出精准的纠偏结果。

为实现上述目的,本发明提供的一种文本图像角度纠偏方法,包括:

获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像;

通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到二值拷贝图像;

对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集;

计算所述频数投影直方图集的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,从而完成对所述文本图像的角度纠偏。

可选地,所述对所述文本图像进行预处理操作,得到二值化文本图像,包括:

通过自适应图像降噪滤波器对所述文本图像进行降噪,利用对比度拉伸方式对降噪后的所述文本图像进行对比度增强,根据OTSU算法将对比度增强后的所述文本图像进行阈值化操作,得到所述二值化文本图像。

可选地所述将递进旋转后的所述二值拷贝图像转换为频数投影直方图,包括:

对递进旋转后的所述二值拷贝图像进行傅里叶变换;

计算出进行傅里叶变换后的所述二值拷贝图像的幅度谱和相位谱;

根据所述幅度谱和相位谱,构建所述频数投影直方图。

可选地,所述傅里叶变换的方法包括:

Figure BDA0002194256070000021

对其进行变换为:

Figure BDA0002194256070000022

其中,u=0,1,2,3...M-1;v=0,1,2,3...N-1;x=0,1,2,3...M-1;y=0,1,2,3...N-1;M、N分别为所述二值拷贝图像中长和宽像素点个数,x、y为空间坐标点,f(x,y)为所述二值拷贝图像空间域采样值,F(u,v)为所述二值拷贝图像傅里叶变换域采样值,u、v为变换域坐标点。

可选地,所述计算所述频数投影直方图集中的峰顶点与峰谷点的标准差的方法包括:

Figure BDA0002194256070000023

其中,σ表示频数投影直方图的标准差,xi表示频数投影直方图中第i个峰顶点,n表示频数投影直方图中峰顶点的数量,yj表示频数投影直方图中第i个峰谷点,m表示频数投影直方图中峰谷点的数量,μ为所有峰顶点和峰谷点的均值。

此外,为实现上述目的,本发明还提供一种文本图像角度纠偏装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的文本图像角度纠偏程序,所述文本图像角度纠偏程序被所述处理器执行时实现如下步骤:

获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像;

通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到二值拷贝图像;

对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集;

计算所述频数投影直方图集的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,从而完成对所述文本图像的角度纠偏。

可选地,所述对所述文本图像进行预处理操作,得到二值化文本图像,包括:

通过自适应图像降噪滤波器对所述文本图像进行降噪,利用对比度拉伸方式对降噪后的所述文本图像进行对比度增强,根据OTSU算法将对比度增强后的所述文本图像进行阈值化操作,得到所述二值化文本图像。

可选地所述将递进旋转后的所述二值拷贝图像转换为频数投影直方图,包括:

对递进旋转后的所述二值拷贝图像进行傅里叶变换;

计算出进行傅里叶变换后的所述二值拷贝图像的幅度谱和相位谱;

根据所述幅度谱和相位谱,构建所述频数投影直方图。

可选地,所述傅里叶变换的方法包括:

Figure BDA0002194256070000031

对其进行变换为:

Figure BDA0002194256070000032

其中,u=0,1,2,3…M-1;v=0,1,2,3…N-1;x=0,1,2,3…M-1;y=0,1,2,3…N-1;M、N分别为所述二值拷贝图像中长和宽像素点个数,x、y为空间坐标点,f(x,y)为所述二值拷贝图像空间域采样值,F(u,v)为所述二值拷贝图像傅里叶变换域采样值,u、v为变换域坐标点。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文本图像角度纠偏程序,所述文本图像角度纠偏程序可被一个或者多个处理器执行,以实现如上所述的文本图像角度纠偏方法的步骤。

本发明提出的文本图像角度纠偏方法、装置及计算机可读存储介质,在用户进行文本图像角度纠偏时,对获取的文本图像进行预处理操作,并将文本图像中的倾斜文本图像进行分析处理,得到其频数投影直方图集,计算所述频数投影直方图集的峰顶点与峰谷点的标准差,将其最大标准差作为所述文本图像的纠偏角度,从而可以给用户呈现出精准的文本图像角度纠偏结果。

附图说明

图1为本发明一实施例提供的文本图像角度纠偏方法的流程示意图;

图2为本发明一实施例提供的文本图像角度纠偏装置的内部结构示意图;

图3为本发明一实施例提供的文本图像角度纠偏装置中文本图像角度纠偏程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种文本图像角度纠偏方法。参照图1所示,为本发明一实施例提供的文本图像角度纠偏方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,文本图像角度纠偏方法包括:

S1、获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像。

本发明较佳实施例中,所述文本图像可以为证件、***等图像数据。所述预处理操作为:通过自适应图像降噪滤波器对所述文本图像进行降噪,利用对比度拉伸方式对降噪后的所述文本图像进行对比度增强,根据OTSU算法将对比度增强后的所述文本图像进行阈值化操作,得到所述二值化文本图像。详细地,所述预处理操作具体实施步骤如下所示:

a.降噪:

本发明通过自适应图像降噪滤波器对所述文本图像进行降噪,用于滤除所述文本图像的椒盐噪声,并可以很大程度的保护所述文本图像的细节。其中,所述椒盐噪声是图像中一种随机出现的白点或黑点,所述自适应图像降噪滤波器是信号抽取器,用于从被噪声污染的信号中抽取原来的信号。

本发明较佳实施例通过预设所述文本图像为f(x,y),在退化函数H的作用下,由于受到椒盐噪声η(x,y)的影响,得到一个退化图像g(x,y)。于是,得到图像退化公式:g(x,y)=η(x,y)+f(x,y),并利用Adaptive Filter方法对所述文本图像进行降噪,其中,所述降噪的计算公式为:

Figure BDA0002194256070000051

其中,是文本图像的噪声方差,

Figure BDA0002194256070000053

是点(x,y)附近的一个窗口内的像素灰度均值,是点(x,y)附近一个窗口内的像素灰度的方差。

b.对比度增强:

所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到文本图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸。

进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:

Db=f(Da)=a*Da+b

其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。

c.图像阈值化操作:

本发明通过OTSU算法将对比度增强后的所述文本图像进行二值化的高效算法,得到二值化图像。进一步地,本发明较佳实施例预设灰度t为对比度增强后的所述文本图像的前景与背景的分割阈值,并预设前景点数占对比度增强后的所述文本图像比例为w0,平均灰度为u0;背景点数占对比度增强后的所述文本图像比例为w1,平均灰度为u1,则对比度增强后的所述文本图像的总平均灰度为:

u=w0*u0+w1*u1

其中,对比度增强后的所述文本图像的前景和背景图象的方差为:

g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),

其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述文本图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,得到对比度增强后的所述文本图像的二值化文本图像。

进一步地,本发明所述预处理操作还可以包括通过主成分分析法对所述二值化文本图像进行降维,使所述二值化文本图像能够被更高效处理。其中,所述主成分分析法是一种通过正交变换将一组可能存在相关性的变量为一组线性不相关变量的方法。

S2、通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行提取,得到二值拷贝图像。

本发明较佳实施例通过AdaBoost迭代算法检测所述二值化文本图像中偏斜的文本,到偏斜文本图像。所述AdaBoost迭代算法是一种检测算法,其核心是迭代,其针对不同的训练集构造出的一个弱分类器,并将每一个基弱分类器组合到一起,形成一个最终的强分类器。所述AdaBoost迭代算法的实现是通过调整数据分布,其依据判断每一次训练集当中每一个样本分类的正确性,以及上次样本总体分类的准确率,来设置每一个样本的权值。而新得到的权值将作为下层分类器训练的数据集,然后将每一次训练出的分类器组合起来,形成最终的决策分类器。

本发明将所述二值化文本图像中不同区域进行划分,得到训练样本(x1,y1),(x2,y2),…(xn,yn),其中,负样本(背景)用yi=0来表示,正样本(前景,即包含偏斜文本)用yi=1来表示。优选地,本发明构建的弱分类器为:

Figure BDA0002194256070000071

其中,f为特征,θ为阈值,p指示不等号的方向,x表示一个检测子窗口。通过对所述构建的弱分类器进行集合,并对所述构建的弱分类器中分类最小错误率εt的最佳弱分类器ht(x)进行选取,所述εt的计算公式为:

εt=minf,p,θi(wi/∑wi)|h(x,f,p,θ)-yi|,

其中,w为特征权值,得到最终的强分类器:

Figure BDA0002194256070000072

βt=εt/(1-εt)。

进一步地,本发明通过级联分类器的方式检测出所述二值化文本图像中偏斜的文本。所述级联分类器就是将所述训练得到的强分类器通过级联的方式组成一个文本检测级联分类器,所述级联分类器是一个退化的决策树。在级联分类器中,第2层分类器分类是由第1层分类得到的正样本触发的,第3层分类器分类是由第2层分类得到的正样本触发的,依次类推。最终检测到一般环境下所述二值化文本图像中的所有偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到所述二值拷贝图像。

S3、对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集。

本发明较佳实施例按照预设的角度对二值拷贝图进行递进旋转,优选地,本发明将在-45°至45°之间以2°为单位对上述二值拷贝图进行递进旋转,并在每一次递进旋转后计算所述二值拷贝图像中长和宽像素点的个数。

进一步地,本发明通过傅里叶变换算法将递进旋转后的所述二值拷贝图像转换为频数投影直方图。详细的,所述傅里叶变换的方法包括:

Figure BDA0002194256070000073

对其进行变换为:

Figure BDA0002194256070000081

其中,u=0,1,2,3...M-1;v=0,1,2,3...N-1;x=0,1,2,3...M-1;y=0,1,2,3...N-1;M、N分别为所述二值拷贝图像中长和宽像素点个数,x、y为空间坐标点,f(x,y)为所述二值拷贝图像空间域采样值,F(u,v)为所述二值拷贝图像傅里叶变换域采样值,u、v为变换域坐标点。其中,当所述二值拷贝图像真列为方阵时,则M=N。F(u,v)称为所述二值拷贝图像信号f(x,y)的频谱,并分别计算出所述进行傅里叶变换后的二值拷贝图像幅度谱和相位谱:

Figure BDA0002194256070000082

Figure BDA0002194256070000083

其中,F(u,v)=R(u,v)+jI(u,v)=|F(u,v)|ejφ(u,v),|F(u,v)|表示所述二拷贝图像幅度谱,φ(u,v)表示所述二值拷贝图像相位谱。

进一步地,本发明根据所述计算的二值拷贝图像的幅度谱和相位谱,构建频数投影直方图,并根据所述二值拷贝图像递进旋转的角度不同,可以得到不同的频数投影直方图,即所述二值拷贝图像的频数投影直方图集。

S4、计算所述频数投影直方图集中的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,完成所述文本图像的角度纠偏。

本发明较佳实施例中,计算所述频数投影直方图集中的峰顶点与峰谷点的标准差的方法为:

Figure BDA0002194256070000084

其中,σ表示频数投影直方图的标准差,xi表示频数投影直方图中第i个峰顶点,n表示频数投影直方图中峰顶点的数量,yi表示频数投影直方图中第i个峰谷点,m表示频数投影直方图中峰谷点的数量,μ为所有峰顶点和峰谷点的均值。所求标准差反映了峰谷点和峰顶点之间的离散程度。

进一步地,本发明计算出所述频数投影直方图集中所有直方图的标准差,得到标准差集,并根据文本图像的结构特点,得到当标准差最大时即为所述文本图像纠正后的最佳方位,得到所述文本图像纠偏角度,并按照所述纠偏角度对原始图像进行旋转矫正。

发明还提供一种文本图像角度纠偏装置。参照图2所示,为本发明一实施例提供的文本图像角度纠偏装置的内部结构示意图。

在本实施例中,所述文本图像角度纠偏装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该文本图像角度纠偏装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是文本图像角度纠偏装置1的内部存储单元,例如该文本图像角度纠偏装置1的硬盘。存储器11在另一些实施例中也可以是文本图像角度纠偏装置1的外部存储设备,例如文本图像角度纠偏装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括文本图像角度纠偏装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于文本图像角度纠偏装置1的应用软件及各类数据,例如文本图像角度纠偏程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行文本图像角度纠偏程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。

可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在文本图像角度纠偏装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及文本图像角度纠偏程序01的文本图像角度纠偏装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对文本图像角度纠偏装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

在图2所示的装置1实施例中,存储器11中存储有文本图像角度纠偏程序01;处理器12执行存储器11中存储的文本图像角度纠偏程序01时实现如下步骤:

步骤一、获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像。

本发明较佳实施例中,所述文本图像可以为证件、***等图像数据。所述预处理操作为:通过自适应图像降噪滤波器对所述文本图像进行降噪,利用对比度拉伸方式对降噪后的所述文本图像进行对比度增强,根据OTSU算法将对比度增强后的所述文本图像进行阈值化操作,得到所述二值化文本图像。详细地,所述预处理操作具体实施步骤如下所示:

d.降噪:

本发明通过自适应图像降噪滤波器对所述文本图像进行降噪,用于滤除所述文本图像的椒盐噪声,并可以很大程度的保护所述文本图像的细节。其中,所述椒盐噪声是图像中一种随机出现的白点或黑点,所述自适应图像降噪滤波器是信号抽取器,用于从被噪声污染的信号中抽取原来的信号。

本发明较佳实施例通过预设所述文本图像为f(x,y),在退化函数H的作用下,由于受到椒盐噪声η(x,y)的影响,得到一个退化图像g(x,y)。于是,得到图像退化公式:g(x,y)=η(x,y)+f(x,y),并利用Adaptive Filter方法对所述文本图像进行降噪,其中,所述降噪的计算公式为:

Figure BDA0002194256070000101

其中,

Figure BDA0002194256070000102

是文本图像的噪声方差,

Figure BDA0002194256070000103

是点(x,y)附近的一个窗口内的像素灰度均值,

Figure BDA0002194256070000104

是点(x,y)附近一个窗口内的像素灰度的方差。

e.对比度增强:

所述对比度指的是成像系统中亮度最大值与最小值之间的对比,其中,对比度低会使图像处理难度增大。本发明较佳实施例中采用的是对比度拉伸方法,利用提高灰度级动态范围的方式,达到文本图像对比度增强的目的。所述对比度拉伸也叫作灰度拉伸。

进一步地,本发明根据所述对比度拉伸方法中的分段线性变换函数对特定区域进行灰度拉伸,进一步提高输出图像的对比度。当进行对比度拉伸时,本质上是实现灰度值变换。本发明通过线性拉伸实现灰度值变换,所述线性拉伸指的是输入与输出的灰度值之间为线性关系的像素级运算,灰度变换公式如下所示:

Db=f(Da)=a*Da+b

其中a为线性斜率,b为在Y轴上的截距。当a>1时,此时输出的图像对比度相比原图像是增强的。当a<1时,此时输出的图像对比度相比原图像是削弱的,其中Da代表输入图像灰度值,Db代表输出图像灰度值。

f.图像阈值化操作:

本发明通过OTSU算法将对比度增强后的所述文本图像进行二值化的高效算法,得到二值化图像。进一步地,本发明较佳实施例预设灰度t为对比度增强后的所述文本图像的前景与背景的分割阈值,并预设前景点数占对比度增强后的所述文本图像比例为w0,平均灰度为u0;背景点数占对比度增强后的所述文本图像比例为w1,平均灰度为u1,则对比度增强后的所述文本图像的总平均灰度为:

u=w0*u0+w1*u1

其中,对比度增强后的所述文本图像的前景和背景图象的方差为:

g=w0*(u0-u)*(u0-u)+w1*(u1-u)*(u1-u)=w0*w1*(u0-u1)*(u0-u1),

其中,当方差g最大时,则此时前景和背景差异最大,此时的灰度t为最佳阈值,并将对比度增强后的所述文本图像中大于所述灰度t的灰度值设置为255,小于所述灰度t的灰度值设置为0,得到对比度增强后的所述文本图像的二值化文本图像。

进一步地,本发明所述预处理操作还可以包括通过主成分分析法对所述二值化文本图像进行降维,使所述二值化文本图像能够被更高效处理。其中,所述主成分分析法是一种通过正交变换将一组可能存在相关性的变量为一组线性不相关变量的方法。

步骤二、通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行提取,得到二值拷贝图像。

本发明较佳实施例通过AdaBoost迭代算法检测所述二值化文本图像中偏斜的文本,到偏斜文本图像。所述AdaBoost迭代算法是一种检测算法,其核心是迭代,其针对不同的训练集构造出的一个弱分类器,并将每一个基弱分类器组合到一起,形成一个最终的强分类器。所述AdaBoost迭代算法的实现是通过调整数据分布,其依据判断每一次训练集当中每一个样本分类的正确性,以及上次样本总体分类的准确率,来设置每一个样本的权值。而新得到的权值将作为下层分类器训练的数据集,然后将每一次训练出的分类器组合起来,形成最终的决策分类器。

本发明将所述二值化文本图像中不同区域进行划分,得到训练样本(x1,y1),(x2,y2),…(xn,yn),其中,负样本(背景)用yi=0来表示,正样本(前景,即包含偏斜文本)用yi=1来表示。优选地,本发明构建的弱分类器为:

Figure BDA0002194256070000121

其中,f为特征,θ为阈值,p指示不等号的方向,x表示一个检测子窗口。通过对所述构建的弱分类器进行集合,并对所述构建的弱分类器中分类最小错误率εt的最佳弱分类器ht(x)进行选取,所述εt的计算公式为:

εt=minf,p,θi(wi/∑wi)|h(x,f,p,θ)-yi|,

其中,w为特征权值,得到最终的强分类器:

Figure BDA0002194256070000122

βt=εt/(1-εt)。

进一步地,本发明通过级联分类器的方式检测出所述二值化文本图像中偏斜的文本。所述级联分类器就是将所述训练得到的强分类器通过级联的方式组成一个文本检测级联分类器,所述级联分类器是一个退化的决策树。在级联分类器中,第2层分类器分类是由第1层分类得到的正样本触发的,第3层分类器分类是由第2层分类得到的正样本触发的,依次类推。最终检测到一般环境下所述二值化文本图像中的所有偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到所述二值拷贝图像。

步骤三、对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集。

本发明较佳实施例按照预设的角度对二值拷贝图进行递进旋转,优选地,本发明将在-45°至45°之间以2°为单位对上述二值拷贝图进行递进旋转,并在每一次递进旋转后计算所述二值拷贝图像中长和宽像素点的个数。

进一步地,本发明通过傅里叶变换算法将递进旋转后的所述二值拷贝图像转换为频数投影直方图。详细的,所述傅里叶变换的方法包括:

Figure BDA0002194256070000131

对其进行变换为:

Figure BDA0002194256070000132

其中,u=0,1,2,3...M-1;v=0,1,2,3...N-1;x=0,1,2,3...M-1;y=0,1,2,3...N-1;M、N分别为所述二值拷贝图像中长和宽像素点个数,x、y为空间坐标点,f(x,y)为所述二值拷贝图像空间域采样值,F(u,v)为所述二值拷贝图像傅里叶变换域采样值,u、v为变换域坐标点。其中,当所述二值拷贝图像真列为方阵时,则M=N。F(u,v)称为所述二值拷贝图像信号f(x,y)的频谱,并分别计算出所述进行傅里叶变换后的二值拷贝图像幅度谱和相位谱:

Figure BDA0002194256070000133

Figure BDA0002194256070000134

其中,F(u,v)=R(u,v)+jI(u,v)=|F(u,v)|e(u,v),|F(u,v)|表示所述二拷贝图像幅度谱,φ(u,v)表示所述二值拷贝图像相位谱。

进一步地,本发明根据所述计算的二值拷贝图像的幅度谱和相位谱,构建频数投影直方图,并根据所述二值拷贝图像递进旋转的角度不同,可以得到不同的频数投影直方图,即所述二值拷贝图像的频数投影直方图集。

步骤四、计算所述频数投影直方图集中的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,完成所述文本图像的角度纠偏。

本发明较佳实施例中,计算所述频数投影直方图集中的峰顶点与峰谷点的标准差的方法为:

Figure BDA0002194256070000141

其中,σ表示频数投影直方图的标准差,xi表示频数投影直方图中第i个峰顶点,n表示频数投影直方图中峰顶点的数量,yj表示频数投影直方图中第i个峰谷点,m表示频数投影直方图中峰谷点的数量,μ为所有峰顶点和峰谷点的均值。所求标准差反映了峰谷点和峰顶点之间的离散程度。

进一步地,本发明计算出所述频数投影直方图集中所有直方图的标准差,得到标准差集,并根据文本图像的结构特点,得到当标准差最大时即为所述文本图像纠正后的最佳方位,得到所述文本图像纠偏角度,并按照所述纠偏角度对原始图像进行旋转矫正。

可选地,在其他实施例中,文本图像角度纠偏程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述文本图像角度纠偏程序在文本图像角度纠偏装置中的执行过程。

例如,参照图3所示,为本发明文本图像角度纠偏装置一实施例中的文本图像角度纠偏程序的程序模块示意图,该实施例中,所述文本图像角度纠偏程序可以被分割为文本图像预处理模块10、文本图像检测模块20、图像转换模块30以及计算模块40,示例性地:

所述文本图像预处理模块10用于:获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像。

所述文本图像检测模块20用于:通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到二值拷贝图像。

所述图像转换模块30用于:对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集。

所述计算模块40用于:计算所述频数投影直方图集的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,从而完成对所述文本图像的角度纠偏。

上述文本图像预处理模块10、文本图像检测模块20、图像转换模块30以及计算模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文本图像角度纠偏程序,所述文本图像角度纠偏程序可被一个或多个处理器执行,以实现如下操作:

获取文本图像,对所述文本图像进行预处理操作,得到二值化文本图像;

通过迭代算法检测所述二值化文本图像中偏斜的文本,得到偏斜文本图像,并对所述偏斜文本图像进行裁剪,得到二值拷贝图像;

对所述二值拷贝图像进行递进旋转,将递进旋转后的所述二值拷贝图像转换为频数投影直方图,根据所述二值拷贝图像的递进旋转的角度,得到所述二值拷贝图像的频数投影直方图集;

计算所述频数投影直方图集的峰顶点与峰谷点的标准差,得到标准差集,将所述标准差集中最大标准差作为所述文本图像的纠偏角度,从而完成对所述文本图像的角度纠偏。

本发明计算机可读存储介质具体实施方式与上述文本图像角度纠偏装置和方法各实施例基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:图像内文字识别方法、装置及计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!