一种增值税***信息的提取方法

文档序号:1490756 发布日期:2020-02-04 浏览:8次 >En<

阅读说明:本技术 一种增值税***信息的提取方法 (Method for extracting value-added tax invoice information ) 是由 罗中 宋爽 王君健 于 2019-11-04 设计创作,主要内容包括:本发明涉及一种增值税发票信息的提取方法,包括:首先,对发票图片进行预处理,使发票图片无旋转且方位正确,定位和识别发票监制章并根据发票监制章内容确定发票版式;然后,利用增值税发票的背景表格文字和打印内容的色调差异,从发票图片中提取蓝色调像素并二值化得到打印内容图片;接着,根据发票版式构造发票信息打印区域模板并利用模板对打印内容图片上的文本行进行区域匹配得到发票信息图片块;最后,对发票信息图片块进行文本识别以及综合分析得到发票信息提取结果。本发明所涉及的一种增值税发票信息提取方法相比于现有技术具有更好的容错性,对于发票打印内容和背景表格文字存在重叠干扰的情况,也能很好地进行发票信息提取。(The invention relates to a method for extracting value-added tax invoice information, which comprises the following steps: firstly, preprocessing an invoice picture to ensure that the invoice picture has no rotation and is correct in direction, positioning and identifying an invoice monitoring seal and determining an invoice format according to the content of the invoice monitoring seal; then, extracting blue hue pixels from the invoice picture and binarizing to obtain a print content picture by using the hue difference between the background table characters and the print content of the value-added tax invoice; then, constructing an invoice information printing area template according to the invoice format and carrying out area matching on text lines on the printed content picture by using the template to obtain an invoice information picture block; and finally, performing text recognition and comprehensive analysis on the invoice information picture block to obtain an invoice information extraction result. Compared with the prior art, the value-added tax invoice information extraction method has better fault tolerance, and can also well extract invoice information under the condition that the invoice printing content and background table characters have overlapping interference.)

一种增值税***信息的提取方法

技术领域

本发明涉及一种增值税***信息的提取方法,属于增值税***自动化处理领域。

背景技术

近年来,随着企业信息化的推进,越来越多的企业开始使用信息化系统来管理财务资料,其中,其中涉及到对***等票据的电子化。将***,具体包括企业接收到的别的企业开出的增值税普通***的***联以及增值税专用***的***联和抵扣联,进行电子化的传统方法是财务人员查阅纸质***,并手动将***上的***信息录入到信息化系统中,这种传统方法消耗大量人力也容易出现差错。

随着文本OCR识别等技术的应用,也出现了基于文本OCR识别技术对***信息进行自动识别和提取的方法。不过,在***识别这个问题上,由于大量***存在“打偏”的情况,***上的打印内容和***的背景表格文字存在重叠,这会造成干扰并大大降低了当前文本OCR识别技术对***信息进行自动识别的准确性,限制了***信息化应用的潜力。随着税务监管力度的加大,企业对***信息识别准确性的需求将显著提升,如何更准确地提取特别是存在打印位置偏差的***信息是急需解决的问题。

发明内容

为了解决上述问题,本发明提出一种增值税***信息的提取方法,能够快速、准确地从增值税***的扫描图片中提取***中的***代码、***号码、开票日期、购买方和销售方信息(名称、纳税人识别号、地址电话、开户行账号)、货物或服务(包括名称、规格型号、单位、数量、金额、税额)、***金额(合计)、***税额(合计)、开票人等各项***信息。

本发明提出的一种增值税***信息的提取算法,包括以下步骤:

步骤(1),***图片预处理,确定增值税***版式:获取增值税***的彩色扫描图片,并对图片进行预处理,得到无旋转且方位正确的预处理图片;识别***图片中的***监制章中,对***监制章中的省份名称进行识别,确定被处理***图片的增值税***版式;

步骤(2),提取***打印内容图片:利用增值税***的背景表格文字和***上的打印内容的色调差异,从预处理图片中提取蓝色的打印内容像素,并进行二值化处理得到打印内容图片;

步骤(3),构造模板,利用模板匹配并提取***信息项图片块:根据步骤(1)中确定的***版式构造***信息打印区域模板,利用模板对步骤(2)得到的***打印内容图片进行区域匹配,并提取匹配区域的图片块为***各信息项图片块;

步骤(4),识别***信息项内容:对步骤(3)得到的***各信息项图片块进行文本识别,并综合分析得到***的各项信息;结束。

进一步地,步骤(1)所述图片无旋转是指***图片中的背景表格中任意一条框线的方向为水平方向或者垂直方向,所述使图片无旋转的方法是识别图片中的直线,计算图片中最上方的一条直线(显然,该直线为扫描图片中***的背景表格框线中的一条)与水平方向顺时针夹角(该夹角的范围应该在-90度至90度之间),当该夹角不等于0时,将图片逆时针旋转该角度即可确保图片无旋转;步骤(1)所述使图片方位正确是指***图片中的***监制章的位置位于图片上方居中位置,在确保图片无旋转之后,采用物体识别技术定位图片中的***监制章,如果***监制章不在图片上方居中位置,则将图片顺时针旋转90度(当定位到的***监制章位于图片左侧垂直居中位置时)或者180度(当定位到的***监制章位于图片下方居中位置时)或者270度(当定位到的***监制章位于图片右侧垂直居中位置时),确保***图片方位正确;为了方便后续处理,将预处理图片中距离左右边界附近占图片宽度3%的部位的所有像素都替换为白色,以防止***扫描图片边界线附近的杂色像素对后续处理造成干扰;对定位到的***监制章进行文字识别,并在识别到的文字中匹配中国的省份(含直辖市、自治区)名称,根据匹配到的省份名称可以知道被处理***所属的省份以及***图片对应的***版式;记步骤(1)得到的图片为预处理图片。

进一步地,步骤(2)所述利用增值税***背景表格文字和打印内容的色调差异是指,如果被处理的***图片是增值税***的***联,则其背景表格文字的颜色为棕色(主色调偏红),***上的打印内容的颜色为蓝色(主色调为蓝色),又如果被处理的***图片是增值税***的抵扣联,则其背景表格文字的颜色为绿色(主色调为绿色),***上的打印内容的颜色为蓝色(主色调为蓝色),***背景表格文字的色调和打印内容的色调存在明显差异;利用***图片背景表格文字和打印内容的色调差异提取***上的打印内容是将步骤(1)得到的预处理图片转换为HSV颜色空间模型(或者HSL颜色空间模型),并创建一张同样大小的空白图片,并按照下列规则重置该新建图片中的每个像素:如果预处理图片中对应位置的像素的色调值H在数值范围(240度-delta,240度+delta)内(根据HSV或者HSL颜色空间模型的定义,当H=240度或者在240度附近时,颜色的色调为蓝色;delta是用于判断像素的颜色和“纯正”蓝色之间色调差异的阈值;通常,delta的取值在0度到60度之间)时,判断该像素为蓝色,认为该像素位于***图片中打印内容部分,并将该像素复制到新建图片中对应的位置;否则,判断该像素不是蓝色并认为该像素位于***图片中的空白部分或者背景表格文字部分,并将新建图片中对应位置的像素设置为白色;经过上述规则得到的新建图片中仅包含有(蓝色的)***打印内容;将该新建图片进行二值化处理;记步骤(2)得到的图片为打印内容图片。

进一步地,步骤(3)所述构造增值税***模板是指从步骤(1)得到的预处理图片中识别***图片中背景表格的外侧矩形边框,并利用步骤(1)确定的***版式中规定的***各项信息的打印区域相对于***背景表格矩形边框的相对位置,构造一张和预处理图片同样大小并包含有同样的背景表格边框以及分别标示***各信息项打印区域的***打印区域模板图片;对打印内容图片进行文本行定位,将打印内容图片和模板图片进行区域匹配(将打印内容图片和模板图片重叠,固定打印内容图片,上下左右移动模板图片,对模板图片和打印内容图片的相对位置进行微调),当模板文件中表示***信息项打印位置的矩形区域都覆盖到了打印内容图片中文本行时,从打印内容图片中把所有被矩形区域覆盖的图片块提取出来作为对应***信息项的图片块;显然,图片块中包含有单行或者多行文本内容。

进一步,步骤(4)所述对步骤(3)中获取的***信息项的图片块进行文字识别,如果某个***信息项的图片块识别到了多个文本行,则需要结合该***信息项的业务含义、构成规则、文本行在***图片中的字体大小和行高进行综合分析,可能需要对相邻的文本行进行合并或者将单行文本拆分为多条信息,以确定该***信息项的确切含义。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:

图1是一种增值税***信息的提取方法的流程图;

图2是需要提取信息的增值税***原始扫描图片的示意图;

图3是探测***扫描图片中最上方的一条直线的示意图;

LL是***扫描图片中识别到的最上方一条直线的示意说明;

图4是经过旋转和方位校正之后的预处理图片示意图;

SS是经过预处理的***图片中***监制章(位置)的示意说明;

图5是从***图片中提取的蓝色调打印内容二值化之后的打印内容图片示意图;

图6是利用确认到的***版式构造的增值税***信息打印区域模板示意图;

AA是构造的***信息打印区域模板图片中表示***背景表格边框位置的示意说明;

01是构造的***模板图片中表示***信息项“***代码、***号码”打印位置的示意说明;

02是构造的***模板图片中表示***信息项“开票日期”打印位置的示意说明;

03是构造的***模板图片中表示***信息项“购买方信息”打印位置的示意说明;

04是构造的***模板图片中表示***信息项“密码区”打印位置的示意说明;

05是构造的***模板图片中表示***信息项“货物或应税劳务、服务名称”打印位置的示意说明;

06是构造的***模板图片中表示***信息项“规格型号”打印位置的示意说明;

07是构造的***模板图片中表示***信息项“单位”打印位置的示意说明;

08是构造的***模板图片中表示***信息项“数量”打印位置的示意说明;

09是构造的***模板图片中表示***信息项“单价”打印位置的示意说明;

10是构造的***模板图片中表示***信息项“金额”打印位置的示意说明;

11是构造的***模板图片中表示***信息项“税率”打印位置的示意说明;

12是构造的***模板图片中表示***信息项“税额”打印位置的示意说明;

13是构造的***模板图片中表示***信息项“金额(合计)”打印位置的示意说明;

14是构造的***模板图片中表示***信息项“税额(合计)”打印位置的示意说明;

15是构造的***模板图片中表示***信息项“价税(大写)”打印位置的示意说明;

16是构造的***模板图片中表示***信息项“价税(小写)”打印位置的示意说明;

17是构造的***模板图片中表示***信息项“销售方信息”打印位置的示意说明;

18是构造的***模板图片中表示***信息项“备注”打印位置的示意说明;

19是构造的***模板图片中表示***信息项“收款人”打印位置的示意说明;

20是构造的***模板图片中表示***信息项“复核”打印位置的示意说明;

21是构造的***模板图片中表示***信息项“开票人”打印位置的示意说明;

图7是构造的附图6***模板上的***信息项打印区域和附图5***打印内容图片进行区域匹配的结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提出的一种增值税***信息的提取算法,包括以下步骤:

步骤(1),***图片预处理,确定增值税***版式:获取增值税***的彩色扫描图片,并对图片进行预处理,得到无旋转且方位正确的预处理图片;识别***图片中的***监制章中,对***监制章中的省份名称进行识别,确定被处理***图片的增值税***版式;

步骤(2),提取***打印内容图片:利用增值税***的背景表格文字和***上的打印内容的色调差异,从预处理图片中提取蓝色的打印内容像素,并进行二值化处理得到打印内容图片;

步骤(3),构造模板,利用模板匹配并提取***信息项图片块:根据步骤(1)中确定的***版式构造***信息打印区域模板,利用模板对步骤(2)得到的***打印内容图片进行区域匹配,并提取匹配区域的图片块为***各信息项图片块;

步骤(4),识别***信息项内容:对步骤(3)得到的***各信息项图片块进行文本识别,并综合分析得到***的各项信息;结束。

进一步地,在本具体实施例中,将结合一张增值税专用***的抵扣联的扫描图片(如附图2所示)对本算法的各步骤进行详细说明;需要强调的是,利用本发明提出的一种增值税***信息的提取方法,也可以提取除本具体实施例中提到***图片以外的其它增值税普通***的***联以及其它增值税专用***的***联和抵扣联图片中的***信息。在详细描述本发明的具体实施方法的各项步骤之前,这里先对具体实施例中所要处理的***扫描图片(如附图2所示)进行说明;可以看到,原始的***扫描图片(如附图2所示),由于打印偏差和扫描偏差等各方面原因,***的方位相对于正常阅读的方位有旋转,并且***上的打印内容存在打偏、部分打印内容和***背景表格文字有重叠影响***查看的情况;通过下面对具体实施例的详细说明,可以看到本发明提出的一种增值税***信息的提取方法可以很好地应对上述打印偏差和扫描偏差对***信息识别和提取造成的干扰。

进一步地,步骤(1)所述使图片无旋转的方法是识别图片中的直线(在图片中识别直线属于现有技术,在此不做赘述),计算图片最上方的一条直线(显然,该直线为扫描图片中***的背景表格框线中的一条)与水平方向顺时针夹角(该夹角的范围应该在-90度至90度之间),当该夹角不等于0时,将图片逆时针旋转该角度即可确保图片无旋转(即消除了***打印或者扫描时纸张方向的微小旋转角度);在本例中,***图片中识别到的最上方的一条直线(如附图3中的标号LL所示)与水平方向顺时针夹角为-3度,因此将***图片逆时针旋转-3度,即可保证***图片无旋转;步骤(1)使图片方位正确是指***图片中增值税***的***监制章的位置位于图片上方居中位置;采用物体识别技术定位***图片的中的***监制章(在图片中定位特定物体的技术属于现有技术,在此不做赘述),可以发现,***监制章位于***图片左侧垂直居中位置,将***图片顺时针旋转90度,即可确保***图片方位正确,此时***监制章位于图片上方居中位置(如附图4中的标号SS所示);将***图片中距离左右边界附近占图片宽度3%的部位的所有像素都替换为白色,以防止***图片边界附近的杂色像素对后续处理造成干扰;对***图片中的***监制章进行文字识别(对***监制章部位的图片进行文字识别属于现有技术,在此不做赘述),并从识别到的文字中匹配中国的省份(含直辖市、自治区)名称,这张***的***监制章的文字中可以匹配到“广东”两个字,因此可以知道这张***是广东省的增值税***,在后面构建模板时就可以采用广东省增值税***的版式进行构建;原始的***扫描图片(如附图2所示)经过步骤(1)处理之后得到预处理图片(如附图4所示);需要说明的是,原始***扫描图片和预处理图片都是彩色图片。

进一步地,步骤(2)所述利用增值税***背景表格文字和打印内容的色调差异提取***图片中的打印内容,本实施例中被处理的***图片是增值税专用***的抵扣联,其背景表格文字的颜色为绿色(主色调为绿色),***监制章和销售方***专用章为红色(主色调为红色),***上的打印内容为蓝色(主色调为蓝色),***背景表格文字(包括***章)的色调和打印内容的色调存在明显差异;将预处理图片(如附图4所示)转换为HSV颜色空间模型(或者HSL颜色空间模型;将图片转换为HSV或者HSL颜色空间模型属于现有技术,在此不做赘述),并创建一张同样大小的空白图片,并按照下列规则重置该新建图片中的每个像素:如果预处理图片中对应位置的像素的色调值H在数值范围(240度-delta,240度+delta)内(通常,delta的取值在0度到60度之间;这里取delta=40度)时,判断该像素为蓝色、认为该像素位于***图片中打印内容部分,并将该像素复制到新建图片中对应的位置;否则,判断该像素不是蓝色、认为该像素位于***图片中的空白部分或者背景表格文字部分,并将新建图片中对应位置的像素设置为白色;经过上述规则得到的新建图片中仅包含有(蓝色的)***打印内容;将该新建图片进行二值化处理得到黑白的打印内容图片(如附图5所示;将彩色图片二值化处理属于现有技术,在此不做赘述)。

进一步地,步骤(3)所述构造增值税***模板是指从步骤(1)得到的预处理图片(如附图4所示)中识别***图片中背景表格的外侧矩形边框(在图片中识别矩形属于现有技术,在此不做赘述),并利用广东省增值税***版式(步骤(1)确定了***图片的版式为广东省增值税***版式)中对***各项信息的打印区域相对于表格矩形边框位置的规定,构造一张和预处理图片同样大小并包含有同样大小、位置的背景表格边框以及分别表示***各项信息打印矩形区域的***信息打印区域模板图片(如附图6所示;简称模板图片或模板;附图6中的标号01~21分别表示各项***信息的打印区域);对打印内容图片进行文本行定位(在图片中定位文本行属于现有技术,在此不做赘述),将打印内容图片(如附图5所示)和模板图片(如附图6所示)进行区域匹配(将打印内容图片和模板图片重叠,固定打印内容图片,上下左右移动模板图片,对模板图片和打印内容图片的相对位置进行微调),当模板图片中表示***各信息项打印位置的矩形区域(如附图6中的标号01~21除06、07、18等标号所示的区域)都覆盖到了打印内容图片中定位到的文本行时(模板图片中的打印区域和打印内容图片中的文本行完全匹配的效果如附图7所示),从打印内容图片中把所有被矩形区域覆盖的图片块提取出来作为对应***信息项的图片块;显然,图片块中仅包含有***上打印的单行或者多行文本。

进一步,步骤(4)所述对步骤(3)中获取的***信息项的图片块(见附图7中的各矩形框区域)进行文字识别(对仅包含文本行的图片进行单行或者多行文字进行识别属于现有技术,在此不做赘述),得到如下初步结果:

对上述初步结果结合对应***信息项的业务含义、构成规则、文本行在***图片块中的字体大小和行高进行综合分析可以得到各***项的确切内容,具体分析过程如下:

***模板图片中标号01位置的图片块对应***信息中***代码、***号码的打印内容,***图片该位置的图片块识别出了2个文本行,文本行1中包含两个字体大小差异非常大的数字串,因此可以认为应该将文本行1拆分为2个数字串,文本行2中包含和文本行1中第一个数字串相同的数字串,结合***代码和***号码的业务含义,分析可以得到09650503为***号码,4400161130为***代码;

***模板图片中标号03位置的图片块对应***信息中购买方信息的打印内容,***图片该位置的图片块识别出5个文本行,其中文本行3和文本行4的字体相对于其他文本行的字体行高小很多,因此可以认为这2个文本行原本是一行文字因为字数较多所以打印的时候被拆分为两行并缩小了字体,应该将这2个文本行合并为1个文本行,合并之后共4个文本行,分别对应购买方信息中的名称、纳税人识别号、地址电话、开户行账号的内容,进一步地,这4项内容分别为北京亿信华辰软件有限责任公司、110108795109682、北京市海淀区西小口路66号中关村东升科技园B-2号楼五层A502室62956995、招商银行北京分行世纪城支行110902496210201;

***模板图片中标号04位置的图片块对应***信息中密码区的打印内容,***图片该位置的图片块识别出4个文本行,因为密码区只有一条密码信息,因此应该将这4行文本合并,得到***密码的内容;

***模板图片中标号05、08、09、10、11、12位置分别对应***信息中购买货物或服务名称、数量、单价、金额、税率、税额的打印内容,由于***图片这6个位置的图片块都识别到了2个文本行,分析可以知道该***中包含2个商品或应税劳务的购买信息,因此,商品或应税劳务1和商品或应税劳务2的名称、数量、单价、金额、税率、税额分别为房费、1、243.68932039、243.69、3%、7.31和房费、1、77.669902913、77.67、3%、2.33;

***模板图片中标号17位置的图片块对应***信息中销售方信息的打印内容,***图片该位置的图片块识别出4个文本行,分别对应销售方信息中的名称、纳税人识别号、地址电话、开户行账号的内容广州市洛芙特酒店有限公司、440103587609981、广州市荔湾区信义路13号 B1807055、中国建设银行广州荔湾支行 44001460802053002577。

经过上述综合分析之后,可以得到***扫描图片上的***信息最终提取结果,如下:

Figure 644630DEST_PATH_IMAGE002

***信息提取结束。

利用本发明提出的一种增值税***信息的提取算法,可以实现如下技术效果:

1.提高了增值税***信息采集的效率。利用高速扫描仪等扫描设备可以连续快速成批采集增值税***图片,这些***被扫描之后可以立刻利用本发明提出的方法进行处理,提取的***信息可以保存到数据库以备后续应用;

2.提高了提取增值税***信息的准确性。由于企业在开具增值税***使用的打印设备型号多样、打印设置和打印方式千差万别、***扫描使用的扫描仪型号多样、***扫描操作因人而异,开具增值税***时大量***的打印内容存在“打偏”的情况,***上的打印内容和背景表格文字有重叠,导致人工查看***录入***内容或者使用现有的文本OCR识别技术对***内容进行识别提取时准确性不高的现状。本发明提出的一种增值税***信息的提取方法,利用增值税***背景表格文字和打印内容的色调差异,可以从***图片中完美提取***打印内容,消除了***打印、扫描过程中产生的偏差对***内容识别和信息提取造成的负面影响,提高了从增值税***扫描图片中提取增值税***信息的准确性。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种自动求解数学题的方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!