一种智能识别表格报价图片并处理成标准数据的方法

文档序号:1964288 发布日期:2021-12-14 浏览:16次 >En<

阅读说明:本技术 一种智能识别表格报价图片并处理成标准数据的方法 (Method for intelligently identifying form quotation picture and processing form quotation picture into standard data ) 是由 李锦亮 于 2021-09-07 设计创作,主要内容包括:本发明为一种智能识别表格报价图片并处理成标准数据的方法,包括以下步骤:步骤一,特征识别,步骤二,获取数据,步骤三,数据整理,步骤四,数据优化,步骤五,数据标准化,步骤六,数据核对,本发明基于脚本的目标格式转换;表格校正去噪,弥补阿里OCR接口识别异常问题,使表格报价图片数据达到90%左右的准确率,再配合人工核对、调整,达到100%准确率;能够将数据映射成标准化数据;供应商、格式、存储过程配置化,支持不同的处理,拓展方便。(The invention relates to a method for intelligently identifying a form quotation picture and processing the form quotation picture into standard data, which comprises the following steps: step one, feature identification, step two, data acquisition, step three, data arrangement, step four, data optimization, step five, data standardization, step six, data verification, and target format conversion based on scripts; the form is corrected and denoised, the problem of abnormal recognition of an Ali OCR interface is solved, the accuracy of the form quotation image data is about 90%, and the accuracy of 100% is achieved by matching with manual checking and adjustment; the data can be mapped to standardized data; the configuration of suppliers, formats and storage processes supports different processing, and the expansion is convenient.)

一种智能识别表格报价图片并处理成标准数据的方法

技术领域

本发明涉及数据识别技术领域,具体为一种智能识别表格报价图片并处理成标准数据的方法。

背景技术

由于不同的供应商均以表格图片的形式提供商品报价;以往的处理方式都是人工去整理,耗费很多人力和时间,数据越多,人工越容易出错,本发明是针对该场景,以程序代替人工去处理数据得到标准数据,大大节省人工的目的而开发的一种智能识别表格报价图片并处理成标准数据的方法。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种识别准确率高,拓展方便的智能识别表格报价图片并处理成标准数据的方法。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:本发明的一种智能识别表格报价图片并处理成标准数据的方法,包括以下步骤:

步骤一,特征识别,根据表格报价图片,设置供应商、格式以及格式对应的存储过程;

步骤二,获取数据,调用读光表格图片OCR接口,获取表格图片数据;

步骤三,数据整理,二维化原始表格图片数据,并插入到对应列数的临时表;

步骤四,数据优化,执行存储过程,将数据插入标准数据表;

步骤五,数据标准化,并展示到前端界面;

步骤六,数据核对,前端界面上人工核对数据,进行修改,最终保存,更新标准数据。

优选的,本发明改进有,所述读光表格图片OCR接口采用阿里巴巴读光表格图片OCR接口。

优选的,本发明改进有,所述步骤三在一个二维空间里面,所有x线和y线,能够将所有空间切割成最小的单位,将二维化的概念带入到数据里面,将表格切割成都是最小单位的单元格,而单元格里的数据构成二维化数据,创建一个二维数组,遍历表格报价图片的原始数据单元格,填充进二维数组,不满则填充值为空的单元格,并标记为补偿。

优选的,本发明改进有,步骤四中,所述“标准数据表”标准报价数据所在的表,所有字段整合起来来表示一条完整的报价数据。

优选的,本发明改进有,步骤三中,所述二维化原始表格报价图片数据为以下格式:

A.将每个x或者y跨度不为1的单元格进行切割,切割成最小单元;

ex-sx=1&&ey-sy=1;

B.判断这些原子单元格最大的列数(ex)是否小于等于源图片列数;

(1)小于等于:

a.创建一个二维数组,遍历这些原子单元格,填充进二维数组,然后再遍历二维数组,若有未填充的,则填充一个值为空的单元格,该单元格标记为补偿,数据二维化结束,这边的列数为源图片列数,(以源图片列数做补偿);

(2)大于:(这时候需要定位每行需要删除的单元格)

a.创建一个二维数组,遍历这些原子单元格,填充进二维数组,然后再遍历二维数组,若有未填充的,则填充一个值为空的单元格,该单元格标记为补偿,这边的列数为这些原子单元格最大的列数(ex),(以单元格最大列数‘ex’做补偿);

b.删除首尾部空列,直到非空列出现;判断列数是否和源图片列数对上,对上则二维化数据结束;

c.计算需要删除的列数(最大ex-源图片列数),就知道了每行需要删除的单元格个数;

d.遍历每行单元格数据,一行行处理:

(d1).将首部为空的一个或多个单元格删除,若和每行需要删除的个数对上,则该行数据处理结束;

(d2).将text不为空的重复单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d3).将补偿的单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d4).将text为空的单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d5).若还有需要删除的个数,则从尾部删除。

优选的,本发明改进有,所述数据标准化为源数据或标准数据,目前系统已存在的数据标准化有:

a.品名标准化;

b.牌号标准化;

c.厂家标准化;

d.品类标准化。

(三)有益效果

与现有技术相比,本发明提供了一种智能识别表格报价图片并处理成标准数据的方法,具备以下有益效果:

本发明基于脚本的目标格式转换;表格校正去噪,弥补阿里OCR接口识别异常问题,使表格报价图片数据达到90%左右的准确率,再配合人工核对、调整,达到100%准确率;能够将数据映射成标准化数据;供应商、格式、存储过程配置化,支持不同的处理,拓展方便。

附图说明

图1为本发明主流程示意图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,本发明的一种智能识别表格报价图片并处理成标准数据的方法,包括以下步骤:

步骤一,特征识别,根据表格报价图片,设置供应商、格式以及格式对应的存储过程;

步骤二,获取数据,调用读光表格图片OCR接口,获取表格图片数据;

步骤三,数据整理,二维化原始表格图片数据,并插入到对应列数的临时表;

步骤四,数据优化,执行存储过程,将数据插入标准数据表;

步骤五,数据标准化,并展示到前端界面;

步骤六,数据核对,前端界面上人工核对数据,进行修改,最终保存,更新标准数据。

本实施例中,所述读光表格图片OCR接口采用阿里巴巴读光表格图片OCR接口,提高识别的准确率。

本实施例中,所述步骤三在一个二维空间里面,所有x线和y线,能够将所有空间切割成最小的单位,将二维化的概念带入到数据里面,将表格切割成都是最小单位的单元格,而单元格里的数据构成二维化数据,创建一个二维数组,遍历表格报价图片的原始数据单元格,填充进二维数组,不满则填充值为空的单元格,并标记为补偿,提高数据处理的效率。

本实施例中,步骤四中,所述“标准数据表”标准报价数据所在的表,所有字段整合起来来表示一条完整的报价数据,方便对数据进行核对。

本实施例中,步骤三中,所述二维化原始表格报价图片数据为以下格式:

A.将每个x或者y跨度不为1的单元格进行切割,切割成最小单元;

ex-sx=1&&ey-sy=1;

B.判断这些原子单元格最大的列数(ex)是否小于等于源图片列数;

(1)小于等于:

a.创建一个二维数组,遍历这些原子单元格,填充进二维数组,然后再遍历二维数组,若有未填充的,则填充一个值为空的单元格,该单元格标记为补偿,数据二维化结束,这边的列数为源图片列数,(以源图片列数做补偿);

(2)大于:(这时候需要定位每行需要删除的单元格)

a.创建一个二维数组,遍历这些原子单元格,填充进二维数组,然后再遍历二维数组,若有未填充的,则填充一个值为空的单元格,该单元格标记为补偿,这边的列数为这些原子单元格最大的列数(ex),(以单元格最大列数‘ex’做补偿);

b.删除首尾部空列,直到非空列出现;判断列数是否和源图片列数对上,对上则二维化数据结束;

c.计算需要删除的列数(最大ex-源图片列数),就知道了每行需要删除的单元格个数;

d.遍历每行单元格数据,一行行处理:

(d1).将首部为空的一个或多个单元格删除,若和每行需要删除的个数对上,则该行数据处理结束;

(d2).将text不为空的重复单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d3).将补偿的单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d4).将text为空的单元格删除,若是和每行需要删除的个数对上,则该行数据处理结束;

(d5).若还有需要删除的个数,则从尾部删除,插入到对应列数的临时表表现为:

得到二维化数据之后,按行拼接sql语句,将报价数据批量插入到对应列数的临时表中,弥补阿里读光OCR接口返回的数据异常,无法保证100%弥补,但是能使数据达到90%的准确性,尽可能减少人工消耗。

本实施例中,所述数据标准化为源数据或标准数据,目前系统已存在的数据标准化有:

a.品名标准化;

b.牌号标准化;

c.厂家标准化;

d.品类标准化。

综上所述,本发明在使用时,由于每张不同样式的表格报价图片,它的数据代表的含义都不一样,所以需要做不同的处理;而每张表格报价图片都只能由一个供应商提供,同一家供应商提供的表格报价图片又有不同的格式,所以使用供应商和格式来做区分,当步骤3执行完之后,对应的列数临时表中就有了跟图片对应的每行每列二维化数据,而存储过程的作用是遍历这些二维化数据,定义每列的数据含义,跟标准数据表做对应,将数据插入到标准数据表,每个存储过程的函数名跟对应的格式关联(格式表中有个存储过程函数名的字段),阿里巴巴读光表格图片OCR接口返回来的数据是坐标起始结束位置和单元格数据内容,但是返回的数据经常会有问题,如起始结束位置不对,返回的数据的起始结束位置出现变动,或者某个单元格的数据识别为空的问题,步骤3因为这些问题做了很多处理,但还是无法达到100%的准确率,插入到对应列数的临时表得到二维化数据之后,按行拼接sql语句,将报价数据批量插入到对应列数的临时表中二维化数据是为了弥补阿里巴巴读光表格图片OCR接口返回的数据异常,无法保证100%弥补,但是能使数据达到90%的准确性,尽可能减少人工消耗,步骤四的执行存储过程的执行格式对应的存储过程函数,将每代表一条报价的数据插入到标准数据表中,步骤五的前端界面将数据返回给前端,前端进行渲染,最后由于程序无法达到100%的正确率,所以需要人工介入,来核对,修改,保存,最终保存更新数据,使数据准确率达到100%。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种石刻文字识别的优化方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!