一种自动识别pdf电子回单信息的方法、装置与计算机存储介质

文档序号：1310782 发布日期：2020-07-10 浏览：14次 >En<

阅读说明：本技术 一种自动识别pdf电子回单信息的方法、装置与计算机存储介质 (Method, device and computer storage medium for automatically identifying PDF electronic receipt information ) 是由秦涛王士勇钟如玉李海彬司慧杰于 2020-03-11 设计创作，主要内容包括：目前,许多集团公司在月底的几百甚至上千笔银行回单全部经由人工匹配到资金结算单、业务报账单上,迫切需要提高工作效率、降低成本。基于上述问题,本发明提出一种自动识别PDF电子回单信息的方法,包括：在数据库中预置银行模板,接受用户发来的PDF电子回单任务,确定对应银行模板,读取所需业务内容,插入数据库业务表,自动匹配资金结算单、业务报账单。本发明通过分银行预置模板的方法,将文本内容的银行电子PDF回单文件识别为格式化数据并解析,进而自动依次关联资金结算单、业务报账单,解决了出纳人员拿着银行纸质银行回单进行手工对账时工作量大、耗时长、效率低的工作痛点。(At present, hundreds or even thousands of bank receipts of many group companies at the end of the month are all matched to a fund settlement sheet and a business statement bill through manual work, and the work efficiency is urgently required to be improved and the cost is required to be reduced. Based on the above problems, the present invention provides a method for automatically identifying PDF electronic receipt information, comprising: presetting a bank template in a database, receiving a PDF electronic receipt task sent by a user, determining a corresponding bank template, reading required service content, inserting the required service content into a database service table, and automatically matching a fund settlement sheet and a service statement bill. The bank electronic PDF receipt file of the text content is identified as formatted data and analyzed through a method of presetting a template by banks, and then the fund settlement receipt and the business report bill are automatically and sequentially associated, so that the work pain point that the workload is large, the time consumption is long and the efficiency is low when a cashier holds a paper bank receipt to manually check accounts is solved.)

一种自动识别PDF电子回单信息的方法、装置与计算机存储介质

技术领域

本发明涉及一种计算机技术领域，更具体涉及一种自动识别PDF电子回单信息的方法、装置与存储介质。

背景技术

银行回单是企业编制记账凭证的原始依据，企业在收付款时都会有相应的回单作为证明。回单内容主要包括日期、编号、户名、账号、币种、金额等详细信息，每一笔账均有回单。因此，在集团公司的资金管理中会处理大量的回单。

目前集团公司对下属企业的资金收付管控力度越来越高，一到月底，几百甚至上千笔银行回单，全部经由人工匹配到资金结算单、业务报账单上，简单的重复性劳动是件非常耗时的事情，是出纳的工作痛点，迫切需要提高工作效率、降低成本。

发明内容

基于上述问题，本发明试提供一种自动识别PDF电子回单信息的方法，目的是准确获取所需要的文本内容，摆脱出纳人员拿着银行纸质银行回单进行手工对账的现状。

目前读取文本内容的PDF文档方式有很多，比如：ITestSharp和PdfBox，能以字符串的形式读取出来，但是银行间电子PDF回单格式不统一，同一银行也会存在格式不统一的问题，导致读取出来的文字顺序多种多样，无法通过一种固定的方式准确识别、获取所需要的文本内容。

因此，只能对获取到的字符串按照一定的逻辑规则进行自行解析，通过预置模板，及某一字段的前置字段、后置字段的方法来更加准确的获取所需要的文本内容。

为了实现上述目的，本发明提出一种自动识别PDF电子回单信息的方法，包括：

S1接收用户发来的PDF电子回单任务；

S2确定对应银行模板；

S3读取所需业务内容；

S4插入数据库的业务表；

S5自动匹配资金结算单、业务报账单。

优选的，步骤S1前还包括步骤：

S0预置银行模板。

进一步的，步骤S0包括：

S101读取各银行PDF电子回单文本信息；

S102根据各银行PDF电子回单文本信息建立模板预置表；

S103根据各银行PDF电子回单文本信息建立字段预置表；

S104分析文字数据并进行前置字段、后置字段数据预置。

优选的，步骤S102中模板预置表包括数据类型均为VARCHAR的字段：内码、银行编号、银行名称、模板编号、模板名称。

优选的，步骤S103中字段预置表包括数据类型均为VARCHAR的字段：内码、字段名称、字段编号、开始字段、终止字段、开始字段序号。

进一步的，步骤S2包括：

循环遍历模板预置表数据，获取每个模板对应的字段预置信息表的字段名称数据，在读取出来的文本内容中逐一查找，直到查找匹配到唯一的模板，如果查找到多个模板则进行提示“查找到多个银行模板，请检查模板配置”，查找不到匹配的模板则提示“查不到对应的银行模板”。

进一步的，步骤S3包括：

确定模板后，根据字段预置表中的开始字段、终止字段查找读取的文本内容，如果文本内容中开始字段数据有重复值的，则根据开始字段序号确定开始文本位置，再往后查找到第一个匹配的终止字段，两者中间部分的内容即为所需要的业务内容。

本发明还提供一种自动识别PDF电子回单信息的装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现上述任一项自动识别PDF电子回单信息的方法。

本发明还提供一种计算机存储介质，存储有计算机程序，所述计算机程序在执行时导致所述计算机存储介质的所在设备执行上述任一项自动识别PDF电子回单信息的方法。

本发明通过分银行预置模板的方法，将文本内容的银行电子PDF回单文件读入到系统中，识别为格式化数据。通过预置的格式解析格式化数据，进而自动依次关联资金结算单、业务报账单，解决了出纳人员拿着银行纸质银行回单进行手工对账时工作量大、耗时长、效率低的工作痛点。

另外，本发明可分银行灵活定义模板格式，相同银行PDF回单格式不同的可以定义对应的模板格式。通过预置、灵活识别某一字段的前置字段、后置字段的方法，能非常准确的获取所需要的文本内容，进而根据获取的内容自动匹配资金结算单、业务报账单。

附图说明

图1为本发明所述方法流程图；

图2为本发明所述根据字段预置表中的开始字段、终止字段查找读取的文本内容示意图；

图3为实施例中某银行的PDF电子回单示意图。

具体实施方式

为了更好地阐述和帮助理解本发明所述方法，提出实施例作为说明。应注意的是，实施例仅用以解释，不能作为限定本发明保护范围的依据。

本发明提供一种自动识别PDF电子回单信息的方法，步骤流程图如图1，具体实现步骤如下：

根据某银行PDF电子回单(图3)，使用C#的ITestSharp程序集的PdfTextExtractor类的GetTextFromPage方法读取出来的文本内容如下：

模板预置表结构设计如表1：

序号	字段名称	字段标识	数据类型
				1	内码	ZJYHDZHDYSZB_NM	VARchar(40)
2	银行编号	ZJYHDZHDYSZB_YHBH	VARchar(100)
				3	银行名称	ZJYHDZHDYSZB_YHMC	VARchar(100)
4	模板编号	ZJYHDZHDYSZB_MBBH	VARchar(100)
				5	模板名称	ZJYHDZHDYSZB_MBMC	VARchar(100)

表1

字段预置表结构设计如表2：

序号	字段名称	字段标识	数据类型
				1	内码	ZJYHDZHDYS_NM	VARchar(40)
2	字段名称	ZJYHDZHDYS_ZDMC	VARchar(100)
				3	字段编号	ZJYHDZHDYS_ZDBH	VARchar(40)
4	开始字段	ZJYHDZHDYS_KSZD	VARchar(100)
				5	终止字段	ZJYHDZHDYS_ZZZD	VARchar(100)
6	开始字段序号	ZJYHDZHDYS_KSZDXH	VARchar(10)

表2

分析文字顺序、模板及业务字段的前置字段、后置字段数据预置，得到模板预置表如表3：

表3

字段预置表如表4：

表4

同理在数据库内预置其他银行模板。

当接收用户的PDF电子回单任务时，根据预置数据进行程序解析，步骤如下。

确定模板，遍历循环遍历模板预置表数据，获取每个模板对应的字段预置信息表的ZJYHDZHDYS_ZDMC列数据，在读取出来的文本内容中逐一查找，直到查找匹配到唯一的模板，如果查找到多个模板则进行提示“查找到多个银行模板，请检查模板配置”，查找不到匹配的模板则提示“查不到对应的银行模板”。

读取所需要的业务内容：确定模板后，根据字段预置表中的ZJYHDZHDYS_KSZD(开始字段)、ZJYHDZHDYS_ZZZD(终止字段)查找读取的文本内容，如图2所示，如果文本内容中开始字段数据有重复值的，则根据ZJYHDZHDYS_KSZDXH(开始字段序号)确定开始文本位置，再往后查找到第一个匹配的终止字段，两者中间部分的内容即为所需要的业务内容。

插入数据库业务表：根据第2步读取到的业务内容及对应的ZJYHDZHDYS_ZDBH(字段编号)，形成SQL语句插入到业务表中。

自动匹配资金结算单、业务报账单：根据第3步形成的业务表数据，查找对应内容的资金结算单、业务报账单。

以上仅为本发明的一种实施方式，不作为保护范围限定。凡是利用本发明说明书及附图内容所做出的等效替换，均落在本发明的保护范围之内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种外部知识增强的幽默文本生成方法

一种自动识别pdf电子回单信息的方法、装置与计算机存储介质

相关技术

网友询问留言