电子卷宗文件类型转换方法、装置及计算机设备

文档序号:1889082 发布日期:2021-11-26 浏览:19次 >En<

阅读说明:本技术 电子卷宗文件类型转换方法、装置及计算机设备 (Electronic file type conversion method and device and computer equipment ) 是由 麦天骥 于 2021-08-27 设计创作,主要内容包括:本发明公开了一种电子卷宗文件类型转换方法、装置及计算机设备,包括获取卷宗文件信息并将卷宗文件读入,获取卷宗文件的真实文件类型;判断获取到的所述卷宗文件类型是否是图片格式;将JPG类型转换为BMP类型;将图片信息转换为文本信息;运用文本格式还原技术将图片格式的所述卷宗文件版面进行分析形成DOC文件;根据所述图片信息和所述文本信息生成双层PDF文件;一方面解决了电子卷宗材料实际应用中存在的多文件类型不统一,实际应用中不便于查阅的问题;另一方面,形成了完整的一套电子卷宗文件,可方便的供其它系统直接调用,进一步提高了电子卷宗文件的可读性与利用率。(The invention discloses a method and a device for converting the type of an electronic file and computer equipment, wherein the method comprises the steps of obtaining the information of the file and reading in the file, and obtaining the real file type of the file; judging whether the type of the acquired file is in a picture format or not; converting the JPG type into a BMP type; converting the picture information into text information; analyzing the layout of the file in the picture format by using a text format reduction technology to form a DOC file; generating a double-layer PDF file according to the picture information and the text information; on one hand, the problem that multiple file types are not uniform in practical application of the electronic file material and are inconvenient to look up in practical application is solved; on the other hand, a complete set of electronic file files is formed, so that other systems can be conveniently and directly called, and the readability and the utilization rate of the electronic file files are further improved.)

电子卷宗文件类型转换方法、装置及计算机设备

技术领域

本发明涉及卷宗文件类型转换技术领域,具体涉及一种电子卷宗文件类型转换方法、装置及计算机设备。

背景技术

为建成以阳光化、网络化、智能化为特征的智慧法院,进一步提升人民法院审判执行信息化水平,深化司法公开力度,促进审判流程再造,破解人民法院“案多人少”和调卷难等难题。电子卷宗随案同步生成和深度应用是推进“智慧法院”建设的必然要求、是服务法官办案和提升司法质效的有效途径、是扩大司法公开和提升司法公信的迫切需要、是强化司法管理和实现科学决策的重要抓手,推进电子卷宗在立案、庭审、阅卷、文书辅助等方面的智能化应用,为法官提供更加智能、高效的办公服务,尽可能将其从事务性负担中解放出来,提高审判工作效率;回应群众司法需求,不断扩大信息公开范围,完善信息平台功能,努力提供更加优质、便捷的司法服务;重构诉讼材料收发流程,实现对电子卷宗随案同步生成与管理,并运用互联互通方式,实现对纸质材料流转的电子跟踪、全程留痕,进一步提高司法管理精细化水平,全面推进电子卷宗随案同步生成和深度应用,进一步提升“智慧法院”建设及信息化应用水平,促进公正司法,提升司法公信力,有助于实现审判体系和审判能力现代化。

而整个“智慧法院”项目的根基是电子卷宗材料的电子化、卷宗材料文件类型的统一化、从而形成一套完整的电子卷宗文件是重中之重,为法院办案无纸化奠定了夯实基础。但是目前社会上暂时没有一种方法可将电子卷宗文件统一生成“智慧法院”业务系统所需要的同时具备JPG、BMP、TXT、DOC、 PDF文件类型的方法,各系统生成的文件存储混乱,以造成卷宗电子文件使用率低,法官阅卷率低,无纸化程度不高等问题。

发明内容

为此,本发明实施例提供一种电子卷宗文件类型转换方法、装置及计算机设备,以解决现有技术存在的无法将电子卷宗文件统一生成“智慧法院”业务系统所需要的同时具备JPG、BMP、TXT、DOC、PDF文件类型的问题。

为了实现上述目的,本发明实施例提供如下技术方案:

第一方面,一种电子卷宗文件类型转换方法,包括:

获取卷宗文件信息并将所述卷宗文件读入,获取所述卷宗文件的真实文件类型;

判断获取到的所述卷宗文件类型是否是图片格式;

若所述卷宗文件类型是图片格式,则将JPG类型转换为BMP类型;若所述卷宗文件类型是DOC文档格式,则将DOC文档格式转化为图片格式,再将JPG类型转换为BMP类型;

将图片信息转换为文本信息;

运用文本格式还原技术将图片格式的所述卷宗文件版面进行分析形成 DOC文件;

根据所述图片信息和所述文本信息生成双层PDF文件。

作为优选,运用文本格式还原技术将图片格式的所述卷宗文件版面进行分析形成DOC文件时,具体包括:

区分图片中的某一块区域的内容属性;

分别对于不同内容进行处理;

运用版面还原技术将识别后的文字按照原始的文档图片排列顺序输出到文档,形成DOC文件。

作为优选,所述卷宗文件信息的获取和读入都是通过二进制方式来获取和读入的。

作为优选,所述图片信息转换为文本信息时是通过OCR识别技术来转化的。

作为优选,所述文本格式还原技术为神经网络技术。

作为优选,将JPG类型转换为BMP类型时是根据图片exif信息结合图片 byte数组中的头尾标识来进行转化的。

作为优选,若所述卷宗文件类型是DOC文档格式,则通过文件二进制将 DOC文档格式转化为图片格式。

作为优选,所述双层PDF是一种具有多层结构的PDF格式文件。

第二方面,一种电子卷宗文件类型转换装置,包括:

读取模块,用于接收电子卷宗文件,读取卷宗文件的二进制信息及文件的类型信息数据;

判断模块,用于根据图片的二进制信息及文件类型信息判断当前文件的类型并将判断结果输出到转换模块;

转换模块,用于接收判断模块传入的卷宗文件信息并将卷宗文件类型从 JPG类型转换为BMP类型;

处理模块,用于对卷宗文件进行OCR识别并根据识别后的文本进行文本格式还原,生成DOC文件或PDF文件;

输出模块,用于将转换模块及处理模块产生的电子卷宗文件输出供其它应用系统使用。

第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现电子卷宗文件类型转换方法的步骤。

本发明至少具有以下有益效果:本发明提供了一种电子卷宗文件类型转换方法、装置及计算机设备,包括获取卷宗文件信息并将卷宗文件读入,获取卷宗文件的真实文件类型;判断获取到的所述卷宗文件类型是否是图片格式;将 JPG类型转换为BMP类型;将图片信息转换为文本信息;运用文本格式还原技术将图片格式的所述卷宗文件版面进行分析形成DOC文件;根据所述图片信息和所述文本信息生成双层PDF文件;一方面解决了电子卷宗材料实际应用中存在的多文件类型不统一,实际应用中不便于查阅的问题;另一方面,形成了完整的一套电子卷宗文件,可方便的供其它系统直接调用,进一步提高了电子卷宗文件的可读性与利用率。

附图说明

为了更清楚地说明现有技术以及本发明,下面将对现有技术以及本发明实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的电子卷宗文件类型转换方法流程图;

图2为本发明实施例提供的电子卷宗文件类型转换装置结构示意图;

图3为本发明实施例提供的计算机设备的结构示意图。

附图标记说明:

201-读取模块;202-判断模块;203-转换模块;204-处理模块;205-输出模块;1000-存储器;2000-处理器。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)旨在区别指代的对象。对于具有时序流程的方案,这种术语表述方式不必理解为描述特定的顺序或先后次序,对于装置结构的方案,这种术语表述方式也不存在对重要程度、位置关系的区分等。

此外,术语“包括”、“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元,而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元,或者基于本发明构思进一步的优化方案所增加的步骤或单元。

请参阅图1,本发明实施例提供一种电子卷宗文件类型转换方法,包括:

S1:获取卷宗文件二进制信息,将卷宗文件以二进制方式读入,获取卷宗文件的真实文件类型;

S2:判断获取到的卷宗文件类型是否是图片格式;

S3:若卷宗文件类型是图片格式,则根据图片exif信息结合图片byte数组中的头尾标识,将JPG类型与BMP类型进行转换;若卷宗文件类型不是图片格式,是DOC文档格式,则通过文件二进制将DOC文档先转化为图片格式,再根据图片exif信息结合图片byte数组中的头尾标识,将JPG类型与BMP 类型进行转换。

S4:得到图片信息后将图片信息转换为文本信息;

具体的,得到图片信息后,通过对JPG文件进行OCR(Optical CharacterRecognition,光学字符识别)识别,将图片信息转换为文本信息,文本信息包含文本内容及文本在图片上相对应的坐标位置信息等。

S5:运用神经网络技术对电子卷宗图片文件进行版式还原。

具体的,版式还原经过如下步骤:

S501:区分图片中的某一块区域的内容属性;

具体的,比如页眉页脚、自然段、表格、图表等。

S502:分别对于不同内容进行处理;

具体的,比如页眉页脚是否需要在识别后的文章内显示、自然段的换行合并、表格的单元格文字填充或合并。

S503:运用版面还原技术将识别后的文字按照原始的文档图片排列顺序输出到文档;

具体的,版面还原技术将识别后的文字按照原始文档图片的排列、段落、位置和顺序不变地输出到Word文档、PDF文档等。版式还原后的文本在后续深度应用中不会因为段落格式使得词语被切断,完全满足深度应用的需求。

S6:根据图片和OCR识别的文本信息生成双层PDF文件。

双层PDF格式文件是一种具有多层结构的PDF格式文件,是PDF文件衍生的一种文件,其特点是:文件既可以是文本型的(比如由word生成的文件),也可以是图像型的,且其位置上下一一对应。制作过程中,资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,上层是原始图像,下层是识别结果,然后可以直接生成可以检索的PDF文件,既可以100%保留原始版面效果,又便于建立索引数据库,进行科学的管理。

本发明实施例提供一种电子卷宗文件类型转换方法,实现了卷宗文件从 JPG到BMP、JPG到DOC、JPG到PDF、PDF到JPG、JPG到TXT等卷宗文件类型的转换,最终形成具有JPG、BMP、TXT、DOC、双层PDF文件类型的一套卷宗文件,一方面解决了电子卷宗材料实际应用中存在的多文件类型不统一,实际应用中不便于查阅的问题;另一方面,形成了完整的一套电子卷宗文件,可方便的供其它系统直接调用,进一步提高了电子卷宗文件的可读性与利用率,方便供其它应用系统直接使用。

请参阅图2,本发明实施例提供一种电子卷宗文件类型转换装置,包括:

读取模块201,用于接收到电子卷宗文件,读取文件的二进制信息及文件的类型信息数据;

判断模块202,用于根据图片的二进制信息及文件类型信息判断当前文件的类型,以及将判断结果输出给转换模块;

转换模块203,用于接收判断模块传入的卷宗文件信息,进行卷宗文件JPG 到BMP图文件类型的转换;

处理模块204,用于对卷宗文件进行OCR识别,根据识别后的文本进行文本格式还原,生成DOC文件与PDF文件;

输出模块205,用于将转换模块及处理模块产生的电子卷宗文件输出供其它应用系统使用;

请参阅图3,本发明实施例提供一种计算机设备,包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序,其中,处理器2000执行计算机程序时实现电子卷宗文件类型转换方法步骤。

具体地,存储器1000和处理器2000能够为通用的存储器和处理器,这里不做具体限定,当处理器2000运行存储器1000存储的计算机程序时,能够执行电子卷宗文件类型转换方法,从而能够基于本发明快速准确的实现对卷宗文件类型的转换。

本发明实施例所提供的电子卷宗文件类型转换方法、装置及计算机设备,计算机程序产品包括存储了程序代码的计算机可读存储介质,程序代码包括的指令可用于执行前面实施例中的电子卷宗文件类型转换方法,具体实现可参见方法实施例,在此不再赘述。

以上实施例的各技术特征可以进行任意的组合(只要这些技术特征的组合不存在矛盾),为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述;这些未明确写出的实施例,也都应当认为是本说明书记载的范围。

上文中通过一般性说明及具体实施例对本发明作了较为具体和详细的描述。应当指出的是,在不脱离本发明构思的前提下,显然还可以对这些具体实施例作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:业务过程事件日志采样方法、系统、存储介质及计算设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!