文本内容的逆向提取方法、装置、设备及存储介质

文档序号:923976 发布日期:2021-03-02 浏览:13次 >En<

阅读说明:本技术 文本内容的逆向提取方法、装置、设备及存储介质 (Reverse extraction method, device, equipment and storage medium of text content ) 是由 傅涛 许骏杰 吴敏华 王力 于 2021-01-27 设计创作,主要内容包括:本发明实施例公开了一种文本内容的逆向提取方法、装置、设备及存储介质,其中,所述文本内容的逆向提取方法,包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。解决了现有技术私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。(The embodiment of the invention discloses a method, a device, equipment and a storage medium for reversely extracting text content, wherein the method for reversely extracting the text content comprises the following steps: creating a private format document, displaying the document content in a hexadecimal mode by using a text editor, reversely analyzing the document format, and extracting the characters, tables and text and picture characteristics in a brief report of the private format document; converting the characteristics into a regular expression, and compiling to generate a regular matching database; performing regular matching on the private format document content, and extracting block header data; and extracting texts and pictures according to the block header data. The problem that the private format document in the prior art can not extract texts and pictures according to the public document format by a conventional method is solved.)

文本内容的逆向提取方法、装置、设备及存储介质

技术领域

本发明涉及私有文档格式解析技术领域,主要指一种文本内容的逆向提取方法、装置、设备及存储介质,尤指一种提取二进制文本内容的逆向方法、装置、设备及存储介质。

背景技术

Office办公套件DocumentsToGo是目前Android平台上*用的办公软件,能够进行幻灯片编辑、阅读以及PDF阅读功能,也能对Word文档和Excel表格进行阅读与编辑,对文档作复制、粘贴、插入等各种编辑动作。而自主可控国家战略极大地促进了涉密企事业单位计算机终端的国产化替代,国产Office办公套件随之普及,因此计算机终端保密检查需要对国产办公文档的内容进行检查,但是现有技术中私有文档格式无法以常规方法,即根据公开的文档格式进行文本和图片的提取。

私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取,计算机终端保密检查需要将文本提取用于内容检查,要解决此技术问题,从私有格式文档中提取出文本和图片,提出了提取二进制文本内容的逆向方法来解决。

发明内容

本发明实施例提供了一种文本内容的逆向提取方法、装置、设备及存储介质,解决了现有技术私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。

本发明实施例提供了一种文本内容的逆向提取方法,包括:

创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;

将特征转化为正则表达式,编译生成正则匹配数据库;

对私有格式文档内容进行正则匹配,提取块头数据;

根据块头数据提取文本和图片。

进一步的,所述对私有格式文档内容进行正则匹配,提取块头数据的方法,包括:使用编译生成的数据库以块模式对私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置。

进一步的,所述根据块头数据提取文本和图片的方法,包括:根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。

本发明实施例还提供一种文本内容的逆向提取装置,包括:

创建模块,用于创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;

转化模块,用于将特征转化为正则表达式,编译生成正则匹配数据库;

匹配模块,用于对私有格式文档内容进行正则匹配,提取块头数据;还用于使用编译生成的数据库以块模式对私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置;

提取模块,用于根据块头数据提取文本和图片;还用于根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。

本发明实施例还提供一种文本内容的逆向提取设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述文本内容的逆向提取方法。

本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述文本内容的逆向提取方法。

本发明实施例,其方法包括:创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;将特征转化为正则表达式,编译生成正则匹配数据库;对私有格式文档内容进行正则匹配,提取块头数据;根据块头数据提取文本和图片。由此采用提取二进制文本内容的逆向方法,在没有公开格式的情况下,分析出文档中文本和图片的标识特征,将文本提取出用于后续的内容检查,提供了检查私有格式文档文本内容的能力,能够有效检测通过私有格式文档泄密的行为。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例的所述文本内容的逆向提取方法的整体流程图;

图2是本发明实施例的所述文本内容的逆向提取装置的结构图;

图3是本发明实施例的所述永中eio文字的格式示意图;

图4是本发明实施例的所述永中eio表格块头的格式示意图;

图5是本发明实施例的所述永中eio简报块头的格式示意图。

具体实施方式

下文中将结合附图对本发明的实施例进行详细说明。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取,计算机终端保密检查需要将文本提取用于内容检查,要解决此技术问题,本发明实施例从私有格式文档中提取出文本和图片,提出了提取二进制文本内容的逆向方法来解决。

如图1所示,本发明实施例提出一种文本内容的逆向提取方法,解决私有格式文档无法按常规方法根据公开的文档格式进行文本和图片的提取的问题。以永中eio私有格式文档为例,该方法包括:

步骤101,创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征。

其中,创建如永中eio文档这样的私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取永中Office文字、表格、简报中文本和图片特征,具体如下:

1)永中文本分为多个块进行存储,每个块包括块头和文本数据两部分,文本数据为Unicode编码。

2)如图3所示,永中eio文字块头以0xAC 0xDE 0x03 0x00开头,后3字节为0x030x0D或0x02 0x86或0x04 0x93和不定值,后8字节标记文本块在块组中的顺序,后4字节为0x00 0x42 0x00 0x00或0x00 0x1C 0x50 0x00,后4字节标识块后续数据的字节数,后4字节为0x00 0x00 0x0和不定值,后不定长度字节为0xFF 0xFF 0xFF 0xFF 0x00 0x00 0x000x01 0x00 0x00 0x2A 0x30或0xFF 0xFF 0xFF 0xFF 或0x00 0x00 0x00 0x03 0x7F 5字节不定值或16字节不定值,后4字节标识文本字数。

3)如图4所示,永中eio表格块头存在以下5种特征:

0xAC 0xDE 0x01 12字节标识文本所在的工作表、行、列0x00 0x00 0x98 1字节0x0C或0x0D 8字节后续数据的字节数和文本字数;

0xAC 0xDE 0x7D 0x04 20字节标识连续相同单元格文本所在的工作表、行、列(0x000x00 0x98 0x0D 8字节后续数据的字节数和文本字数;

0xAC 0xDE 0x03 0x00 0x01 0x86 0xA1 8字节标记文本块在块组中的顺序 4字节0x00 0x42 0x00 0x00或0x00 0x1C 0x50 0x00 4字节标识块后续数据的字节数 0x000x00 0x00 1字节不定值 0xFF 0xFF 0xFF 0xFF或0x00 0x00 0x00 0x03 0x40 0xE2 0x000x00 0x00 0xA1 4字节标识文本字数;

0xAC 0xDE 0x03 0x00 0x01 0x86 0xA1 0x00 0x00 0x00 0x1E 0x00 0x00 0x000x00 0x00 0x1E 0x00 0x00 4字节标识块后续数据的字节数36字节不定值 4字节标识文本字数;

0xAC 0xDE 0x03 0x00 0x09 0x27 0xC1 8字节标记文本块在块组中的顺序0x9F 0xFF0xFF 0xF7 4字节标识块后续数据的字节数 4字节标识文本字数;

4)如图5所示,永中eio简报块头存在以下3种特征:

0xAC 0xDE 0x03 0x00 0x06 0x1A 0x80 8字节标记文本块在块组中的顺序 0x000x42 0x00 0x00 4字节标识块后续数据的字节数4字节不定值0xFF 0xFF 0xFF 0xFF或0x00 0x00 0x00 0x03 0x7F 5字节不定值 4字节标识文本字数;

0xAC 0xDE 0x03 0x00 0x07 0xA1 0x20 8字节标记文本块在块组中的顺序 0x000x42 0x00 0x00 4字节标识块后续数据的字节数 0x00 0x00 0x00 1字节0x9C或0x9A0xFF 0xFF 0xFF 0xFF 4字节标识文本字数;

5)图片在永中eio文字、表格、简报中特征相同,块头特征为0xAC 0xDE 0x03 0x000x09 0x27 0xCB 0x00 0x00 0x00 0x03 4字节图片编号 4字节不定值 4字节标识块后续数据的字节数 0x00 4字节标识文本字数。

步骤102,将特征转化为正则表达式,编译生成正则匹配数据库。

其中,将上述永中eio文档示例提取的特征转化为以下正则表达式:

永中eio文字文本特征

永中eio表格文本特征1

永中eio表格文本特征2

永中eio表格文本特征3

永中eio表格超链接文本特征

永中eio表格页签文本特征

永中eio简报常规文本特征

永中eio简报文本框、艺术字、组织结构表文本特征

永中eio简报批注文本特征

永中eio图片特征

再使用pcre编译生成用于匹配的数据库。

步骤103,对私有格式文档内容进行正则匹配,提取块头数据。

其中,在一个实施例中,所述对私有格式文档内容进行正则匹配,提取块头数据的方法,包括:使用编译生成的数据库以块模式对如永中eio文档这样的私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置。

步骤104,根据块头数据提取文本和图片。

其中,在一个实施例中,所述根据块头数据提取文本和图片的方法,包括:根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。

综上所述,本发明实施例的方法无需依赖公开文档格式或厂商提供的API就可提取文本和图片。为计算机终端保密检查提供了检查私有格式文档文本内容的能力,能够有效检测通过私有格式文档泄密的行为。

如图2所示,本发明实施例还提供一种文本内容的逆向提取装置,包括:

创建模块71,用于创建私有格式文档,用文本编辑器以十六进制模式显示文档内容,逆向分析文档格式,提取私有格式文档的文字、表格、简报中文本和图片特征;

转化模块72,用于将特征转化为正则表达式,编译生成正则匹配数据库;

匹配模块73,用于对私有格式文档内容进行正则匹配,提取块头数据;还用于使用编译生成的数据库以块模式对如永中eio文档这样的私有格式文档内容进行匹配,提取出块头中的所属块组、在所属块组中的序号、文本或图片数据字节数、文本或图片数据起始位置;

提取模块74,用于根据块头数据提取文本和图片;还用于根据从块头数据中获取到的文本或图片数据的起始位置和字节数所对应的块,将此块中的数据提取出,再根据块头中获取到的所属块组、文本块在所属块组中的序号对倒序的文本进行恢复。

本发明实施例还提供一种文本内容的逆向提取设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述文本内容的逆向提取方法。

本发明实施例还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述文本内容的逆向提取方法。

在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,ReadOnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:图表组件推荐方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!