智能文档处理方法、系统、计算机设备及介质

文档序号：1938087 发布日期：2021-12-07 浏览：5次 >En<

阅读说明：本技术 智能文档处理方法、系统、计算机设备及介质 (Intelligent document processing method, system, computer device and medium ) 是由郭春磊马丽霞夏义鹏王骁李涛于 2021-09-08 设计创作，主要内容包括：本发明公开了一种智能文档处理方法、系统、计算机设备及介质,该方法包括：获取数据源文档的xml文件,xml文件包括至少一个段落节点,段落节点中包括至少一个目标文本节点；对xml文件进行标准化处理,得到目标xml文件,标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符；对目标xml文件进行压缩处理,得到标准化数据源文档；对标准化数据源文档进行数据提取,并根据数据提取结果建立文档数据库。本发明通过对数据源文档进行标准化处理及数据提取建立数据源文档数据库,为智能化文档编辑操作提供数据基础,有利于节省人工成本和时间成本,提高文档编辑效率和准确性。(The invention discloses an intelligent document processing method, a system, computer equipment and a medium, wherein the method comprises the following steps: acquiring an xml file of a data source document, wherein the xml file comprises at least one paragraph node, and the paragraph node comprises at least one target text node; standardizing the xml file to obtain a target xml file, wherein the standardization comprises target text node merging, target text node splitting and node identifier adding which are sequentially executed; compressing the target xml file to obtain a standardized data source document; and extracting data of the standardized data source document, and establishing a document database according to the data extraction result. The invention establishes the data source document database by carrying out standardized processing and data extraction on the data source document, provides a data base for intelligent document editing operation, is beneficial to saving labor cost and time cost and improving the document editing efficiency and accuracy.)

技术领域

本发明涉及文档处理技术领域，尤其涉及一种智能文档处理方法、系统、计算机设备及介质。

背景技术

随着互联网安全性的提高，基于互联网技术开展金融业务的服务模式在金融领域得到了广泛推广。

在现有技术中，互联网金融业务通常基于代码化的XML模式进行文档交互，操作人员基于代码化数据，采用人工手动将所需数据输入到报表中，其存在以下问题，代码化数据格式不统一，通过人工手动撰写方式进行报表内容填充、修改和删除等操作，需要将大量时间和人力资源投入到文本的编辑和核准中，效率低下、成本高。

发明内容

本发明提供一种智能文档处理方法、系统、计算机设备及介质，以实现使用软件程序替代人工实现文档编辑，智能化程度高，解决了人工编辑成本高、效率低的问题，方便便捷。

第一方面，本发明实施例提供了一种智能文档处理方法，包括以下步骤：获取数据源文档的xml文件，所述xml文件包括至少一个段落节点，所述段落节点中包括至少一个目标文本节点；对所述xml文件进行标准化处理，得到目标xml文件，所述标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符；对所述目标xml文件进行压缩处理，得到标准化数据源文档；对所述标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库。

可选地，对所述xml文件进行标准化处理，包括以下步骤：采用递归算法遍历所述xml文件中的所有段落节点；将任一段落节点中的所有目标文本节点合并到同一段落节点中的第一目标文本节点；根据目标文本节点合并结果确定第一xml文件。

可选地，对所述xml文件进行标准化处理，包括以下步骤：获取目标文本节点合并处理得到的第一xml文件；采用递归算法遍历所述第一xml文件中的所有段落节点；基于第一目标文本节点中的预设锚点标记对所述第一目标文本节点中的文本内容进行拆分；根据目标文本节点拆分结果确定第二xml文件。

可选地，对所述xml文件进行标准化处理，包括以下步骤：获取目标文本节点拆分处理得到的第二xml文件；采用递归算法遍历所述第二xml文件中的所有目标节点，所述目标节点包括段落节点和目标文本节点；根据递归顺序确定所述目标节点的节点标识符，所述节点标识符与所述目标节点一一对应，所述节点标识符的值根据递归顺序依次递增；将所述节点标识符添加至对应的所述目标节点的属性列表；根据节点标识符添加结果确定所述目标xml文件。

可选地，所述对所述标准化数据源文档进行数据提取，包括以下步骤：对所述标准化数据源文档进行解压，得到具有节点标识符的目标xml文件；对所述目标xml文件中所有节点的节点数据进行数据解析，所述节点数据包括文本内容数据、节点标签数据及文本类型数据；根据数据解析结果确定目标结构化数据。

可选地，所述根据数据提取结果建立文档数据库，包括以下步骤：基于所述节点标签数据获取所述目标结构化数据中的所有目录标题节点；获取每个所述目录标题节点的目录标题数据及所述目录标题节点与正文文本之间的对应关系；根据所述目录标题数据及所述对应关系确定所述文档数据库中的文档目录数据集。

可选地，所述根据数据提取结果建立文档数据库，包括以下步骤：基于所述节点标签数据获取所述目标结构化数据中的所有段落节点；遍历每个段落节点中的目标文本节点的节点段落数据；根据所述段落节点及所述节点段落数据确定所述文档数据库中的文档段落数据集。

可选地，所述根据数据提取结果建立文档数据库，包括以下步骤：基于所述节点标签数据获取所述目标结构化数据中的所有表格节点；遍历每个所述表格节点中的表格行节点及单元格节点；根据遍历结果确定每个单元格在整体表格中的坐标参数；根据所述表格节点、所述单元格节点及所述坐标参数确定所述文档数据库中的文档表格数据集。

可选地，在建立文档数据库之后，所述智能文档处理方法还包括：根据所述文档数据库创建目标文档。

第二方面，本发明实施例还提供了一种智能文档处理系统，包括：

数据源获取模块，用于获取数据源文档的xml文件，所述xml文件包括至少一个段落节点，所述段落节点中包括至少一个目标文本节点；

文档预处理模块，用于对所述xml文件进行标准化处理，得到目标xml文件，所述标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符；

文档压缩模块，用于对所述目标xml文件进行压缩处理，得到标准化数据源文档；

数据抽取模块，用于对所述标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库。

第三方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述智能文档处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述智能文档处理方法。

本发明实施例提供的智能文档处理系统、计算机设备及计算机可读存储介质，执行智能文档处理方法，该文档处理方法通过获取数据源文档的xml文件，该xml文件包括至少一个段落节点，段落节点中包括至少一个目标文本节点；对xml文件进行标准化处理，得到目标xml文件，标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符；对目标xml文件进行压缩处理，得到标准化数据源文档；对标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库，该文档数据库用于创建目标文档，解决了现有的人工手动编辑文档导致的效率低、成本高的问题，为智能化文档编辑操作提供数据基础，智能化程度高，文档处理方便快捷，有利于节省人工成本和时间成本，提高文档编辑效率和准确性。

附图说明

图1是本发明实施例一提供的一种智能文档处理方法的流程图；

图2是本发明实施例一提供的另一种智能文档处理方法的流程图；

图3是本发明实施例一提供的又一种智能文档处理方法的流程图；

图4是本发明实施例一提供的又一种智能文档处理方法的流程图；

图5是本发明实施例一提供的又一种智能文档处理方法的流程图；

图6是本发明实施例一提供的又一种智能文档处理方法的流程图；

图7是本发明实施例一提供的又一种智能文档处理方法的流程图；

图8是本发明实施例二提供的一种智能文档处理系统的结构示意图；

图9是本发明实施例三提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种智能文档处理方法的流程图，本实施例可适用于基于互联网金融办公系统(例如为web办公系统)对文档进行填充、修改和删除等操作的应用场景，该方法可由特定的软件程序或功能模块来执行，具体包括如下步骤：

步骤S1：获取数据源文档的xml文件，xml文件包括至少一个段落节点，段落节点中包括至少一个目标文本节点。

其中，xml(Extensible Markup Language，可扩展标记语言)，是一种专门为互联网设计的标记语言，xml可以用于标记数据及定义数据类型，是互联网数据传输的重要工具。

数据源文档是指记载特定数据的word文档，数据源文档可为后续的文档编辑操作提供数据来源，典型地，该数据源文档可为证券交易所发送的财报数据，该word文档的文件扩展名可为docx。

数据源文档的扩展性标识语言xml文件是指对数据源文档中的文本内容添加节点标签形成的用于互联网传输的纯文本文件。节点(node)是xml文件的最基本的组成部分，xml文件中的每一个部分都可以称为是一个节点，例如：属性、文本、注释等都是一个节点，节点标签是由符号“<>”及标签名组成的标记符号。

典型地，xml文件中的节点标签包括以下3种类型：

为段落类型的节点，即段落节点，其标签名为p，表示一个独立段落，每个段落对应一个段落起始标签和一个段落结束标签；

<r>为文本属性类型的节点，即文本属性节点，其标签名为r，表示一个样式串，指明其包括的文本的显示样式，例如：字体为粗体，字号大小为12，字体名称为“宋体”等；

<t>为文本类型的节点，即文本节点，其标签名为t，表示真正的文本内容，例如，“公司名称”、“资产负债表”、“利润表”、“现金流量表”等。

在本步骤中，可采用自动化程序将数据源文档的文件扩展名更改为ZIP(数据压缩文件格式)，采用ZIP解压缩方法对压缩文件进行解压，得到数据源文档的xml文件，该xml文件中包括至少一个段落节点，每个段落节点中包括至少一个文本属性节点<r>，每个文本属性节点<r>中包括至少一个目标文本节点<t>。

步骤S2：对xml文件进行标准化处理，得到目标xml文件，标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符。

其中，目标文本节点合并是指将同一段落节点中的所有文本属性节点<r>中的目标文本节点<t>中记载的文本内容合并到同一个文本属性节点<r>中；目标文本节点拆分是指将同一段落节点中合并后的目标文本节点拆分为多个文本属性节点<r>；添加节点标识符是指对文件中所有节点添加一一对应的标识符。

在本步骤中，可采用递归算法遍历xml文件中的节点，依次执行目标文本节点合并、目标文本节点拆分及添加节点标识符等操作，得到具有节点标识符的目标xml文件。

步骤S3：对目标xml文件进行压缩处理，得到标准化数据源文档。

其中，标准化数据源文档的后缀名可为docx，可采用基于xml的压缩文件格式取代默认文件格式对目标xml文件进行压缩，形成后缀名为docx格式的标准化数据源文档，标准化数据源文档中的文本内容保存为xml格式。

步骤S4：对标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库。

其中，文档数据库是指存储于互联网办公系统中的结构化数据集合，可通过调用文档数据库中的数据，实现自动化办公。

可选地，数据提取可包括提取文档中的目录标题数据、提取文档中的段落数据及提取文档中的表格数据，本领域技术人员可根据实际需要设置具体提取方法，对此不作限定。

具体地，在接收到数据源文档之后，先对数据源文档进行数据结构预处理，对数据源文档进行解压得到其xml文件，该xml文件包括至少一个段落节点，段落节点中包括至少一个目标文本节点，采用递归算法遍历xml文件中的所有节点，根据节点标签识别不同的节点，并依次对xml文件执行目标文本节点合并、目标文本节点拆分和添加节点标识符，得到文本数据简化后的目标xml文件，该目标xml文件中的每个节点具有一一对应的节点标识符，采用基于xml的压缩文件格式对带有节点标识符的目标xml文件进行压缩处理，得到docx格式的标准化数据源文档。

在完成数据结构预处理之后，对标准化数据源文档进行数据提取，可采用解析器获取标准化数据源文档中所有节点中保存的数据，采用递归算法对所有数据进行分类提取和数据清洗，并将所有数据整合入库，最终建立的文档数据库可用于创建目标文档，解决了现有的人工手动编辑文档导致的效率低、成本高的问题，为智能化文档编辑操作提供数据基础，智能化程度高，文档处理方便快捷，有利于节省人工成本和时间成本，提高文档编辑效率和准确性。

可选地，图2是本发明实施例一提供的另一种智能文档处理方法的流程图，在图1的基础上，示例性地示出了一种对xml文件进行标准化处理的具体实施方式，而非对上述方法的限定。

参考图2所示，在执行上述步骤S2之时，包括以下步骤：

步骤S21：对xml文件进行目标文本节点合并。

步骤S22：对节点合并后的xml文件进行目标文本节点拆分。

步骤S23：对节点拆分后的xml文件添加节点标识符。

步骤S24：将添加节点标识符后的xml文件确定为目标xml文件。

具体地，可定义解压得到数据源文档的xml文件为初始xml文件，定义节点合并后的xml文件为第一xml文件，定义节点拆分后的xml文件为第二xml文件，在初始xml文件的每个段落节点中，将所有文本属性节点<r>中的所有文本内容进行合并到同一个文本属性节点<r>中，得到第一xml文件；然后依照文本顺序，将第一xml文件中每个段落节点中的文本内容拆分为多个文本属性节点<r>，得到第二xml文件；然后对第二xml文件中的所有节点添加唯一的节点标识符，实现统一文档数据结构，便于进行数据提取。

下面，结合附图对上述步骤S21至步骤S23中提供的xml文件的预处理方法进行详细说明。

图3是本发明实施例一提供的又一种智能文档处理方法的流程图，在图2的基础上，示例性地示出了一种目标文本节点合并的具体实施方式，而非对上述节点合并方法的限定。

参考图3所示，对xml文件进行目标文本节点合并，具体包括以下步骤：

步骤S201：采用递归算法遍历xml文件中的所有段落节点。

其中，递归算法是指计算机科学中通过重复将问题分解为同类的子问题而解决问题的方法。

在本步骤中，xml文件中的各节点是分层次的，节点的层次被称为文档树，采用递归算法遍历xml文件中的所有节点，所有节点包括段落节点及各段落节点中的文本属性节点<r>及目标文本节点<t>。

步骤S202：将任一段落节点中的所有目标文本节点<t>合并到同一段落节点中的第一目标文本节点。

其中，第一目标文本节点可为同一段落节点中的任一文本属性节点<r>中的目标文本节点<t>，优选地，可将同一段落节点中的第一个文本属性节点<r>中的目标文本节点<t>作为第一目标文本节点。

在本步骤中，在将所有目标文本节点<t>合并到第一目标文本节点之后，删除同一段落节点中除第一目标文本节点之外的所有目标文本节点<t>及其所属子节点。

步骤S203：根据目标文本节点合并结果确定第一xml文件，其中，该第一xml文件中，同一段落节点中的文本内容合并到同一个目标文本节点<t>。

具体地，在递归遍历xml文件中所有节点的过程中，将同一段落节点中的所有文本属性节点<r>中的目标文本节点<t>全部合并到该段落节点中的第一目标文本节点<t>中，并删除同一段落节点中除第一目标文本节点之外的所有目标文本节点<t>及其所属子节点，得到第一xml文件，在该第一xml文件中，同一段落节点中的文本内容合并到同一个目标文本节点<t>，实现文档内容的合并。

可选地，图4是本发明实施例一提供的又一种智能文档处理方法的流程图，在图2的基础上，示例性地示出了一种目标文本节点拆分的具体实施方式，而非对上述节点拆分方法的限定。

参考图4所示，对节点合并后的xml文件进行目标文本节点拆分，具体包括以下步骤：

步骤S204：获取目标文本节点合并处理得到的第一xml文件，在该第一xml文件中，同一段落节点中的文本内容合并到同一个目标文本节点<t>中。

步骤S205：采用递归算法遍历第一xml文件中的所有段落节点。

在本步骤中，第一xml文件的各节点呈树状结构，采用递归算法遍历xml文件中的所有节点，所有节点包括段落节点及各段落节点中的文本属性节点<r>及目标文本节点<t>。

步骤S206：基于第一目标文本节点<t>中的预设锚点标记对第一目标文本节点<t>中的文本内容进行拆分。

其中，锚点是文档中设置的位置标记，可通过文档处理程序在数据源文档中添加预设锚点标记，该预设锚点标记可用于指向xml文件中的特定文本，典型地，该预设锚点标记指向的特定文本可包括标题、目录、特定数据等文本。每个目标文本节点<t>中可包括至少一个预设锚点标记。

示例性地，预设锚点标记可为“【】”，即言，可采用预设锚点标记“【】”标记xml文件中的特定文本。

步骤S207：根据目标文本节点拆分结果确定第二xml文件，其中，该第二xml文件中，同一段落节点中的文本内容按照预设锚点标记拆分为多个目标文本节点<t>。

具体地，在节点合并之后，采用递归算法遍历第一xml文件中的所有段落节点，每个段落节点中的文本内容全部合并记录于第一目标文本节点<t>中，将第一目标文本节点<t>中的文本内容按预设锚点标记拆分到多个目标文本节点<t>中，每个预设锚点标记单独成为一段，预设锚点标记之外的文本内容整合到一个单独的目标文本节点<t>中，将整合后的所有目标文本节点<t>插入到该段落节点中，得到第二xml文件，在该第二xml文件中，根据预设锚点标记对文本内容进行拆分，有利于提取特定段落数据。

可选地，图5是本发明实施例一提供的又一种智能文档处理方法的流程图，在图5的基础上，示例性地示出了一种添加节点标识符的具体实施方式，而非对上述方法的限定。

参考图5所示，对节点拆分后的xml文件添加节点标识符，具体包括以下步骤：

步骤S208：获取目标文本节点拆分处理得到的第二xml文件。

步骤S209：采用递归算法遍历第二xml文件中的所有目标节点，目标节点包括段落节点和目标文本节点<t>。

在本步骤中，第二xml文件的各节点呈树状结构，采用递归算法遍历xml文件中的所有目标节点，所有目标节点包括段落节点，各段落节点中的文本属性节点<r>，及文本属性节点<r>中的目标文本节点<t>。

步骤S210：根据递归顺序确定目标节点的节点标识符，节点标识符与目标节点一一对应，节点标识符的值根据递归顺序依次递增。

其中，节点标识符的值可为自增的数字，在一个xml文件中，该节点标识符具有唯一性，典型地，可按照递归顺序，设置节点标识符的值从0开始自增，每遍历一个新的目标节点，节点标识符的值增加1。

步骤S211：将节点标识符添加至对应的目标节点的属性列表。

其中，目标节点的属性列表是指用于记录目标节点的属性的列表，典型地，节点的属性包括节点名称、节点的值(Value)及节点类型，其中，文本节点的值是文本自身，文本属性节点的值是属性的值。

示例性地，可定义新增的属性的key值(键值，即关键字)为yuxin_uid。

步骤S212：根据节点标识符添加结果确定目标xml文件。

具体地，在节点拆分之后，采用递归算法遍历第二xml文件中的所有目标节点，节点标识符的数值从0开始计算，每遍历一个新的目标节点，节点标识符的数值增加1，将节点标识符写入到每个目标节点的属性列表中，新增的属性key值为yuxin_uid，节点的值为节点标识符的数值，在对所有目标节点均增加唯一的节点标识符之后，得到目标xml文件。

由此，本发明经过上述步骤S201至步骤S212，对初始xml文件进行数据结构进行修改，得到修改后的目标xml文件，目标xml文件的所有节点的节点标识符具有唯一性，将目标xml文件压缩为docx格式的标准化数据源文档，便于数据传输。

可选地，图6是本发明实施例一提供的又一种智能文档处理方法的流程图，在图1的基础上，示例性地示出了一种数据提取的具体实施方式，而非对上述数据提取方法的限定。

参考图6所示，对标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库，包括以下步骤：

步骤S401：对标准化数据源文档进行解压，得到具有节点标识符的目标xml文件。

在本步骤中，可在后缀名为docx的文档后追加.zip，再采用ZIP解压缩方法对压缩包进行解压，得到的xml文件中记载的内容为整个docx格式的标准化数据源文档中所有的文本内容。

步骤S402：对目标xml文件中所有节点的节点数据进行数据解析，节点数据包括文本内容数据(text)、节点标签数据(tag)、文本类型数据及节点标识符。

其中，文本内容数据(text)可用于限定文本内容，节点标签数据(tag)可用于限定节点的类型，文本类型数据可用于限定文本类型，典型地，文本类型可包括文本、表格或者图片。

在本实施例中，可采用lxml或者xml解析器对解压得到的目标xml文件进行解析，采用递归算法读取并清洗所有节点的节点数据。

步骤S403：根据数据解析结果确定目标结构化数据。

示例性地，目标结构化数据可为二维的结构化数据。

步骤S404：基于目标结构化数据建立文档数据库。

具体地，在对标准化数据源文档进行数据提取时，首先采用自动化程序将后缀名为docx的文档的后缀名更改为.zip，再采用ZIP解压缩方法进行解压，得到目标xml文件，采用lxml或者xml解析器对解压得到的目标xml文件进行数据分析，通过递归算法遍历目标xml文件中所有节点的节点数据，对节点数据进行整合和清洗，形成二维的结构化数据，基于二维的结构化数据进行数据提取，建立文档数据库，便于数据分类入库。

可选地，图7是本发明实施例一提供的又一种智能文档处理方法的流程图，参考图7所示，基于目标结构化数据建立文档数据库，具体包括以下步骤：

步骤S701：提取目标xml文件中所有节点的目录标题数据。

其中，目录标题数据包括目录标题的文本内容和文本属性，文本内容包括目录名称和标题名称。

可选地，基于目标结构化数据建立文档数据库，包括以下步骤：基于节点标签数据获取目标结构化数据中的所有目录标题节点；获取每个目录标题节点的目录标题数据及目录标题节点与正文文本之间的对应关系；根据目录标题数据及对应关系确定文档数据库中的文档目录数据集。

其中，目录标题节点与正文文本之间的对应关系包括各级目录和标题在正文中的结构数据，例如，该结构数据包括一级目录、二级目录、一级标题、二级标题等。

具体地，段落节点定义为，遍历段落节点中所有子节点信息，并判断子节点中是否存在<instrText>节点，及文本内容中是否包含"PAGEREF"文本，若子节点中存在<instrText>节点，且文本内容中包含"PAGEREF"文本，则通过"PAGEREF"文本快速定位目录位置，并获取对应的目录标题节点的目录标题数据及目录标题节点与正文文本之间的对应关系，通过目录标题数据及对应关系可以形成文档目录，为智能化办公提供目录数据。

步骤S702：提取目标xml文件中所有节点的节点段落数据。

其中，节点段落数据包括至少一个目标文本节点及每个节点中的具体文本内容。

可选地，基于目标结构化数据建立文档数据库，包括以下步骤：基于节点标签数据获取目标结构化数据中的所有段落节点；遍历每个段落节点中的目标文本节点的节点段落数据；根据段落节点及节点段落数据确定文档数据库中的文档段落数据集。

具体地，段落节点定义为，通过遍历每个节点中的内容获取对应的段落节点的节点段落数据，将所有段落节点及一一对应的段落数据整合入库，为智能化办公提供文本内容数据。

步骤S703：提取目标xml文件中所有节点的表格数据。

其中，表格数据包括表格中每个单元格在整体表格中的坐标及每个单元格中的文本内容。

可选地，基于目标结构化数据建立文档数据库，包括以下步骤：基于节点标签数据获取目标结构化数据中的所有表格节点；遍历每个表格节点中的表格行节点及单元格节点；根据遍历结果确定每个单元格在整体表格中的坐标参数；根据表格节点、单元格节点及坐标参数确定文档数据库中的文档表格数据集。

具体地，表格节点的节点标签可定义为<tbl>，通过识别标签<tbl>，遍历表格节点<tbl>中的表格行节点<tr>和单元格节点<tc>，通过算法计算每个单元格在整体表格中的坐标参数，为智能化办公提供表格数据。

步骤S704：将目录标题数据、节点段落数据及表格数据进行分类整合，建立文档数据库。

具体地，分别对提取到的目录标题数据、节点段落数据及表格数据进行异常值和缺失值处理，并对目录标题数据、节点段落数据及表格数据进行分类存储，实现文档数据分类入库，为互联网金融办公系统的文档编辑操作提供数据基础，有利于提高文档编辑效率和准确性。

可选地，在建立文档数据库之后，智能文档处理方法还包括：根据文档数据库创建目标文档。

其中，目标文档是指通过web办公系统创建的项目表，典型地，该项目表可为任一公司的财务报表。

具体地，项目人员可根据实际业务需求调用文档数据库中目录、段落内容或者表格等数据，对目标文档进行修改、填充或者删除等操作。

由此，本发明通过对数据源文档的xml文件进行目标文本节点合并、目标文本节点拆分和添加节点标识符等预处理，得到标准化数据源文档，对标准化数据源文档进行数据提取，根据数据提取结果建立文档数据库，通过调用文档数据库中的数据实现目标文档的自动创建，解决了现有的人工手动编辑文档导致的效率低、成本高的问题，为互联网金融办公系统的文档编辑操作提供数据基础，智能化程度高，文档处理方便快捷，有利于节省人工成本和时间成本，提高文档编辑效率和准确性。

实施例二

本发明实施例二提供了一种智能文档处理系统，本发明实施例所提供的智能文档处理系统可执行本发明任意实施例所提供的智能文档处理方法，具备执行方法相应的功能模块和有益效果。

图8是本发明实施例二提供的一种智能文档处理系统的结构示意图。

如图8所示，该智能文档处理系统00包括：数据源获取模块101、文档预处理模块102、文档压缩模块103及数据抽取模块104，其中，数据源获取模块101，用于获取数据源文档的xml文件，xml文件包括至少一个段落节点，段落节点中包括至少一个目标文本节点；文档预处理模块102，用于对xml文件进行标准化处理，得到目标xml文件，标准化处理包括依次执行的目标文本节点合并、目标文本节点拆分和添加节点标识符；文档压缩模块103，用于对目标xml文件进行压缩处理，得到标准化数据源文档；数据抽取模块104，用于对标准化数据源文档进行数据提取，并根据数据提取结果建立文档数据库。

可选地，文档预处理模块102用于采用递归算法遍历xml文件中的所有段落节点；将任一段落节点中的所有目标文本节点合并到同一段落节点中的第一目标文本节点；根据目标文本节点合并结果确定第一xml文件。

可选地，文档预处理模块102还用于获取目标文本节点合并处理得到的第一xml文件；采用递归算法遍历第一xml文件中的所有段落节点；基于第一目标文本节点中的预设锚点标记对第一目标文本节点中的文本内容进行拆分；根据目标文本节点拆分结果确定第二xml文件。

可选地，文档预处理模块102还用于获取目标文本节点拆分处理得到的第二xml文件；采用递归算法遍历第二xml文件中的所有目标节点，目标节点包括段落节点和目标文本节点；根据递归顺序确定目标节点的节点标识符，节点标识符与目标节点一一对应，节点标识符的值根据递归顺序依次递增；将节点标识符添加至对应的目标节点的属性列表；根据节点标识符添加结果确定目标xml文件。

可选地，数据抽取模块104用于对标准化数据源文档进行解压，得到具有节点标识符的目标xml文件；对目标xml文件中所有节点的节点数据进行数据解析，节点数据包括文本内容数据、节点标签数据及文本类型数据；根据数据解析结果确定目标结构化数据。

可选地，数据抽取模块104还用于基于节点标签数据获取目标结构化数据中的所有目录标题节点；获取每个目录标题节点的目录标题数据及目录标题节点与正文文本之间的对应关系；根据目录标题数据及对应关系确定文档数据库中的文档目录数据集。

可选地，数据抽取模块104还用于基于节点标签数据获取目标结构化数据中的所有段落节点；遍历每个段落节点中的目标文本节点的节点段落数据；根据段落节点及节点段落数据确定文档数据库中的文档段落数据集。

可选地，数据抽取模块104还用于基于节点标签数据获取目标结构化数据中的所有表格节点；遍历每个表格节点中的表格行节点及单元格节点；根据遍历结果确定每个单元格在整体表格中的坐标参数；根据表格节点、单元格节点及坐标参数确定文档数据库中的文档表格数据集。

可选地，文档数据库可用于创建目标文档。

由此，本发明实施例提供的智能文档处理系统，其执行智能文档处理方法，该文档处理方法通过对数据源文档的xml文件进行标准化处理，及基于标准化处理后的xml文件进行数据提取，并根据数据提取结果建立文档数据库，解决了现有的人工手动编辑文档导致的效率低、成本高的问题，为智能化文档编辑操作提供数据基础，智能化程度高，文档处理方便快捷，有利于节省人工成本和时间成本，提高文档编辑效率和准确性。

实施例三

图9是本发明实施例三提供的一种计算机设备的结构示意图。图9示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图9显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器16，存储器28，连接不同系统组件(包括存储器28和处理器16)的总线18，及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该程序时实现上述智能文档处理方法，具有执行该方法相应的功能模块和有益效果。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的智能文档处理方法。

实施例四

本发明实施例四还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述智能文档处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：将文本数据转换为声学特征的方法

智能文档处理方法、系统、计算机设备及介质

相关技术

网友询问留言