文书智能排版方法及系统

文档序号：169319 发布日期：2021-10-29 浏览：16次 >En<

阅读说明：本技术 文书智能排版方法及系统 (Intelligent document typesetting method and system ) 是由陈浩于 2021-07-29 设计创作，主要内容包括：本发明是一种针对国家公文和各类法律文书的智能排版技术,主要针对国家公文、公安文书、检察文书、法院文书、司法行政文书、各类执法文书、仲裁文书、公证文书、鉴定文书、合同类文本,根据文书多对应的业务类型的内容特征、书写规范、文书半结构化特征,设计了一种文书结构的信息模型,提出了一种识别文书类型的分类方法、一种解析文书结构和要素的的方法和一种基于文书类型、文书要素和文书版式进行自动排版的方法,最终实现对一个文书按照特定版式自动排版的功效,使得计算机系统能够在文书制作中辅助排版,以解决现有技术排版过程中需要较多人工参与,效率低以及排版软件较难操作的问题。(The invention relates to an intelligent typesetting technology aiming at national official documents and various legal documents, which mainly aims at national official documents, public security documents, inspection documents, court documents, judicial administration documents, various law enforcement documents, arbitration documents, notarization documents, identification documents and contract documents, designs an information model of a document structure according to the content characteristics, writing specifications and semi-structured characteristics of the documents of multiple corresponding business types, provides a classification method for identifying the document type, a method for analyzing the document structure and elements and a method for automatically typesetting based on the document type, the document elements and the document format, finally realizes the effect of automatically typesetting a document according to a specific format, ensures that a computer system can assist in typesetting in the document making process so as to solve the problem that more manual work is needed in the typesetting process of the prior art, low efficiency and difficult operation of typesetting software.)

文书智能排版方法及系统

技术领域

本发明涉及法律知识工程技术领域，特别是涉及一种文书智能排版方法及系统。

背景技术

国家公文和各类法律文书为保障其严肃性，都有严格的版式规定。国家公文和各类法律文书一般以非结构化自然语言文档方式来表示。为了严格符合版式要求，人工排版往往会耗时耗力，特别是针对特殊情形的文书，肉眼有时都难以观察和把控。因此，采用计算机技术对文档内容和结构进行识别并按照对应文档类型之下的排版标准进行自动排版，是解决国家公文和各类法律文书排版工作在信息化场景下的关键技术。最接近的同类技术及其不足之处，分述如下：

1.法律文书自动排版方法及装置(申请号/专利号：CN201910769647.3)：核心的方法包括：通过模板式信息填充生成法律文书；以用户对文书的格式要求为标准，以预先设计的刷格式模型为参考，配置刷格式XML文件；程序解析法律文书Word文件为Word模型，根据Word中结构书签和内容标记书签的分布，为每个段落设置结构书签和段落书签，然后加载刷格式配置，进行格式的设置。本发明实施例公开的法律文书自动排版方法及装置，支持以XML形式进行文书格式的配置，扩展性强，支持法院层级的格式配置，灵活满足文书地域不同格式要求，支持Word常用的格式设置，基于刷格式配置，进行法律文书的自动排版，灵活地满足同一文书不同地域的特殊格式要求，最终生成不同法院需求的格式文书。。

2.一种文书文件的排版方法及装置(申请号/专利号：CN200910090195.2)：核心方法包括，该方法排版装置根据用户输入的文书模板文件，解析获得对应的文书规则子文件、文书式样子文件及文书要素式样子文件；根据用户导入的文本文件，解析获得文本文件中的每个要素内容；将每个要素内容与文书要素式样子文件中的要素属性匹配，将匹配成功的要素内容传给要素属性对应的显现对象，根据该显现对象采用的文书式样子文件中的式样及文书规则子文件中的规则，对该显现对象中的要素内容进行排版。如本发明提出的方案，根据该显现对象采用的规则和式样，对该显现对象中的要素内容进行排版，从而提高排版的效率。

3.一种裁判文书自动排版方法及系统(申请号/专利号： CN202110100574.6)：获取文书模板；对所述文书模板进行解析得到文书规则、文书式样以及文书要素；获取待排版的文书文件文本；对所述待排版的文书文件文本进行解析，得到所述待排版的文书文件文本中的要素以及要素内容；将所述文书模板中的文书要素和所述待排版的文书文件文本中的要素进行匹配；基于所述文书规则和所述文书样式对匹配后的要素进行排版。本发明中的上述方法能够减少人工的残余，提高排版效率。

上述三个专利，不足之处在于：(1)针对同一种文书类型，没有利用文书内容要素的特征差异实现不同版式的分流和控制；(2)对局部要素的排版缺少基于上下文参数的版式页码智能计算和控制；(3)文书要素识别没有明确所采用的算法方案，难以评估实际排版的指标水平。

发明内容

本发明要解决的技术问题是提供一种文书智能排版方法及系统，能够解决现有技术排版过程中需要较多人工参与，效率低以及排版软件较难操作的问题。

为解决上述技术问题，本发明提供了一种文书智能排版方法，所述方法包括：根据每类文书的书写规范、文本结构和内容特征，从后续排版要求出发，设计一套针对每一类文书的xml信息模型；根据每类文书的排版规范，结合这类文书的xml信息模型，定义一套排版样式模型；根据不同类文书的书写规范、文本结构和内容特征，设计一套识别文书类型的分类算法，实现对每一篇文书实例的自动分类；根据不同类文书的书写规范、文本结构和内容特征，结合这类文书的xml信息模型，采用基于规则和深度学习混合的方法，对文书全文进行分段切片和局部要素提取，按照文书的xml信息模型形成一个实例xml；根据当前文书的排版规范，调用对应的排版计算模型和排版样式模型，对当前文书实例xml进行自动排版，输出一个word或wps文档。

在一些实施方式中，根据每类文书的书写规范、文本结构和内容特征，从后续排版要求出发，设计一套针对每一类文书的xml信息模型，包括：总结每类文书文本书写规范和文本结构，将文本各段落按照逻辑关系划分出多层级的文本片；基于每类文书文本的切片业务特征、排版规范和语义特征，每一层级的分片，都包括分片属性和分片内容，同一层级分片之间定义上下文顺序，每一层级的分片，基于后续排版规范的需求，设计需要包含的信息要素；设计文书切片信息模型用以存储文书文本各层级切片及其要素。

在一些实施方式中，根据每类文书的排版规范，结合这类文书的xml信息模型，定义一套排版样式模型，包括：总结文书中要素的信息，设计一套针对各个部分样式存储的xml信息模型。

在一些实施方式中，xml信息模型包括：字体设置，及段落设置，字体设置中进行存储样式，字体、字号、样式、字号、颜色、字符间距、字符间隔，段落设置中进行存储样式，对其方式、左右缩进、行距、首行缩进类型。

在一些实施方式中，根据不同类文书的书写规范、文本结构和内容特征，设计一套识别文书类型的分类算法，实现对每一篇文书实例的自动分类，包括：基于文书分析结构化数据及文本结构，内容特征等，对文书进行自动分类，通过单个或多个结构化信息字段，组合识别判断文书类型；设计文书样式模板, 根据不同类型进行分类；根据分类设定不同的样式文件，从而实现不同文书匹配不同的排版样式。

在一些实施方式中，根据不同类文书的书写规范、文本结构和内容特征，结合这类文书的xml信息模型，采用基于规则和深度学习混合的方法，对文书全文进行分段切片和局部要素提取，按照文书的xml信息模型形成一个实例 xml，包括：根据文书格式类型，识别文书内容，通过读取内容后，进行下一步分析计算；结合文书内容处理后，采用基于规则和深度学习的混合方法和分析结构化技术，将非结构化文书提取识别为结构化信息文书结构体，从而达到文书的段落要素的识别和局部特殊字段的提取，从而输出结构化的文书模型。

在一些实施方式中，根据当前文书的排版规范，调用对应的排版计算模型和排版样式模型，对当前文书实例xml进行自动排版，输出一个word或wps 文档，包括：针对文书结构化信息体，根据分类、样式模型等处理形成排版的规范文件，其中法院行业文书和公文都有特有的排版样式处理；法院行业文书，审判人员、审判日期、书记员不能跨页显示，将自动对文书正文段间距、行间距、页边距等进行微调，从而满足不跨页显示问题；公文，签发人在发文字号右侧，实现发文字号与签发人左右对其，采用单元格拆分，将元素进行分割显示，并显示左右对其，针对签发人和签发人姓名字体不一致，实现签发人姓名与签发人字段的不同字体样式的调整，标题中比较长的文字，实现菱形排列，从而实现自动排版效果；通过各部位的样式刷新后，形成新的文档格式，从而输出word或wps文档。

此外，本发明还提供了一种文书智能排版方法，所述系统包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的文书智能排版方法。

采用这样的设计后，本发明至少具有以下优点：

本发明是一种针对国家公文和各类法律文书的智能排版技术，主要针对国家公文、公安文书、检察文书、法院文书、司法行政文书、各类执法文书、仲裁文书、公证文书、鉴定文书、合同类文本，根据文书多对应的业务类型的内容特征、书写规范、文书半结构化特征，设计了一种文书结构的信息模型，提出了一种识别文书类型的分类方法、一种解析文书结构和要素的的方法和一种基于文书类型、文书要素和文书版式进行自动排版的方法，最终实现对一个文书按照特定版式自动排版的功效，使得计算机系统能够在文书制作中辅助排版，以解决现有技术排版过程中需要较多人工参与，效率低以及排版软件较难操作的问题。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与

具体实施方式

对本发明作进一步的详细说明。

图1是方法的流程示意图；

图2是xml信息模型的原理示意图；

图3是文书类型判断的流程示意图；

图4是法律文书分类信息的示意图；

图5是公文分类信息的示意图；

图6是结构化文书模型的流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明包括以下步骤：

步骤(1)根据每类文书的书写规范、文本结构和内容特征，从后续排版要求出发，设计一套针对每一类文书的xml信息模型；

步骤(2)根据每类文书的排版规范，结合这类文书的xml信息模型，定义一套排版样式模型；

步骤(3)根据不同类文书的书写规范、文本结构和内容特征，设计一套识别文书类型的分类算法，实现对每一篇文书实例的自动分类；

步骤(4)根据不同类文书的书写规范、文本结构和内容特征，结合这类文书的xml信息模型，采用基于规则和深度学习混合的方法，对文书全文进行分段切片和局部要素提取，按照文书的xml信息模型形成一个实例xml；

步骤(5)根据当前文书的排版规范，调用对应的排版计算模型和排版样式模型，对当前文书实例xml进行自动排版，输出一个word或wps文档；

总体流程图请参见图1。

步骤(1)根据每类文书的书写规范、文本结构和内容特征，从后续排版要求出发，设计一套针对每一类文书的xml信息模型；

各类文书文本通常是用WORD或WPS软件书写，且文本分段清晰，书写规范，具有明显的结构。本专利采用一种由粗到细结构化文书文本的方法，按各类文书文本的书写规范、文本结构和内容特征，将文本切分出多个文本片，并设计出文书切片模型，用以存储各个逻辑段落。具体步骤如下：

步骤(1.1)总结每类文书文本书写规范和文本结构，将文本各段落按照逻辑关系划分出多层级的文本片，比如，针对法规文本的一级文本片进行分析，包括“法规首部”、“法规正文”、“法规尾部”，“法规首部”包括二级文本分片“发布命令”、“发布文号”、“发布内容”、“发布机关和人员”、“发布日期”等；“法规正文”包括多子级文本分片，二级分片包括“法规标题”、“目录”、“条文内容”，“条文内容”的子级分片以“篇|则”、“章”、“节”、“条”、“款”、“项”、“目”来层层递进。

步骤(1.2)基于每类文书文本的切片业务特征、排版规范和语义特征，每一层级的分片，都包括分片属性和分片内容，同一层级分片之间定义上下文顺序，每一层级的分片，基于后续排版规范的需求，设计需要包含的信息要素。

步骤(1.3)设计文书切片信息模型用以存储文书文本各层级切片及其要素。根据每个层级切片所包含的细切片以及每个切片的基本属性和文本内容，每个层级切片以对应基本属性给文本片命名，例如“法规正文”、“条文内容”、“条”，并保存每个层级切片中的基本属性和文本内容，基本属性以有限范围表述形态的短字符串存储，文本内容以长字符串存储，整个切片模型采用树状结构存储。

步骤(2)根据每类文书的排版规范，针对每类文书的xml信息模型，设计一套排版样式模型；具体步骤包括：

步骤(2.1)总结文书中要素的信息，设计一套针对各个部分样式存储的 xml信息模型，例如字体设置中进行存储样式，字体、字号、样式、字号、颜色、字符间距、字符间隔等，段落设置中进行存储样式，对其方式、左右缩进、行距、首行缩进类型等。

xml信息模型的原理请参见图2。

步骤(3)根据不同类文书的书写规范、文本结构和内容特征，设计一套识别文书类型的分类算法，实现对每一篇文书实例的自动分类；具体步骤包括：

步骤(3.1)基于文书分析结构化数据及文本结构，内容特征等，对文书进行自动分类，通过单个或多个结构化信息字段，组合识别判断文书类型，如图 3所示。

步骤(3.2)设计文书样式模板,根据不同类型进行分类，例如：刑事一审、刑事二审、刑事复查等归为一类，民事一审、民事二审、民事再审等归为二类；根据分类设定不同的样式文件，从而实现不同文书匹配不同的排版样式。

法律文书分类信息如图4所示。

公文分类信息如图5所示。

步骤(4)根据不同类文书的书写规范、文本结构和内容特征，结合这类文书的xml信息模型，采用基于规则和深度学习混合的方法，对文书全文进行分段切片和局部要素提取，按照文书的xml信息模型形成一个实例xml；具体步骤包括：

步骤(4.1)根据文书格式类型，识别文书内容，例如： txt,doc,docx,rtf,wps等格式文件，通过读取内容后，进行下一步分析计算；

步骤(4.2)结合文书内容处理后，采用基于规则和深度学习的混合方法和分析结构化技术，将非结构化文书提取识别为结构化信息文书结构体，从而达到文书的段落要素的识别和局部特殊字段的提取；从而输出结构化的文书模型，如图6所示。

步骤(5)根据当前文书的排版规范，调用对应的排版计算模型和排版样式模型，对当前文书实例xml进行自动排版，输出一个word或wps文档；具体步骤包括：

步骤(5.1)针对文书结构化信息体，根据分类、样式模型等处理形成排版的规范文件；其中法院行业文书和公文都有特有的排版样式处理；

步骤(5.2)法院行业文书，审判人员、审判日期、书记员不能跨页显示，将自动对文书正文段间距、行间距、页边距等进行微调，从而满足不跨页显示问题；

审判人员段落中审判身份段落与人名之间的空格比例、人名对其等方面，采用自动计算+固定宽度的调整，实现审判身份上下对齐、人名上下对齐；

步骤(5.3)公文，签发人在发文字号右侧，实现发文字号与签发人左右对其，采用单元格拆分，将元素进行分割显示，并显示左右对其，针对签发人和签发人姓名字体不一致，实现签发人姓名与签发人字段的不同字体样式的调整；标题中比较长的文字，实现菱形排列，从而实现自动排版效果；

步骤(5.4)通过各部位的样式刷新后，形成新的文档格式，从而输出word 或wps文档。

以下说明用于实现算法和执行方法的客户端、服务器和基于云的处理系统资源的示例性处理电路。分布式处理系统可以包括电路的多个实例，所述电路可以用于实现任一处理电路，以执行图1、图3、图6中所示的流程图所表示的算法。在各个实施例中不需要使用所有组件。例如，分布式处理系统的客户端、服务器和网络资源中的每一个可以使用不同的组件集合，在图形数据库服务器的情况下，例如可以使用更大的存储设备。

以计算机形式存在的一个示例性处理系统可以包括处理单元、存储器、可移动存储设备和不可移动存储设备，均耦合到总线。处理单元可以包括一个或多个单核或多核处理设备。尽管示例性处理系统被描述为计算机，但是处理系统在不同实施例中可以具有表现为不同的形式。例如，用户设备的处理系统还可以是笔记本电脑、平板电脑或包括与元件相同或相似的元件的另一处理设备。笔记本电脑、平板电脑等设备可以统称为移动设备或用户设备。此外，尽管各种数据存储元件被描述为计算机的一部分，但存储设备可以或替代地包括可以通过网络(例如局域网(local area network，LAN)、个人局域网(personalarea network，PAN)、广域网(wide area network，WAN)如互联网)访问的网络连接(例如，基于云的)存储设备，或本地基于服务器的存储设备。

存储器可以包括易失性存储器和非易失性存储器。计算机可以包括或可以访问包括各种计算机可读介质(例如易失性存储器、非易失性存储器、可移动存储设备及不可以动存储设备)的处理环境。计算机存储器包括随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，EPROM) 和电可擦除可编程只读存储器(electrically erasableprogrammable read-only memory，EEPROM)、闪存或其他存储技术、光盘只读存储器(compact disc read-only memory，CDROM)、数字通用磁盘(digital vresatile disk，DVD)或其它光盘存储器、磁带盒、磁带、磁盘存储器或其它磁存储设备，或能够存储计算机可读指令的任何其它介质。

计算机可以包括或可以访问包括输入接口、输出接口和通信连接或接口的处理环境，其中，如图所示，输入接口、输出接口和通信连接或接口连接到总线。输出接口可以包括显示设备，例如触摸屏或计算机显示器，输出接口也可以作为耦合到输入接口的输入设备。输入接口可以包括触摸屏、触控板、鼠标、键盘、相机、一个或多个设备特定按钮、集成在计算机内或经由有线或无线数据连接耦合到计算机的一个或多个传感器、其他输入设备等设备中的一个或多个。计算机可以在网络环境中运行，通过通信连接连接到一个或多个远程计算机，例如大型机、服务器和/或数据库服务器，这些远程计算机可用于实现网络连接服务。用户设备可以包括个人计算机(personal computer，PC)、服务器、路由器、网络PC、对端设备或其他普通网络节点等。所述通信连接可以包括局域网(local area network，LAN)、广域网(wide area network，WAN)、蜂窝网络、Wi-Fi网络、蓝牙网络、互联网或其它网络。

存储在计算机可读介质中的计算机可读指令可由计算机的处理单元执行。硬盘驱动器CD-ROM和RAM是包括非瞬时性计算机可读介质(例如磁存储介质、光存储介质、闪存介质和固态存储介质)的物品的一些示例。由于载波过于短暂，因此属于“计算机可读介质”和“存储设备”不包括载波。例如，可以通过一个或多个应用程序使得处理单元执行本文描述的一个或多个方法或算法。

应理解，软件可以安装在用户设备和/或网络连接服务的一个或多个处理器中并与它们一起销售。或者，可以通过物理介质或分布式系统例如从软件创作者拥有的服务器或从非软件创作者拥有但被软件创作者实用的服务器获得软件，并将软件加载到用户设备和/或网络连接服务中。例如，软件可以存储在服务器上，以便通过互联网分配。

本文描述的功能或算法可以在实施例中通过软件实现。软件可以包括存储在计算机可读介质或计算机可读存储设备例如一个或多个物理存储设备或其它类型的基于硬件的存储设备，本地或网络上的计算机可执行指令。此外，这些功能对应于模块，这些模块可以是软件、硬件、固件或其它任意组合。多个功能可以根据需要在一个或多个模块中执行，所描述的实施例仅仅是示例性的。该软件可以在处理系统例如数字信号处理器、专用集成电路 (application-specific integrated circuit，ASIC)、微处理器、大型处理器或运行在计算机系统(例如个人计算机服务器或其他处理系统)上的其它类型的处理器上执行，从而将此类处理系统变为具体编程的机器。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

14页详细技术资料下载

文书智能排版方法及系统

相关技术

网友询问留言