离婚纠纷裁判文书标签提取方法及装置

文档序号:1043316 发布日期:2020-10-09 浏览:7次 >En<

阅读说明:本技术 离婚纠纷裁判文书标签提取方法及装置 (Divorce dispute referee document label extraction method and device ) 是由 刘大双 晋耀红 李德彦 张志一 于 2020-06-12 设计创作,主要内容包括:本申请公开了离婚纠纷裁判文书标签提取方法及装置,所述方法包括:所述方法包括:首先对获取到的离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素;然后从预设标签体系中获取待提取的目标文书标签的父标签,并确定父标签对应的数据对象集合;从父标签对应的数据对象集合中提取目标文书标签。本申请方法实现了对离婚纠纷裁判文书多层级、多维度的标签提取,为文书内容标注、案件检索和查询提供帮助。(The application discloses a divorce officer document label extraction method and a divorce officer document label extraction device, wherein the method comprises the following steps: the method comprises the following steps: firstly, structuring an acquired divorce officer document to generate at least one data object set, wherein the data object set comprises at least one data object, and document elements of the divorce officer document are packaged in the data object; then, acquiring a parent tag of a target document tag to be extracted from a preset tag system, and determining a data object set corresponding to the parent tag; and extracting the target document label from the data object set corresponding to the parent label. The method realizes multi-level and multi-dimensional label extraction of the divorce referee document, and provides help for document content marking, case retrieval and query.)

离婚纠纷裁判文书标签提取方法及装置

技术领域

本申请涉及文本处理技术领域,尤其涉及一种离婚纠纷裁判文书标签提取方法及装置。

背景技术

裁判文书是记载人民法院审理过程和结果等诉讼活动结果的载体,也是人民法院确定和分配当事人实体权利义务的唯一凭证。裁判文书通常具有规律的结构框架和编写格式,对于不同类型的裁判文书,其结构框架和编写格式可能略微不同。常见的文书类型包括民事裁判文书(如民事判决书),刑事裁判文书(如刑事判决书),行政裁判文书(如行政判决书),以及其他通用诉讼文书等。

由于裁判文书中记载有审理过程和判决结果等重要信息,这些信息具有重要的分析和关注的价值,例如根据这些信息进行类案分析、案件检索等,因此从裁判文书中抽取出有价值的信息(如文书要素、文书标签)成为相关领域内从业人士的基本需求。

离婚纠纷裁判文书是民事裁判文书中的一种,为了能够全面了解离婚纠纷裁判文书的要素特征,如何从离婚纠纷裁判文书中,抽取出文书标签,成为本领域技术人员亟待解决的技术问题。

发明内容

本申请提供离婚纠纷裁判文书标签提取方法及装置,以解决如何从离婚纠纷裁判文书中,抽取出文书标签的问题。

第一方面,本申请提供一种离婚纠纷裁判文书标签提取方法,所述方法包括:

获取离婚纠纷裁判文书;

对所述离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,所述数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素;

从离婚纠纷裁判文书的预设标签体系中获取父标签,并确定所述父标签对应的数据对象集合,所述父标签为待提取的目标文书标签的父标签;

从所述父标签对应的数据对象集合中提取所述目标文书标签。

第二方面,本申请还提供一种离婚纠纷裁判文书标签提取装置,所述装置包括:

文书获取模块,用于获取离婚纠纷裁判文书;

文书结构化模块,用于对所述离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,所述数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素;

父标签获取模块,用于从离婚纠纷裁判文书的预设标签体系中获取父标签,并确定所述父标签对应的数据对象集合,所述父标签为待提取的目标文书标签的父标签;

文书标签提取模块,用于从所述父标签对应的数据对象集合中提取所述目标文书标签。

由以上技术方案可知,本申请提供一种离婚纠纷裁判文书标签提取方法及装置,所述方法包括:首先对获取到的离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素;然后从预设标签体系中获取待提取的目标文书标签的父标签,并确定父标签对应的数据对象集合;从父标签对应的数据对象集合中提取目标文书标签。本申请方法实现了对离婚纠纷裁判文书多层级、多维度的标签提取,为文书内容标注、案件检索和查询提供帮助。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请根据一示例性实施例示出的离婚纠纷裁判文书要素提取方法流程图;

图2为本申请根据一示例性实施例示出的离婚纠纷裁判文书标签提取方法流程图;

图3为本申请根据一示例性实施例示出的离婚纠纷裁判文书标签提取装置框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

在司法领域中,裁判文书是用于记载人民法院审理过程和结果等诉讼活动结果的专用文书,其通常具有统一的结构组成和编写格式,每一部分组成(即文本区块)都对应一个内容主题,用于表征该部分所涵盖内容的主旨。

以民事判决书为例,其由头部信息、当事人信息、审理经过、诉讼方请求、被诉讼方辩解、争议焦点、证据目录、审理查明、法院观点、判决结果和尾部信息组成,前述每一主题对应的组成部分都具有特定的编写格式或者叙述方式,且每个组成部分都含有既定要素,例如头部信息必然包含“审理法院名称”、“案号”等等。

由于裁判文书中记载有审理过程和结果等重要信息,这些信息具有重要的分析和关注的价值,因此可以通过从裁判文书中抽取出有价值的信息来全面了解裁判文书。例如,了解案件类型、案号、审理法院名称、审理法院层级、地域、合议庭成员以及诸如受理时间、审理时间的时间要素等。

文书要素和文书标签是从文书中抽取出的、用于了解文书的重要信息。其中,文书要素是对文书内容的直接提取结果,如案件类型、案号、审理法院名称、审理法院层级、地域、合议庭成员以及诸如受理时间和审理时间等,文书标签用于对文书进行标注,其不仅标注了文书内容,还标注了对文书内容的分类。文书标签可以用于文书检索或查询,如检索具有特定标签的案件文书,或者检索具有相同特定标签的类似案件,以进行类案分析。

离婚纠纷裁判文书是民事裁判文书中的一种,为了能够全面了解离婚纠纷裁判文书的内容和/或内容的分类,本申请实施例提供一种离婚纠纷裁判文书要素提取方法和一种离婚纠纷裁判文书标签提取方法,以下先对离婚纠纷裁判文书要素提取方法的具体实施方式予以介绍。

图1为本申请根据一示例性实施例示出的该方法流程图,如图1所示,该方法可以包括:

步骤110,获取离婚纠纷裁判文书。

本申请中,离婚纠纷裁判文书可以为离婚纠纷一审判决书,如张某与李某离婚纠纷一审判决书。

步骤120,根据预设的裁判文书目录结构,将离婚纠纷裁判文书切分成多个文本块,裁判文书目录结构包括多个目录标题,每个文本块对应一个目录标题。

在一些实施例中,收集一定规模的离婚纠纷裁判文书数据集,学习并挖掘出离婚纠纷裁判文书的目录结构组成及每部分组成的编写特点,利用裁判文书的目录结构组成特点,搭建以目录结构组成中目录标题为目录节点的目录树,并利用每部分组成的编写特点,为每个目录节点设计抽取规则,如至少一个抽取表达式。使用目录节点对应的抽取规则,可以从离婚纠纷裁判文书中抽取与目录节点对应的文本块,即为与裁判文书目录结构中的目录标题对应的文本块。

在一些实施例中,目录节点顺序地列出了裁判文书中可能存在的文本块的内容主题,目录节点下的抽取规则用于从裁判文书中抽取出与该目录节点或者说内容主题对应的文本块,一个文本块包括一个或多个段落。

民事判决书

头部信息------------------<抽取表达式>

当事人信息---------------<抽取表达式>

审理经过------------------<抽取表达式>

诉讼方请求---------------<抽取表达式>

被诉讼方辩解------------<抽取表达式>

审理查明------------------<抽取表达式>

争议焦点------------------<抽取表达式>

法院观点------------------<抽取表达式>

判决结果------------------<抽取表达式>

尾部信息------------------<抽取表达式>

其中,“民事判决书”为根据文书类型选择的目录树的名称,“头部信息”等为该目录树包括的目录节点。

在一些实施例中,每个目录节点对应的抽取表达式用于抽取每个文本块的块首信息,进而可以根据块首信息确定每个文本块的起始位置,抽取相邻两个起始位置间的段落内容,可得到相应的文本块。

通过上述方法对某离婚纠纷裁判文书切块处理,得到示例性切分结果如下:

<头部信息>//

北京市XX区人民法院

民事判决书

(2018)京0105民初77967号

<当事人信息>//

原告:刘某,男,1983年10月31日出生,汉族,住北京市朝阳区。

委托诉讼代理人:张某,北京xx律师事务所律师。

被告:芦某,女,1985年4月25日出生,汉族,住北京市朝阳区。

委托诉讼代理人:夏某,北京xx律师事务所律师。

<审理经过>//

原告刘某诉被告芦某离婚后财产纠纷一案,本院立案受理后,本院立案后,…。本案现已审理终结。

<诉讼方请求>//

刘某向本院提出诉讼请求:1、芦某向我支付309 678元;2、诉讼费由被告承担。事实和理由:我与芦某…2012年11月,我与芦娟某共同申请购买了位于朝阳区和敬路x号院x号楼x号两限房,…我认为,芦某应将我已偿还的部分支付给我。若芦某要求分割房屋份额,我要求芦某给我缴纳契税和贷款-半的费用,并且给我装修款的一半。

<被诉讼方请求>//

芦某辩称,离婚判决中写有房屋分割和债务一并解决,我要求按份分割房屋,要求分割房屋的三分之二。

<证据目录>//

原告围绕诉讼请求依法提交了证据:

证据1,清单1,证明1;

证据2,清单2,证明2;

经法庭当庭质证、认证的下列证据予以证实:

证据1,认定结果1;

证据2,认定结果2;

<审理查明>//

本院经审理认定事实如下:…。

<争议焦点>//

芦某主张按份分割涉案房屋。芦某认为申请涉案房屋时系以家庭名义申请,考虑了双方女儿的因素,故芦某应享有三分之二的所有权。刘某认为虽然涉案房屋系以家庭名义申请,但主要考虑了其为转业军人的身份才得到摇号的资格。刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税,并要求芦某支付一半的装修费用。

<法院观点>//

本院认为,根据有关法律规定,…。

<判决结果>//

判决如下:

自本判决生效之月起,…。

<尾部信息>//

审判长高XX

人民陪审员管XX

人民陪审员贺XX

二〇一九年十二月一日

代理书记员鲁XX

在上述示例中,由于目录树的目录节点组成是依据裁判文书的区块组成设计得到,因此目录树的目录节点组成与裁判文书的区块组成相对应,通过目录树切分得到的每个文本块均与目录树中的一个目录节点对应,且通过目录节点名称可以获取到相对应的文本块的目录标题。

步骤130,根据文本块对应的目录标题,从所述多个文本块中选择与待提取的指定要素对应的文本块。

在一些实施例中,通过学习离婚纠纷裁判文书的数据结构特征,挖掘离婚纠纷案件的专业术语知识体系,如子女抚养分配、共同财产分配、感情破裂事由等等,根据挖掘出的专业术语知识体系设计离婚纠纷裁判文书的要素体系结构,该要素体系结构中包含多层级、多维度的文书要素信息,如诉讼请求、案件事实、争议焦点和判决结果等等。

在本申请实施例中,从预设的要素体系结构中选择待提取的文书要素,即指定要素。在一些实施例中,待提取的指定要素又被称为目标要素。

通过学习及挖掘离婚纠纷裁判文书的数据结构特征,建立的示例性要素体系结构的如下:

Figure BDA0002537361830000061

上述示例性的要素体系结构中包括根节点、中间节点和叶节点,位于最高层的根节点只可具有一个或多个子节点,但是没有父节点;中间节点可以拥有一个或多个子节点,并且只能拥有一个父节点;位于最底层的叶节点只有父节点,没有子节点。

例如在上述示例性要素体系结构中,“诉讼请求”、“当事人信息”、“案件事实”、“证据类要素”、“争议焦点”、“判决结果”等为级别最高的根节点,“诉讼请求列表”等为“诉讼请求”的子节点,“子女情况要素”、“婚姻类型”等为“案件事实”的子节点、“子女数量”、“子女姓名”等为“子女情况要素”的子节点,等。

可以理解的是,不同的文书要素可能包含在不同的文本块中,例如诉讼请求要素包含在目录标题为诉讼方请求的文本块中,子女情况要素包含在目录标题为当事人信息、诉讼方请求、被诉讼方辩解、审理查明和法院观点等一个或者多个文本块中。因此,可以根据具体的目标要素,选择包含目标要素的文本块作为分析目标,例如,当需要提取诉讼请求要素时,选择目录标题为诉讼方请求的文本块作为结构化的对象。

为便于区分与说明,根据目标要素选择的、包含目标要素的文本块定义为与目标要素对应的目标文本块。

在一些实施例中,预先建立目录标题与文书要素之间的预设对应关系,在已知待提取的目标要素的情况下,根据该预设对应关系即可选择出与目标要素对应的目录标题,进而确定包含目标要素的目标文本块。

本实施例中,目录标题与文书要素之间的预设对应关系,可以如下表所示:

需要说明的是,上述预设对应关系仅是一种示例性表示,其未包含要素体系结构中的全部层级及维度的要素,本领域技术人员可以依据该示例性表示,进一步完善和细化该预设对应关系。

步骤140,利用与所述指定要素对应的要素树,从所述指定要素对应的文本块中抽取所述指定要素的要素值,所述要素树包括与各指定要素对应的要素节点和所述要素节点具有的抽取规则。

为了能够从一个既定目标文本块中抽取出该目标文本块所包括的文书要素,本申请预先针对特定的文本块创建与其适配的要素树结构,以使用不同的要素树从不同的文本块中抽取不同的文书要素。其中,每个要素树包括至少一个要素节点,每个要素节点对应至少一个抽取规则,抽取规则用于从目标区块中抽取出与要素节点对应的文书要素。

基于此,在步骤140中,根据目标文本块和/或目标要素选择要使用的要素树,利用要素树中的要素节点,从对应的目标文本块中抽取各个要素节点对应的目标要素的要素值。

示例性的,对于子女情况要素,预先创建的要素树如下:

在一些实施例中,由于不同要素节点用于抽取不同的目标要素,因此每个要素节点对应的抽取规则不同,所述抽取规则可以为:定位规则、时间抽取规则或者规范化要素匹配规则。

其中,定位规则包括基于正则表达式的前置定位规则和后置定位规则,定位规则的主要原理是利用前置定位规则确定目标要素在目标文本块中的起始位置,利用后置定位规则确定目标文书要素在目标文本块中的结束位置。

在一些实施例中,利用前置定位规则确定目标要素在目标文本块中的起始位置,包括:利用前置定位规则识别目标要素的前置定位信息;根据前置定位信息确定目标要素在目标文本块中的起始位置。所述前置定位信息可以为特定的上文词或者上文语境,例如合议庭成员名称前的角色标签,还可以特定位置索引的中文字符或者非中文字符,例如以头部区块信息中第一个位置处中文字符作为“审理法院名称”的前置定位信息。

在一些实施例中,利用后置定位规则确定目标要素在目标文本块中的结束位置,包括:利用后置定位规则识别目标要素的后置定位信息;根据后置定位信息确定目标要素在目标文本块中的结束位置。所述后置定位信息可以为特定的后缀特征词,如“审理法院名称”的后缀特征词是“法院”或者“分院”,还可以为特定位置索引的非中文字符,如换行符号。

在一些实施例中,要素树中一个或多个要素节点对应的抽取规则为时间抽取规则,该时间抽取规则具体为至少一个时间抽取表达式,用于从审理经过区块等文本块中抽取时间要素,所述的时间要素如:包含在审理经过区块中的“起诉时间”、“受理时间”、“立案时间”、“审理时间”、和“审理周期”等,还包括“分居时间”等。

具体的,时间抽取表达式为支持各类日期结构类型的正则表达式,并且支持中文、***数字、全/半角类型数值信息的识别。

为了提高抽取出的时间类要素的准确性,在一些实施例中,首先对时间类要素对应的文本块中的时间信息进行指代消解处理,然后再从指代消解处理后的文本块抽取出时间类要素的要素值。

在一些实施例中,要素树中一个或多个要素节点对应的抽取规则为规范化要素匹配规则。其中,规范化要素可以理解为裁判文书中必定以规范字/词表示的文书要素,比如当事人或者子女的性别要素必定以“男”或“女”等规范词表示。

具体实现时,根据目标规范化要素预设规范词集,规范词集中包括至少一个规范词。进而,可以将规范词集中的规范词与目标文本块进行匹配,然后根据匹配结果从目标区块中抽取文书要素。

在一些实施例中,目标要素对应的要素节点下具有至少两个子节点,每个子节点对应的一个该目标要素的类别标签,其实质为该要素节点的抽取结果的类别标签。针对性地对部分要素节点的抽取结果进行分类,实现了更细粒度的要素提取和分类,提高了要素识别和提取结果的准确性。

在一些实施例中,目标要素可以是诉讼请求要素,与诉讼请求要素对应的文本块的目标标题可以为诉讼方请求。参阅上述示例性的要素体系结构,诉讼请求要素具体可以包括诉讼请求列表和被告是否同意离婚,相应的,用于抽取诉讼请求要素的要素树至少包括用于抽取诉讼请求列表的要素节点和用于抽取“被告是否同意离婚”的要素节点,其中,“被告是否同意离婚”对应的要素节点可以具有三个子节点,分别为“是”、“否”和“无”,其为“被告是否同意离婚”的节点抽取结果的类别标签。

在上述实施例中,首先使用相应的要素节点从对应的目标文本块中抽取出诉讼请求信息文本,然后对抽取出的诉讼请求信息文本进行切分处理,得到一个或者多个独立诉讼请求项,该一个或者多个独立诉讼请求项即为诉讼请求列表的要素值。切分时,首先判断诉讼请求信息文本是否存在项目符号,如“1、”、“2、”等,若存在,则识别存在的项目符号,利用字符串分割方法,从诉讼请求信息文本中分离出独立诉讼请求项,若不存在,则直接根据句号和分号等分隔符号对诉讼请求信息文本进行切分。

示例的,从前述刘某与芦某离婚纠纷裁判文书中抽取的诉讼请求信息文本,及从诉讼请求信息文本中分离出的独立诉讼请求项如下:

诉讼请求信息文本:

原告张某1向本院提出诉讼请求:1、被告向我支付309 678元;2、诉讼费由被告承担。

独立诉讼请求项:

/被告向我支付309 678元/

/诉讼费由被告承担/

在上述示例中,独立诉讼请求项即为诉讼请求列表节点对应的结果。

另外,还需使用相应的要素节点从对应的目标文本块中抽取出“被告是否同意离婚”的表述文本,然后对抽取出的表述文本进行分类,并将第一预定值作为该表述文本命中的类别标签对应的子节点的要素值,将第二预定值作为该表述文本未命中的类别标签对应的子节点的要素值,例如,若表述文本命中“是”,则使用“True”对“是”进行赋值,使用“False”对“否”和“无”进行赋值。

在一些实施例中,目标要素可以为案件事实要素,案件事实要素进一步包括子女情况要素和其他事实要素,其中子女情况要素进一步包括子女基本情况要素和子女其他情况要素,由于子女其他情况要素属于需要分类的要素,因此子女其他情况要素对应的要素节点包括至少两个子节点,每个子节点对应一个子女其他情况要素的类别标签,例如,子女其他情况要素包括可以子女与原告/被告关系、是否未成年/哺乳期、意愿跟随当事人等,其中,与原告/被告关系对应的要素节点下的子节点分别对应于继子女、亲生子女、养子女和婚生子女等类别标签,是否未成年/哺乳期对应的要素节点下的子节点分别对应于是、否两个类别标签,意愿跟随当事人对应的要素节点下的子节点分别对应于原告、被告。其他事实要素包括如共同财产、婚姻类型、是否分居、分居时间等,需要说明的是,其他事实要素中也包括需要分类的文书要素,对于此类其他事实要素,其对应的要素节点下也设有至少两个分别与类别标签对应的子节点,如是否分居对应的要素节点下设有是和否两个子节点。

在一些实施例中,按照下述步骤从相应的目标文本块中抽取子女情况要素:

首先,从所述子女情况要素对应的文本块中识别子女信息所在句;

其次,逐项分析每一子女信息所在句,使用相应的要素节点从子女信息所在句中抽取出子女情况要素。具体的,使用与子女基本情况要素对应的要素节点抽取子女基本情况要素,使用子女其他情况要素对应的要素节点抽取子女其他情况。

然后,对于子女基本情况要素,直接将相应要素节点的抽取结果作为要素值进行数据对象生成和保存,如,子女姓名、子女性别、子女年龄等。对于子女其他情况要素,需要对相应要素节点的抽取结果进行分类,以获取其命中的类别标签,并将第一预定值作为被命中的类别标签对应的子节点的要素值,将第二预定值作为未被命中的类别标签对应的子节点的要素值。如,对子女年龄进行分类,确定其是否属于未成年或者哺乳期,对与原告关系这一要素节点抽取出的表述文本进行分类,确定其是为婚生子女或为养子女或为继子女或为亲生子女等,若无判断结果,则默认为婚生子女。

从上述实施例可以看出,通过对子女其他情况要素的进一步分类,实现了多维度、多层级的子女情况要素提取,例如子女年龄和是否未成年即为不同层级和维度的要素,是否未成年是对子女年龄进行分类得到的结果。这样,相关人员即可以了解到子女年龄,又可以直接了解到子女否未成年。

对于其他案件事实要素,根据具体的目标要素对应的要素树,使用要素树中的要素节点抽取要素结果。

示例性的,对于其他案件事实要素,预先创建的要素树结构如下:

Figure BDA0002537361830000121

在一些实施例中,目标要素还包括证据类要素,其对应目录标题为证据目录的文本块,(在其他目录结构组成中,证据类要素对应的文本块可以为标题为原告举证、被告举证、原告质证、被告质证及法院认定结果的文本块)。

在一些实施例中,证据类要素包括举证要素、质证要素和法院认证要素,举证要素包括原告举证要素和被告举证要素,质证要素包括原告质证要素和被告质证要素。

其中,举证要素包括举证证据编号、证据清单、证明事实和举证细则,举证细则包括至少一条举证条目,每条举证条目中包括按位序排列的证据清单要素和与证据清单要素位置相邻的证明事实要素各一项。具体的,通过相应的要素节点从相应的目标文本块中分别抽取出举证证据编号、证据清单、证明事实,然后根据举证证据编号、证据清单和证明事实在文本块中的位置索引,从“证据清单”开始,向后查找“证明事实”,到下一个“证据清单”为止,将按位序排列的证据清单要素和与证据清单要素位置相邻的证明事实要素各一项作为一个举证条目。

质证要素均包括质证证据编号、质证结果、质证意见和质证细则,质证细则包括至少一条质证条目,每条质证条目包括按位序排列的证据编号要素、与所述证据编号要素位置相邻的质证结果要素和与所述质证结果要素位置相邻的质证意见要素各一项;具体的,以“质证结果”为基础,向前查找“证据编号”,到前一个“质证结果”为止,向后查找“质证意见”,到下一个“质证结果”为止,将按位序排列的证据编号要素、与所述证据编号要素位置相邻的质证结果要素和与所述质证结果要素位置相邻的质证意见要素各一项作为一个质证条目。

法院认证要素包括证据编号、证据提供方、法院认定结果和法院认定依据细则,法院认定依据细则包括至少一条认证依据条目,每条认证依据条目包括按位序排列的证据提供方要素、与所述证据提供方要素位置相邻的证据编号要素和与所述证据编号要素位置相邻的法院认定结果要素各一项。具体的,以“法院认定结果”为基础,向前查找“证据提供方”和“证据编号”内容,到前一个“法院认定结果”为止,将按位序排列的证据提供方要素、与所述证据提供方要素位置相邻的证据编号要素和与所述证据编号要素位置相邻的法院认定结果要素各一项作为一个认证依据条目。

在一些实施例中,目标要素可以为争议焦点要素。参阅上述示例性的要素体系结构,争议焦点要素可以进一步包括争议焦点列表和至少一个争议焦点类别名称,争议节点列表中包括一个或者多个独立争议焦点项,每个独立争议焦点项在经分类后会命中一个或者多个争议焦点类别标签。相应地,用于争议焦点要素的要素树至少包括争议焦点列表对应的要素节点和争议焦点类别对应的要素节点,其中,争议焦点类别对应的要素节点下设有一个或者多个与争议焦点类别标签对应的子节点。

在一些实施例中,首先利用相应的要素树中指定的要素节点从相应的目标文本块中识别争议焦点信息文本,并对争议焦点信息文本进行切分处理,得到包含一个或者多个独立争议焦点项的争议焦点列表。然后逐一分析每一独立争议焦点项,以获取其命中的争议焦点类别标签,将第一预定值作为被命中的争议焦点类别标签对应的子节点的要素值,将第二预定值作为未被命中的争议焦点类别标签对应的子节点的要素值。

在一些实施例中,以已知类别的独立争议焦点项的文本数据作为训练样本,使用一定量的该训练样本训练得到基于神经网络模型的分类模型,使用训练得到的该分类模型对未知类别的独立争议焦点项进行分类。

示例性的,从前述芦某和刘某的离婚纠纷裁判文书中抽取的争议焦点信息文本,及从争议焦点信息文本中分离出的独立争议焦点项如下:

争议焦点信息文本:

芦某主张按份分割涉案房屋。芦某认为申请涉案房屋时系以家庭名义申请,考虑了双方女儿的因素,故芦某应享有三分之二的所有权。刘某认为虽然涉案房屋系以家庭名义申请,但主要考虑了其为转业军人的身份才得到摇号的资格。刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税,并要求芦某支付一半的装修费用。

独立争议焦点项:

/芦某主张按份分割涉案房屋/

/芦某认为申请涉案房屋时系以家庭名义申请,考虑了双方女儿的因素,故芦某应享有三分之二的所有权/

/刘某认为虽然涉案房屋系以家庭名义申请,但主要考虑了其为转业军人的身份才得到摇号的资格/

/刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税,并要求芦某支付一半的装修费用/

在一示例性的离婚纠纷要素体系结构中,部分争议焦点类别名称如下:

-离婚纠纷争议焦点类别

-感情是否破裂

-是否存在家庭暴力

-子女由谁抚养

-财产分割

-债务分割

-债权分割

-共同财产如何处理

-共同债务如何处理

-共同债权如何处理

……

-房屋还贷

-房屋折价款

-房屋如何处理

示例性的,上述独立争议焦点项“/芦某主张按份分割涉案房屋/”命中的争议焦点类别标签至少包括“房屋如何处理”,将“/刘某另主张芦某偿还婚后由刘某个人支付的贷款、契税,并要求芦某支付一半的装修费用/”命中的争议焦点类别标签至少包括“房屋还贷”。并将第一预定值分别作为“房屋如何处理”和“房屋还贷”对应的子节点的要素值进行保存。

从上述实施例可以看出,争议焦点要素不仅包括由独立争议焦点项组成的争议焦点列表,还包括每一独立争议焦点项的一个或者多个类别标签,抽取出的争议焦点要素具有多层级、多维度的特点,例如,争议焦点列表和争议焦点类别属于不同层级的文书要素,而多个争议焦点类别之间则属于不同维度的文书要素。

在一些实施例中,目标要素还包括判决结果要素,判决结果要素包括是否准予离婚、子女抚养分配要素、共同财产分配等,其中,是否准予离婚进一步包括“是”和“否”两个类别标签,子女抚养分配要素进一步包括抚养方、负担年限、负担比例、金额、支付方式等底层级要素,共同财产分配进一步包括房屋归属、车辆归属等。

具体实现时,对相应目录节点抽取出的判决结果文本信息进行分析,获取是否准予离婚的分类结果。若未获取到是否准予离婚的分类结果,则判断子女抚养分配节点下是否存在具有抽取结果的子节点,若存在,则判定准予离婚。

示例性的,用于抽取子女抚养分配要素的要素节点组成如下:

Figure BDA0002537361830000151

Figure BDA0002537361830000161

从子女情况要素结果中筛选未成年子女信息,将未成年子女信息(如子女姓名)与判决结果信息文本进行字符串匹配,得到所有未成年子女信息在判决结果文本信息中的位置索引。

对于每一项子女分配抚养要素,使用相应要素节点对应的抽取规则抽取出相应的信息。判断抚养方节点是否具有抽取结果,若有抽取结果,说明判决结果中存在抚养方信息,获取抚养方节点的抽取结果,从中提取出包含当事人角色标签或者当事人姓名,如原告或者被告,作为抚养方的要素值。

步骤150,以所述指定要素对应的要素节点名称为字段名称,以所述指定要素的要素值为字段值,生成数据对象,及包含所述数据对象的数据对象集合。

在本申请实施例中,要素节点名称包括指定要素对应的要素节点的名称,即要素节点名称,还包括指定要素对应的要素节点下的子节点的名称,即子节点名称。

其中,对于以第一预定值或者第二预定值为要素值的要素节点和/或子节点,如争议焦点下的子节点、子女其他情况要素对应的要素节点下的子节点或者判决结果要素对应的要素节点下的子节点,以子节点名称为字段名称,以第一预定值或者第二预定值为字段值,生成数据对象。

本实施例中,数据对象即为对离婚纠纷裁判文书的结构化结果,每个数据对象中包含一个或者多个信息对,即Key(字段名称):Value字段属性),如“子女性别:女”、“是否未成年:是”、“意愿抚养方:原告”“房屋归属被告:是”等等。

在一些实施例中,数据对象中与字段名称对应的字段值可以为空值。

由上述实施例可以看出,一个数据对象集合中包括至少一个数据对象,一个数据对象中包含一个或者多个信息对,即Key:Value,其中,Key为要素节点名称或者子节点名称,对应的Value为要素节点或者子节点对应的要素值。

在一些实施例中,数据对象中还包括要素节点名称/子节点名称和/或对应要素值的定位信息。

以上述实施例为基础,本申请还一种离婚纠纷裁判文书标签提取方法,图2为本申请根据一示例性实施例示出的该方法流程图,如图2所示,该方法可以包括:

步骤210,获取离婚纠纷裁判文书。

本申请中,离婚纠纷裁判文书可以为离婚纠纷一审判决书,如张某与李某离婚纠纷一审判决书。

步骤220,对所述离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,所述数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素。

在一些实施例中,根据离婚纠纷裁判文书的数据结构特征建设要素体系结构,根据建设的要素体系结构,构建用于从离婚纠纷裁判文书中抽取文书要素的要素树,并生成至少一个数据对象集合。具体实现过程可参见图1所示实施例,此处不予赘述。

在一些实施例中,要素树中的一个根节点对应一个数据对象集合,与根节点对应的数据对象集合中包括该根节点下的中间节点及叶节点对应的数据对象,如“诉讼请求”对应一个数据对象集合,该数据对象集合中包括封装有“诉讼请求列表”和/或“被告是否同意离婚”的数据对象,再如“案件事实”对应一个数据对象集合,该数据对象集合中包括封装有“子女情况要素”和/或“婚姻类型”等要素信息的数据对象。

在另一实施例中,要素树中的一个中间节点对应一个数据对象集合,与中间节点对应的数据对象集合中包括该中间节点下的叶节点对应的数据对象,如“子女情况要素”对应一个数据对象集合,该数据对象集合中包括封装有“子女数量”和/或“子女姓名”等要素信息的数据对象。

在一些实施例中,数据对象中还封装有要素节点名称和/或对应要素值在文书中的定位信息,该定位信息包括前置位置索引和/或位置索引。

在一些实施例中,每个数据对象中以键值对的格式封装有作为字段名称的要素节点名称或者子节点名称和作为字段值的、与要素节点名称或者子节点名称对应的要素值,数据对象的一种示例性结构如下:

Figure BDA0002537361830000171

当事人信息对应的数据对象集合中数据对象如下:

Figure BDA0002537361830000181

在一些实施例中,数据对象中要素节点名称对应的要素值可以为空值,例如“职业”的要素值为空值时,表示无业。数据对象中要素节点名称对应的要素值可以为第一预定值(如True)或者第二预定值(如False)。

步骤230,从离婚纠纷裁判文书的预设标签体系中获取父标签,并确定所述父标签对应的数据对象集合,所述父标签为待提取的目标文书标签的标签。

在一些实施例中,通过学习离婚纠纷裁判文书的数据结构特征,挖掘离婚纠纷案件的专业术语知识体系,根据挖掘出的专业术语知识体系设计离婚纠纷裁判文书的标签体系,预设标签体系中包含多层级、多维度的文书标签。

在一些实施例中,预设标签体系中包括多层级的标签,最高层级的标签下具有至少一个低层级的标签,中间层级的标签对应一个最高层级的标签,并具有至少一个最低层级的标签,最低层级的标签对应一个父标签路径,所述父标签路径是指从该最低层级标签对应的最高层级标签到该最低层级标签对应的上一级标签的路径。当最低层级标签对应的上一级标签为最高层级的标签时,其父标签为该最高层级的标签,当最低层级标签对应的上一级标签为一个中间层级的标签时,其父标签为该最低层级标签对应的最高层级标签到该中间层级标签的路径。

一种示例性的预设标签体系如下:

Figure BDA0002537361830000191

在该标签体系中,“当事人”的层级最高,其具有多个中间标签,如“原告”和“被告”,该两个中间标签分别具有多个最底层标签,如“姓名”和“性别”等。在该标签体系中,“当事人-原告”和“当事人-被告”可作为多个最底层标签的父标签,如“当事人-原告-性别”的父标签为“当事人-原告”,“当事人-被告-姓名”的父标签为“当事人-被告”。

在步骤230中,从预设标签体系中获取目标文书标签的父标签,并确定父标签对应的数据对象集合。

由于本申请是从数据对象中提取目标文书标签,而目标文书标签包含在指定的数据对象集合中的数据对象中,该指定的数据对象集合即是预先标识出的与目标文书标签的父标签相对应的数据对象集合,因此需要根据目标文书标签的父标签确定对应的数据对象集合,从而在父标签对应的数据对象集合中抽取基于该父标签的目标文书标签。

在一些实施例中,预先建立父标签与数据对象集合之间的对应关系,在获取到目标文书标签的父标签的情况下,根据该对应关系即可确定与父标签对应的数据对象集合。

例如,与“当事人-原告”对应的数据对象集合为包括当事人要素信息的数据对象集合,与“诉讼请求”对应的数据对象集合为包括诉讼请求要素信息的数据对象集合。

步骤240,从所述父标签对应的数据对象集合中提取目标文书标签。

在一些实施例中,提取数据对象中的字段值(即离婚纠纷裁判文书的文书要素的要素值),将提取出的一个或者多个字段值分别与对应的父标签进行拼接,得到目标文书标签。

一示例性的,预设标签体系包括当事人角色标签,如“当事人-角色”,例如“当事人-原告”、“当事人-被告”、“当事人-原告代理人”或者“当事人-被告代理人”,其可作为父标签,且该父标签对应的要素数据对象集合为封装有当事人要素信息的数据对象集合,其中的当事人数据对象包括描述角色类型的字段和描述当事人画面的字段。当需要提取以当事人角色标签为父标签的目标文书标签时,根据当事人角色标签表征的指定角色类型(如被告),从对应的数据对象集合中获取角色类型字段中字段值为为指定角色类型(如被告)的数据对象,然后从角色类型属性为指定角色类型的数据对象中抽取出各个画像字段的字段值,如姓名的字段值、性别的字段值等;将抽取出的画像字段的字段值与当事人角色标签进行拼接,得到父标签为当事人角色标签的目标文书标签,例如,将抽取出的画像要素“女”与当事人角色标签相拼接,得到“当事人-被告-女”。

在离婚纠纷裁判文书的预设标签体系中,以当事人角色标签为父标签的文书标签包括但不限于:当事人-原告/被告-男性/女性/现役军人/怀孕期间/分娩1年内/终止妊娠6个月内/精神病患者、原告代理人/被告代理人-律所/人民团体/单位推荐人/监护人/亲友/法定/指定/委托。

在一些实施例中,提取数据对象中的字段名称,将提取出的一个或者多个字段名称与对应的父标签进行拼接,得到目标文书标签。

一示例性的,预设标签体系中包括“目录”,其可作为父标签,且该父标签对应的数据对象集合为封装有目录要素信息的数据对象,其中目录要素信息包括作为要素节点名称的目录标题和作为对应要素值的与目录标题对应的文本块内容。当需要提取以“目录”为父标签的的目标文书标签时,从对应的数据对象中抽取字段名称,即抽取出目录标题,如“诉讼方请求”、“被诉讼方请求”、“争议焦点”等,再将抽取出的字段名称与目录标签相拼接,得到目标文书标签,如“目录-诉讼方请求”、“目录-被诉讼方请求”、“目录-争议焦点”等。

在离婚纠纷裁判文书的预设标签体系中,以“目录”为父标签的的文书标签包括但不限于:目录-原告诉请/被告辩称/原告举证/被告举证/原告质证/被告质证/法院认证/争议焦点/判决结果等。

从图1所示实施例可知,一些用于抽取指定要素的要素节点包括至少两个子节点,一个子节点对应所述指定要素的一个类别标签,数据对象中的字段名称为子节点名称,子节点名称对应的字段值为第一预定值或者第二预定值,其中,第一预定值表征所述子节点名称对应的类别标签被命中,第二预定值表征所述子节点名称对应的类别标签未被命中。

基于此,在一些实施例中,提取数据对象中字段值为第一预定值的子节点名称;将提取出的子节点名称与对应的父标签进行拼接,得到目标文书标签。

一示例性的,预设标签体系中包括“争议焦点”,其可作为父标签,且该父标签对应的数据对象集合为封装有争议焦点要素信息的数据对象集合,其中的每个数据对象包括作为字段名称的子节点名称,该子节点名称对应于争议焦点类别标签,该子节点名称对应的字段值为第一预定值或者第二预定值。若某一字段名称对应的字段值为第一预定值,表示该字段名称对应的争议焦点类别标签被命中,若某一字段名称对应的字段值为第二预定值,表示该字段名称对应的争议焦点类别标签未被命中。当需要提取基于“争议焦点”的文书标签时,从对应的数据对象中抽取出字段值为第一预定值的字段名称,,并将提取出的字段名称与“争议焦点”相拼接,得到目标文书标签,如“争议焦点-抚养权”、“争议焦点-共同财产处理”,其中“抚养权”和“共同财产处理”为数据对象中字段值为第一预定值的字段名称,也是被命中的争议焦点类别标签。

在离婚纠纷裁判文书的预设标签体系中,以“争议焦点”为父标签的文书标签包括但不限于“争议焦点-感情是否破裂/抚养权问题/抚养费问题/探视权问题/共同财产处理/共同债权处理/共同债务处理/共同财产认定/共同债权认定/共同债务认定/共同财产折款/个人财产认定/精神抚慰金/彩礼/嫁妆/诉讼请求是否有事实和法律依据/房屋首付款组成/房屋还贷/房屋折价款/房屋处理/替代清偿个人债务认定问题/一方下落不明”。

在一些实施例中,从父标签对应的数据对象中抽取字段值,根据预设分类规则获取字段值对应的类别标签;将字段值对应的类别标签与对应的父标签进行拼接,得到目标文书标签。

一示例性的,预设标签体系中包括“诉讼请求”,其可作为父标签,且该父标签对应的数据对象集合为封装有诉讼请求要素信息的数据对象集合,其中的数据对象包括作为字段名称的要素节点名称“诉讼请求列表”和作为对应字段值的一个或者多个独立诉讼请求项。当需要提取以“诉讼请求”为父标签的目标文书标签时,从对应的数据对象中抽取出字段值,即一个或多个独立诉讼请求项,再使用预先构建的诉讼请求分类模型,逐一对每一独立诉讼请求项进行文本分类,以获取的每一独立诉讼请求项命中的诉讼请求类别标签;将独立诉讼请求项命中的诉讼请求类别标签与“诉讼请求”进行拼接,得到父标签为“诉讼请求”的文书标签,如“诉讼请求-离婚”、“诉讼请求-抚养权”等。

在离婚纠纷裁判文书的预设标签体系中,以“诉讼请求”为父标签的文书标签包括但不限于“诉讼请求-离婚/抚养权/抚养费/探视权/共同财产/个人财产/抚慰金/彩礼/嫁妆”。

类似的,当需要提取以“被告辩称”(或者“被诉讼方请求”)为父标签的文书标签时,从对应的数据对象中抽取出被告辩称文本信息,使用预先构建的分类模型对被告辩称文本信息进行分类,获取被命中的被告辩称类别标签,并将命中被告辩称类别标签与“被告辩称”进行拼接。

在离婚纠纷裁判文书的预设标签体系中,以“被告辩称”为父标签的文书标签包括但不限于“被告辩称-同意离婚/不同意离婚/要求抚养权/要求抚养费/要求探视权”等。

另一示例性的,父标签还可以为“案件事实-子女情况”,其对应的数据对象集合为封装有子女情况要素信息的数据对象的集合,对于子女情况要素包括子女数量,从对应的数据对象中提取“子女数量”的要素值,并通过分类确定命中的类别标签,比如,若子女数量的要素值为0,则命中“无子女”、若子女数量的要素值为1,则命中“独生子女”等,将子女数量的要素值命中的类别标签与父标签“案件事实-子女情况”相拼接,得到目标文书标签,如“案件事实-子女情况-无子女”或者“案件事实-子女情况-独生子女”等。

在离婚纠纷裁判文书的预设标签体系中,以“案件事实-子女情况”为父标签的文书标签包括但不限于“案件事实-子女情况-无子女/独生子女/多个子女/婚生子女/养子女/继子女/未成年/哺乳期/过去跟随原告/过去跟随被告/意愿跟随原告/意愿跟随被告”等。

在一些实施例中,若父标签对应的数据对象的字段值为空,则获取该空值对应的字段名称的预置标签,将预置标签与对应的父标签进行拼接,得到基于该父标签的目标文书标签。

一示例性的,在提取以当事人角色标签为父标签的文书标签时,若对应的数据对象中字段名称为“职业”的字段值为空值,则提取“无业”,与当事人角色标签进行拼接,如“当事人-被告-无业”,其中“无业”即为“职业”的预置标签。

在离婚纠纷标签体系中的父标签还包括“案件事实-财产情况”、“法院观点”、“判决结果”等。

当需要提取以“案件事实-财产情况”为父标签的文书标签时,获取封装有财产情况要素信息的数据对象集合,判断其中的数据对象中各字段名称的字段值是否为空,如“共同财产”、“共同债务”、“共同债权”“房屋信息”、“车辆信息”等,提取字段值不为空的字段名称与父标签“案件事实-财产情况”进行拼接,得到目标文书标签。另外,再使用关键词匹配方式,匹配“审理查明”目录内容中是否包含“个人财产”关键词。若存在,则提取“个人财产”标签,与“案件事实-财产情况”进行拼接,得到“案件事实-财产情况-个人财产”。

当需要提取以“法院观点”为父标签的文书标签时,获取封装有法院观点要素信息的数据对象集合,根据数据对象中如“是否确认感情破裂”、“是否有感情基础”等字段名称的字段值是为第一预定值还是第二预定值,对应提取出如“感情破裂”、“感情未破裂”、“有感情基础”、“无感情基础”,与“法院观点”拼接,得到目标文书标签。

在一些实施例中,从父标签对应的数据对象集合中提取所述目标文书标签之后,还包括:获取所述目标文书标签的定位信息,并保存所述定位信息。

在一些实施例中,对于包含字段值的目标文书标签,该目标文书标签的定位信息为该目标文书标签所包含的字段值,在离婚纠纷裁判文书中的定位信息。例如,对于标签“当事人-原告-女”,该标签的定位信息是“女”在文书中的定位信息。

在一些实施例中,对于包含要素节点名称的目标文书标签,该目标文书标签的定位信息为该目标文书标签所包含的要素节点名称对应的要素值,在离婚纠纷裁判文书中的定位信息。例如,例如,文书标签“目录-诉讼请求”的定位信息是要素节点名称为“诉讼请求”的要素节点对应的抽取结果(即诉讼请求文本),即目录标题为“诉讼请求”文本块在文书中的定位信息。

在一些实施例中,对于包含子节点名称的目标文书标签,该目标文书标签的定位信息,命中该目标文书标签所包含的要素节点名称对应的类别标签的要素值,在所述离婚纠纷裁判文书中的定位信息。例如,标签“争议焦点-共同财产分配”的定位信息是命中“共同财产分配”这一类别标签的独立争议焦点项在文本中的定位信息。

由以上实施例可知,本申请提供一种离婚纠纷裁判文书标签提取方法,包括:获取离婚纠纷裁判文书;对离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,数据对象集合包括至少一个数据对象,每个数据对象中封装所述离婚纠纷裁判文书的文书要素;从离婚纠纷裁判文书的预设标签体系中获取父标签,并确定父标签对应的数据对象集合;从父标签对应的数据对象集合中提取目标文书标签。本申请方法实现了对离婚纠纷裁判文书多层级、多维度的标签提取,为文书内容标注、案件检索和查询提供帮助。

根据以上实施例,本申请还提供一种离婚纠纷裁判文书标签提取装置,如图3所示,该装置可以包括:

文书获取模块310,用于获取离婚纠纷裁判文书;

文书结构化模块320,用于对所述离婚纠纷裁判文书进行结构化,生成至少一个数据对象集合,所述数据对象集合包括至少一个数据对象,所述数据对象中封装有所述离婚纠纷裁判文书的文书要素;

父标签获取模块330,用于从离婚纠纷裁判文书的预设标签体系中获取父标签,并确定所述父标签对应的数据对象集合,所述父标签为待提取的目标文书标签的父标签;

文书标签提取模块340,用于从所述父标签对应的数据对象集合中提取所述目标文书标签。

具体实现中,本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的离婚纠纷裁判文书标签提取方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

以上所述的本发明实施方式并不构成对本发明保护范围的限定。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:离婚纠纷裁判文书要素提取方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!