段落类型识别方法及系统和文档结构识别方法及系统

文档序号：749416 发布日期：2021-04-23 浏览：23次 >En<

阅读说明：本技术 段落类型识别方法及系统和文档结构识别方法及系统 (Paragraph type identification method and system and document structure identification method and system ) 是由邓吉秋夏晨晨刘文毅雷玉娇何美香路馥毓于 2021-01-08 设计创作，主要内容包括：本发明涉及段落类型识别方法及系统和文档结构识别方法及系统,其中,段落类型识别方法,包括：S1、根据预先设定的段落类型识别规则,判断文本中任一段落是否符合段落类型识别规则,获取判断结果；所述段落类型识别规则包括：第一级规则为规定段落类型识别规则判断先后顺序的优先级规则；第二级规则为段落识别关联准则；S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型；所述第一编号与所述段落类型识别准则对应。解决了现有的地质资料段落类型识别方法中语料标注成本过高、语料库稀缺的问题。(The invention relates to a paragraph type identification method and a system thereof, and a document structure identification method and a system thereof, wherein the paragraph type identification method comprises the following steps: s1, judging whether any paragraph in the text accords with the paragraph type identification rule according to the preset paragraph type identification rule, and obtaining a judgment result; the paragraph type identification rule includes: the first level rule is a priority rule for determining the order of paragraph type identification rules; the second level rules identify association criteria for the paragraphs; s2, determining the paragraph type of the paragraph according to the judgment result, the preset paragraph type identification criterion and the first number; the first number corresponds to the paragraph type identification criteria. The method solves the problems of high corpus labeling cost and scarce corpus in the conventional geological data paragraph type identification method.)

技术领域

本发明涉及文本化地质资料识别技术领域，尤其涉及一种段落类型识别方法及系统和文档结构识别方法及系统。

背景技术

文本化地质资料是指数字化地质资料经过文本化处理后的以Markdown、MID/MIF格式存在的地质资料。随着地质文档资源的快速增长，地质领域研究人员迫切的需要从海量的地质文档中进行快速精确的知识检索、组织和分类的操作。同样的词汇在地质文档中不同位置出现，具有不同程度的语义上的重要性，因此识别地质资料的段落类型和文档结构，变得十分重要。

现有技术：基于文档章节标题，提前设计文档结构处理模板，用户根据实际需求调用对应文档结构模板，采用人机交互的生成文档逻辑结构大纲。固定文档结构模板，通过语义分析、信息抽取将文档结构对应内容抓取整合到文档结构对应位置，从而生成最终文档结构。基于文档章节、段落、图表等信息，采用机器学习的方法，对段落类型与文档结构进行识别。

现有技术的缺点：针对文档资料段落类型与文档结构的识别，现有技术采用固定文档结构模板、规范文档结构处理模板人机交互处理或机器学习的方法。人机交互与纯人工处理的方法，速度慢、效率低、无法避免认为疏忽带来的判断错误；固定文档结构模板，其纲目结构、段落内容、文档格式大多固定、灵活度不够，无法处理具有特殊格式的文档。

由于地质资料格式复杂、标注困难，过去积累的成果较少，机器学习方法用于地质资料段落类型与文档结构识别应用面临语料标注成本过高、语料库稀缺的问题；对文本化地质资料的段落类型与文档结构识别研究未有涉及。

发明内容

(一)要解决的技术问题

鉴于现有技术的上述缺点、不足，本发明提供一种段落类型识别方法及系统和文档结构识别方法及系统。解决了现有的地质资料段落类型与文档结构识别方法中语料标注成本过高、语料库稀缺的问题以及现有的文档结构识别中由于固定文档结构模板，其纲目结构、段落内容、文档格式大多固定、灵活度不够的问题。

(二)技术方案

为了达到上述目的，本发明采用的主要技术方案包括：

第一方面，本发明实施例提供一种段落类型识别方法，包括：

S1、根据预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果；

所述文本包括：Markdown格式的地质文本、MID格式的地质文本以及MIF格式的地质文本中的至少一种格式的地质文本；

所述段落类型识别规则包括：

第一级规则为规定段落类型识别规则判断先后顺序的优先级规则；

第二级规则为段落识别关联准则；

S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型；

所述第一编号与所述段落类型识别准则对应。

优选的，所述S1包括：

按照段落类型识别规则所对应的优先级顺序逐级对文本每一段落进行判断，获取所述段落的判断结果。

优选的，所述步骤S2包括：

若所述段落的判断结果为符合相应段落类型识别规则，则将与所述段落类型识别准则对应的第一编号作为所述段落的段落类型。

优选的，

所述优先级包括：预先设定的第一级的段落类型识别规则、预先设定的第二级的段落类型识别规则、预先设定的第三级的段落类型识别规则、预先设定的第四级的段落类型识别规则、预先设定的第五级的段落类型识别规则、预先设定的第六级的段落类型识别规则；

所述优先级的判断顺序依次为：预先设定的第一级的段落类型识别规则、预先设定的第二级的段落类型识别规则、预先设定的第三级的段落类型识别规则、预先设定的第四级的段落类型识别规则、预先设定的第五级的段落类型识别规则、预先设定的第六级的段落类型识别规则。

优选的，

所述段落识别关联规则包括：多条件准则、正则表达式、段落类型、起止段落准则、结构准则、无格式准则、方法准则中的一种或多种准则；

所述多条件准则包括：

和规则：表示段落需要同时满足和规则两侧的正则表达式或其他规则表达式；

或规则：表示段落只需满足或规则两侧的一个正则表达式或其他规则表达式；

非规则：表示段落不满足非规则右侧的正则表达式或其他规则表达式；

所述正则表达式为：描述段落特征；

段落类型为：第一编号；

起止段落准则包括：

具有第一编号的在段落之前规则，表示段落在第一编号所对应的段落类型的段落之前；

具有第一编号的非段落规则，表示段落的段落类型不是第一编号所对应的段落类型；

具有第一编号的在段落之后规则，表示段落在第一编号所对应的段落类型的段落之后；

具有正则表达式的在段落之前规则，表示段落在满足所述正则表达式的段落之前；

具有正则表达式的在段落之后规则，表示段落在满足所述正则表达式的段落之后；

结构准则：表示段落的段落类型满足结构准则右侧的第一编号所对应的段落类型；

无格式准则：除符合多条件准则或起止段落准则或结构准则或方法准则的段落之外的段落；

方法准则包括：预先设定的标题段落的标签标记准则；预先设定的目录段落的标签标记准则。

优选的，

所述第一编号还分别与预先设定的段落识别准则描述信息、段落识别准则优先级、段落识别规则对应。

第二方面，本发明实施例提供一种段落类型识别系统，包括：

至少一个第一处理器；以及

与所述第一处理器通信连接的至少一个存储器，其中，所述存储器存储有可被所述第一处理器执行的程序指令，所述第一处理器调用所述程序指令能够执行如上述任一的一种段落类型识别方法。

第三方面，本发明实施例提供一种文档结构识别方法，包括：

A1、根据预先设定的文本结构识别规则，判断具有段落类型的段落中任一段落是否符合文本结构识别规则，获取第二判断结果；

所述文本结构识别规则包括：

文本结构定义规则包括：预先设定的全文文本结构的定义规则、全文段落文本结构的定义规则、表文本结构的定义规则、地质年代表文本结构的定义规则、公式文本结构的定义规则、图片文本结构的定义规则；

结构识别关联准则，用于对符合所述预先设定的全文本本结构的定义规则的结构，识别其文本结构内部的封面、章节、段落的层次结构；和用于对符合所述预先设定的全文段落文本结构的定义规则的结构、符合所述预先设定的表文本结构的定义规则的结构、符合所述预先设定的地质年代表文本结构的定义规则的结构、符合所述预先设定的公式文本结构的定义规则的结构、符合所述预先设定的图片文本结构的定义规则的结构，识别其文本结构的顺序结构；

A2、根据所述判断结果和预先设定文本结构识别规则及第二编号确定所述段落的文本结构类型；

所述第二编号与所述文本结构识别规则对应；

若所述段落的判断结果为符合相应文本结构识别规则，则将与所述文本结构识别规则对应的第二编号作为所述段落的文本结构类型。

优选的，

结构识别关联准则包括：多条件准则、正则表达式、段落类型、第二起止段落准则、结构准则、第二方法准则；

所述多条件准则包括：

和规则：表示需要同时满足和规则两侧的正则表达式或其他规则表达式；

或规则：表示只需满足或规则两侧的一个正则表达式或其他规则表达式；

非规则：表示段落不满足非规则右侧的正则表达式或其他规则表达式；

所述正则表达式为：描述文本结构特征；

段落类型为：第一编号；

第二起止段落准则包括：

具有第一编号的在段落之前规则，表示段落在第一编号所对应的段落类型的段落之前；

具有第一编号的非段落规则，表示段落的段落类型不是第一编号所对应的段落类型；

具有第一编号的在段落之后规则，表示段落在第一编号所对应的段落类型的段落之后；

具有正则表达式的在段落之前规则，表示段落在满足所述正则表达式的段落之前；

具有正则表达式的在段落之后规则，表示段落在满足所述正则表达式的段落之后；

具有第一编号的开始段落规则，表示从满足开始段落规则中第一编号所对应的段落类型的段落开始；

具有第一编号的结束段落规则，表示在满足结束段落规则中第一编号所对应的段落类型的段落结束；

结构准则：表示段落的段落类型满足结构准则右侧的第一编号所对应的段落类型；

第二方法准则包括：

预先设定的全文文本结构标记方法，用于全文结构标记；

预先设定的正文文本结构标记方法，用于正文结构标记。

所述第二编号还分别与文本结构识别准则描述、文本结构识别规则对应。

第四方面，本发明实施例提供一种文档结构识别系统，包括：

至少一个第二处理器；以及

与所述第二处理器通信连接的至少一个存储器，其中，所述存储器存储有可被所述第二处理器执行的程序指令，所述第二处理器调用所述程序指令能够执行如上述任一的一种文档结构识别方法。

(三)有益效果

本发明的有益效果是：

本发明的段落类型识别方法及系统，由于采用了预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果；并根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型；所述第一编号与所述段落识别关联准则对应。本发明的段落类型识别方法及系统大大提高了段落类型识别的工作效率与准确性；具有通用性和扩展性。

本发明的文档结构识别方法及系统，由于采用预先设定的文本结构识别规则，判断具有段落类型的段落中任一段落是否符合文本结构识别规则，获取第二判断结果；并根据所述判断结果和预先设定文本结构识别规则及第二编号确定所述段落的文本结构类型；所述第二编号与所述文本结构识别规则对应；若所述段落的判断结果为符合相应文本结构识别规则，则将与所述文本结构识别规则对应的第二编号作为所述段落的文本结构类型。本发明的文档结构识别方法及系统大大提高了文档结构识别的工作效率与准确性。

附图说明

图1为本发明的段落类型识别方法流程图；

图2为本发明的文档结构识别方法流程图；

图3为本发明实施例中的段落类型识别方法示意图；

图4为本发明实施例中在段落类型识别方法的基础上进行文档结构识别的方法示意图。

具体实施方式

为了更好地解释本发明，以便于理解，下面结合附图，通过具体实施方式，对本发明作详细描述。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更清楚、透彻地理解本发明，并且能够将本发明的范围完整地传达给本领域的技术人员。

本发明的段落类型识别方法及系统，文档结构识别方法及系统，主要针对的是文本化的地质资料，文本化地质资料是指数字化地质资料经过文本化处理后的以Markdown、MID/MIF格式存在的地质资料。

实施例一

参见图1，本实施例提供一种段落类型识别方法，包括：

S1、根据预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果。

所述段落类型识别规则包括：

第一级规则为规定段落类型识别规则判断先后顺序的优先级规则。

第二级规则为段落识别关联准则。

S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型。

所述第一编号与所述段落类型识别准则对应。

本实施例中优选的，所述S1包括：

按照段落类型识别规则所对应的优先级顺序逐级对文本每一段落进行判断，获取所述段落的判断结果。

本实施例中优选的，所述步骤S2包括：若所述段落的判断结果为符合相应段落类型识别规则，则将与所述段落类型识别准则对应的第一编号作为所述段落的段落类型。

本实施例中优选的，所述优先级包括：预先设定的第一级的段落类型识别规则、预先设定的第二级的段落类型识别规则、预先设定的第三级的段落类型识别规则、预先设定的第四级的段落类型识别规则、预先设定的第五级的段落类型识别规则、预先设定的第六级的段落类型识别规则。

本实施例中优选的，所述段落识别关联规则包括：多条件准则、正则表达式、段落类型、起止段落准则、结构准则、无格式准则、方法准则中的一种或多种准则。

所述多条件准则包括：

和规则：表示段落需要同时满足和规则两侧的正则表达式或其他规则表达式。

本实施例中和规则&&：表示段落需要同时满足和规则两侧的正则表达式或其他规则表达式是指段落需要同时满足和规则&&两侧的规则(规则包括：正则表达式、其他规则组合(由起止段落准则、结构准则、段落类型构成))如：“^.*？编号：.*？\d+.？$&&BEFORE LINE2020100”，这表示段落既要满足和规则&&左侧的“^.*？编号：.*？\d+.？$”正则表达式，又要满足和规则&&右侧的“BEFORE LINE 2020100”其他规则组合。

或规则：表示段落只需满足或规则两侧的一个正则表达式或其他规则表达式。

本实施例中或规则||，表示段落只需满足或规则两侧的一个正则表达式或其他规则表达式是指只需要满足或规则||两侧的规则(规则包括：正则表达式、其他规则组合(由起止段落准则、结构准则、段落类型构成))中的一个规则，如”^\*{2}.*？\*{2}$&&BEFORE^.*年.*月\s？$||BEFORE LINE 2020100“，这表示段落只需要满足或规则||左侧的“^\*{2}.*？\*{2}$&&BEFORE^.*年.*月\s？$”和或规则||右侧的“BEFORE LINE 2020100“其中之一准则即可。

非规则：表示段落不满足其右侧的正则表达式或其他规则表达式。

本实施例中非规则NOT，表示段落不满足非规则右侧的正则表达式或其他规则表达式是指段落不满足非规则NOT后跟的规则，如“NOT 2010200”表示该段落不满足非规则NOT后跟的2010200(第一编号)这一段落类型。

所述正则表达式为：描述段落特征。

段落类型为：第一编号。

起止段落准则包括：

具有第一编号的在段落之前规则，表示段落在第一编号所对应的段落类型的段落之前；本实施例中在段落之前规则BEFORE LINE：表示段落在满足LINE后跟的段落类型的段落之前，如：“BEFORE LINE 2010200”表示段落在满足LINE后跟的2010200(第一编号)这一段落类型的段落之前。

具有第一编号的非段落规则，表示段落的段落类型不是第一编号所对应的段落类型；本实施例中非段落规则NOT LINE，表示不满足LINE后跟的第一编号，如NOT LINE2010200表示该段落类型不是LINE后跟的2010200(第一编号)这一段落类型。

具有第一编号的在段落之后规则，表示段落在第一编号所对应的段落类型的段落之后；本实施例中在段落之后规则AFTER LINE,表示段落在满足LINE后跟的段落类型的段落之后，“AFTER LINE 2010200”表示段落在满足LINE后跟的2010200这一段落类型的段落之后。

具有正则表达式的在段落之前规则，表示段落在满足所述正则表达式的段落之前。

具有正则表达式的在段落之后规则，表示段落在满足所述正则表达式的段落之后。

结构准则：表示段落的段落类型满足结构准则右侧的第一编号所对应的段落类型。

本实施例中结构准则IN PART，后跟段落类型对应的第一编号，表示段落为满足PART后跟的段落类型的段落。如“IN PART 2010200”,表示段落为满足PART后跟的‘2010200’这一段落类型的段落(因为PART后可以为^20102\d{2}(指段落类型是以20102开头的段落类型)这样的多个段落类型，故而成为结构准则)。

无格式准则：除符合多条件准则或起止段落准则或结构准则或方法准则的段落之外的段落。

本实施例中无格式准则用于无特殊格式特征的段落，该规则处于优先级最后的一级，且最后一级优先级只有该准则。其余的优先级下的准则都有特殊的段落格式特征(如标题由“#”标记，表格由‘|文字|文字|’)，当所有符合特殊段落格式特征的都识别完，其余的都为无格式特征的段落。

方法准则包括：预先设定的标题段落的标签标记准则；预先设定的目录段落的标签标记准则。

本实施例中优选的，所述第一编号还分别与预先设定的段落识别准则描述信息、段落识别准则优先级、段落识别规则对应。

本实施例提供的段落类型识别方法，由于采用了预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果；并根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型；所述第一编号与所述段落类型识别准则对应。采用本实施例的段落类型识别方法大大提高了段落类型识别的工作效率与准确性；具有通用性和扩展性。

实施例二

参见图2，本实施例提供一种文档结构识别方法，包括：

A1、根据预先设定的文本结构识别规则，判断具有段落类型的段落中任一段落是否符合文本结构识别规则，获取第二判断结果。

所述本结构识别规则包括：文本结构定义规则包括：预先设定的全文文本结构的定义规则、全文段落文本结构的定义规则、表文本结构的定义规则、地质年代表文本结构的定义规则、公式文本结构的定义规则、图片文本结构的定义规则。

结构识别关联准则，用于对符合所述预先设定的全文文本结构的定义规则的结构，识别其文本结构内部的封面、章节、段落的层次结构；和用于对符合所述预先设定的全文段落文本结构的定义规则的结构、符合所述预先设定的表文本结构的定义规则的结构、符合所述预先设定的地质年代表文本结构的定义规则的结构、符合所述预先设定的公式文本结构的定义规则的结构、符合所述预先设定的图片文本结构的定义规则的结构，识别其文本结构的顺序结构。

A2、根据所述判断结果和预先设定文本结构识别规则及第二编号确定所述段落的文本结构类型；所述第二编号与所述文本结构识别规则对应。

若所述段落的判断结果为符合相应文本结构识别规则，则将与所述文本结构识别规则对应的第二编号作为所述段落的文本结构类型。

本实施例中优选的，结构识别关联准则包括：多条件准则、正则表达式、段落类型、第二起止段落准则、结构准则、第二方法准则。

所述多条件准则包括：

和规则：表示需要同时满足和规则两侧的正则表达式或其他规则表达式。

或规则：表示只需满足或规则两侧的一个正则表达式或其他规则表达式。

非规则：表示段落不满足其右侧的正则表达式或其他规则表达式。

所述正则表达式为：描述段落特征。

段落类型为：第一编号。

第二起止段落准则包括：

具有第一编号的在段落之前规则，表示段落在第一编号所对应的段落类型的段落之前。

具有第一编号的非段落规则，表示段落的段落类型不是第一编号所对应的段落类型。

具有第一编号的在段落之后规则，表示段落在第一编号所对应的段落类型的段落之后。

具有正则表达式的在段落之前规则，表示段落在满足所述正则表达式的段落之前。

具有正则表达式的在段落之后规则，表示段落在满足所述正则表达式的段落之后。

具有第一编号的开始段落规则，表示从满足开始段落规则中第一编号所对应的段落类型的段落开始。

具有第一编号的结束段落规则，表示在满足结束段落规则中第一编号所对应的段落类型的段落结束。

结构准则：表示段落的段落类型满足结构准则右侧的第一编号所对应的段落类型。

第二方法准则包括：预先设定的全文文本结构标记方法，用于全文结构标记；预先设定的正文文本结构标记方法，用于正文结构标记。

所述第二编号还分别与文本结构识别准则描述、文本结构识别规则对应。

本实施例的文档结构识别方法，由于采用预先设定的文本结构识别规则，判断具有段落类型的段落中任一段落是否符合文本结构识别规则，获取第二判断结果；并根据所述判断结果和预先设定文本结构识别规则及第二编号确定所述段落的文本结构类型；所述第二编号与所述文本结构识别规则对应；若所述段落的判断结果为符合相应文本结构识别规则，则将与所述文本结构识别规则对应的第二编号作为所述段落的文本结构类型。采用本实施例的文档结构识别方法大大提高了文档结构识别的工作效率与数据准确性。

实施例三

参见图1和图3，本实施例还提供一种地质资料段落类型识别方法，包括：

S1、根据预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果。

所述段落类型识别规则包括。

第一级规则为规定段落类型识别规则判断先后顺序的优先级规则。

第二级规则为段落识别关联准则。

在本实施例的实际应用中，步骤S1具体为：

段落类型识别的遍历：从段落识别规则最高优先级开始，逐级对文本及段落标签进行遍历，设段落识别规则集rules，每次遍历的当前优先级curPri，符合优先级为curPri的当前规则rule，当前文本texts；逐级遍历时，从当前优先级curPri开始，然后以优先级为curPri的规则rule的前后顺序对文本texts的段落进行识别，每次处理优先级为curPri的一个规则rule，每一个规则rule的处理即当前规则rule的完成，获得段落识别标签列表paraList；遍历一遍所有的优先级为curPri的规则rule即当前段落识别规则优先级处理完，返回段落识别标签列表paraList；之后，进入下一优先级，根据下一优先级规则与段落识别标签列表paraList，识别段落类型，直至所有优先级和规则遍历完。

(2)建立段落类型识别与文档结构识别规则表，规则表具有以下特征：

(2-1)覆盖段落类型与文档结构的可能类型。

(2-2)为每个类型定义两级规则：

第一级规则为段落类型识别优先级Priority规则，主要用于规定段落类型识别规则的先后顺序，优先级有0-5级，0级为最先判别规则，然后1级，以此类推。

第二级准则为段落识别关联准则，主要用于段落识别及段落类型标记，段落识别及段落类型标记见(3)部分，段落识别关联准则采用多条件准则(和规则&&、或规则||、非规则NOT)、正则表达式、段落类型、起止段落准则、结构准则、无格式准则、方法准则(\％.*％\)定义，其中关联准则与语法规则表如表1基本关联准则定义表：

表1基本关联准则定义表

在存在多个多条件准则控制符时,非规则NOT级别最高，或规则||级别次之，和规则&&最低。

上述关联准则可组合使用，可形成具体段落类型识别准则；如“AFTER LINE2020300||AFTER LINE 2020301&&^.*？图.*(？<！[，。？！；；,.？！])\n$&&NOT LINE 2040601”，表示识别在段落类型2020300或2020301之后，段落类型不为2040601且段落与正则表达式“^.*？图.*(？<！[，。？！；；,.？！])\n$”匹配的段落。

Markdown、MIF/MID格式段落类型识别规则定义如表2Markdown格式段类型识别规则表，表3MIF/MID格式段落类型识别规则表所示：ID为第一编号用于段落类型标记，Description为段落识别准则描述，Priority为段落识别准则优先级，Rules为段落识别规则。

表2 Markdown格式段类型识别规则表

表3 MIF/MID格式段落类型识别规则表

ID为第一编号用于段落类型标记，Description为段落类型识别准则描述，Priority为段落类型识别准则优先级，Rules为段落识别规则。

S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型。

所述第一编号与所述段落类型识别准则对应。

在本实施例的实际应用中，步骤S2具体为：

(3)根据段落类型识别优先级遍历文本：获取段落类型识别规则表rules(根据文本格式获取对应段落识别规则表，表2表2Markdown格式段类型识别规则表或表3MIF/MID格式段落类型识别规则表)，根据段落识别规则表中‘Priority’列的值，获取段落类型识别准则优先级列表priorityList；设长度为文本大小的段落类型标记列表labelList存储段落类型；按照先后顺序对段落类型识别准则优先级列表priorityList进行遍历，设当前遍历优先级curPri，然后在段落类型识别规则表rules中查找优先级为curPri的规则rule；进入步骤(3-1)，查找符合规则rule的段落，获取记录的编号ID作为段落的段落类型，并存储于段落类型标记列表labelList中对应位置，返回段落类型标记列表labelList。

(3-1)获取规则rule，判断规则rule中是否含有表1基本关联准则定义表中的方法准则，若含有则提取方法准则关键字赋值给方法名f_name并获取后部分准则为规则rule，如规则rule为“/％DIRECTORY FORMAT％/^\[.*\d+\]$#.*$$&&AFTER LINE 2020100”，则方法名f_name等于“/％DIRECTORY FORMAT％/”，规则rule等于“^\[.*\d+\]$#.*$$&&AFTER LINE 2020100”；判断规则rule中是否含有表1基本关联准则定义表中中的多条件准则：若含有进入步骤(3-1-1)判断段落是否符合规则rule，获取符合段落类型识别准则条件的段落序号列表eligibleList；否则进入步骤(3-1-2)，获取符合规则rule的段落序号列表eligibleList。进入步骤(3-2)，对符合规则rule的段落进行标记，获取段落类型标记列表labelList，返回段落类型标记列表labelList。

(3-1-1)获取规则rule，若规则rule含有和规则&&，进入步骤(3-1-1-1)(否则进入步骤(3-1-1-2))，获取符合规则rule的段落序号列表eligibleList，返回段落序号列表eligibleList。

(3-1-1-1)获取符合段落识别准则条件的段落序号列表eligibleList、规则rule；以多条件准则和规则的关键字‘&&’为规则分割符分割规则rule，获取规则子集列表ruleList；遍历规则子集ruleList：若当前遍历的规则含有或规则关键字“||”，根据先处理含或规则规则，再处理含和规则的原则，进入步骤(3-1-1-2)，获取符合当前段落识别准则条件的段落序号列表eligibleList；若当前遍历的规则不含或规则关键字‘||’，存储当前遍历的规则于和规则子集andList；继续遍历，直至规则子集ruleList遍历完成；若段落序号列表eligibleList不为空，则遍历存储和规则子集andList：若子规则不含有表1基本关联准则定义表中的结构、起止关键字，则当前遍历的规则暂存如无准则表noLabel表；否则依次进入步骤(3-1-2),获取符合当前段落识别准则条件的段落序号列表eligibleLits：若段落序号列表为空直接返回段落序号列表eligibleList；否则段落序号列表eligibleList不为空，继续遍历和规则子集andList，直至和规则子集andList遍历完毕；若无准则表noLabel不为空，则遍历无准则表noLabel，依次进入步骤(3-1-2)，获取段落序号列表eligibleList。返回段落序号列表eligibleList。

(3-1-1-2)获取段落序号列表eligibleList，规则rule，以多条件准则非规则的关键字‘||’为规则分割符分割规则rule，获取非规则子集ruleList；遍历非规则子集ruleList：依次进入步骤(3-1-2)，获取符合当前段落识别准则条件的子段落序号列表eList；若子段落序号列表eList不为空，则将子段落序号列表eList与段落序号列表eligibleList的并集赋值给段落序号列表eligibleList；继续遍历，直至非规则子集ruleList遍历完毕。返回段落序号列表eligibleList。

(3-1-2)获取规则rule、文本texts，判断规则rule是否含有表1基本关联准则定义表中的起止段落准则或结构关联准则或无格式准则：若有则进入步骤(3-1-3)，获取符合规则rule的段落序号列表eligibleList；否则遍历文本texts，查找文本texts与规则rule匹配的段落，将其符合规则rule的段落序号存储于段落序号列表eligibleList；返回段落序号列表eligibleList。

(3-1-3)获取规则rule、段落类型标记列表labelList、段落序号列表eligibleList；根据表1基本关联准则定义表中的起止段落准则、结构关联准则、无格式准则的关键字，提取规则rule中准则关键字及准则关键字后的规则为方法名fun，规则rule；根据方法名fun，调用对应准则方法(准则方法为：3-1-3-1至3-1-3-4)获取段落序号列表eligibleList；返回段落序号列表eligibleList。

(3-1-3-1)在段落之前的方法BEFORE和在段落类型之前的方法BEFORE LINE：获取规则rule、文本texts(BEFORE LINE方法则获取的是段落类型标记列表labelList)、段落序号列表eligibleList，设子序号列表searchList用于存储符合规则的段落序号，开始索引s_Index等于0；若段落序号列表eligibleList不为空，则遍历段落序号列表eligibleList：当前段落序号index，段落序号列表elgibleList对应的序号表索引seIndex：若文本texts第index位置的内容(BEFORE LINE方法则为段落类型标记列表labelList第index位置的内容)与规则rule匹配，则将段落序号列表elgibleList中开始索引s_index至序号表索引seIndex前的段落序号存入子序号列表searchList中，并将序号表索引seIndex赋值给开始索引s_Index；若文本texts第index位置的内容(BEFORE LINE方法则为段落类型标记列表labelList第index位置的内容)与规则rule不匹配，进入下一个段落序号；重复以上操作直至段落序号列表eligibleList遍历完成；若段落序号列表eligibleList为空，则遍历全文texts(BEFORE LINE方法则为遍历段落类型标记列表labelList)：当前遍历段落内容item，文本索引itemIndex：若段落内容item与规则rule匹配，则将全文texts(或段落类型标记列表labelList)从开始索引s_index至文本索引itemIndex前一行的索引存入子序号列表searchList中，并将文本索引itemIndex赋值给开始索引s_index；若段落内容item与规则rule不匹配，进入下一行内容；重复以上操作直至文本texts(或段落类型标记列表labelList)遍历完成；返回子序号列表searchList。

(3-1-3-2)在段落之后的方法AFTER和在段落类型之后的方法AFTER LINE：获取规则rule、文本texts(AFTER LINE方法则获取的是段落类型标记列表labelList)、段落序号列表eligibleList，设子段落序号列表searchList用于存储符合规则的段落序号:若段落序号列表eligibleList不为空，则遍历符合规则的段落序号表eligibleList：当前段落序号index，段落序号列表elgibleList对应的序号表索引seIndex：若文本texts第index位置的内容(AFTER LINE方法则为段落类型标记列表labelList第index位置的内容)与规则rule匹配，则将段落序号列表eligibleList中序号表索引seIndex至段落序号列表eligibleList结束的段落序号存入子序号列表中searchList中，并跳出段落序号列表eligibleList的遍历；若文本texts第index位置的内容(AFTER LINE方法则为段落类型标记列表labelList第index位置的内容)与规则rule不匹配，进入下一个段落序号；重复以上操作直至段落序号列表eligibleList遍历完成；若段落序号列表eligibleList为空，则遍历文本texts(AFTER LINE方法则为遍历段落类型列表labelList)：当前遍历段落item，段落索引itemIndex：若段落item与规则rule匹配，则将文本texts(或段落类型标记列表labelList)第itemIndex位置至文本texts结束的的索引存入子序号列表searchList中，并跳出文本texts(或段落类型列表labelLis)的遍历；若段落item与规则rule不匹配，进入下一行内容；重复以上操作直至文本texts(或段落类型标记列表labelList)遍历完成。返回子段落序号列表searchList。

(3-1-3-3)结构准则方法IN PART和非结构准则方法NOT IN PART：获取规则rule、段落类型标记列表labelList，段落序号列表eligibleList，设子序号列表searchList用于存储符合段落类型识别规则段落序号：若段落序号列表eligibleList不为空，则遍历段落序号列表eligibleList：设当前序号index；若段落类型标记列表labelList第index位置的内容与规则rule匹配(NOT IN PART则为段落类型标记列表labelList第index位置的内容与规则rule不匹配)，则将序号index存入子段落序号列表searchList；否则进入下一个段落序号；重复以上操作直至段落序号列表eligibleList遍历完毕；若段落序号列表eligibleList为空，则遍历段落类型标记列表labelList：当前内容item，索引号itemIndex，若内容item与规则rule匹配(NOT IN PART则为内容item与规则rule不匹配)，则将索引号itemIndex存入子段落序号列表searchList；否则进入下一段落类型列表内容；重复以上操作直至段落类型列表labelList遍历完毕。返回子段落序号列表searchList。

(3-1-3-4)无格式方法UNFORMAT:段落类型标记列表labelList，设子段落序号列表searchList，遍历段落类型标记列表labelList：当前内容item，索引号itemIndex：若内容item没有段落类型标记，则将索引号itemIndex存储于子段落序号列表searchList；若内容item有段落类型标记，则进入下一段内容；重复以上操作，直至段落类型标记列表labelList遍历完毕。返回子段落序号列表searchList。

(3-2)获取方法名f_name、段落类型标识ID、符合段落类型识别规则的段落序号列表eligibleList、段落类型标记列表labelList：如果方法名f_name为空，则遍历段落序号列表eligibleList：设当前遍历内容index，赋值段落类型标记表labelList的第index位置的内容等于ID；进入下一段落序号，重复以上操作直至段落序号列表eligibleList遍历完成；若方法名f_name不为空，则根据方法名f_name调用对应标记方法(标记方法为：3-2-1至3-2-2)进行段落标记获取段落类型标记列表labelList；返回段落类型标记列labelList。

(3-2-1)标题段落类型的标记方法/％TITLE％/：获取数据类型为整型的段落类型标记ID、文本texts、符合段落类型识别规则的段落序号列表eligibleList、段落类型标记列表labelList；遍历段落序号列表eligibleList：设当前遍历序号index；根据正则表达式“^(#{1,})(？！#).*”获取文本texts第index位置内容所含‘#’的个数n，赋值段落类型标记列表labelList第index位置的内容为ID+n-1；进入下一段落序号，重复以上操作直至段落类型列表eligibleList遍历完成；返回段落类型标记列表labelList。

(3-2-2)目录段落类型的标记方法/％DIRECTORY FORMAT％/：获取数据类型为整型的段落类型标记ID、文本texts、符合段落类型识别规则段落序号列表eligibleList、段落类型标记列表labelList；遍历段落序号列表eligibleList:当前遍历序号index，对应在段落序号列表eligibleList中的序号列表索引sIndex:若文本texts第index位置的内容与正则表达式“^\[(前言|.*参考文献).*\]$.*$”匹配，则段落类型标记列表labelList第index个位置等于段落类型标记ID；若文本texts第index位置的内容与正则表达式“(？:\[)(.？)([一二三四五六七八九\d①②③④⑤⑥⑦⑧⑨⑩⑴⑵ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩABCDEFGHIJabcdefghj])(.？)”匹配结果不为空，则获取文本texts第index位置的内容的前特征sPart，序号特征oPart及后特征ePart(如文本texts第index位置的内容为“[第一章绪论1](#第一章绪论)”，则前特征sPart等于“第”，序号特征oPart等于“一”，后特征ePart等于‘章’)，根据序号特征oPart获取当前序号的序号类型列表oTypeList，从序号列表索引sIndex开始向前查找段落序号列表eligibleList中的段落序号，查找距离序号列表索引sIndex最近的具有段落标签的序号：若该序号对应的段落不与正则表达式“^\[(前言|.*参考文献).*\]$.*$’匹配”，则段落类型标记ID等于该段落的段落类型对应的段落类型标记+1；否则段落类型标记ID等于段落类型标记ID；遍历序号类型列表oTypeList：设当前类型序号oIndex，识别准则R等于前特征sPart+类型序号oIndex+后特征oPart，从序号列表索引sIndex位置开始遍历段落序号列表eligibleList：若查找到某段落索引对应的段落标签小于当前段落类型标记ID，则结束序号类型列表oTypeList的遍历；否则查找段落索引对应的段落内容与识别准则R匹配的段落，赋值该段落对应在段落类型标记列表labelList中位置等于段落类型标签ID，进入下一序号列表索引sIndex，直至段落序号列表elgibleList遍历完毕；进入下一遍历序号index，直至段落序号列表eligibleList遍历完毕；返回段落类型标记列表labelList。

本实施例提供的段落类型识别方法，由于采用了预先设定的段落类型识别规则，判断文本中任一段落是否符合段落类型识别规则，获取判断结果；并根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型；所述第一编号与所述段落类型识别准则对应。采用本实施例的段落类型识别方法大大提高了段落类型的工作效率与数据准确性；具有通用性和扩展性。

实施例四

参见图2和图4，本实施例还提供一种地质资料文档结构自动识别方法，本实施例四中的文档结构自动识别方法是建立在本实施例三中段落类型识别方法的基础之上，在对地质资料进行段落类型识别之后的基础上进行的文档结构识别，包括：

A1、根据预先设定的文本结构识别规则，判断具有段落类型的段落中任一段落是否符合文本结构识别规则，获取第二判断结果。

所述文本结构识别规则包括：

文本结构定义规则包括：预先设定的全文文本结构的定义规则、全文段落文本结构的定义规则、表文本结构的定义规则、地质年代表文本结构的定义规则、公式文本结构的定义规则、图片文本结构的定义规则。

在本实施例的实际应用中，步骤A1具体为：

从文本结构识别规则的第一条开始，逐规则对段落标签和文本进行遍历处理；设结构识别规则集为rules，每次遍历的规则为rule，文本为texts，具体行文本context，行索引contextIndex，段落标签集labelList所包含的子标签为label，其中label是context的对应段落标签；逐规则遍历时，从当前规则rule开始，然后以行索引contextIndex(与子标签label先后顺序对应)的先后顺序进行处理，每次处理段落标签集labelList的一个子标签label及其对应行文本context；所有子标签label的处理完成即文本texts在当前规则rule的文档结构识别完成；进入下一规则，直至所有规则rule遍历一遍。

第一级规则为文本结构定义：所有文本结构定义为全文、全文段落、表、地质年代表、公式、图片六级结构；根据文本实际内容调整结构(针对Markdown格式文本)。

第二级为关联准则，主要用于文本结构的识别。

对于全文结构，识别其文本结构内部关于封面、章节、段落等的层次结构。

对于全文段落、表、地质年代表、公式、图片结构，识别其文本结构的顺序结构。

文本结构识别及文本结构类型标记见(4)部分，文本结构关联准则采用多条件准则(和规则&&、或规则||、非规则NOT)、正则表达式、段落类型、起止段落准则、结构准则、方法准则(\％.*％\)定义，其中关联准则在表1基本关联准则定义表的基础上增加了两个起止段落准则、方法准则全部更换、无去除格式准则，改动具体如表4基本关联准则改动表。

表4基本关联准则改动表

上述关联准则可组合使用，可形成具体文档结构识别准则；如“/％FULLTEXT％/END LINE 9010400”，表示在该文本结构在段落类型为9010400的段落处结束，并调用全文文本标记方法/％FULLTEXT％/对该文本结构进行标记。

Markdown格式文本结构识别准则表如表5所示：

表5 Markdown格式文本结构识别准则表

Markdown格式全文文本结构内部结构识别准则如表6所示

表6 Markdown格式全文文本结构内部结构识别准则表

MIF/MID格式文档结构识别准则如表7所示。

表7 MIF/MID文档结构识别准则表

ID2为第二编号用于文本结构类型标记，Description为文本结构识别准则描述，Rules为文本结构识别规则。

规则表以Excel文件的方式存储。

所有段落类型、文档结构类型与文档结构内部结构类型的准则，均需根据规则预先定义在对应的表中。

A2、根据所述判断结果和预先设定文本结构识别规则及第二编号确定所述段落的文本结构类型。

所述第二编号与所述文本结构识别规则对应。

若所述段落的判断结果为符合相应文本结构识别规则，则将与所述文本结构识别规则对应的第二编号作为所述段落的文本结构类型。

在本实施例的实际应用中，步骤A2具体为：

(4)获取(3)过程输出的段落类型标记列表labelList、文本texts、文本结构识别规则列表struRuleList(根据文本texts的文本类型获取对应格式的文本结构识别规则表，表5Markdown格式文本结构识别准则表，表7MIF/MID文档结构识别准则表)；设与文本texts大小相等的文本结构标记列表struList，用于存储文本结构识别标签；按照先后顺序对文本结构识别规则列表struRuleList进行遍历：设当前遍历文本结构识别规则rule，进入步骤(4-1)，查找规则rule匹配的段落存储于符合规则序号列表eligibleList，获取文本结构识别规则rule对应的编号ID2作为文本结构的结构类型，并存储于文本结构标签列表struList对应位置，返回文本结构标签列表。

(4-1)获取规则rule、文本texts，段落类型标记列表labelList，获取与规则rule匹配的序号列表eligibleList，算法过程与前述(3-1)差不多(主要是增加了两个起止段落顺序准则((4-1-1)、(4-1-2))和删除了无格式准则)，通过规则rule与段落类型标记列表labelList或文本texts的匹配结果，查找序号列表eligibleList；返回序号列表eligibleList；进入步骤(4-2)，对符合规则rule的段落进行标记，获取文本结构标记列表struList；返回文本结构标记列表struList。

(4-1-1)开始段落方法BEGIN LINE：获取规则rule、段落类型标记列表labelList、符合文本结构准则的序号列表eligibleList，设子序号列表searchList存储符合规则的序号；若序号列表eligibleList不为空，则遍历序号列表eligibleList：当前段落序号index，在序号列表elgibleList中对应的序号索引seIndex：若段落类型标记列表labelLits第index位置的内容与规则rule匹配，则将序号列表elgibleList中从序号索引seIndex位置至结束的段落序号存入子序号列表searchList中，跳出序号列表的eligibleList遍历；若不匹配，进入下一段落序号index，继续遍历，直至序号列表elgibleList遍历结束；若序号列表eligibleList为空，则遍历段落类型标记列表labelList：当前遍历内容item，对应内容索引itemIndex：若内容item与规则rule匹配，则从内容索引itemIndex至段落类型标记列表labelList结束的段落序号存入子序号列表searchList，跳出序号列表eligibleList遍历；若不匹配，则进入下一内容item，直至段落类型标记列表labelList遍历完毕；返回子序号列表searList。

(4-1-2)结束段落规则方法END LINE：获取规则rule、段落类型标记列表labelList、符合文本结构准则的序号列表eligibleList，设子序号列表searchList用于存储符合规则的段落序号，设位置存储s_Index等于0；若序号列表eligibleList不为空，则遍历序号列表eligibleList：当前段落序号index，在序号列表elgibleList对应的序号列表的索引号seIndex：若段落类型标记列表labelLits第index位置的内容与规则rule匹配，则将序号列表elgibleList中从位置存储s_Index至索引号seIndex位置的段落序号存入子序号列表searchList中，索引号seIndex+1赋值给位置存储s_index；进入下一段落序号index，直至序号列表elgibleList遍历结束；若序号列表eligibleList为空，则遍历段落类型标记列表labelList：当前遍历内容item，对应内容索引号itemIndex：若内容item与规则rule匹配，则将位置存储s_index至内容索引itemIndex位置的段落序号存入子序号列表searchList，位置存储s_index等于内容索引itemIndex+1；进入下一内容item的遍历，直至段落类型标记列表labelList遍历完毕；返回子序号列表searchList。

(4-2)获取方法名f_name、段落类型标识ID、，符合文本类型识别规则的序号列表eligibleList、段落类型标记列表labelList、文本结构标签列表struList：如果方法名f_name为空，则遍历序号列表eligibleList，设当前序号index，文本结构标签列表struList列表第index位置等于‘ID’；进入下一遍历内容，重复以上操作直至序号列表eligibleList遍历完成；若方法名f_name不为空(表4中的方法准则关键字)，则根据方法名f_name调用对应标记方法(4-2-1至4-2-2)进行文本结构类型标记，获取文本结构标记列表struList；返回文本结构标记列表struList。

(4-2-1)全文文本结构标记方法/％FULLTEXT％/：获取符合文本类型识别规则的序号列表eligibleList赋值给全文texts、文本结构标记ID2，根据表6全文文本结构内部结构准则表获取内部结构列表r_List，赋值给文本结构类型标记列表struList；进入(4-1)，获取文本结构标记列表struList；返回文本结构标记列表struList。

(4-2-2)正文文本结构标记方法/％CHAPTER％/：获取符合文本结构识别规则的序号列表eligibleList、段落类型标记列表labelList，文本结构标记ID2；根据序号列表eligibleList与段落类型标记列表labelList的对应关系，获取标题等级列表deList，并文本段落类型与标题等级的对应字典deDict(一级标题段落及其所属内容对应文本结构标记ID2，二级标题段落及其所属内容对应文本结构标记ID2+1，以此类推)；进入步骤(4-2-2-1)，对文本结构进行标记，获取文本结构标记列表struList；返回文本结构标记列表struList。

(4-2-2-1)获取符合文本结构识别规则的序号列表eligibleList、段落类型标记列表labelList，标题等级列表字典deDict，标题等级列表deList；遍历序号列表eligibleList：设当前遍历序号index，对应索引号sIndex，若段落类型标记列表labelList第index位置的内容与标题等级列表deList第0位置的内容匹配，文本结构标记列表struList第index位置的值为标题等级列表字典deDict第deList[0]位置的值；从索引号sIndex开始遍历序号列表eligibleList：设当前遍历序号searIndex,在序号列表eligibleList中对应索引号为i：若段落类型标记列表labelList第searIndex位置的内容与标题等级列表deList第0位置的内容匹配，则跳出当前遍历；否则文本结构标记列表strulist第index位置的值为标题等级列表字典deDict第deList[0]位置的值，进入下一遍历序号searIndex，直至序号列表eligibleList遍历完毕或跳出；进入步骤(4-2-2-1)(部分传入参数：序号列表eligibleList等于序号列表eligibleList从遍历序号index+1至索引号i间的段落序号，标题等级列表deList等于标题等级列表deList从第1的位置到结束)，获取文本结构标记列表struList；从索引号i+1开始下一步遍历序号列表eligibleList，直至序号列表eligibleList遍历完成；返回文本结构标记列表struList。

由于本发明上述实施例所描述的系统，为实施本发明上述实施例的方法所采用的系统，故而基于本发明上述实施例所描述的方法，本领域所属技术人员能够了解该系统的具体结构及变形，因而在此不再赘述。凡是本发明上述实施例的方法所采用的系统都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。

应当注意的是，在权利要求中，不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的权利要求中，这些装置中的若干个可以是通过同一个硬件来具体体现。词语第一、第二、第三等的使用，仅是为了表述方便，而不表示任何顺序。可将这些词语理解为部件名称的一部分。

此外，需要说明的是，在本说明书的描述中，术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述，是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管已描述了本发明的优选实施例，但本领域的技术人员在得知了基本创造性概念后，则可对这些实施例作出另外的变更和修改。所以，权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也应该包含这些修改和变型在内。

31页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种面向飞机维修的系统划分码编码方法

段落类型识别方法及系统和文档结构识别方法及系统

相关技术

网友询问留言