基于地质本体的地质报告文本信息提取方法

文档序号：1535552 发布日期：2020-02-14 浏览：15次 >En<

阅读说明：本技术 基于地质本体的地质报告文本信息提取方法 (Geological report text information extraction method based on geological ontology ) 是由邱芹军谢忠吴亮陶留峰罗菁李孜轩曹豪豪于 2019-09-30 设计创作，主要内容包括：本发明提供一种基于地质本体的地质报告文本信息提取方法,包括步骤：S1、对地质报告文档进行预处理操作,将文件类型转换成数据源格式,并进行分句、分词、去停用词、以及词性标注；S2、利用结构化信息构建地名词典库、地质实体词典库,在已有地质领域本体的基础上进行扩充并形成地名本体和地质时间本体；S3、通过模式匹配以及规则匹配方法对地质报告文本进行地质实体信息、时空关系信息、以及属性信息的抽取。本发明的有益效果：无需采用人工方式标注大量的训练数据集,节省了人力、物力；对现有的信息抽取模型进行了抽象及改进,为其他领域的信息抽取提供了一定思路。(The invention provides a geological report text information extraction method based on a geological ontology, which comprises the following steps: s1, preprocessing the geological report document, converting the file type into a data source format, and performing sentence segmentation, word segmentation, stop word removal and part of speech tagging; s2, constructing a place name dictionary base and a geological entity dictionary base by using the structured information, expanding the place name dictionary base and the geological entity dictionary base on the basis of the existing geological domain ontology, and forming a place name ontology and a geological time ontology; and S3, extracting geological entity information, spatiotemporal relationship information and attribute information from the geological report text by a pattern matching and rule matching method. The invention has the beneficial effects that: a large amount of training data sets do not need to be marked manually, so that manpower and material resources are saved; the existing information extraction model is abstracted and improved, and a certain thought is provided for information extraction in other fields.)

基于地质本体的地质报告文本信息提取方法

技术领域

本发明涉及地质信息检索领域，尤其涉及一种基于地质本体的地质报告文本信息提取方法。

背景技术

长期以来，通过一系列地质调查项目及地质资料汇交机制，地质调查领域积累了海量的地质调查数据资料，逐步形成了成体系的各类地质专业数据库以及由非结构化数据组成的地质“内容库”。地质大数据作为大数据中典型的代表，主要由两部分组成，一类是由现有的地质领域已经形成的各类专业数据库中具有规范化(normalized)定义、良构的结构化(structured)空间数据集，该类数据通常具有预定义的模式来进行存储和检索；另一类是由地质报告、研究报告、文献等地质领域的文本组成的非结构化(unstructured)文本数据集，该类数据往往无特定的、预定义的结构，如文本数据或图像、视频数据等。结构化数据通常使用关系数据库或空间数据库进行存储和管理，但非结构化数据的特性使得它们难以通过虚拟应用程序进行管理。非结构化数据类型多、信息零散，且信息往往比结构化数据更加丰富，具有更大的潜在价值，使用传统的文件系统对这些数据进行管理，会降低回答查询和检索统计信息的效率，增加检索和挖掘数据的难度。因此，大量的研究集中在寻找有效管理、挖掘和利用这些非结构化数据的方法，其中云计算和大数据相关技术便是一种解决方法。

作为自然语言处理研究的子领域，信息抽取是从文档集合中抽取出相关信息点的过程，其难点包括：抽取信息的确定、关键信息的定位、抽取的语义问题以及抽取信息的保存和重用。领域本体是对特定领域中共同认可的概念和关系集合的明确、形式化和规范化的描述，可以提供对领域知识的共同理解，确定领域内共同认可的词汇，并可以对本领域词汇进行分层定义。在信息抽取中利用本体而不是线性结构的词典或词表，因此能够在语义层面上理解抽取内容，通过将本体实例与抽取内容相关联，可以完成对抽取内容的语义标注。

发明内容

有鉴于此，本发明提供了一种基于地质领域本体的地质报告文本信息提取方法，所述方法结合自然语言处理(Natural language processing，NLP)技术利用文本工程通用框架(General Architecture for Text Engineering，GATE)语言处理软件开发一种地质文本信息提取框架。

本发明提供一种基于地质本体的地质报告文本信息提取方法，其特征在于，所述方法包括以下步骤：

S1、文档预处理：将搜集到的地质报告文档的文件类型转换成数据源格式，利用自然语言处理工具对所述数据源格式的文档进行分句、分词、去停用词、以及词性标注，得到用于信息抽取的序列文本；

S2、地质本体构建：从空间数据库中获取结构化属性信息，形成地名词典库、地质实体词典库，并对现有的开源地质领域本体利用专业地质词汇和专著进行扩充，形成地名本体和地质时间本体；

S3、匹配规则定义：分析地质报告文档中的时间描述形式，定义时间匹配规则；根据步骤S1中标注的词性，结合地质报告文档中的属性信息的描述特点，定义属性信息匹配规则；在步骤S1得到的序列文本中搜集表达空间关系的词汇，定义空间关系匹配规则；

S4、地质信息提取：在步骤S2、步骤S3的基础上，利用模式匹配、规则匹配方法对步骤S1处理得到的序列文本进行地质实体信息、时空关系信息以及属性信息的抽取。

进一步地，所述步骤S1中，还包括将搜集到的不同格式的原始地质报告文档转换成文本文档，去除文档中的图表，再将所述文本文档转换成数据源格式，所述数据源格式为GATE可读格式。

进一步地，所述步骤S2中，所述地名本体以及地名词典库提供地名列表，用于进行信息抽取时匹配地名信息；所述地质时间本体提供地质报告中专业化的地质时间列表，用于进行信息抽取时匹配地质时间信息；所述地质实体词典库提供专业化的地质领域实体信息，用于进行信息抽取时匹配预定义的类别实体信息。

进一步地，所述步骤S3中定义的时间匹配规则、属性信息匹配规则、以及空间关系匹配规则均为正则表达式规则。

进一步地，所述步骤S4中，所述地质实体信息包括地名实体、岩石实体、构造实体、地史实体、以及时间实体。

进一步地，所述步骤S4中，所述地质实体信息抽取的过程为：

依据步骤S2中形成的地质实体词典库对所述序列文本进行模式匹配，得到岩石实体、构造实体、以及地史实体信息；

依据步骤S2中构建的地质时间本体对所述序列文本进行模式匹配，得到时间实体信息；

依据步骤S2中构建的地名本体以及地名词典库对所述序列文本进行模式匹配，得到地名实体信息。

进一步地，所述步骤S4中，所述时空关系信息抽取的过程为：利用步骤S3中定义的时间匹配规则以及空间关系匹配规则，对所述序列文本进行规则匹配，得到时空关系信息。

进一步地，所述步骤S4中，所述属性信息抽取的过程为：利用步骤S3中定义的属性信息匹配规则，对所述序列文本进行规则匹配，得到属性信息，所述属性信息为量化信息。

本发明提供的技术方案带来的有益效果是：

(1)本发明提供一种无监督的地质报告文本信息提取方法，不需采用人工方式标注大量的训练语料库，节省了人力、物力；

(2)本发明采用基于领域本体的信息抽取技术，能从海量的地质数据中提取空间、时间及属性等多元特征，并对现有的信息抽取模型进行了抽象及改进，为其他领域的信息抽取提供了一定思路。

附图说明

图1是本发明实施例提供的基于地质本体的地质报告文本信息提取方法的流程图；

图2是本发明实施例提供的地质信息抽取关系示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明的实施例提供了一种基于地质本体的地质报告文本信息提取方法，包括以下步骤：

S1、文档预处理：将搜集到的地质报告文档的文件类型转换成数据源格式，再利用自然语言处理工具对所述数据源格式的文档进行分句、分词、去停用词、以及词性标注，得到用于信息抽取的序列文本。

所述步骤S1的具体过程为：将不同格式的原始地质报告文档转换成文本文档(txt格式)，并去除文档中的图表；然后将文本文档转换成具有预定义的GATE可读格式的文档，所述GATE可读格式允许进行简单的注释和提取，方便利用自然语言处理软件进行后续处理；最后利用哈工大研发的pyltp开源工具对所述GATE可读格式的文档进行分句、分词、去停用词、以及词性标注操作，得到用于信息抽取的序列文本，以便于后续分析。

S2、地质本体构建：从空间数据库中获取结构化属性信息，形成地名词典库、地质实体词典库，并对现有的开源地质领域本体利用专业地质词汇、专著等进行扩充，形成地名本体和地质时间本体。

其中，所述地名本体以及地名词典库提供地名列表，用于进行信息抽取时匹配地名信息；所述地质时间本体提供地质报告中专业化的地质时间列表，用于进行信息抽取时匹配地质时间信息；所述地质实体词典库提供专业化的地质领域实体信息，用于进行信息抽取时匹配预定义的类别实体信息。

S3、匹配规则定义：分析地质报告文档中的时间描述形式，定义时间匹配规则；根据步骤S1中标注的词性，结合地质报告文档中属性信息的描述特点，定义属性信息匹配规则；在步骤S1得到的序列文本中搜集表达空间关系的词汇，定义空间关系匹配规则。

需要说明的是，步骤S3中定义的匹配规则均为正则表达式。具体地，地质报告文档中的时间表达式通常都是由规范化的时间元素构成的，可以定义时间匹配规则，比如“2015年8月3日”，根据“**年**月**日”定义进行时间匹配的正则表达式；根据步骤S1中标注的词性，再结合属性信息的描述，可以定义属性信息匹配规则，比如搜索序列文本中的数词，“海拔300m”，根据“(属性名词)+(数词)”定义匹配数值等量化属性信息的正则表达式；在序列文本中搜集表达空间关系的词汇，所述空间关系词汇包括拓扑关系词汇、绝对方向关系词汇、相对方向词汇、距离关系词汇，比如“汇向”、“流向”、“东面”、“从…到…”，由此定义若干进行空间关系匹配的正则表达式。

S4、地质信息抽取：请参考图2，在步骤S2、步骤S3的基础上，通过模式匹配、以及规则匹配方法对步骤S1处理得到的序列文本进行地质实体信息、时空关系信息、以及属性信息的抽取。

地质实体信息抽取包括地名、岩石、构造、地史以及时间实体，具体地：

1)对于地质报告文档中的岩石、构造和地史实体，依据步骤S2中的地质实体词典库来进行模式匹配，具体地，将序列文本中的词汇与地质实体词典库中的单词进行匹配，若找到匹配项，则将所述序列文本中的词汇标注成相应的实体标签；

2)对于地质报告文档中的时间实体，依据步骤S2中的地质时间本体来进行模式匹配，具体地，将序列文本中的词汇与地质时间列表中的单词进行匹配，若找到匹配项，则将所述序列文本中的词汇标注为相应的时间实体标签；

3)对于地质报告文档中的地名实体，利用步骤S2中构建的地名本体以及地名词典库进行模式匹配，具体地，将序列文本中的词汇与地名列表中的单词进行匹配，若找到匹配项，则将所述序列文本中的词汇标注成相应的地名实体标签。

时空关系信息抽取利用步骤S3中定义的时间匹配规则以及空间关系匹配规则，通过正则表达式对序列文本中的分句进行匹配，并将搜索到的匹配项标注为相应的时空关系标签。

属性信息抽取利用步骤S3中定义的属性信息匹配规则通过正则表达式对序列文本中的分句进行匹配，将搜索到的数字等量化信息标注为相应的属性标签。

在本文中，所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的，只是为了表达技术方案的清楚及方便。应当理解，所述方位词的使用不应限制本申请请求保护的范围。

在不冲突的情况下，本文中上述实施例及实施例中的特征可以相互结合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种网页正文的识别处理方法及装置

基于地质本体的地质报告文本信息提取方法

相关技术

网友询问留言