一种矿物领域知识图谱构建方法及系统

文档序号:135779 发布日期:2021-10-22 浏览:32次 >En<

阅读说明:本技术 一种矿物领域知识图谱构建方法及系统 (Method and system for constructing knowledge graph in mineral field ) 是由 季晓慧 董雨航 张悦 杨眉 于 2021-07-14 设计创作,主要内容包括:本发明公开了一种矿物领域知识图谱构建方法及系统,该方法包括:获取矿物相关数据,提取矿物实体和矿物实体间的关系,并构建知识图谱。本发明提供的矿物领域知识图谱构建方法及系统,其通过获取矿物领域数据,对数据应用实体识别模型和关系抽取模型获得矿物知识三元组,最后构建一个较为全面的矿物知识图谱。可以通过该知识图谱进行实体识别,实体搜索和关系搜索,提高矿物领域相关知识的检索速度。(The invention discloses a method and a system for constructing a knowledge graph in the field of minerals, wherein the method comprises the following steps: and acquiring related data of minerals, extracting the relationship between mineral entities and constructing a knowledge graph. According to the method and the system for constructing the mineral domain knowledge graph, provided by the invention, the mineral domain data are obtained, the entity recognition model and the relation extraction model are applied to the data to obtain the mineral knowledge triple, and finally, a relatively comprehensive mineral knowledge graph is constructed. Entity identification, entity search and relation search can be carried out through the knowledge map, and the retrieval speed of related knowledge in the mineral field is improved.)

一种矿物领域知识图谱构建方法及系统

技术领域

本发明涉及数据处理技术领域,尤其涉及一种矿物领域知识图谱构建方法及系统。

背景技术

随着科学技术的发展,知识图谱的应用越来越广泛。知识图谱具有强大的数据描述能力,为智能化信息应用提供了技术基础,其可以以图形化的方式向用户呈现结构化知识。然而,目前还尚未有成熟,全面的矿物领域知识图谱应用,如此导致矿物领域相关知识的检索速度较慢,阻碍了矿物领域的知识共享,不能更加全面的研究矿物知识。

发明内容

有鉴于此,有必要提供一种矿物领域知识图谱构建方法,以提高矿物领域相关知识的检索速度。

本发明的第一方面提供一种矿物领域知识图谱构建方法,应用于电子装置中,所述方法包括:

获取矿物领域的数据,进行人工标注得到标注数据集MineralData;

利用数据集MineralData训练基于Albert-BiLSTM-CRF的实体识别模型,得到矿物领域实体识别模型MineralEntityModel;

利用数据集MineralData训练基于Albert-BiLSTM-Attention的关系抽取模型,得到矿物领域关系抽取模型MineralRelationModel;及

根据所述模型识别得到的矿物领域实体和矿物实体关系,建立矿物领域知识图谱。

优选地,步骤“获取矿物领域的数据,进行人工标注得到标注数据集MineralData”具体包括:

基于互联网资源获取国家岩矿化石标本资源库的矿物数据和公开发表的矿物相关论文摘要数据,获取到的国家岩矿化石标本资源库中的矿物数据作为结构化数据;获取得到的公开发表的矿物相关论文摘要数据则作为非结构化数据;

获取到的结构化数据,经过简单处理后可以直接存入图数据库中形成初始数据;

对获取到的矿物领域部分非结构化数据进行人工标注;及

将人工标注好的数据按照一定比例划分为训练集和测试集,形成数据集MineralData。

优选地,“对获取到的矿物领域部分非结构化数据进行人工标注”具体包括:

根据获取到的矿物领域数据抽取部分数据构建语料库;及

对所述语料库中的内容进行分词、词性标注和关系标注。

优选地,“将人工标注好的数据按照一定比例划分为训练集和测试集,形成数据集MineralData”具体包括:

对标注好的数据按照7:3的比例划分训练集和测试集;及

将标注、划分好的词性标注数据集和关系标注数据集保存下来形成数据集MineralData。

优选地,“利用数据集MineralData训练基于Albert-BiLSTM-CRF的实体识别模型,得到矿物领域实体识别模型MineralEntityModel”具体包括:

使用python编程语言,基于tensorflow框架构建Albert-BiLSTM-CRF实体识别模型;

预定义实体识别类别“矿物、矿床、技术手段、专业术语、年代、地点和UNKNOWN”作为可能的模型输出结果;

将MineralData数据集中的词性标注数据集输入到Albert-BiLSTM-CRF实体识别模型中进行训练,经过Albert网络层得到Word Embedding,然后经过BiLSTM网络层得到前后文相关的词向量最后通过CRF网络层得到带有输出限制的结果。训练初始参数batch_size为16,learn rate为0.001,dropout为0.2,epoch为100,优化器为Adam;及

将训练好的模型保存下来得到矿物领域实体识别模型MineralEntityModel。

优选地,“利用数据集MineralData训练基于Albert-BiLSTM-Attention的关系抽取模型,得到矿物领域关系抽取模型MineralRelationModel”具体包括:

使用python编程语言,基于tensorflow框架构建Albert-BiLSTM-Attention关系识别模型;

预定义关系抽取类别“提取、可作为、用于、制造、是、具有、共生、无、发现于、产于、次生矿物、形成于、包括、有、颜色、熔点、伴生、UNKNOWN”作为可能的模型输出结果

将MineralData数据集中的关系标注数据集输入到Albert-BiLSTM-Attention关系识别模型中进行训练,经过Albert网络层得到Word Embedding,然后经过BiLSTM网络层得到前后文相关的词向量最后通过Attention网络层得到全文相关的结果。训练初始参数batch_size为16,learn rate为0.001,dropout为0.2,epoch为100,优化器为Adam;及

将训练好的模型保存下来得到矿物领域关系识别模型MineralRelationModel。

优选地,“根据所述模型识别得到的矿物领域实体和矿物实体关系,建立矿物领域知识图谱”具体包括:

将获取到的数据中未经过人工标注的部分输入到ineralEntityModel中得到矿物领域的矿物实体;

将获取到的数据中未经过人工标注的部分输入到MineralRelationModel中得到矿物领域的矿物关系;及

将得到的多个矿物领域实体及实体之间的关系关系导入到预设图形数据库,并进行可视化转换得到所述矿物领域知识图谱。

优选地,所述矿物领域知识图谱用于提供矿物领域实体识别、矿物领域关联实体查询和矿物领域实体概览。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明较佳实施例提供的矿物领域知识图谱构建方法的流程图

图2是本发明较佳实施例提供的用于矿物实体识别的Albert-BiLSTM-CRF深度学习模型

图3是本发明较佳实施例提供的用于矿物关系抽取的Albert-BiLSTM-Attention深度学习模型

图4是本发明较佳实施例提供的基于矿物知识图谱的应用领域图

图5是本发明较佳实施例提供的预定义矿物命名实体识别图

图6是本发明较佳实施例提供的预定义矿物关系类别图

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供一种矿物领域的知识图谱构建方法,包括如下步骤:

S1获取矿物领域的数据,进行人工标注得到标注数据集MineralData;

本实施例原始数据可基于互联网资源获取国家岩矿化石标本资源库的矿物数据和公开发表的矿物相关论文摘要数据。本实施例获取到的国家岩矿化石标本资源库中的矿物数据作为结构化数据,经过简单处理后可以直接存入图数据库中形成初始数据;获取得到的公开发表的矿物相关论文摘要数据则作为非结构化数据,需要对其进行实体识别和关系抽取形成可以入库的三元组。本实施例中选用部分非结构化数据进行人工标注,进行分词、词性标注和关系标注形成标注数据集MineralData。

S2构建Albert-BiLSTM-CRF的实体识别网络,训练得到MineralEntityModel,具体网络如图2所示;

本实施例中实体识别的方式使用了深度学习算法Albert-BiLSTM-CRF实现,具体如下:

预定义实体识别类别“矿物、矿床、技术手段、专业术语、年代、地点和UNKNOW”作为可能的模型输出结果,采用MineralData中的词性标注数据集作为输入,经过Albert网络层得到Word Embedding,然后经过BiLSTM网络层得到前后文相关的词向量最后通过CRF网络层得到带有输出限制的结果。在训练过程中,训练初始参数batch_size为16,learn rate为0.001,dropout为0.2,epoch为100,优化器为Adam,将最后训练得到好的网络保存下来形成MineralEntityModel。

S3构建Albert-BiLSTM-Attention的关系抽取网络,训练得到MineralRelationModel,具体网络如图3所示;

本实施例中实体识别的方式使用了深度学习算法Albert-BiLSTM-Attention实现,具体如下:

预定义关系抽取类别“提取、可作为、用于、制造、是、具有、共生、无、发现于、产于、次生矿物、形成于、包括、有、颜色、熔点、伴生、UNKNOWN”作为可能的模型输出结果,采用MineralData中的矿物关系标注数据集作为输入,经过Albert网络层得到Word Embedding,然后经过BiLSTM网络层得到前后文相关的词向量最后通过Attention网络层得到全文相关的结果。在训练过程中,训练初始参数batch_size为16,learn rate为0.001,dropout为0.2,epoch为100,优化器为Adam,将最后训练得到好的网络保存下来形成MineralRelationModel。

S4剩余数据输入到MineralEntityModel和MineralRelationModel中进行处理,构建知识图谱;

将未被人工标注的数据输入到MineralEntityModel中提取实体,将提取到的实体和原始数据一起输入到MineralRelationModel中提取矿物实体间的关系,最后将实体和关系三元组存储到图数据库中。

为了提高知识图谱构建的准确性,本实施例在矿物知识图谱构成完成后,可通过对构建的知识图谱中矿物之间的相互关系进行回测、抽样,并进行人工核检以对构建的知识图谱进行优化。

上面主要描述了一种矿物知识图谱构建方法,下面将对一种矿物知识图谱系统的应用进行详细描述。

图4是除了本发明实施例提供的矿物知识图谱的应用示例。如图4所示,主要包括:

矿物实体识别10。用户输入待实体识别的矿物语料文本,提交后,系统就会在后台调用实体识别的模型对所输入的语料文本进行实体识别,并输出识别出的实体。

矿物实体搜索20。用户输入待搜索的矿物实体,提交后,系统就会在后台数据库中进行关键词检索,如果数据库中存在该关键词对应的实体,就将关键词的图谱显示到前端页面中,否则输出“暂无此实体”。

矿物关系搜索30。用户输入待搜索的两个实体,提交后,系统就会在后台数据库中进行关键词检索,如果数据库中存在搜索的两个实体,且它们之间存在关系,就将关键词的图谱显示到前端页面中,否则输出“二者暂无关系”。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于人工智能的智慧社区知识库体系的快速建立方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!