一种基于知识图谱的非结构化电网数据处理方法及装置

文档序号:379091 发布日期:2021-12-10 浏览:28次 >En<

阅读说明:本技术 一种基于知识图谱的非结构化电网数据处理方法及装置 (Knowledge graph-based unstructured power grid data processing method and device ) 是由 李保平 于 2021-09-14 设计创作,主要内容包括:本发明公开了一种基于知识图谱的非结构化电网数据处理方法及装置,涉及知识图谱领域,针对现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题,现提出如下方案,其包括以下步骤:S1、先将非结构化数据进行导出,并进行初步的数据检索,S2、将检索出的数据进行清洗,S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据,S4、将初始数据库中数据导出,并进行整合,S5、将整合后的数据与转换的结构化数据进行相似度对比,S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。本发明结构简单,使用方便,提高了非结构化数据的处理效果,提高查询效率。(The invention discloses a method and a device for processing unstructured power grid data based on a knowledge graph, relates to the field of knowledge graphs, and aims to solve the problems that the existing method for processing unstructured power grid data is poor in processing effect and slow in query effect, the following scheme is provided, and the method comprises the following steps: s1, firstly exporting unstructured data, carrying out preliminary data retrieval, S2, cleaning the retrieved data, S3, carrying out further analysis and conversion on the cleaned data to convert the unstructured data into recognizable structured data, S4, exporting the data in an initial database, integrating the data, S5, carrying out similarity comparison on the integrated data and the converted structured data, and S6, processing and deleting incomplete data, wrong data and repeated data in the converted and compared structured data. The invention has simple structure and convenient use, improves the processing effect of unstructured data and improves the query efficiency.)

一种基于知识图谱的非结构化电网数据处理方法及装置

技术领域

本发明涉及知识图谱领域,尤其涉及一种基于知识图谱的非结构化电网数据处理方法及装置。

背景技术

非结构化数据是一种数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据,广泛存在与计算机的数据库中,非结构化数据的数量远远大于结构化数据,非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解,非结构化数据的提取与检索都十分困难,需要对非结构化数据进行处理,但现有非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题,因此,为了解决此类问题,我们提出了一种基于知识图谱的非结构化电网数据处理方法及装置。

发明内容

本发明提出的一种基于知识图谱的非结构化电网数据处理方法及装置,解决了现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题。

为了实现上述目的,本发明采用了如下技术方案:

一种基于知识图谱的非结构化电网数据处理方法,包括以下步骤:

S1、先将非结构化数据进行导出,并进行初步的数据检索;

S2、将检索出的数据进行清洗;

S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据;

S4、将初始数据库中数据导出,并进行整合;

S5、将整合后的数据与转换的结构化数据进行相似度对比;

S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除;

S7、对处理后的数据进行数据分类,并上传到成品数据库中,通过云存储平台进行备份储存。

优选的,所述非结构化数据库中包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等。

优选的,所述S7中的数据分类包括法规数据、合同数据、以及安全数据,并将分类后的数据进行统一整合。

优选的,所述S3与S4为并列步骤,可同步进行。

一种基于知识图谱的非结构化电网数据处理装置,包括以下:

非结构化数据库,用于储存原始的非结构化数据,并通过适配器将非结构化数据导出,所述非结构化数据库与数据检索模块相连;

数据检索模块,用于对非结构化数据库中的非结构化数据进行检索收集,所述数据检索模块与数据清洗模块连接;

数据清洗模块,用于将数据检索模块检索出的数据进行清洗整理,所述数据清洗模块与数据分析引擎连接;

数据分析引擎,用于对数据清洗模块清洗整理后的数据进行分析,所述数据分析引擎与数据转换器连接;

数据转换器,用于对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,所述数据转换器与相似度计算模块连接;

初始数据库,用于储存现有资料中的结构化数据,所述初始数据库与数据整合模块相连;

数据整合模块,用于对初始数据库中的数据进行整合,所述数据整合模块与相似度计算模块相连接;

相似度计算模块,用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,所述相似度计算模块与数据分类模块和数据处理模块相连接。

优选的,一种基于知识图谱的非结构化电网数据处理装置,还包括:

所述数据分类模块用于对数据进行分类,所述数据分类模块与成品数据库连接;

成品数据库,用于储存分类后的数据,所述成品数据库与云存储平台连接;

云储存平台,用于对成品数据库中的数据文件进行备份。

优选的,所述数据检索模块包括翻译器、优化器以及执行器;

所述翻译器,用于翻译查询请求并生成查询表达式;

所述优化器,用于优化查询表达式,得到优化过的查询计划;

所述执行器,用于选择最优的查询计划执行,得到查询结果。

优选的,,所述数据分类模块包括对电网数据中的法规数据、合同数据以及安全数据等数据的分类与整合。

优选的,所述数据处理模块,用于对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。

本发明的有益效果为:

通过将电网非结构化数据进行清洗,对非结构化数据进行剔除,使数据检索的准确性提高,同时通过相似度对比,提取出最符合要求的数据,减小搜索误差,提高对非结构化数据的处理效率,同时对处理后的非结构化数据进行分类,对电网数据进行整理,方便后续数据的提取与使用。

综上所述,该发明结构简单,使用方便,提高了非结构化数据的处理效果,提高查询效率,解决了现有的非结构化电网数据的处理方法处理效果差,存在查询效果慢的问题。

附图说明

图1为本发明所述的一种基于循环神经网络的知识图谱构建方法创建方法流程图。

图2为本发明所述的一种基于循环神经网络的知识图谱构建装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

实施例1

参照图1所示,一种基于知识图谱的非结构化电网数据处理方法,包括以下步骤:

S1、先将非结构化数据进行导出,并进行初步的数据检索;

S2、将检索出的数据进行清洗;

S3、将清洗后的数据进行进一步的分析转换,使非结构化数据转换成可以识别的结构化数据;

S4、将初始数据库中数据导出,并进行整合;

S5、将整合后的数据与转换的结构化数据进行相似度对比;

S6、对转换对比后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除;

S7、对处理后的数据进行数据分类,并上传到成品数据库中,通过云存储平台进行备份储存。

所述非结构化数据库中包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等。

所述S7中的数据分类包括法规数据、合同数据、以及安全数据,并将分类后的数据进行统一整合。

所述S3与S4为并列步骤,可同步进行。

实施例2

参照图2所示,一种基于知识图谱的非结构化电网数据处理装置,包括以下:

非结构化数据库,用于储存原始的非结构化数据,并通过适配器将非结构化数据导出,所述非结构化数据库与数据检索模块相连;

数据检索模块,用于对非结构化数据库中的非结构化数据进行检索收集,所述数据检索模块与数据清洗模块连接;所述数据检索模块包括翻译器、优化器以及执行器;

所述翻译器,用于翻译查询请求并生成查询表达式;

所述优化器,用于优化查询表达式,得到优化过的查询计划;

所述执行器,用于选择最优的查询计划执行,得到查询结果;

数据清洗模块,用于将数据检索模块检索出的数据进行清洗整理,所述数据清洗模块与数据分析引擎连接;

数据分析引擎,用于对数据清洗模块清洗整理后的数据进行分析,所述数据分析引擎与数据转换器连接;

数据转换器,用于对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,所述数据转换器与相似度计算模块连接;

初始数据库,用于储存现有资料中的结构化数据,所述初始数据库与数据整合模块相连;

数据整合模块,用于对初始数据库中的数据进行整合,所述数据整合模块与相似度计算模块相连接;

相似度计算模块,用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,所述相似度计算模块与数据分类模块和数据处理模块相连接,所述数据分类模块用于对数据进行分类,所述数据分类模块与成品数据库连接;成品数据库,用于储存分类后的数据,所述成品数据库与云存储平台连接;云储存平台,用于对成品数据库中的数据文件进行备份。

所述数据分类模块包括对电网数据中的法规数据、合同数据以及安全数据等数据的分类与整合。

所述数据处理模块,用于对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除。

本发明在具体使用过程中,先通过适配器将非结构化数据库中的非结构化电网数据导出,然后通过翻译器翻译查询请求并生成查询表达式,然后通过优化器优化查询表达式,得到优化过的查询计划,然后通过执行器,用于选择最优的查询计划执行,得到查询结果,从而对非结构化数据库中的非结构化数据进行检索收集,然后通过数据清洗模块将数据检索模块检索出的数据进行清洗整理,并将清洗整理后的数据通过数据分析引擎进行分析,然后通过数据转换器对非结构化数据中的非数值数据转换为数值数据,将非结构化数据转换为结构化数据,通过将初始数据库中的结构化数据进行导出并整合,然后通过相似度计算模块用于将转换后的数据与初始数据库中整合后的结构化数据进行相似度对比以及相似度计算,并进行数据提取,然后通过数据处理模块对进行过相似度计算后的结构化数据中不完整的数据、错误的数据以及重复的数据进行处理删除,同时将提取后的数据通过数据分类模块用于对数据进行分类,分类完毕后通过成品数据库储存分类后的数据,并通过云储存平台对成品数据库中的数据文件进行备份即可。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于图数据库的知识管理方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!