一种面向多数据源审计知识图谱的智能检索方法

文档序号:1963789 发布日期:2021-12-14 浏览:12次 >En<

阅读说明:本技术 一种面向多数据源审计知识图谱的智能检索方法 (Intelligent retrieval method for multi-data-source audit knowledge graph ) 是由 丁勇 王端瑞 侯本忠 吕元旭 彭放 刘甜甜 肖戈 崔霞 戴斐斐 苏江文 张垚 于 2021-08-18 设计创作,主要内容包括:本发明涉及一种面向多数据源审计知识图谱的智能检索方法,包括以下步骤:步骤1、对用户的查询请求进行字符串的预处理,并按序查询同构子图,并将所查询到的同构子图加入一次查询候选结果集中;步骤2、对步骤1的一次查询候选结果进行评估;步骤3、将步骤2评估后的一次查询候选结果进行融合;步骤4、对步骤3融合后的查询结果进行二次查询。本发明能够既考虑实体知识表达的多样性和关联性,又不增加知识图谱的维护成本的情况下,从多个数据源的审计知识图谱中,有效获取查询结果。(The invention relates to an intelligent retrieval method for an audit knowledge graph of multiple data sources, which comprises the following steps: step 1, preprocessing a character string of a query request of a user, sequentially querying isomorphic subgraphs, and adding the queried isomorphic subgraphs into a primary query candidate result set; step 2, evaluating the primary query candidate result in the step 1; step 3, fusing the primary query candidate results evaluated in the step 2; and 4, performing secondary query on the query result fused in the step 3. The method can effectively acquire the query result from the audit knowledge maps of a plurality of data sources under the condition of not only considering the diversity and the relevance of entity knowledge expression but also not increasing the maintenance cost of the knowledge maps.)

一种面向多数据源审计知识图谱的智能检索方法

技术领域

本发明属于知识图谱技术领域,涉及知识图谱的智能检索方法,尤其是一种面向多数据源审计知识图谱的智能检索方法。

背景技术

近年来,各行各业在科技领域上的不断创新不仅推动着社会经济的发展,而且改变了社会的方方面面,其中审计监督的改变也很突出。并且中央审计委员会也明确提出了要加强科技强审,加强信息化建设的要求,更是直接为审计人员指明了未来奋斗努力的方向。随着科技社会的发展,未来社会经济形势也会有所改变,想要快速适应社会发展,就应该着重将科技技术融入到审计工作中,提高科学技术在审计机关应用的深度和广度,将科学技术融入到审计实务中,融入到审计管理中。

随着海量审计数据的爆炸式增加,审计制度、审计问题、审计记录等单数据源知识图谱的推出,但由于不同数据源的知识图谱大多独立存在且所涵盖的知识有限,面向单个审计知识图谱的查询已经不能满足审计人员日常的业务需求。审计领域内,利用不同的信息源构建了不同的知识图谱。由于不同知识图谱的信息来源不同,其知识描述体系也是不同的,语义上相同的实体在不同的知识图谱中会有不同的表达,具有相同名称的实体也可能代表不同的事物。多数据源的审计知识图谱联合检索不是简单的把单个知识图谱检索结果进行合并,而是要发现审计知识图谱之间的等价实例、等价属性或等价类等等。如何对多数据源的知识图谱的实体知识进行融合查询,是能有效辅助审计人员开展审计作业的关键,从而推动审计工作提质增效。

经检索发现两篇现有技术中公开的专利文献:

1、基于分布式计算平台的多源垂直知识图谱分类集成查询方法,申请号及公开号为:201710498922.3;CN 107341215 A;

发明涉及信息处理领域,所述方法包括:提供了一种基于分布式计算平台的多源垂直知识图谱分类集成查询方法。本发明包括集成控制管理系统、图检索服务系统和查询控制管理系统,集成控制管理系统构建多源垂直知识图谱分类集成目录模型,将存储在不同位置的垂直知识图谱集逻辑上按类别进行分类集成管理,并负责接收查询任务,拆分并下发子任务图检索服务系统执行查询子任务,实现基于关键词组的知识图谱相关实体、关系查询查询控制管理管理查询任务和并发查询子任务的执行。本发明可实现并行查询多个知识图谱,使用户无需进行全局模式数据集成即可完成基于关键词组的知识图谱相关实体、关系信息查询,可用于构建跨领域问答系统和应用系统推荐平台。

上述技术方案存在没有考虑实体知识表达的多样性和关联性,查询结果存在严重的遗漏问题。

2、一种构建行业知识图谱的多源数据和时间序列处理方法及装置,申请号及公开号为:201911196088.8;CN 110990585 A;

发明涉及知识图谱技术领域,所述方法包括:公开了一种构建行业知识图谱的多源数据和时间序列处理方法及装置,包括以下步骤:构建知识图谱的本体层,包括本体、本体属性和本体关系;从多个数据源中抽取实体和实体属性,对实体进行不一致性检验;对各实体的实体属性进行不一致性检验;实体之间的实体关系继承实体所对应的本体之间的本体关系;建立知识图谱数据库与时间序列数据库的索引。

上述技术方案存在难以保障行业知识图谱的数据完整性和高质量要求,同时维护成本也大幅度提升的问题。

发明内容

本发明的目的在于克服现有技术的不足,提出一种面向多数据源审计知识图谱的智能检索方法,能够既考虑实体知识表达的多样性和关联性,又不增加知识图谱的维护成本的情况下,从多个数据源的审计知识图谱中,有效获取查询结果。

本发明解决其现实问题是采取以下技术方案实现的:

一种面向多数据源审计知识图谱的智能检索方法,包括以下步骤:

步骤1、对用户的查询请求进行字符串的预处理,并按序查询同构子图,并将所查询到的同构子图加入一次查询候选结果集中;

步骤2、对步骤1的一次查询候选结果进行评估;

步骤3、将步骤2评估后的一次查询候选结果进行融合;

步骤4、对步骤3融合后的查询结果进行二次查询。

而且,所述步骤1的具体方法为:首先对用户的查询请求进行字符串的预处理,然后基于深度学习的文本检索模型在多个数据源的审计知识图谱上进行子图匹配查询,之后在不同的知识图谱中进行查询,根据子图同构方法以及查询结果相关性衡量方法,按序找到K个同构子图,加入一次查询候选结果集中。

而且,所述步骤2的具体方法为:

在步骤1的一次查询候选结果中,基于一次查询候选结果的结构以及其与查询字图的欧式距离信息等相关性衡量方法,作为结果的评估排序标准,对查询返回的结果进行相关性降序排序。

而且,所述步骤3的具体步骤包括:

(1)基于pairwise方法,将步骤2排序后的一次查询候选结果中完全匹配的子图放到结果集中,不完全匹配的子图根据缺失的边和邻接点分组,然后根据标记信息与其他候选结果集合中的候选结果进行节点匹配;若两个节点可以匹配,则进行组内结果融合;否则,删除整组结果;

(2)如果一次查询候选结果集中的候选结果相互融合后的结果仍旧不完全同构于查询子串图,则根据标记信息到不同审计知识图谱中扩展子图。

而且,所述步骤4的具体方法为:

依据步骤3融合后的查询结果,将其中完全匹配的结果放入查询结果集中,剩余候选结果到不同的知识图谱中进行二次查询,同样根据子图同构方法以及查询结果相关性衡量方法对二次查询结果进行评估,按序找到K个同构子图,加入二次查询结果集中,最后将二次查询结果返回给查询用户。

本发明的优点和有益效果:

1、本发明基于pairwise方法的候选结果融合方法,提出一种面向多数据源审计知识图谱的智能检索方法,能够既考虑实体知识表达的多样性和关联性,又不增加知识图谱的维护成本的情况下,从多个数据源的审计知识图谱中,有效获取查询结果。

2、本发明基于pairwise方法的候选结果融合方法,在面对多个数据源知识图谱联合查询时,能够挖掘出查询结果与查询字串同义同构的知识,考虑了实体知识表达的多样性和关联性,提高了查询结果的准确性和查全率;同时只需分别维护单个数据源的知识图谱,避免了因图谱融合造成后期维护成本大幅度提升的问题。

附图说明

图1为本发明的处理流程图;

具体实施方式

以下结合附图对本发明实施例作进一步详述:

一种面向多数据源审计知识图谱的智能检索方法,如图1所示,包括以下步骤:

步骤1、对用户的查询请求进行字符串的预处理,并按序查询同构子图,并将所查询到的同构子图加入一次查询候选结果集中;

所述步骤1的具体方法为:首先对用户的查询请求进行字符串的预处理,包含字符清洗、关键词分割等,然后基于深度学习的文本检索模型(Attention-Kernel EntitySimilarity Ranking,AKESR),在多个数据源的审计知识图谱上进行子图匹配查询,然后在不同的知识图谱中进行查询,根据子图同构方法以及查询结果相关性衡量方法,按序找到K个同构子图,加入一次查询候选结果集中。

步骤2、对步骤1的一次查询候选结果进行评估;

所述步骤2的具体方法为:

在步骤1的一次查询候选结果中,基于一次查询候选结果的结构以及其与查询字图的欧式距离信息等相关性衡量方法,作为结果的评估排序标准,对查询返回的结果进行相关性降序排序。

步骤3、将步骤2评估后的一次查询候选结果进行融合;

所述步骤3的具体步骤包括:

(1)基于pairwise方法,将步骤2排序后的一次查询候选结果中完全匹配的子图放到结果集中,不完全匹配的子图根据缺失的边和邻接点分组,然后根据标记信息与其他候选结果集合中的候选结果进行节点匹配;若两个节点可以匹配,则进行组内结果融合;否则,删除整组结果;

(2)如果一次查询候选结果集中的候选结果相互融合后的结果仍旧不完全同构于查询子串图,则根据标记信息到不同审计知识图谱中扩展子图。

步骤4、对步骤3融合后的查询结果进行二次查询。

所述步骤4的具体方法为:

依据步骤3融合后的查询结果,将其中完全匹配的结果放入查询结果集中,剩余候选结果到不同的知识图谱中进行二次查询,同样根据子图同构方法以及查询结果相关性衡量方法对二次查询结果进行评估,按序找到K个同构子图,加入二次查询结果集中,最后将二次查询结果返回给查询用户。

本发明的工作原理是:

本发明依据输入的查询字串,基于深度学习的文本检索模型(Attention-KernelEntity Similarity Ranking,AKESR),在多个数据源的审计知识图谱上进行子图匹配查询;该深度学习的文本检索模型能够增强查询子串的多层面的语义理解,实现端到端的特征提取与排序打分,结合该模型,在多个数据源的审计知识图谱上进行子图匹配查询,对于返回的一次查询候选结果集,首先将候选结果中完全匹配的子图放到结果集中,不完全匹配的子图根据缺失的边和邻接点分组,然后根据标记信息与其他候选结果集合中的候选结果进行节点匹配。若两个节点可以匹配,则进行组内结果融合;否则,删除整组结果。如果候选结果集中的候选结果相互融合后的结果仍旧不完全同构于查询子串图,则根据标记信息到不同审计知识图谱中扩展子图,这样本发明不仅充分利用了查询资源,而且缩短了查询响应时间。

需要强调的是,本发明所述实施例是说明性的,而不是限定性的,因此本发明包括并不限于具体实施方式中所述实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种三角图与知识图谱的融合方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!