基于知识图谱的事件数据处理方法、装置、设备和介质

文档序号:190520 发布日期:2021-11-02 浏览:8次 >En<

阅读说明:本技术 基于知识图谱的事件数据处理方法、装置、设备和介质 (Event data processing method, device, equipment and medium based on knowledge graph ) 是由 邓劲生 乔凤才 宋省身 赵涛 孙睿豪 于 2021-09-28 设计创作,主要内容包括:本申请涉及基于知识图谱的事件数据处理方法、装置、设备和介质,方法包括:获取查询条件;利用查询条件过滤调用的事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表,以指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。事件情报知识图谱包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系。能够可靠完成事件情报数据的分析处理。(The application relates to a method, a device, equipment and a medium for processing event data based on a knowledge graph, wherein the method comprises the following steps: acquiring a query condition; utilizing a term pointer array of an event information knowledge graph called by query condition filtering to position a target array element corresponding to a query condition in the term pointer array; and matching each element in the event identifier list corresponding to the target linked list element by using the event pointer array of the event information knowledge graph to obtain a target second linked list corresponding to the matched event identifier so as to indicate the element information of the target event information corresponding to the event to be retrieved in the event information knowledge graph. The event intelligence knowledge graph comprises an event entity, a time entity, a place entity, a person entity, a cause entity, a passing entity and a result entity, and the relationship type of the graph comprises a time description relationship, a place description relationship, a participation description relationship and a development description relationship. The analysis and processing of the event intelligence data can be reliably completed.)

基于知识图谱的事件数据处理方法、装置、设备和介质

技术领域

本申请涉及数据处理技术领域,特别是涉及一种基于知识图谱的事件数据处理方法、装置、设备和介质。

背景技术

情报信息的组织、存储与检索在情报分析处理中具有重要的地位,是情报正确分析处理的前提条件。事件情报是一种重要的情报种类,可为情报分析人员对历史问题发展规律和当前焦点问题的深刻洞悉提供数据支撑,因此针对事件情报的组织处理显得尤为重要。知识图谱(Knowledge Graph)是通过将应用数学、图形学、信息可视化技术和信息科学等学科的理论及方法,与计量学引文分析、共现分析等方法相结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论技术。知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及其之间的相互联系。

在现代情报分析处理中,传统的情报分析处理方法主要有:基于知识图谱的情报关联分析方法、基于知识图谱的网络安全应急响应方法、基于重点人物目标识别的综合认知方法、面向情报分析的构建知识图谱的方法和面向文本数据的威胁情报知识图谱构建方法等。然而,在实现本发明过程中,发明人发现前述传统的情报分析处理方法,存在着无法可靠完成事件情报数据的分析处理的技术问题。

发明内容

基于此,有必要针对上述技术问题,提供一种基于知识图谱的事件数据处理方法、一种基于知识图谱的事件数据处理装置、一种计算机设备以及一种计算机可读存储介质,能够可靠完成事件情报数据的分析处理。

为了实现上述目的,本发明实施例采用以下技术方案:

一方面,本发明实施例提供一种基于知识图谱的事件数据处理方法,包括步骤:

获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组;

根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;

利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

另一方面,还提供一种基于知识图谱的事件数据处理装置,包括:

检索输入模块,用于获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

元素定位模块,用于利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组;

链表查找模块,用于根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;

匹配输出模块,用于利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现任一项的上述基于知识图谱的事件数据处理方法的步骤。

再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现任一项的上述基于知识图谱的事件数据处理方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果:

上述基于知识图谱的事件数据处理方法、装置、设备和介质,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应定义有知识图谱中实体类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知识图谱更加适合事件类情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利用了外存存储情报文件、内存存储索引信息的设计构思,使得事件情报信息可以全部完备存储,从而可以提供实用的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过获取给定的查询词语,利用前述事件情报知识图谱进行检索,可以快速准确地定位到事件情报知识图谱中对应查询词语的实体并返回所查询的事件的全部情报相关要素信息,与传统的情报分析处理方法相比,完全面向事件的要素来设计,使得检索结果可以充分展现出事件情报的特点,赋予决策者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分析处理的预期效果。

附图说明

图1为一个实施例中基于知识图谱的事件数据处理方法的流程示意图;

图2为另一个实施例中基于知识图谱的事件数据处理方法的流程示意图;

图3为一个实施例中事件情报本体模型的训练流程示意图;

图4为一个实施例中事件情报知识图谱的构建流程示意图;

图5为一个实施例中事件情报知识图谱的存储处理流程示意图;

图6为一个实施例中事件情报知识图谱的索引处理流程示意图;

图7为一个实施例中基于知识图谱的事件数据处理装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。

另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时,应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

传统的情报分析处理方法中,基于知识图谱的情报关联分析方法,主要是对下载的情报数据TXT文档进行解析后,构建三元组情报知识库,利用SPARQL查询返回结果。基于知识图谱的网络安全应急响应方法,是通过构建安全情报库和知识图谱库对网络安全事件进行匹配,给出应急处理方案。基于重点人物目标识别的综合认知方法,通过结合图像人物识别和所构建的目标知识图谱,对重点人物社会属性、活动规律和行为习惯进行关联分析、相互印证。面向情报分析的构建知识图谱的方法,则是利用数据清洗、实体识别等文本处理技术对采集到的数据构建知识图谱。面向文本数据的威胁情报知识图谱构建方法,则是针对文本中含有的威胁信息,结合对威胁种类和威胁关系种类的预定义,从文本威胁情报数据中自动化提取出三元组,通过图数据库存储,从而构建威胁情报知识图谱。

纵观传统的利用知识图谱分析处理情报的技术,发明人发现:(1)不能直接将现有基于知识图谱的情报分析方法应用于面向事件情报分析中,这是由于事件情报的属性要素较为独特,通常需包含时间、地点和人物等要素,而前述的传统方法仅能满足1至2项事件情报要素的分析处理,无法充分支撑所需的分析能力。(2)事件情报识别较为复杂,利用传统的知识图谱构建方法无法达到预期效果。前述传统方法大多采用实体识别的方法来构建知识图谱三元组,而事件情报由于要素众多,仅依靠实体识别构建则会发生错误,因此需要利用更加有效且可靠的方法进行处理。

综上,本发明针对传统的情报分析处理方法存在着的无法可靠完成事件情报数据的分析处理的技术问题,设计了一种基于知识图谱的事件数据处理方法,针对待处理的事件情报数据,考虑利用知识图谱技术对事件情报数据进行表示、存储与检索,充分考虑了事件的时间、地点、人物、起因、经过和结果等6要素,设计了事件情报本体并利用机器学习方法将抽取后的实体构建事件情报知识图谱,然后基于此还进行了图谱的存储与检索设计,有效解决了事件情报数据的可靠分析处理问题。

请参阅图1,一方面,本发明提供一种基于知识图谱的事件数据处理方法,包括如下步骤S12至S18:

S12,获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系。

可以理解,事件情报知识图谱可以利用给定的源情报数据,也即给定的情报原始数据(为文本数据)进行自动构建。事件情报知识图谱是在事件情报本体模型下构建的一种知识图谱,为便于理解,例如可以但不限于将事件情报知识图谱记为eikg,即EventIntelligence Knowledge Graph。eikg有以下若干种类型的实体:事件实体en_event,用于表达一个事件名称;时间实体en_time,用于描述事件实体的时间属性;地点实体en_loc,用于描述事件实体的地点属性;人物实体en_fig,用于描述事件实体的人物属性;起因实体en_cause,用于描述事件实体的起因属性;经过实体en_course,用于描述事件实体的经过属性;结果实体en_ret,用于描述事件实体的结果属性。

eikg有以下若干种关系类型:时间描述关系rel_time,用于表达利用时间来描述某个对象的关系;地点描述关系rel_loc,用于表达利用地点来描述某个对象的关系;参与描述关系rel_part,用于表达人物参与某个事件的关系;发展描述关系rel_devp,用于表达事件的起因、经过、结果之间的脉络发展以及事件演化为另一个事件的发展关系。

S14,利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组。

S16,根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表。

S18,利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

可以理解,要素信息可以包括该事件的时间、地点、人物、起因、经过和结果等6要素。其中,源情报数据采用的是外存存储,而第二链表也为内存存储。对于每个事件实体,事件情报知识图谱的存储方式中已为其分配了唯一的事件标识。

上述基于知识图谱的事件数据处理方法,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应定义有知识图谱中实体类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知识图谱更加适合事件类情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利用了外存存储情报文件、内存存储索引信息的设计构思,使得事件情报信息可以全部完备存储,从而可以提供实用的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过获取给定的查询词语,利用前述事件情报知识图谱进行检索,可以快速准确地定位到事件情报知识图谱中对应查询词语的实体并返回所查询的事件的全部情报相关要素信息,与传统的情报分析处理方法相比,完全面向事件的要素来设计,使得检索结果可以充分展现出事件情报的特点,赋予决策者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分析处理的预期效果。

请参阅图2,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下关于事件情报知识图谱的构建的处理步骤S09至S11:

S09,获取源情报数据;

S10,根据源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;事件情报本体模型包括时间描述模型、地点描述模型、人物描述模型、起因描述模型、经过描述模型和结果描述模型;

S11,根据源情报数据和事件情报本体模型构建事件情报知识图谱。

可以理解,针对事件情报的特点,本示例给出了事件情报本体模型。为便于理解,事件情报本体模型可以统一记为eio,即Event Intelligence Ontology,由(etime,eloc,efig,ecause,ecourse,eret)组成,其对应的含义分别为(时间,地点,人物,起因,经过,结果),其中,etime为时间类型数据;eloc为地理名称字符串或地理名称字符串数组,用于描述一个事件可能存在一组地点;efig为人物姓名字符串或人物姓名字符串数组,用于描述一个事件可能存在一组人物;ecause为以分号分隔的一组词语,用于描述事件的起因;ecourse为以分号分隔的一组词语,用于描述事件的经过;eret为以分号分隔的一组词语,用于描述事件的结果。

机器学习法可以是本领域中已有的适用于事件情报本体模型训练的各类机器学习方法,可以根据训练的效率、计算量和精度等需要进行选择。源情报数据可以但不限于通过计算设备线上收集、从数据库下载或者人工预先采集等方式获得。

通过上述步骤,实现了针对原始情报文本进行时间、地点、人物等要素识别模型的训练后,可基于这些模型进行事件情报知识图谱的自动构建。

请参阅图3,在一个实施例中,关于上述的步骤S10,具体可以包括如下处理步骤S101至S107:

S101,对源情报数据进行目标词语抽取,得到各目标词语分别对应的词列表;各词列表包括关键词列表、时间词列表、地名词列表、人名词列表和动词列表;

S103,根据源情报数据,利用领域专家对各词列表进行描述标注,标注出描述以关键词列表中的关键词为事件的各要素词语;各要素词语包括时间词语、地点词语、人物词语、起因词语、经过词语和结果词语;

S105,利用BERT模型将各词列表和各要素词语进行向量化处理;

S107,根据源情报数据、向量化后的各词列表和各要素词语,利用自回归模型进行事件要素识别模型训练,得到事件情报本体模型。

可以理解,领域专家是指本领域的业务专家,可以为计算机面对某些疑难情报术语、专业术语等情况时提供术语的答疑和注释等。BERT模型是机器学习领域中已有的一种语言模型,可以用于处理词语的向量化,在本实施例中即直接应用该BERT模型进行所需的向量化处理,其处理过程可以参照BERT模型本身的处理流程同理理解。

具体的,针对源情报数据,为便于理解,可以将源情报数据记为情报文本数据I,下文相应特征同理标记。需要说明的是,本领域技术人员应该理解,前述对各特征采用的具体英文标记作为其代号,并非是对该特征的唯一标记形式且并非是对该特征的唯一限定,本领域技术人员可以根据描述需要而采用其他标记形式,下文各实施例的特征标记形式同理。上述处理步骤可以展开描述为如下处理过程:

1:对I进行关键词抽取,形成关键词列表kwlist

2:对I进行时间词语抽取,形成时间词列表twlist

3:对I进行地名实体抽取,形成地名词列表lwlist

4:对I进行人名实体抽取,形成人名词列表fwlist

5:对I进行动词抽取,形成动词列表awlist

6:由领域专家进行标注,结合I,给定kwlisttwlist,标注出描述以kwlist为事件的时间词语;

7:由领域专家进行标注,结合I,给定kwlist和lwlist,标注出描述以kwlist为事件的地点词语;

8:由领域专家进行标注,结合I,给定kwlistfwlist,标注出描述以kwlist为事件的人物词语;

9:由领域专家进行标注,结合I,给定kwlistawlist,标注出描述以kwlist为事件的起因词语;

10:由领域专家进行标注,结合I,给定kwlistawlist,标注出描述以kwlist为事件的经过词语;

11:由领域专家进行标注,结合I,给定kwlistawlist,标注出描述以kwlist为事件的结果词语;

12:利用BERT模型将kwlisttwlistlwlistfwlistawlist,以及标注出的时间词语、标注出的地点词语、标注出的人物词语、标注出的起因词语、标注出的经过词语和标注出的结果词语均进行向量化,以便于后续步骤的处理;

13:利用自回归模型训练时间描述模型m_time,即给定Ikwlisttwlist,可映射出时间描述词语;自回归模型为本领域已有的模型,其处理过程可以参照自回归模型的现有处理流程同理理解;

14:利用自回归模型训练地点描述模型m_loc,即给定Ikwlistlwlist,可映射出地点描述词语;

15:利用自回归模型训练人物描述模型m_fig,即给定Ikwlistfwlist,可映射出人物描述词语;

16:利用自回归模型训练起因描述模型m_cause,即给定Ikwlistawlist,可映射出起因描述词语;

17:利用自回归模型训练经过描述模型m_course,即给定Ikwlistawlist,可映射出经过描述词语;

18:利用自回归模型训练结果描述模型m_ret,即给定Ikwlistawlist,可映射出结果描述词语。

通过上述步骤,实现了针对原始情报文本进行事件情报本体模型的快速训练。前述本体模型训练方法,利用实体抽取和机器学习可以对事件的时间、地点、人物、起因、经过和结果进行识别模型(也即各描述模型)的训练,可使得后续构建的事件情报知识图谱,相比于传统的情报知识谱图更加贴近分析事件的知识图谱,构建的事件情报知识图谱也会更加精确。

请参阅图4,在一个实施例中,关于上述的步骤S11,具体可以包括如下处理步骤S111至S116:

S111,利用时间描述模型识别事件实体的时间描述词,将时间描述词作为构建的时间实体的名称,构建时间描述关系连接事件实体和时间实体;

S112,利用地点描述模型识别事件实体的地点描述词,将地点描述词作为构建的地点实体的名称,构建地点描述关系连接事件实体和地点实体;

S113,利用人物描述模型识别事件实体的人物描述词,将人物描述词作为构建的人物实体的名称,构建参与描述关系连接事件实体和人物实体;

S114,利用起因描述模型识别事件实体的起因描述词,将起因描述词作为构建的起因实体的名称,构建发展描述关系连接事件实体和起因实体;

S115,利用经过描述模型识别事件实体的经过描述词,将经过描述词作为构建的经过实体的名称,构建发展描述关系连接事件实体和经过实体;

S116,利用结果描述模型识别事件实体的结果描述词,将结果描述词作为构建的结果实体的名称,构建发展描述关系连接事件实体和结果实体。

可以理解,如前述实施例所示,针对给定的情报文本数据I

1:对I进行关键词抽取,形成关键词列表kwlist

2:对I进行时间词语抽取,形成时间词列表twlist

3:对I进行地名实体抽取,形成地名词列表lwlist

4:对I进行人名实体抽取,形成人名词列表fwlist

5:对I进行动词抽取,形成动词列表awlist

6:构建事件情报知识图谱eikg的步骤,具体可以展开描述为如下处理过程:

7:构建事件实体en_event,实体名称为kwlist中词的组合;如kwlist中包含词“今天”,“坐车”,“公园”,则组合意味着:“今天-坐车-公园”,即词语的拼接。

8:构建时间实体en_time,利用m_time识别出事件实体en_event的时间描述词作为en_time实体的名称,并且构建rel_time连接en_eventen_time;其中,m_time可认为是一种时间识别方法,如上文的“今天”,利用m_time可以把“今天”识别成具体的年月日等日期。而rel_time用于描述上述转换的年月日与该事件本身的关系,如rel_time可表达为该时间为该事件的“发生时间”。

9:构建地点实体en_loc,利用m_loc识别出事件实体en_event的地点描述词作为en_loc实体的名称,并构建rel_loc连接en_eventen_loc

10:构建人物实体en_fig,利用m_fig识别出事件实体en_event的人物描述词作为en_fig实体的名称,并构建rel_part连接en_eventen_fig

11:构建起因实体en_cause,利用m_cause识别出事件实体en_event的起因描述词作为en_cause实体的名称,并构建rel_devp连接en_eventen_cause

12:构建经过实体en_course,利用m_course识别出事件实体en_event的经过描述词作为en_course实体的名称,并构建rel_devp连接en_eventen_course

13:构建结果实体en_ret,利用m_ret识别出事件实体en_event的结果描述词作为en_ret实体的名称,并构建rel_devp连接en_eventen_ret

通过上述步骤,实现了基于事件情报本体模型自动构建事件情报知识图谱的目的。该构建方式,利用实体抽取和之前训练的本体模型,对给定的情报文本可以直接生成事件情报知识图谱,是一种较为智能化的构建手段,相比传统的情报知识图谱构建方法,利用机器学习模型生成事件要素更加准确,构建速度相比传统的构建方法也更快。

请参阅图5,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下处理步骤S21至S27:

S21,将源情报数据存储至设定的外存存储地址;

S22,将事件情报知识图谱中全部实体的名称词语取出,形成名称词语列表;

S23,利用名称词语列表中的所有词语构成词语指针数组;词语指针数组的指针指向第一链表;

S24,设置第一链表的第1个元素为外存存储地址;

S25,对第一链表对应的各名称词语,在事件情报知识图谱中分别找到各名称词语作为实体名称出现的所有实体,形成各名称词语对应的名称实体列表;

S26,根据名称实体列表中的每个实体,生成第一链表中的元素结构;第一链表中从第2个元素起,每个元素结构均为<实体类型,实体的事件标识>;

S27,将事件情报知识图谱中的全部事件实体取出并为每个事件实体赋予唯一的事件标识,将每个事件实体的事件标识插入第一链表中。

具体的,上述处理步骤可以展开描述为如下处理过程:

1:将情报文本数据I进行外存存储,其存储地址为addr_I

2:将eikg中全部实体的名称词语取出,形成名称词语列表list_w

3:list_w中的所有词语w构成一个词语指针数组ary_w,其数组元素就是该list_w中的词语w,数组的指针指向一个第一链表lik(内存存储);

4:链表lik中第1个元素为addr_I

5:链表lik从第2个元素开始,每个元素结构为<type_en,eventid>;

6:针对每个词语w对应的lik,找到词语w作为实体名称出现的所有的实体,形成每个w各自对应的实体列表list_w_en

7:针对list_w_en中的每个实体en,生成链表lik中的元素结构<type_en,eventid>,其中type_enen对应的实体类型,eventiden所对应的事件标识(见下一步骤8中),元素生成完毕后插入链表lik中;

8:将eikg中全部事件类型实体取出,赋予每个事件类型实体唯一标识,作为eventid

通过上述步骤,实现了事件情报知识图谱的存储处理。

请参阅图6,在一个实施例中,关于上述基于知识图谱的事件数据处理方法,在步骤S12之前,具体还可以包括如下处理步骤S31至S39:

S31,利用事件情报知识图谱中的全部事件实体构成事件指针数组;事件指针数组的各元素的指针分别指向各第二链表;第二链表为内存存储链表;

S32,设置各第二链表的第1个元素为所属事件实体的名称;

S33,设置各第二链表的第2个元素为所属事件实体对应的时间实体的名称;

S34,设置各第二链表的第3个元素为所属事件实体对应的地点实体的名称;

S35,设置各第二链表的第4个元素为所属事件实体对应的人物实体的名称;

S36,设置各第二链表的第5个元素为所属事件实体对应的起因实体的名称;

S37,设置各第二链表的第6个元素为所属事件实体对应的经过实体的名称;

S38,设置各第二链表的第7个元素为所属事件实体对应的结果实体的名称;

S39,设置各第二链表的第8个元素为外存存储地址。

具体的,上述处理步骤可以展开描述为如下处理过程:

1:将全部事件类型实体构成一个事件指针数组ary_en,针对每个数组元素,元素内容即为该元素对应的事件实体的唯一标识eventid,元素的指针指向一个第二链表glik(内存存储);可以理解,元素有多个,则第二链表glik对应也有多个,对于每个的设置方式相同而内容不同;

2:glik第1个元素为该链表对应的事件实体(也即所属事件实体)的名称;

3:glik第2个元素为所属事件实体对应的时间实体的名称;

4:glik第3个元素为所属事件实体对应的地点实体的名称;

5:glik第4个元素为所属事件实体对应的人物实体的名称;

6:glik第5个元素为所属事件实体对应的起因实体的名称;

7:glik第6个元素为所属事件实体对应的经过实体的名称;

8:glik第7个元素为所属事件实体对应的结果实体的名称;

9:glik第8个元素为addr_I

通过上述步骤,实现了事件情报知识图谱的索引设置处理。

在一个实施例中,关于上述基于知识图谱的事件数据处理方法,可以给出如下检索处理的示例,以便更易于理解上述方法的内容:

针对查询条件qw,即按照某个关键词查询事件的图谱:

1:用qw过滤词语指针数组ary_w,定位到对应的数组元素q

2:沿着元素q的指针对应的链表lik,查找实体类型type_en为事件实体en_event的目标链表元素,设查找到的相应事件标识eventid列表为list_eventid

3:针对list_eventid中每个元素eventid,用事件指针数组ary_en进行匹配,得到对应的链表glik,从而完成对事件知识图谱的查找。

应该理解的是,虽然图1至图6流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图1至图6的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7,在一个实施例中,还提供了一种基于知识图谱的事件数据处理装置100,包括检索输入模块11、元素定位模块13、链表查找模块15和匹配输出模块17。其中,检索输入模块11用于获取查询条件并调用构建的事件情报知识图谱;查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系。元素定位模块13用于利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组。

链表查找模块15用于根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表。匹配输出模块17用于利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

上述基于知识图谱的事件数据处理装置100,通过各模块的协作,所利用的事件情报知识图谱,其充分涵盖事件的时间、地点、人物、起因、经过和结果等事件要素,并且相应定义有知识图谱中实体类型和实体之间的关系类型。该事件情报知识图谱比传统的情报知识图谱更加适合事件类情报的准确描述。该事件情报知识图谱的存储与索引方式,充分利用了外存存储情报文件、内存存储索引信息的设计构思,使得事件情报信息可以全部完备存储,从而可以提供实用的快速索引能力,为高效检索事件情报提供了基础技术支撑。通过获取给定的查询词语,利用前述事件情报知识图谱进行检索,可以快速准确地定位到事件情报知识图谱中对应查询词语的实体并返回所查询的事件的全部情报相关要素信息,与传统的情报分析处理方法相比,完全面向事件的要素来设计,使得检索结果可以充分展现出事件情报的特点,赋予决策者以更深刻的情报洞察力,达到了可靠完成事件情报数据的分析处理的预期效果。

在一个实施例中,上述实体候选模块17可以包括数据获取模块、本体训练模块和图谱构建模块。其中,数据获取模块用于获取源情报数据。本体训练模块用于根据源情报数据,采用机器学习法进行事件要素识别模型训练,得到事件情报本体模型;事件情报本体模型包括时间描述模型、地点描述模型、人物描述模型、起因描述模型、经过描述模型和结果描述模型。图谱构建模块用于根据源情报数据和事件情报本体模型构建事件情报知识图谱。

在一个实施例中,上述实体候选模块17的各模块,还可以用于实现上述基于知识图谱的事件数据处理方法各实施例中的其他相应子步骤。

在一个实施例中,上述基于知识图谱的事件数据处理装置100还可以包括其他各模块,用于实现上述基于知识图谱的事件数据处理方法各实施例中增加的其他步骤。

关于基于知识图谱的事件数据处理装置100的具体限定,可以参见上文中基于知识图谱的事件数据处理方法的相应限定,在此不再赘述。上述基于知识图谱的事件数据处理装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中,也可以软件形式存储于前述设备的存储器中,以便于处理器调用执行以上各个模块对应的操作,前述设备可以是但不限于本领域已有的各型数据计算分析设备。

又一方面,还提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时可以实现以下步骤:获取查询条件并调用构建的事件情报知识图谱;其中,查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;其中,词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组;根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;

利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;其中,事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

在一个实施例中,处理器执行计算机程序时还可以实现上述基于知识图谱的事件数据处理方法各实施例中增加的步骤或者子步骤。

再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取查询条件并调用构建的事件情报知识图谱;其中,查询条件为针对待检索事件输入的关键词,事件情报知识图谱的实体类型包括事件实体、时间实体、地点实体、人物实体、起因实体、经过实体和结果实体,事件情报知识图谱的关系类型包括时间描述关系、地点描述关系、参与描述关系和发展描述关系;

利用查询条件过滤事件情报知识图谱的词语指针数组,定位到词语指针数组中查询条件对应的目标数组元素;其中,词语指针数组为事件情报知识图谱的全部实体的名称词语构成的指针数组;根据目标数组元素的指针对应的第一链表,查找第一链表中实体类型为事件实体的目标链表元素;第一链表为存储构建事件情报知识图谱的源情报数据的外存存储地址、事件情报知识图谱的实体类型与事件标识的内存存储链表;

利用事件情报知识图谱的事件指针数组,对目标链表元素对应的事件标识列表中的每个元素进行匹配,得到匹配的事件标识对应的目标第二链表;其中,事件指针数组用于存储事件情报知识图谱的全部事件实体的事件标识,事件指针数组的每个元素的指针分别指向一个第二链表,每个第二链表均用于存储一组事件情报的要素信息,目标第二链表用于指示待检索事件在事件情报知识图谱中对应的目标事件情报的要素信息。

在一个实施例中,计算机程序被处理器执行时,还可以实现上述基于知识图谱的事件数据处理方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM,简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可做出若干变形和改进,都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于内容与情感的网络敏感信息的检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!