融合实体类型信息的知识图谱推理方法、装置、设备及存储介质

文档序号:1953938 发布日期:2021-12-10 浏览:24次 >En<

阅读说明:本技术 融合实体类型信息的知识图谱推理方法、装置、设备及存储介质 (Knowledge graph reasoning method, device, equipment and storage medium fusing entity type information ) 是由 朱怡安 段俊花 高昆 钟冬 姚烨 李联 陆伟 史先琛 张黎翔 于 2021-09-15 设计创作,主要内容包括:本发明公开了一种融合实体类型信息的知识图谱推理方法、装置、设备及存储介质,该方法包括:将实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵输入推理模型中分别提取头实体向量、关系向量和头实体类型向量,并生成推理模型的卷积核;将推理模型的卷积核对头实体向量进行卷积,生成推理模型的隐藏层;将隐藏层经过推理模型的全连接层后,生成混合特征向量;将混合特征向量与实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,输出推理结果。本发明将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,能够捕获实体、实体类型和关系的内在联系,有效提升了推理结果的实体类型正确率。(The invention discloses a knowledge graph reasoning method, a knowledge graph reasoning device, knowledge graph reasoning equipment and a storage medium for fusing entity type information, wherein the method comprises the following steps: inputting the entity embedding matrix, the relation embedding matrix and the entity type embedding matrix into a reasoning model, respectively extracting a head entity vector, a relation vector and a head entity type vector, and generating a convolution kernel of the reasoning model; convolving the head entity vector by the convolution kernel of the inference model to generate a hidden layer of the inference model; after the hidden layer passes through the full connection layer of the inference model, generating a mixed feature vector; and multiplying the mixed feature vector by the entity embedding matrix, carrying out normalization processing by adopting a sigmoid activation function, and outputting an inference result. The invention fuses entity type embedding and relation embedding, and convolves the head entity by using the fused feature vector, so that the internal relation among the entity, the entity type and the relation can be captured, and the entity type accuracy of the inference result is effectively improved.)

融合实体类型信息的知识图谱推理方法、装置、设备及存储 介质

技术领域

本发明涉及知识图谱技术领域,具体涉及一种融合实体类型信息的知识图谱推理方法、装置、设备及存储介质。

背景技术

知识图谱是一种以图结构存储和组织、由实体和关系构成的知识表示方法,可以将现实事物之间的关系以图的形式表示,已经应用于多个专业领域。由于事物关系的复杂性和认识的局限性,且一般情况下构建的知识图谱规模较为巨大,因此不可避免地会出现知识图谱信息不全的情况,在一定程度上限制了知识图谱的实际应用。知识图谱推理技术可以利用知识图谱中已有的知识,推理出目前知识图谱中缺失或隐藏的知识,从而完善知识图谱。

目前,基于表示学习的知识推理算法是知识图谱推理技术的主流方法,是将知识图谱中的实体和关系进行数值化表示,然后将实体和关系先转换为向量,再进行相应的数值计算,从而预测知识图谱中三元组的准确度。虽然这种推理算法在多项推理任务中取得了最优表现,但是对于知识推理的实际应用还远远不足,正确率不高,难以令人满意。而且,基于表示学习的知识推理算法只计算实体和关系之间的评分,缺少对推理结果实体类型的约束,导致推理结果中大量实体的类型不符合要求。

需要注意的是,本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

发明内容

本发明实施例提供一种融合实体类型信息的知识图谱推理方法、装置、设备及存储介质,以解决现有技术中基于表示学习的知识推理算法存在的正确率不高、推理结果中大量实体的类型不符合要求等问题。

第一方面,本发明实施例提供一种融合实体类型信息的知识图谱推理方法,包括:

将知识图谱中的三元组集合转换为与所述三元组集合对应的向量矩阵,转换后的三元组集合包括实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵;

将所述实体嵌入矩阵、所述关系嵌入矩阵和所述实体类型嵌入矩阵输入推理模型中分别提取头实体向量、关系向量和头实体类型向量,并将所述关系向量和所述头实体类型向量按顺序通过LSTM网络生成所述推理模型的卷积核;

将所述卷积核对所述头实体向量进行卷积,生成所述推理模型的隐藏层;

将所述隐藏层经过所述推理模型的全连接层后,生成混合特征向量,所述混合特征向量的维度与所述三元组集合包括的实体数量相同;

将所述混合特征向量与所述实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,使所述推理模型输出推理结果。

作为本发明第一方面的优选方式,在所述将知识图谱中的三元组集合转换为与所述三元组集合对应的向量矩阵之前,还包括:

获取待处理的知识库后,提取所述知识图谱中的实体集合、关系集合和实体类型集合,并根据所述实体集合、所述关系集合和所述实体类型集合生成所述知识图谱的三元组集合。

作为本发明第一方面的优选方式,所述三元组集合包括正向三元组以及与所述正向三元组对应的反向三元组。

作为本发明第一方面的优选方式,在所述将知识图谱中的三元组集合转换为与所述三元组集合对应的向量矩阵之后,还包括:

通过xavier正态分布对所述实体嵌入矩阵、所述关系嵌入矩阵和所述实体类型嵌入矩阵进行初始化。

作为本发明第一方面的优选方式,所述将所述混合特征向量与所述实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,使所述推理模型输出推理结果,包括:

将所述混合特征向量与所述实体嵌入矩阵相乘,得到输出向量;

采用sigmoid激活函数对所述输出向量进行归一化处理,得到所述三元组集合中各三元组的预测概率,使所述推理模型输出推理结果;

根据下式得到所述三元组集合中各三元组的预测概率:

其中,sigmoid()表示sigmoid激活函数,Vec(LSTM(r,t1))表示改变卷积核形状的操作,Vec′(h*Vec(LSTM(r,t1)))表示改变隐藏层形状的操作,*表示卷积操作,W和b表示全连接层的权值矩阵和偏置,h、r、t分别表示三元组中的头实体、关系和尾实体。

第二方面,本发明实施例提供一种融合实体类型信息的知识图谱推理装置,包括:

转换单元,用于将知识图谱中的三元组集合转换为与所述三元组集合对应的向量矩阵,转换后的三元组集合包括实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵;

提取单元,用于将所述实体嵌入矩阵、所述关系嵌入矩阵和所述实体类型嵌入矩阵输入推理模型中分别提取头实体向量、关系向量和头实体类型向量,并将所述关系向量和所述头实体类型向量按顺序通过LSTM网络生成所述推理模型的卷积核;

卷积单元,用于将所述卷积核对所述头实体向量进行卷积,生成所述推理模型的隐藏层;

经过单元,用于将所述隐藏层经过所述推理模型的全连接层后,生成混合特征向量,所述混合特征向量的维度与所述三元组集合包括的实体数量相同;

输出单元,用于将所述混合特征向量与所述实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,使所述推理模型输出推理结果。

作为本发明第二方面的优选方式,所述三元组集合包括正向三元组以及与所述正向三元组对应的反向三元组。

作为本发明第二方面的优选方式,所述输出单元具体用于:

将所述混合特征向量与所述实体嵌入矩阵相乘,得到输出向量;

采用sigmoid激活函数对所述输出向量进行归一化处理,得到所述三元组集合中各三元组的预测概率,使所述推理模型输出推理结果;

根据下式得到所述三元组集合中各三元组的预测概率:

其中,sigmoid()表示sigmoid激活函数,Vec(LSTM(r,t1))表示改变卷积核形状的操作,Vec′(h*Vec(LSTM(r,t1)))表示改变隐藏层形状的操作,*表示卷积操作,W和b表示全连接层的权值矩阵和偏置,h、r、t分别表示三元组中的头实体、关系和尾实体。

第三方面,本发明实施例提供一种电子设备,包括处理器和存储器,其中所述存储器内存储有执行指令,所述处理器读取所述存储器内的执行指令用于执行如第一方面及其优选方式中任一项所述的融合实体类型信息的知识图谱推理方法中的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,所述存储介质存储有计算机执行指令,所述计算机执行指令被用于执行如第一方面及其优选方式中任一项所述的融合实体类型信息的知识图谱推理方法中的步骤。

本发明实施例提供的一种融合实体类型信息的知识图谱推理方法、装置、设备及存储介质,通过将实体类型信息融合到知识推理算法中,将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,从而能够捕获实体、实体类型和关系的内在联系,使实体的类型信息在推理过程中得到了充分的应用。

本发明在获取三元组信息的同时,也可以获取三元组中的实体类型信息,大幅提升了推理结果的实体类型正确率,使实体的类型符合要求,有效提升了推理结果的正确率,有利于后续的知识图谱补全的实际应用。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种融合实体类型信息的知识图谱推理方法的实现流程图;

图2为本发明实施例提供的一种融合实体类型信息的知识图谱推理方法的执行流程图;

图3为本发明实施例提供的一种融合实体类型信息的知识图谱推理装置的结构示意图;

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

图1示例性地示出了本发明实施例提供的一种融合实体类型信息的知识图谱推理方法的流程示意图,图2示例性地示出了本发明实施例提供的一种融合实体类型信息的知识图谱推理方法的执行流程图,该方法能够将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,从而能够捕获实体、实体类型和关系的内在联系,有效提升了推理结果的实体类型正确率。

参照图1和图2所示,该方法主要包括如下步骤:

步骤101、将知识图谱中的三元组集合转换为与三元组集合对应的向量矩阵,转换后的三元组集合包括实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵;

步骤102、将实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵输入推理模型中分别提取头实体向量、关系向量和头实体类型向量,并将关系向量和头实体类型向量按顺序通过LSTM网络生成推理模型的卷积核;

步骤103、将卷积核对头实体向量进行卷积,生成推理模型的隐藏层;

步骤104、将隐藏层经过推理模型的全连接层后,生成混合特征向量,混合特征向量的维度与三元组集合包括的实体数量相同;

步骤105、将混合特征向量与实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,使推理模型输出推理结果。

本实施例提供的融合实体类型信息的知识图谱推理方法,可以应用在多种专业领域和通用领域中,如数据异常分析、电子商务产品推荐,医疗等领域,具有较大的推广价值。

尽管研究人员在知识图谱的构建和维护中投入了大量的精力,知识图谱依旧存在不完整的问题,甚至会存在错误的知识,一定程度上限制了知识图谱的实际应用。知识图谱推理,可以利用知识图谱中已有的知识,推理出目前知识图谱中缺失或隐藏的知识,从而完善知识图谱。

在具体介绍本实施例提供的融合实体类型信息的知识图谱推理方法之前,先对知识推理领域的一些符号定义进行简单说明,如下表1所示。

表1

本发明实施例主要解决知识图谱的链接预测推理任务,主要预测三元组缺失的头实体或尾实体。如对于三元组(h,r,t),其形式为:(1)给定头实体和关系(h,r,?)时,预测尾实体;(2)给定关系和尾实体(?,r,t)时,预测头实体。

下面将具体介绍本实施例所述的方法。

在步骤101之前,还包括如下步骤:

步骤100、获取待处理的知识库后,提取知识库中的实体集合、关系集合和实体类型集合,并根据实体集合、关系集合和实体类型集合生成知识图谱的三元组集合。

该步骤中,先获取待处理的知识库,然后从中提取出实体集合、关系集合和实体类型集合。其中,实体集合指的是知识库中所有的实体所组成的集合,关系集合指的是知识库中所有的关系所组成的集合,实体类型集合指的是知识库中所有的实体的类型信息所组成的集合。

进一步地,根据得到的实体集合、关系集合和实体类型集合生成知识图谱的三元组集合。三元组是将知识以(头实体,关系,尾实体)的形式进行表示的方式,头实体指的是在语料中充当主语的实体,尾实体指的是在语料中充当宾语的实体。通常,会将实体类型信息以固定的格式直接附在实体后面,以便处理实体数据时同时处理实体类型信息。

本实施例中所述的方法,引入了实体类型信息。实体类型信息描述了实体所属的分类,反映了实体的部分特征,限制了推理结果的范围,是实体的重要组成部分。例如,对于(疾病-常用药物-药物)这一类三元组来说,尾实体只能是一种药物,而不可能是其他类型的实体。

优选地,三元组集合包括正向三元组以及与正向三元组对应的反向三元组。

具体地,在上述生成知识图谱的三元组集合的过程中,还引入了反向关系来扩充三元组集合。对于某一个三元组(h,r,t),即正向三元组,会同时生成一个反向三元组(t,r_rev,h),两种三元组会共享实体嵌入,而不共享关系嵌入。即将原三元组的头实体和尾实体交换位置,同时添加一个全新的关系,这样实体的数量不变,但是关系数量会翻倍。

在步骤101中,将知识图谱中的三元组集合嵌入转换到低维向量空间,同时结合实体集合、关系集合和实体类型集合,使三元组集合转换为对应的向量矩阵。其中,转换后的三元组集合包括实体嵌入矩阵关系嵌入矩阵和实体类型嵌入矩阵而实体嵌入矩阵又包括头实体对嵌入矩阵和尾实体对嵌入矩阵。

经过上述转换后,会方便后续的处理过程。

在步骤101之后,还包括如下步骤:

101-1、通过xavier正态分布对实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵进行初始化。

该过程中,分别初始化上述转换得到的实体嵌入矩阵关系嵌入矩阵和实体类型嵌入矩阵且初始化方法优选采用xavier正态分布初始化,得到初始化后的实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵。

在步骤102中,在利用推理模型进行知识图谱推理之前,还要将知识图谱中的各三元组进行预处理,转化为推理模型可以处理的数据。该推理模型基于卷积神经网络,并利用了实体的类型信息进行推理。在知识图谱推理本身性能有小幅度提升的同时,能够大幅度提升知识图谱推理结果的实体类型准确率,有利于后续知识图谱补全的实际应用。

首先读取三元组集合中全部的三元组,分别统计包括的实体数量和关系数量,然后将实体和关系分别用ID表示。将实体转化为ID的同时,也会同时生成一个实体ID和对应的实体类型ID的映射表,在输入实体ID时,即可通过查映射表来获取实体类型的ID。随后将ID表示的三元组输入推理模型,推理模型会根据ID取出对应的实体、关系和实体类型向量进行学习。

在对知识图谱中的各三元组进行上述预处理后,对于给定的三元组(h,r,t)及其实体类型t1,t2,首先向推理模型输入待训练的三元组头实体ID和关系ID,根据相应的ID从实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵中提取出对应的头实体向量h、关系向量r和头实体类型向量t1。然后再将关系向量r和头实体类型向量t1按顺序输入到LSTM网络(时间循环神经网络)中,并且改变输出结果的维度,将其拼接为卷积运算需要的卷积核ω,即:

ω=vec(LSTM(r,t1)),

本实施例中,使用LSTM网络作为生成卷积神经网络的卷积核的超网络,LSTM网络可以学习到关系向量和头实体类型向量的隐含逻辑,丰富了关系的表达能力。超网络是一种使用一个网络为另一个网络生成网络权重的方法,可以实现多层的权重共享,并且可以在给定输入的情况下动态生成权重。权重共享丰富了推理模型的表达能力,使推理模型可以学习到更多实体和关系交互的特征。卷积神经网络在推理模型中的最大优势是限制了学习的维度,对推理模型进行显式正则化,减少了过拟合的现象,而不是学习了嵌入向量中可能存在的高维度的复杂结构。

本步骤中,使用LSTM网络混合关系嵌入和头实体类型的嵌入,作为超网络的输入,使推理模型可以捕获到实体类型和关系之间的联系,从而提升实体类型的预测正确率。同时,推理模型虽然只混合头实体和关系之间的信息,但是考虑到头实体类型、关系与尾实体类型的组合是固定的,头实体类型和关系的信息也足以表达实体类型之间的联系。

由于本实施例中使用关系向量混合头实体类型向量作为卷积核,所以没有卷积核初始化。LSTM网络输入维度为关系嵌入矩阵的维度lr,输出维度为卷积核需要的维度32×1×9。本实施例中,改变后的卷积核形状即为[32,1,9]。

在步骤103中,将上述步骤得到的推理模型中卷积神经网络的卷积核ω,对头实体向量h进行卷积,得到卷积后的临时张量x1,该临时张量x1形成了推理模型的隐藏层,即:

x1=h*ω。

卷积窗口大小为1×9,得到输出的临时向量x1∈[32,1,(le-2)]。

本实施例中,推理模型使用了基于关系的卷积核对头实体进行卷积,实现了跨关系的多任务知识共享。相较于现有技术中的ConvE模型,避免了改变嵌入向量的维度,并且可以使头实体和关系的交互更加全面。在ConvE模型中只有两个嵌入矩阵相连的位置会存在头实体和关系的交互,而本实施例中的推理模型则是两个向量的每一个对应维度都存在交互,可以学习到更加全面的特征。

在步骤104中,将上述得到的卷积后的临时张量x1打平变为向量,然后经过推理模型的全连接层,得到混合特征向量x2∈[le],使其维度等于三元组集合包括的实体数量,即:

x2=W·Vec′(x1)+b,

其中,W∈[32×(le-2),ne],b∈[ne],W和b表示全连接层的权值矩阵和偏置,Vec′(*)表示一个改变临时张量x1形状的操作,目的是为了将混合后的头实体、头实体类型和关系特征映射到所有实体上。

在步骤105中,从实体嵌入矩阵中获取到尾实体向量后,将上述步骤得到的混合特征向量乘以实体嵌入矩阵,得到输出向量,并且使用sigmoid激活函数对该输出向量进行归一化处理,得到最终的推理结果,也就是三元组集合中各三元组的预测概率。

进行预测时,将所有三元组的预测概率按照由高到低的顺序排序,从而得到预测三元组的排名。

根据上述预测概率,可以对缺失的尾实体进行准确预测,从而可以补全知识图谱中缺少尾实体的三元组。

在本申请提供的一种可选实施例中,步骤105可按照如下步骤具体实施:

步骤1051、将混合特征向量与实体嵌入矩阵相乘,得到输出向量。

该步骤中,将混合特征向量与实体嵌入矩阵相乘,得到一个输出向量,从而可以进一步通过sigmoid激活函数来得到三元组集合中各三元组的预测概率。

步骤1052、采用sigmoid激活函数对输出向量进行归一化处理,得到三元组集合中各三元组的预测概率,使推理模型输出推理结果。

该步骤中,利用sigmoid激活函数对输出向量进行归一化处理,从而可计算得到三元组集合中各三元组的预测概率,根据各三元组的预测概率可使推理模型输出相应的推理结果以补全知识图谱。

具体地,根据下式得到三元组集合中各三元组的预测概率:

其中,sigmoid()表示sigmoid激活函数,Vec(LSTM(r,t1))表示改变卷积核形状的操作,Vec′(h*Vec(LSTM(r,t1)))表示改变隐藏层形状的操作,*表示卷积操作,W和b表示全连接层的权值矩阵和偏置,h、r、t分别表示三元组中的头实体、关系和尾实体。

推理模型将判断三元组正确与否视为一个二分类问题,sigmoid激活函数会将输出结果映射到(0,1)之间。

为了验证本实施例中所述的融合实体类型信息的知识图谱推理方法带来的技术效果,下面将对该方法在医疗领域的应用进行验证。

先从医学网站的医学百科中使用爬虫获取相关的中文医疗数据。构造的数据集包含有38111个实体和16个关系,同时还有8种实体类型。实体类型信息以固定的格式直接附在实体后面,以便处理实体数据时同时处理实体类型信息。具体的数据集如下表2和表3所示:

表2

其中,训练集用于训练推理模型,验证集用来测试在什么参数下推理模型的表现更好,测试集用于测试推理模型的最终结果。

表3

实验环境配置如下表4所示:

表4

在训练推理模型时,设置的超参数范围为:实体嵌入维度、关系嵌入维度和实体类型嵌入维度均为200。

在知识图谱的链接预测任务中,推理任务主要为预测三元组缺失的头实体或尾实体。如对于三元组(h,r,t),其形式为:(1)给定头实体和关系(h,r,?)时,预测尾实体;(2)给定关系和尾实体(?,r,t)时,预测头实体。

对于实体类型验证任务,测试方法与推理任务相同。但是在得到推理结果后,将依次检查尾实体的实体类型,并且计算类型正确率。

本任务常见的评价指标有MR、MRR、[email protected][email protected][email protected],基于Filter模式进行测试。在此基础上,还增加了实体类型正确率的评价,分别为Top10,Top30,Top100,旨在评价推理结果中前10、30、100个实体的类型正确率,会依次检测推理结果中的每一个实体的类型,并且做出评估。在测试实体正确率时,同时会对Raw模式和Filter模式分别进行测试。本实施例中,对所有的评价指标均采用Filter模式。知识图谱内部存在大量的一对多、多对一、多对多关系,当对这些关系进行预测时,有可能会令一些正确的、但不是目标结果的实体排在前面。例如对于某一三元组(h,r,t)属于正确的三元组时,考虑三元组(h,r,t′),当对(h,r,?)进行预测时,t′的排名完全有可能高于t,但是也不能认为t′是错误的。为了应对这种情况,采取Filter模式在计算推理结果的排名前,会过滤除了待测试三元组以外的在训练集、验证集、测试集中出现过的所有三元组。在剔除这些正确但是不是给定的三元组以后,再计算待测试三元组的排名。当不采取这一策略,即不忽略已有的三元组时,其模式名为Raw模式。

另外,在实验时,会同时与现有技术中的几种用于指示图谱推理的模型进行比较,如DistMult模型、ConvE模型、HypER模型等。

上述各模型在medical数据集上的结果见下表5和表6所示,所有结果均自行训练并测试:

表5

表6

从表5和表6可知:

(1)对于实体预测任务,本发明的推理模型在HypER模型的基础上有所提升。在除了MR指标以外的其他指标中均超过HypER模型,证明实体类型信息对于推理结果有改善作用。ConvE模型的MR指标最低,由于MR指标对异常值灵敏,说明ConvE模型学习到了相对通用的三元组模式。在表6中也可以发现Raw模式下ConvE模型实体类型正确率高于除本发明的推理模型以外的模型。

(2)对于实体类型正确率,本发明的推理模型取得了最优结果,无论是Raw模式(不过滤)还是Filter模式(过滤其他出现过的实体),实体类型正确率均超过了其他所有的模型,证明融合实体类型信息对于提升类型正确率有着明显的帮助。其中Raw模式平均提升了100.0%,Filter模式平均提升了133.2%。

下面对比了一组特定头实体和关系的推理结果,将HypER模型和本发明的推理模型的Raw模式下的Top10推理结果进行了对比,见下表7所示。这一组头实体为狼疮带试验[检查项目],关系为可用于诊断,尾实体的属性应当为疾病。推理结果模式为Raw模式。从表7中可以看出,增加的实体类型信息使推理结果的类型由全部错误变为全部正确,实体类型信息发挥了应有的作用。

表7

需要说明的是,对于上述方法的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明所必须的。

综上所述,本发明实施例提供的一种融合实体类型信息的知识图谱推理方法,通过将实体类型信息融合到知识推理算法中,将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,从而能够捕获实体、实体类型和关系的内在联系,使实体的类型信息在推理过程中得到了充分的应用。

本发明在获取三元组信息的同时,也可以获取三元组中的实体类型信息,大幅提升了推理结果的实体类型正确率,使实体的类型符合要求,有效提升了推理结果的正确率,有利于后续的知识图谱补全的实际应用。

基于同一发明构思,图3示例性地示出了本发明实施例提供的一种融合实体类型信息的知识图谱推理装置,由于该装置解决技术问题的原理与一种融合实体类型信息的知识图谱推理方法相似,因此该装置的具体实施方式可以参见方法的具体实施方式,重复之处不再赘述。

参照图3所示,该装置主要包括如下单元:

转换单元301,用于将知识图谱中的三元组集合转换为与所述三元组集合对应的向量矩阵,转换后的三元组集合包括实体嵌入矩阵、关系嵌入矩阵和实体类型嵌入矩阵;

提取单元302,用于将所述实体嵌入矩阵、所述关系嵌入矩阵和所述实体类型嵌入矩阵输入推理模型中分别提取头实体向量、关系向量和头实体类型向量,并将所述关系向量和所述头实体类型向量按顺序通过LSTM网络生成所述推理模型的卷积核;

卷积单元303,用于将所述卷积核对所述头实体向量进行卷积,生成所述推理模型的隐藏层;

经过单元304,用于将所述隐藏层经过所述推理模型的全连接层后,生成混合特征向量,所述混合特征向量的维度与所述三元组集合包括的实体数量相同;

输出单元305,用于将所述混合特征向量与所述实体嵌入矩阵相乘,并采用sigmoid激活函数进行归一化处理,使所述推理模型输出推理结果。

此处需要说明的是,上述转换单元301、提取单元302、卷积单元303、经过单元304和输出单元305对应于上述方法实施例中的步骤101至步骤105,五个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述方法实施例所公开的内容。

优选地,还包括获取单元100,用于:

获取待处理的知识库后,提取所述知识库中的实体集合、关系集合和实体类型集合,并根据所述实体集合、所述关系集合和所述实体类型集合生成所述知识图谱的三元组集合。

优选地,所述三元组集合包括正向三元组以及与所述正向三元组对应的反向三元组。

优选地,转换单元301还用于:

通过xavier正态分布对所述实体嵌入矩阵、所述关系嵌入矩阵和所述实体类型嵌入矩阵进行初始化。

优选地,输出单元305具体用于:

将所述混合特征向量与所述实体嵌入矩阵相乘,得到输出向量;

采用sigmoid激活函数对所述输出向量进行归一化处理,得到所述三元组集合中各三元组的预测概率,使所述推理模型输出推理结果;

根据下式得到所述三元组集合中各三元组的预测概率:

其中,sigmoid()表示sigmoid激活函数,Vec(LSTM(r,t1))表示改变卷积核形状的操作,Vec′(h*Vec(LSTM(r,t1)))表示改变隐藏层形状的操作,*表示卷积操作,W和b表示全连接层的权值矩阵和偏置,h、r、t分别表示三元组中的头实体、关系和尾实体。

需要说明的是,本发明实施例提供的融合实体类型信息的知识图谱推理装置与前述实施例所述的融合实体类型信息的知识图谱推理方法属于相同的技术构思,其具体实施过程可参照前述实施例中对方法步骤的说明,在此不再赘述。

应当理解,以上一种融合实体类型信息的知识图谱推理装置包括的单元仅为根据该装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种融合实体类型信息的知识图谱推理装置所实现的功能与上述实施例提供的一种融合实体类型信息的知识图谱推理方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例中已做详细描述,此处不再详细描述。

综上所述,本发明实施例提供的融合实体类型信息的知识图谱推理装置,通过将实体类型信息融合到知识推理算法中,将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,从而能够捕获实体、实体类型和关系的内在联系,使实体的类型信息在推理过程中得到了充分的应用。

本发明在获取三元组信息的同时,也可以获取三元组中的实体类型信息,大幅提升了推理结果的实体类型正确率,使实体的类型符合要求,有效提升了推理结果的正确率,有利于后续的知识图谱补全的实际应用。

基于同一发明构思,图4示例性地示出了本发明实施例提供的一种电子设备,由于该电子设备解决技术问题的原理与一种融合实体类型信息的知识图谱推理方法相似,因此该电子设备的具体实施方式可以参见方法的具体实施方式,重复之处不再赘述。

参照图4所示,本发明实施例提供一种电子设备,该设备主要包括处理器401和存储器402,其中存储器402内存储有执行指令。该处理器401读取存储器402内的执行指令用于执行上述嵌入式服务组合编译方法任一个实施例中所述的步骤。或者,该处理器401读取存储器402内的执行指令用于实现上述嵌入式服务组合编译装置任一个实施例中各单元的功能。

图4为本发明实施例提供的电子设备的一种结构示意图,如图4所示,该设备包括处理器401、存储器402和收发器403;其中,处理器401、存储器402和收发器403通过总线404相互实现相互间的通信。

上述提到的总线404可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Ind ustry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条箭头线表示,但并不表示仅有一根总线或一种类型的总线。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述,本发明实施例提供的电子设备,通过将实体类型信息融合到知识推理算法中,将实体类型嵌入和关系嵌入相融合,用融合后的特征向量对头实体进行卷积,从而能够捕获实体、实体类型和关系的内在联系,使实体的类型信息在推理过程中得到了充分的应用。

本发明在获取三元组信息的同时,也可以获取三元组中的实体类型信息,大幅提升了推理结果的实体类型正确率,使实体的类型符合要求,有效提升了推理结果的正确率,有利于后续的知识图谱补全的实际应用。

本发明实施例还提供一种计算机可读存储介质,包含计算机执行指令,所述计算机执行指令被用于执行上述融合实体类型信息的知识图谱推理方法实施例中所述的步骤。或者,所述计算机执行指令被用于执行上述融合实体类型信息的知识图谱推理装置实施例中各单元的功能。

本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、无线电频率(Radio Frequency,RF)等等,或者上述的任意合适的组合。

另外,可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:人工智能推理方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!