实体链接方法、装置及可读存储介质

文档序号:1905619 发布日期:2021-11-30 浏览:3次 >En<

阅读说明:本技术 实体链接方法、装置及可读存储介质 (Entity linking method, device and readable storage medium ) 是由 丁磊 童毅轩 张佳师 姜珊珊 张永伟 于 2020-05-26 设计创作,主要内容包括:本发明公开了一种实体链接方法、装置及可读存储介质,涉及实体链接技术领域,以降低实体链接的成本。该方法包括:获取输入的语句,其中,所述输入的语句中包括实体称谓;生成所述实体称谓的候选实体集;将所述实体称谓链接到所述候选实体集中的目标候选实体。本发明实施例可降低实体链接的成本。(The invention discloses a method and a device for entity link and a readable storage medium, relating to the technical field of entity link and aiming to reduce the cost of entity link. The method comprises the following steps: acquiring an input statement, wherein the input statement comprises an entity title; generating a candidate entity set of said entity designations; linking the entity designation to a target candidate entity in the set of candidate entities. The embodiment of the invention can reduce the cost of entity link.)

实体链接方法、装置及可读存储介质

技术领域

本发明涉及实体链接技术领域,尤其涉及一种实体链接方法、装置及可读存储介质。

背景技术

实体链接是人工智能领域应用的基础技术,借助实体链接,相关的以自然语言作为输入的应用,可以从结构化知识库中获取额外的背景信息。作为一项基础技术,实体链接可用于对话系统,推荐系统等不同的应用场景。

现有的实体链接方法主要有两类:一类方法需要大量的标注数据或人工指定的规则,另一类方法需要以文本描述作为知识库中实体背景信息。但是,这两类方法在实际的实体链接中的成本较高。

发明内容

本发明实施例提供一种实体链接方法、装置及可读存储介质,以降低实体链接的成本。

第一方面,本发明实施例提供了一种实体链接方法,包括:

获取输入的语句,其中,所述输入的语句中包括实体称谓;

生成所述实体称谓的候选实体集;

将所述实体称谓链接到所述候选实体集中的目标候选实体。

其中,所述生成所述实体称谓的候选实体集,包括:

获取所述实体称谓在所述输入的语句中的上下文相关实体称谓;

从知识库中获取所述实体称谓的第一相似实体;

从所述知识库中获取所述上下文相关实体称谓的第二相似实体;

利用所述第一相似实体和所述第二相似实体的相关实体形成所述候选实体集。

其中,所述从知识库中获取所述实体称谓的第一相似实体,包括:

生成所述实体称谓的词向量表示;

通过映射模型将所述词向量表示映射成实体表示向量;

计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

将所述知识库中的第一目标实体表示向量对应的实体,作为所述第一相似实体,所述第一目标实体表示向量和所述实体表示向量之间的相似度符合第一预设要求。

其中,所述从所述知识库中获取所述上下文相关实体称谓的第二相似实体,包括:

生成所述上下文相关实体称谓的词向量表示;

通过映射模型将所述词向量表示映射成实体表示向量;

计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

将所述知识库中的第二目标实体表示向量对应的实体,作为所述第二相似实体,所述第二目标实体表示向量和所述实体表示向量之间的相似度符合第二预设要求。

其中,所述方法还包括:

生成所述映射模型。

其中,所述生成所述映射模型,包括:

从文本语料库中获取训练词向量表示;

从知识库中获取训练实体表示向量;

利用所述训练词向量表示和所述训练实体表示向量训练神经网络模型,得到所述映射模型。

其中,所述训练实体表示向量通过以下目标函数得到:

其中,L表示目标函数的值,α(h,r,t)表示实体h和实体t之间关系的权重,r表示实体h和实体t之间关系的表示向量,t′表示从所述知识库中随机选取的实体,S表示所述知识库中不同实体以及实体之间的关系的集合。

其中,所述将所述实体称谓链接到所述候选实体集中的目标候选实体,包括:

解析所述输入的语句,得到所述输入的语句中的实体关系;

将所述输入的语句中的实体关系映射到知识库中的实体关系;

计算目标组合的关系真实性值,其中,所述目标组合为由所述候选实体集中的候选实体、所述实体称谓在所述输入的语句中的上下文相关实体称谓以及所述知识库中的实体关系所形成的组合;

将关系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体;

将所述实体称谓链接到所述目标候选实体。

第二方面,本发明实施例提供了一种实体链接装置,包括:

第一获取模块,用于获取输入的语句,其中,所述输入的语句中包括实体称谓;

第一生成模块,用于生成所述实体称谓的候选实体集;

第一链接模块,用于将所述实体称谓链接到所述候选实体集中的目标候选实体。

其中,所述第一生成模块包括:

第一获取子模块,用于获取所述实体称谓在所述输入的语句中的上下文相关实体称谓;

第二获取子模块,用于从知识库中获取所述实体称谓的第一相似实体;

第三获取子模块,用于从所述知识库中获取所述上下文相关实体称谓的第二相似实体;

第一生成子模块,用于利用所述第一相似实体和所述第二相似实体的相关实体形成所述候选实体集。

其中,所述第二获取子模块包括:

第一生成单元,用于生成所述实体称谓的词向量表示;

第一映射单元,用于通过映射模型将所述词向量表示映射成实体表示向量;

第一计算单元,用于计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

第一获取单元,用于将所述知识库中的第一目标实体表示向量对应的实体,作为所述第一相似实体,所述第一目标实体表示向量和所述实体表示向量之间的相似度符合第一预设要求。

其中,所述第三获取子模块包括:

第二生成单元,用于生成所述上下文相关实体称谓的词向量表示;

第二映射单元,用于通过映射模型将所述词向量表示映射成实体表示向量;

第二计算单元,用于计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

第二获取单元,用于将所述知识库中的第二目标实体表示向量对应的实体,作为所述第二相似实体,所述第二目标实体表示向量和所述实体表示向量之间的相似度符合第二预设要求。

其中,所述装置还包括:

第二生成模块,用于生成所述映射模型。

其中,所述第二生成模块包括:

第一获取子模块,用于从文本语料库中获取训练词向量表示;

第二获取子模块,用于从知识库中获取训练实体表示向量;

第一生成子模块,用于利用所述训练词向量表示和所述训练实体表示向量训练神经网络模型,得到所述映射模型。

其中,所述训练实体表示向量通过以下目标函数得到:

其中,L表示目标函数的值,α(h,r,t)表示实体h和实体t之间关系的权重,r表示实体h和实体t之间关系的表示向量,t′表示从所述知识库中随机选取的实体,S表示所述知识库中不同实体以及实体之间的关系的集合。

其中,所述第一链接模块包括:

解析子模块,用于解析所述输入的语句,得到所述输入的语句中的实体关系;

映射子模块,用于将所述输入的语句中的实体关系映射到知识库中的实体关系;

计算子模块,用于计算目标组合的关系真实性值,其中,所述目标组合为由所述候选实体集中的候选实体、所述实体称谓在所述输入的语句中的上下文相关实体称谓以及所述知识库中的实体关系所形成的组合;

选择子模块,用于将关系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体;

链接子模块,用于将所述实体称谓链接到所述目标候选实体。

第三方面,本发明实施例还提供一种可读存储介质,所述可读存储介质上存储程序,所述程序被处理器执行时实现如上所述的实体链接方法中的步骤。

第四方面,本发明实施例还提供一种实体链接装置,包括:

处理器;以及

存储器,在所述存储器中存储有程序指令,其中,在所述程序指令被所述处理器运行时,使得所述处理器执行以下步骤:

获取输入的语句,其中,所述输入的语句中包括实体称谓;

生成所述实体称谓的候选实体集;

将所述实体称谓链接到所述候选实体集中的目标候选实体。

在本发明实施例中,生成输入的语句中的实体称谓的候选实体集,然后,将实体称谓链接到候选实体集中的目标候选实体。利用本发明实施例的方案,既不需要实体的文本描述,也不需要大量的人工描述,因此可以降低实体链接的成本。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的实体链接方法的流程图之一;

图2是本发明实施例提供的知识库的示意图;

图3是本发明实施例提供的从知识库中获取所述实体称谓的第一相似实体的过程示意图;

图4是本发明实施例提供的从所述知识库中获取所述上下文相关实体称谓的第二相似实体的过程示意图;

图5是本发明实施例提供的步骤103的示意图;

图6是本发明实施例提供的实体链接方法的流程图之二;

图7是本发明实施例提供的步骤601的示意图;

图8是本发明实施例提供的词向量和实体表示向量之间的映射关系示意图;

图9是本发明实施例提供的实体链接的整体过程示意图;

图10(a)是本发明实施例提供的生成候选实体集的过程示意图;

图10(b)是本发明实施例提供的实体链接的过程示意图;

图11是本发明实施例提供的实体链接装置的结构图之一;

图12是本发明实施例提供的第一生成模块的结构图;

图13是本发明实施例提供的第二获取子模块的结构图;

图14是本发明实施例提供的第三获取子模块的结构图;

图15是本发明实施例提供的实体链接装置的结构图之二;

图16是本发明实施例提供的第二生成模块的结构图;

图17是本发明实施例提供的第一链接模块的结构图;

图18是本发明实施例提供的实体链接装置的硬件结构图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,图1是本发明实施例提供的实体链接方法的流程图,如图1所示,包括以下步骤:

步骤101、获取输入的语句,其中,所述输入的语句中包括实体称谓。

其中,所述输入的语句可以是一句话,或者是一段话。输入的语句中的实体称谓可以利用现有技术中的实体称谓提取方法获得,本发明实施例中并不对其具体的实现方法进行限定。在本发明实施例中,所述实体称谓可以是输入的语句中包括的一个或者多个实体称谓,对每个实体称谓链接到准确的实体的过程的原理都相同。

例如,输入语句为大卫生在英格兰。在该语句中,实体称谓可以是大卫,英格兰。

步骤102、生成所述实体称谓的候选实体集。

在此步骤中,可首先获取所述实体称谓在所述输入的语句中的上下文相关实体称谓。其中,所述上下文相关实体指的是对输入语句中的某个实体称谓,在该实体称谓所在的语句的上下文中出现的实体称谓。例如,输入语句为大卫生在英格兰。在该语句中,实体称谓可以是大卫,英格兰。对于实体称谓“大卫”,“英格兰”可作为其上下文相关实体称谓。同样,对于实体称谓“英格兰”,“大卫”可作为其上下文相关实体称谓。

然后,从知识库中获取所述实体称谓的第一相似实体,并从所述知识库中获取所述上下文相关实体称谓的第二相似实体。

最后,利用所述第一相似实体和所述第二相似实体的相关实体形成所述候选实体集。

其中,所述第二相似实体的相关实体指的是可通过第二相似实体关联到的实体,或者是可以理解为和第二相似实体具有一定的相关性的实体。第二相似实体的相关实体可以预先在知识库中定义。在实际应用中,相似实体和相关实体之间的对应关系可以预先在知识库中设定。因此,在确定了第二相似实体之后,即可通过查找知识库获取其相关实体。例如,如果第二相似实体为大卫贝克汉姆,那么,他的相关实体可以是维多利亚。

其中,所述知识库中存储有实体以及实体之间的关系。如图2所示,为知识库的示意图。在图2所示的知识库中,示例性的示出了“大卫贝克汉姆”和“伦敦”、“曼彻斯特联队”等实体以及实体之间的关系,例如,关系可以是“出生于”,“效力于”等。

具体的,从知识库中获取所述实体称谓的第一相似实体,以及从所述知识库中获取所述上下文相关实体称谓的第二相似实体的原理相同。

其中,如图3所示,从知识库中获取所述实体称谓的第一相似实体的过程可包括:

步骤301、生成所述实体称谓的词向量表示。

在本发明实施例中,可通过BERT(Bidirectional Encoder Representationsfrom Transformers,转换器双向编码表示)等语言模型获得实体称谓的词向量表示。

步骤302、通过映射模型将所述词向量表示映射成实体表示向量。

其中,所述映射模型为词向量和实体表示向量之间的映射关系。因此,在步骤301中获得了词向量表示之后,根据该映射关系可将所述词向量表示映射成实体表示向量。

其中,该映射模型可以是预先建立好的,还可以是在实施本发明实施例的过程中建立的。

步骤303、计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度。

在此步骤中,可计算所述实体表示向量和所述知识库中的每个实体表示向量之间的余弦相似度。余弦相似度越高,则说明两个实体表示向量之间越相似。

步骤304、将所述知识库中的第一目标实体表示向量对应的实体,作为所述第一相似实体,所述第一目标实体表示向量和所述实体表示向量之间的相似度符合第一预设要求。

对于步骤303获得的多个相似度,可将其按照从高到低或者从低到高的顺序进行排序,然后,从排序后的相似度中,选择相似度符合第一预设要求的相似度。最后,将选择出的相似度对应的知识库中的第一目标实体表示向量所对应的实体,作为所述第一相似实体。

其中,所述第一预设要求可根据需要设置,例如,可以是相似度最高等。那么,在此即是选择相似度最高的知识库中的第一目标实体表示向量所对应的实体,作为所述第一相似实体。

其中,如图4所示,从所述知识库中获取所述上下文相关实体称谓的第二相似实体的过程可包括:

步骤401、生成所述上下文相关实体称谓的词向量表示。

步骤402、通过映射模型将所述词向量表示映射成实体表示向量。

步骤403、计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度。

步骤404、将所述知识库中的第二目标实体表示向量对应的实体,作为所述第二相似实体,所述第二目标实体表示向量和所述实体表示向量之间的相似度符合第二预设要求。

其中,所述第二预设要求可根据需要设置,例如,可以是相似度最高等。那么,在此即是选择相似度最高的知识库中的第二目标实体表示向量所对应的实体,作为所述第二相似实体。

其中,步骤401-404的描述可参照前述步骤301-304的描述。

步骤103、将所述实体称谓链接到所述候选实体集中的目标候选实体。

其中,如图5所示,该步骤可包括如下过程:

步骤501、解析所述输入的语句,得到所述输入的语句中的实体关系。

通常情况下,动词或者副词可表示实体之间的关系,比如,出生,效力于等。因此,所述实体关系主要指的是动词或者副词等关系。

步骤502、将所述输入的语句中的实体关系映射到知识库中的实体关系。

通常情况下,动词或者副词等关系等可以认为是输入的语句中的实体之间关系的文本表示。由于知识库中存储有实体之间的关系,因此,可通过计算输入的语句中的实体关系和知识库中的实体关系的相似度,来将所述输入的语句中的实体关系映射到知识库中的实体关系。通过实体关系之间的映射,可将实体关系的描述趋于统一,从而便于后续链接到准确的候选实体。

步骤503、计算目标组合的关系真实性值,其中,所述目标组合为由所述候选实体集中的候选实体、所述实体称谓在所述输入的语句中的上下文相关实体称谓以及所述知识库中的实体关系所形成的组合。

由于候选实体集中可以包括多个候选实体,输入语句中的实体称谓也可能存在多个上下文相关实体称谓,步骤502中映射后的实体关系也可以有多个,因此,在此步骤中,可将候选实体、上下文相关实体称谓、映射后的实体关系进行组合,从而得到多个目标组合。

对于某个候选实体,它分别和不同的上下文相关实体称谓、不同的映射后的实体关系进行组合,得到多个组合。对于每个组合,计算关系真实性值。其中,所述关系真实性值表示的是两个实体之间的关系的真实性的高低。该值越大,则表示两个实体之间越不相似;该值越小,则表示两个实体之间越相似。对于每个组合计算出的关系真实性值,将其求和,作为该候选实体对应的最终的关系真实性值。

其中,所述关系真实性值可通过最小化以下公式获得:∑(h,r,t)∈S‖h+r-t‖,其中,r表示实体h和实体t之间关系的表示向量,S表示所述知识库中不同实体以及实体之间的关系的集合,其中,‖h+r-t‖表示求取(h+r+t)的平方根。

步骤504、将关系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体。

如前所述,关系真实性值越小,则表示两个实体之间越相似。因此,可将系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体。

步骤505、将所述实体称谓链接到所述目标候选实体。

在本发明实施例中,生成输入的语句中的实体称谓的候选实体集,然后,将实体称谓链接到候选实体集中的目标候选实体。利用本发明实施例的方案,既不需要实体的文本描述,也不需要大量的人工描述,因此可以降低实体链接的成本。

如图6所示,本发明实施例的实体链接方法包括:

步骤601、生成映射模型。

其中,所述映射模型是词向量和实体表示向量之间的映射关系。具体的,如图7所示,该步骤可包括:

步骤701、从文本语料库中获取训练词向量表示。

步骤702、从知识库中获取训练实体表示向量。

步骤703、利用所述训练词向量表示和所述训练实体表示向量训练神经网络模型,得到所述映射模型。

具体的,可通过BERT等语言模型从文本语料库中获取训练词向量表示。而所述训练实体表示向量通过以下目标函数得到:

其中,L表示目标函数的值,α(h,r,t)表示实体h和实体t之间关系的权重,r表示实体h和实体t之间关系的表示向量,t′表示从所述知识库中随机选取的实体,S表示所述知识库中不同实体以及实体之间的关系的集合。通过最小化目标函数L,可使得实体和相关的向量运算满足它们之间的逻辑关系。

生成的映射模型例如可以是“大卫贝克汉姆”这个词的表示向量和“大卫贝克汉姆”这个实体表示向量之间映射的模型。这个模型可以通过训练神经网络实现。映射模型的参数通常较少,基于实体名称匹配、同义词匹配等方法构建少量样本即可完成映射模型的训练。

如图8所示,为本发明实施例中的词向量和实体表示向量之间的映射关系示意图。一个词向量可对应有一个或者多个实体表示向量。

步骤602、获取输入的语句,其中,所述输入的语句中包括实体称谓。

步骤603、生成所述实体称谓的候选实体集。

步骤604、将所述实体称谓链接到所述候选实体集中的目标候选实体。

其中,步骤602-步骤604的描述可参考前述步骤101-103的表述。

在本发明实施例中,生成输入的语句中的实体称谓的候选实体集,然后,将实体称谓链接到候选实体集中的目标候选实体。利用本发明实施例的方案,既不需要实体的文本描述,也不需要大量的人工描述,因此可以降低实体链接的成本。

如图9所示,假如输入的语句是“大卫生在英格兰球员。他曾经为曼联踢球。”。在应用中,实体链接任务目标就是将自然语言中识别出的实体称谓(例如“大卫”)链接到知识库中的一个具体的实体(大卫贝克汉姆)上。在图9中,示出了大卫这个实体称谓所对应的三个候选实体所对应的关系真实性得分,分别为0.1,0.6,0.2。由于大卫贝克汉姆对应的分数最低,那么,将大卫链接到大卫贝克汉姆。

按照前述描述的过程,确定实体称谓“大卫”的候选实体集,然后,将其链接到正确的实体上。通过从知识库中获取的实体中,找到最终的实体“大卫贝克汉姆”。

在图10(a)中,按照前述描述的方式,确定实体称谓“大卫”的最相似实体为大卫贝克汉姆和大卫比利亚。“大卫”的上下文相关实体称谓“英格兰”的最相似实体为英格兰,其相关实体为大卫贝克汉姆和韦恩鲁尼;“大卫”的上下文相关实体称谓“曼联”的最相似实体曼彻斯特联队,其相关实体为大卫贝克汉姆和亚历克斯弗格森。因此,将“大卫贝克哈姆和大卫比利亚”、“大卫贝克汉姆和韦恩鲁尼”以及“大卫贝克汉姆和亚历克斯弗格森”分别添加到候选实体集中。

如图10(b)所示,示出了将“大卫”链接到“大卫贝克汉姆”过程。首选,解析输入的语句中的动词或者副词关系。其中,该语句中,动词或者副词关系为:生在,为……踢球。通过映射关系,将其映射到知识库中的关系,例如,生在映射为出生于,为……踢球映射为效力于。

对于按照图10(a)所示的方式生成的候选实体集以及映射后的关系,将其进行组合,最小化输入的句子中实体及实体间的关系的向量。其中,在组合的过程中,将获得的候选实体集中的各个候选实体,分别和“出生于”、“效力于”,以及,“英格兰”、“曼彻斯特联队”进行组合。经计算,假设大卫贝克汉姆对应的分数最低,在将“大卫”映射到大卫贝克汉姆。

本发明实施例的方案可应用于智能客服中的对话系统,推荐系统和所有其他以自然语言作为输入的系统等。

在本发明实施例中,生成输入的语句中的实体称谓的候选实体集,然后,将实体称谓链接到候选实体集中的目标候选实体。利用本发明实施例的方案,既不需要实体的文本描述,也不需要大量的人工描述,因此可以降低实体链接的成本。

本发明实施例还提供了一种实体链接装置。参见图11,图11是本发明实施例提供的实体链接装置的结构图。由于实体链接装置解决问题的原理与本发明实施例中实体链接方法相似,因此该实体链接装置的实施可以参见方法的实施,重复之处不再赘述。

如图11所示,实体链接装置1100包括:第一获取模块1101,用于获取输入的语句,其中,所述输入的语句中包括实体称谓;第一生成模块1102,用于生成所述实体称谓的候选实体集;第一链接模块1103,用于将所述实体称谓链接到所述候选实体集中的目标候选实体。

如图12所示,所述第一生成模块1102包括:

第一获取子模块11021,用于获取所述实体称谓在所述输入的语句中的上下文相关实体称谓;第二获取子模块11022,用于从知识库中获取所述实体称谓的第一相似实体;第三获取子模块11023,用于从所述知识库中获取所述上下文相关实体称谓的第二相似实体;第一生成子模块11024,用于利用所述第一相似实体和所述第二相似实体的相关实体形成所述候选实体集。

如图13所示,所述第二获取子模块11022包括:

第一生成单元11022a,用于生成所述实体称谓的词向量表示;第一映射单元11022b,用于通过映射模型将所述词向量表示映射成实体表示向量;第一计算单元11022c,用于计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;第一获取单元11022d,用于将所述知识库中的第一目标实体表示向量对应的实体,作为所述第一相似实体,所述第一目标实体表示向量和所述实体表示向量之间的相似度符合第一预设要求。

如图14所示,所述第三获取子模块11023包括:

第二生成单元11023a,用于生成所述上下文相关实体称谓的词向量表示;第二映射单元11023b,用于通过映射模型将所述词向量表示映射成实体表示向量;第二计算单元11023c,用于计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;第二获取单元11023d,用于将所述知识库中的第二目标实体表示向量对应的实体,作为所述第二相似实体,所述第二目标实体表示向量和所述实体表示向量之间的相似度符合第二预设要求。

如图15所示,所述装置还包括:

第二生成模块1104,用于生成所述映射模型。

如图16所示,所述第二生成模块1104包括:

第一获取子模块11041,用于从文本语料库中获取训练词向量表示;第二获取子模块11042,用于从知识库中获取训练实体表示向量;第一生成子模块11043,用于利用所述训练词向量表示和所述训练实体表示向量训练神经网络模型,得到所述映射模型。

其中,所述训练实体表示向量通过以下目标函数得到:

其中,L表示目标函数的值,α(h,r,t)表示实体h和实体t之间关系的权重,r表示实体h和实体t之间关系的表示向量,t′表示从所述知识库中随机选取的实体,S表示所述知识库中不同实体以及实体之间的关系的集合。

其中,如图17所示,所述第一链接模块1103包括:

解析子模块11031,用于解析所述输入的语句,得到所述输入的语句中的实体关系;映射子模块11032,用于将所述输入的语句中的实体关系映射到知识库中的实体关系;计算子模块11033,用于计算目标组合的关系真实性值,其中,所述目标组合为由所述候选实体集中的候选实体、所述实体称谓在所述输入的语句中的上下文相关实体称谓以及所述知识库中的实体关系所形成的组合;选择子模块11034,用于将关系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体;链接子模块11035,用于将所述实体称谓链接到所述目标候选实体。

本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

参见图18,本发明实施例还提供了一种实体链接装置的硬件结构。如图18所示,该实体链接装置1800包括:

处理器1802;和

存储器1804,在所述存储器1804中存储有程序指令,其中,在所述程序指令被所述处理器运行时,使得所述处理器1802执行以下步骤:

获取输入的语句,其中,所述输入的语句中包括实体称谓;

生成所述实体称谓的候选实体集;

将所述实体称谓链接到所述候选实体集中的目标候选实体。

进一步地,如图18所示,该实体链接装置1800还可以包括网络接口1801、输入设备1803、硬盘1805、和显示设备1806。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是包括任意数量的互联的总线和桥。具体由处理器1802代表的一个或者多个中央处理器(CPU),以及由存储器1804代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

所述网络接口1801,可以连接至网络(如因特网、局域网等),从网络中接收数据,并可以将接收到的数据保存在硬盘1805中。

所述输入设备1803,可以接收操作人员输入的各种指令,并发送给处理器1802以供执行。所述输入设备1803可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等)。

所述显示设备1806,可以将处理器1802执行指令获得的结果进行显示。

所述存储器1804,用于存储操作系统运行所必须的程序和数据,以及处理器1802计算过程中的中间结果等数据。

可以理解,本发明实施例中的存储器1804可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器1804旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器1804存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统18041和应用程序18042。

其中,操作系统18041,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序18042,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序18042中。

本发明上述实施例揭示的实体链接方法可以应用于处理器1802中,或者由处理器1802实现。处理器1802可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述实体链接方法的各步骤可以通过处理器1802中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1802可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1804,处理器1802读取存储器1804中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

获取所述实体称谓在所述输入的语句中的上下文相关实体称谓;

从知识库中获取所述实体称谓的第一相似实体;

从所述知识库中获取所述上下文相关实体称谓的第二相似实体;

利用所述第一相似实体和所述第二相似实体的相关实体形成所述候选实体集。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

生成所述实体称谓的词向量表示;

通过映射模型将所述词向量表示映射成实体表示向量;

计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

将所述知识库中的第一目标实体表示向量对应的实体,作为所述第一相似实体,所述第一目标实体表示向量和所述实体表示向量之间的相似度符合第一预设要求。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

生成所述上下文相关实体称谓的词向量表示;

通过映射模型将所述词向量表示映射成实体表示向量;

计算所述实体表示向量和所述知识库中的实体表示向量之间的相似度;

将所述知识库中的第二目标实体表示向量对应的实体,作为所述第二相似实体,所述第二目标实体表示向量和所述实体表示向量之间的相似度符合第二预设要求。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

生成所述映射模型。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

从文本语料库中获取训练词向量表示;

从知识库中获取训练实体表示向量;

利用所述训练词向量表示和所述训练实体表示向量训练神经网络模型,得到所述映射模型。

其中,所述训练实体表示向量通过以下目标函数得到:

其中,L表示目标函数的值,α(h,r,t)表示实体h和实体t之间关系的权重,r表示实体h和实体t之间关系的表示向量,t′表示从所述知识库中随机选取的实体,S表示所述知识库中不同实体以及实体之间的关系的集合。

具体地,所述程序被处理器1802执行时还可实现如下步骤:

解析所述输入的语句,得到所述输入的语句中的实体关系;

将所述输入的语句中的实体关系映射到知识库中的实体关系;

计算目标组合的关系真实性值,其中,所述目标组合为由所述候选实体集中的候选实体、所述实体称谓在所述输入的语句中的上下文相关实体称谓以及所述知识库中的实体关系所形成的组合;

将关系真实性值最小的目标组合中的第一候选实体,作为所述目标候选实体;

将所述实体称谓链接到所述目标候选实体。

本发明实施例提供的装置,可以执行上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

本发明实施例还提供一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述实体链接方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁盘或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。根据这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁盘、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于多任务多通道小波变换嵌套长短期记忆模型的多变量空气质量时间序列预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!