一种人物关系识别模型训练方法、装置、设备及介质

文档序号:1614257 发布日期:2020-01-10 浏览:15次 >En<

阅读说明:本技术 一种人物关系识别模型训练方法、装置、设备及介质 (Character relation recognition model training method, device, equipment and medium ) 是由 王安然 徐程程 于 2019-09-06 设计创作,主要内容包括:本发明公开了一种人物关系识别模型训练方法、装置、设备及介质,所述方法包括获取人物关系三元组集;获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表;获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表;访问语料库,根据各个人物关系三元组、第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料;根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。本发明可以减少产生正样本欠召回和将正样本错召回为负样本的情况。(The invention discloses a character relation recognition model training method, a character relation recognition model training device and a character relation recognition model training medium, wherein the method comprises the steps of obtaining a character relation three-tuple set; acquiring a first equivalence association attribute table corresponding to each person relation triple in the person relation triple set; acquiring a reversible person relation triple corresponding to each person relation triple in a person relation triple set, and acquiring a second equivalent associated attribute table corresponding to the reversible person relation triple; accessing a corpus, and marking a positive sample corpus and a negative sample corpus in the corpus according to each character relationship triple, the first equivalent associated attribute table, the reversible character relationship triple corresponding to the character relationship triple and the corresponding second equivalent associated attribute table; and training a preset machine learning model according to the positive sample corpus and the negative sample corpus to obtain a character relationship recognition model. The invention can reduce the situations of generating the under-recalling of the positive sample and the mistaken recalling of the positive sample as the negative sample.)

一种人物关系识别模型训练方法、装置、设备及介质

技术领域

本发明涉及机器学习领域,尤其涉及一种人物关系识别模型训练方法、装置、设备及介质。

背景技术

自然语言处理中的命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位,而人物关系识别是命名实体识别中的重要内容之一。现有技术中通常通过训练人物关系识别模型来达到对语料体现的人物关系进行准确识别的目的,而用于训练人物关系识别模型的训练语料的质量对于人物关系识别模型的质量会产生重要影响。

现有技术中通常基于简单的远监督回标策略获取用于训练人物关系识别模型的训练语料,而这种远监督回标策略并未充分考虑人物关系的可逆性,从而会产生正样本欠召回和正样本被误标记为负样本的问题,降低了训练语料的质量。

发明内容

为了解决现有技术中训练语料存在正样本欠召回和正样本被误标记为负样本的情况,从而降低了人物关系识别模型质量的技术问题,本发明实施例提供一种人物关系识别模型训练方法、装置、设备及介质。

一方面,本发明提供了一种人物关系识别模型训练方法,所述方法包括:

获取人物关系三元组集,所述人物关系三元组集中的每个人物关系三元组均包括头实体、尾实体以及表征所述头实体与尾实体之间关系的属性;

获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,所述第一等价关联属性表中的等价关联属性与所述人物关系三元组中的属性具有相同含义;

获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表,所述第二等价关联属性表中的等价关联属性与所述可逆人物关系三元组中的属性具有相同含义;

访问语料库,根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料;

根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。

另一方面,本发明提供一种人物关系识别模型训练装置,所述装置包括:

人物关系三元组集获取模块,用于获取人物关系三元组集,所述人物关系三元组集中的每个人物关系三元组均包括头实体、尾实体以及表征所述头实体与尾实体之间关系的属性;

第一等价关联属性表获取模块,用于获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,所述第一等价关联属性表中的等价关联属性与所述人物关系三元组中的属性具有相同含义;

可逆内容获取模块,用于获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表,所述第二等价关联属性表中的等价关联属性与所述可逆人物关系三元组中的属性具有相同含义;

样本语料获取模块,用于访问语料库,根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料;

训练模块,用于根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。

另一方面,本发明提供了一种人物关系识别模型训练设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现一种人物关系识别模型训练方法。

另一方面,本发明提供了一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行一种人物关系识别模型训练方法。

本发明提供了一种人物关系识别模型训练方法、装置、设备及介质。本发明可以对于已有的人物关系三元组进行扩展以得到第一关联等价关联属性表、可逆人物关系三元组以及第二等价关联属性表,并根据扩展后得到人物关系三元组、可逆人物关系三元组、第一等价关联属性表和第二等价关联属性表作为回标基础,在已有的语料库中提取正样本语料和负样本语料,从而减少现有技术中仅仅依赖已有的人物关系三元组进行回标产生的正样本欠召回和将正样本错召回为负样本的情况。进一步地,本发明实施例还通过构造两种不同的负样本提升了负样本的多样性,从而全面提升了正样本和负样本的质量,进而提升了人物关系识别模型的准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1是本发明提供的一种人物关系识别模型训练方法的实施环境示意图;

图2是本发明提供的一种人物关系识别模型训练方法的流程图;

图3是本发明提供的获取人物关系三元组集的流程图;

图4是本发明提供的对所述人物关系三元组集中的人物关系三元组进行扩展以得到所述人物关系三元组对应的第一等价关联属性表流程图;

图5是本发明提供的另一对所述人物关系三元组集中的人物关系三元组进行扩展以得到所述人物关系三元组对应的第一等价关联属性表流程图;

图6是本发明提供的并未扩展可逆人物关系三元组的情况下构建训练语料训练得到的人物关系识别模型的性能示意图;

图7是本发明提供的并未将人物关系三元组及其对应可逆人物关系三元组回标的语料一并作为正样本训练得到的人物关系识别模型的性能示意图;

图8是本发明提供的一种人物关系识别模型训练装置框图;

图9是本发明提供的人物关系三元组集获取模块框图;

图10是本发明提供的一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。

以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。为了便于理解本发明实施例所述的技术方案及其产生的技术效果,本发明实施例首先对于相关专业名词进行解释:

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

知识图谱:知识图谱本质上是一种语义网络,网络中有多个节点,可以被称为实体,比如“刘德华”,“金鸡湖”,“北京市”等。由实体发出的边表示了所述实体与所述实体的相关其它实体之间的关联关系。比如,刘德华的妻子是朱丽倩。在知识图谱中“刘德华”、“朱丽倩”都是实体,两个实体存在一条边,边表示一种夫妻关系,边的名称可以为“妻子”。

三元组:三元组是知识图谱中最小的结构单元,其形式为:(主语,属性,宾语)。比如:三元组(刘德华,妻子,朱丽倩),(刘德华,出生地,香港),其中,“妻子”“出生地”都是表示属性,属性前面的词语表示主语,后面的词语表示宾语。此外,也可以称宾语为主语的属性值,如,朱丽倩就是主语刘德华的“妻子”属性的属性值。在表示人物关系的场景中,三元组的具体形式为(人物1,关系,人物2),其中人物1和人物2均对应实体,其中主语指向头实体,宾语指向尾实体。

为了训练人物关系识别模型,需要构建大量的训练语料。传统的基于人工标注获取训练语料的方式耗时费力,因此在三元组的基础上,现有技术中通常基于简单的远监督回标策略获取用于训练人物关系识别模型的训练语料。远监督回标策略的基本思想是指利用知识图谱中已知的三元组数据与语料进行匹配,如果某一条语料中同时包含三元组中的主语和宾语,则所述语料与所述三元组即可构成一条训练样本,而各个训练样本的集合即为训练预料。现有技术使用基于远监督回标策略得到的训练预料训练人物关系识别模型即可使得人物关系识别模型具备识别未知语料中体现的人物关系的能力。

例如(刘德华,妻子,朱丽倩)是知识图谱中的一条三元组,利用该三元组可以匹配到三条语料“刘德华的老婆是朱丽倩”、“刘德华与妻子朱丽倩于8号返港”以及“刘德华与朱丽倩一同返港”,则这三条语料均可以分别作为所述三元组的回标数据,与所述三元组构建出三条训练样本。具体地,若训练样本命中三元组的中的三个元素时,训练样本被回标为正样本。比如“刘德华与妻子朱丽倩于8号返港”被回标为正样本,而“刘德华与朱丽倩一同返港”则不会被回标为正样本。进一步地,还可以对于三元素中的属性一项进行扩展,寻找其等价属性,并将同时命中三元素对应的主语、宾语以及等价属性的语料回标为正样本,妻子相关的等价属性有:“夫人”,“老婆”,“配偶”等等价的关键词,因此“刘德华的老婆是朱丽倩”也可以被回标为正样本。

本发明实施例认为人物关系存在可逆性,所述可逆性是指对于一个表征人物关系的三元组(A,关系,B)必定存在与其可逆的另一人物关系三元组(B,反关系,A)。利用现有技术中的远监督回标策略虽然可以提高训练语料的质量,但是并未考虑到人物关系的可逆性,由此导致对带有人物关系的语料无法实现很好的召回,从而降低了训练语料的质量。比如对于人物关系三元组(刘德华,妻子,朱丽倩),其可逆人物关系三元组为(朱丽倩,老公,刘德华),而妻子等价属性有:“夫人”,“老婆”,“配偶”,回标时,只有当语料同时出现“刘德华”,“朱丽倩”,“妻子”或“妻子”的等价属性时,才会回标成正样本,所以如果句子是“朱丽倩的老公是刘德华”就不会被回标为正样本,但是事实上“朱丽倩的老公是刘德华”因为与可逆人物关系三元组相符,是应该被标注为正样本的。更有甚者,在远程回标的时候,会随机抽取包含头实体和尾实体但是没有属性的句子作为负样本,则“朱丽倩的老公是刘德华”甚至很有可能被打上负样本标签。

基于上述分析可知,基于现有技术中的远程回标策略获取训练语料可能产生下述问题:

(1)无法对正样本进行高质量的召回。

(2)将正样本错误回标为负样本。

有鉴于此,本发明实施例提供一种人物关系识别模型训练方法,其能够在充分考虑人物关系可逆性的基础上从人物关系三元组及其对应的可逆人物关系三元组两方面构建训练语料,从而降低训练语料中正样本被错误回标为负样本的概率,并提升正样本的召回率,达到了提升训练语料质量的目的,进而能够基于高质量的训练语料训练出高质量的人物关系识别模型。

首先,本发明实施例公开了在一个可行的实施例中所述供一种人物关系识别模型训练方法的实施环境。

参见图1,该实施环境包括:至少一个客户端01和服务器03。

客户端01可以包括:智能手机、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载终端等类型的实体设备,也可以包括运行于实体设备中的软体,例如具有人物关系识别功能的应用程序,或基于人物关系识别提供其它服务的应用程序等。所述应用程序可以涵盖信息提取、问答系统、句法分析、机器翻译等应用领域。所述客户端01可以基于浏览器/服务器模式(Browser/Server,B/S)或客户端/服务器模式(Client/Server,C/S)与所述服务器03通信连接。

所述客户端01可以产生语料,并将所述语料传输至服务器03以便于所述服务器03基于所述语料更新语料库。

所述服务器03可以获取人物关系三元组集,并访问语料库以得到大量语料;基于所述人物关系三元组集中的各个人物关系三元组及所述人物关系三元组对应的可逆人物关系三元组,为所述语料库中的多个语料进行回标,基于回标结果构建训练语料,基于所述训练语料训练预设的机器学习模型以得到人物关系识别模型。

所述服务器03还可以基于所述人物关系识别模型为客户端01提供人物关系识别服务以及与所述人物关系识别服务相关的其它服务。在提供人物关系识别服务以及与所述人物关系识别服务相关的其它服务的过程中,所述服务器03还可以收集识别出的新的人物关系,进而补充更新人物关系三元组集。还可以基于识别出的新的人物关系回标更多训练语料,将新回标出的训练语料输入人物关系识别模型以实现人物识别模型的优化。

所述服务器03可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。

请参考图2,其示出了一种人物关系识别模型训练方法的流程图,所述方法可以以图1所述的实施环境中的服务器为执行主体实施,所述方法可以包括:

S101.获取人物关系三元组集,所述人物关系三元组集中的每个人物关系三元组均包括头实体、尾实体以及表征所述头实体与尾实体之间关系的属性。

具体地,所述获取人物关系三元组集,如图3所示,可以包括:

S1011.访问知识图谱,抽取类型为人物的实体以得到目标头实体集。

S1013.遍历所述目标头实体集中每个目标头实体对应的属性列表,提取所述属性列表中表征人物关系的属性以得到目标头实体对应的目标属性集。

S1015.根据各个目标头实体和与所述目标头实体对应的目标属性集中的各个目标属性,得到与目标头实体具有目标属性关系的目标尾实体。

S1017.根据具有对应关系目标头实体、目标属性和目标尾实体构建人物关系三元组,以得到人物关系三元组集。

S103.获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,所述第一等价关联属性表中的等价关联属性与所述人物关系三元组中的属性具有相同含义。

在一个可行的实施例中,所述获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表如图4所示,可以包括:

S1031.提取所述人物关系三元组中表征所述头实体与尾实体之间关系的属性。

S1033.获取所述头实体与尾实体之间关系的属性的至少一个等价关键词,根据所述等价关键词构建第一等价关联属性表。

在所述可行的实施例中使用了同义词扩展的方式构建第一等价关联属性表,等价关键词为与表征所述头实体与尾实体之间关系的属性等价的同义词,具体地,可以通过爬取“百度中文”、“谷歌翻译”等类似的词语解释的网站来获取。

比如,若人物关系三元组中表征所述头实体与尾实体之间关系的属性为“老婆”,则等价关键词可以为“妻子”、“媳妇”、“爱人”等。

在另一个可行的实施例中,所述获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表如图5所示,可以包括:

S1032.获取所述人物关系三元组中表征所述头实体与尾实体之间关系的属性对应的第一词向量。

S1034.获取预设属性集,计算所述预设属性集中各个属性对应的第二词向量。

S1036.在所述预设属性集中提取至少一个等价关联属性,所述等价关联属性对应的第二词向量与所述第一词向量的余弦相似度大于预设阈值。

S1038.基于所述至少一个等价关联属性得到第一等价关联属性表。

本发明实施例中提供了两种获取第一等价关联属性表的技术方案,其可以择一或者联合使用,本发明实施例并不限定其它的获取第一等价关联属性表的技术方案。

S105.获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表,所述第二等价关联属性表中的等价关联属性与所述可逆人物关系三元组中的属性具有相同含义。

具体地,所述可逆人物关系三元组中的头实体即为所述人物关系三元组中的尾实体,所述可逆人物关系三元组中的尾实体即为所述人物关系三元组中的头实体,所述可逆人物三元组中的属性与所述人物关系三元组中属性具有相反含义。比如,人物关系三元组(王菲,前妻,李亚鹏)对应的可逆人物关系三元组(李亚鹏,前夫,王菲)。

在一个可行的实施例中,所述获取所述可逆人物关系三元组对应的第二等价关联属性表的方法可以参考获取所述人物关系三元组对应的第一等价关联属性表的方法。在另一个可行的实施例中,可以直接获取与所述人物关系三元组对应的第一等价关联属性表中的各个属性的含义相反的属性,以构成所述可逆人物关系三元组对应的第二等价关联属性表。

S107.访问语料库,根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料。

具体地,可以根据第一判据标记正样本语料,根据第二判据标记负样本语料。所述第一判据可以包括语料符合同时命中人物关系三元组中的三个元素、命中人物关系三元组中的头实体和尾实体并且命中所述第一等价关联属性表中的属性、同时命中可逆人物关系三元组中的三个元素、命中可逆人物关系三元组中的头实体和尾实体并且命中所述第二等价关联属性表中的属性中的至少一种情况。

具体地,所述正样本语料所命中的属性即为所述正样本语料的标签,所述属性属于人物关系三元组、可逆人物关系三元组、第一等价关联属性表或第二等价关联属性表。

本发明实施例还可以进一步公开第二判据,符合第二判据的语料被标记为负样本语料。

在一个可行的实施例中,所述第二判据可以为语料只命中人物关系三元组中的头实体和尾实体。即若语料中只包括了头实体和尾实体,但是并没有包括表征头实体和尾实体之间属性关系的字段,则所述语料被标记为负样本语料。比如语料中包含了人物关系三元组(A,属性,B)中的实体A和B,但是不包含“属性”,这种语料则被标注为负样本,可以代表那种没有表征头实体和尾实体之间属性关系的文本。

在另一个可行的实施例中,所述第二判据可以为语料中只包含人物关系三元组中的属性,所述语料还命中所述人物关系三元组中头实体或尾实体,并且还命中不属于所述人物关系三元组的其它人物实体。即语料中包含某个人物关系三元组(A,属性,B)中的“属性”,并且还同时命中了所述人物关系三元组中实体A或B。此时,如果这个语料还存在其他人物实体C,同时不包含其他属性关键词,则该语料则被标注为负样本。这种负样本可以代表具有属性关键词,但是不表征两个实体关系的文本。

上述两种实施例中的第二判据可以择一或联合使用,本发明实施例并不限定其它的获取负样本语料的技术方案。

S109.根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。

本发明实施例公开的一种人物关系识别模型训练方法可以对于已有的人物关系三元组进行扩展以得到第一关联等价关联属性表、可逆人物关系三元组以及第二等价关联属性表,并根据扩展后得到人物关系三元组、可逆人物关系三元组、第一等价关联属性表和第二等价关联属性表作为回标基础,在已有的语料库中提取正样本语料和负样本语料,从而减少现有技术中仅仅依赖已有的人物关系三元组进行回标产生的正样本欠召回和将正样本错召回为负样本的情况。进一步地,本发明实施例还通过构造两种不同的负样本提升了负样本的多样性,从而全面提升了正样本和负样本的质量,进而提升了人物关系识别模型的准度。

进一步地,本发明实施例对于现有技术中训练语料训练得到的人物关系识别模型性能进行了测试,如图6所示,其示出了并未扩展可逆人物关系三元组的情况下构建训练语料训练得到的人物关系识别模型的性能示意图,显而易见,“父母”,“儿女”的F1值很低,F1值可以根据公式

Figure BDA0002193233360000121

计算,其中,precision,recall为精确率和召回率。如图7所示,其示出了并未将人物关系三元组及其对应可逆人物关系三元组回标的语料一并作为正样本训练得到的人物关系识别模型的性能示意图,显而易见,其无法准确预测语料中的人物关系的顺序,即无法确定语料中哪个实体为头实体,那个实体为尾实体。而本发明实施例可以精准地克服上述问题,不仅可以准确识别语料中的各个实体并且能够精准的预测各个实体之间的人物关系。

本发明实施例还公开一种人物关系识别模型训练装置,如图8所示,所述装置包括:

人物关系三元组集获取模块201,用于获取人物关系三元组集,所述人物关系三元组集中的每个人物关系三元组均包括头实体、尾实体以及表征所述头实体与尾实体之间关系的属性;

第一等价关联属性表获取模块203,用于获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,所述第一等价关联属性表中的等价关联属性与所述人物关系三元组中的属性具有相同含义;

可逆内容获取模块205,用于获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表,所述第二等价关联属性表中的等价关联属性与所述可逆人物关系三元组中的属性具有相同含义;

样本语料获取模块207,用于访问语料库,根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料;

训练模块209,用于根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。

进一步地,如图9所示,所述人物关系三元组集获取模块201包括:

目标头实体集抽取单元2011,用于访问知识图谱,抽取类型为人物的实体以得到目标头实体集;

目标属性集提取单元2013,用于遍历所述目标头实体集中每个目标头实体对应的属性列表,提取所述属性列表中表征人物关系的属性以得到目标头实体对应的目标属性集;

目标尾实体获取单元2015,用于根据各个目标头实体和与所述目标头实体对应的目标属性集中的各个目标属性,得到与目标头实体具有目标属性关系的目标尾实体;

人物关系三元组生成单元2017,用于根据具有对应关系目标头实体、目标属性和目标尾实体构建人物关系三元组,以得到人物关系三元组集。

具体地,本发明实施例所述一种人物关系识别模型训练装置与方法实施例均基于相同发明构思。详情请参见方法实施例,在此不再赘述。

本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令。所述指令可以适于由处理器加载并执行本发明实施例所述的一种人物关系识别模型训练方法,所述方法至少包括下述步骤:

一种人物关系识别模型训练方法,所述方法包括:

获取人物关系三元组集,所述人物关系三元组集中的每个人物关系三元组均包括头实体、尾实体以及表征所述头实体与尾实体之间关系的属性;

获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,所述第一等价关联属性表中的等价关联属性与所述人物关系三元组中的属性具有相同含义;

获取人物关系三元组集中的各个人物关系三元组对应的可逆人物关系三元组,以及获取所述可逆人物关系三元组对应的第二等价关联属性表,所述第二等价关联属性表中的等价关联属性与所述可逆人物关系三元组中的属性具有相同含义;

访问语料库,根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料;

根据所述正样本语料和负样本语料训练预设机器学习模型以得到人物关系识别模型。

在一个优选的实施例中,所述获取人物关系三元组集,包括,包括:

访问知识图谱,抽取类型为人物的实体以得到目标头实体集;

遍历所述目标头实体集中每个目标头实体对应的属性列表,提取所述属性列表中表征人物关系的属性以得到目标头实体对应的目标属性集;

根据各个目标头实体和与所述目标头实体对应的目标属性集中的各个目标属性,得到与目标头实体具有目标属性关系的目标尾实体;

根据具有对应关系目标头实体、目标属性和目标尾实体构建人物关系三元组,以得到人物关系三元组集。

在一个优选的实施例中,所述获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,包括:

提取所述人物关系三元组中表征所述头实体与尾实体之间关系的属性;

获取所述头实体与尾实体之间关系的属性的至少一个等价关键词,根据所述等价关键词构建第一等价关联属性表。

在一个优选的实施例中,所述获取人物关系三元组集中的各个人物关系三元组对应的第一等价关联属性表,包括:

获取所述人物关系三元组中表征所述头实体与尾实体之间关系的属性对应的第一词向量;

获取预设属性集,计算所述预设属性集中各个属性对应的第二词向量;

在所述预设属性集中提取至少一个等价关联属性,所述等价关联属性对应的第二词向量与所述第一词向量的余弦相似度大于预设阈值;

基于所述至少一个等价关联属性得到第一等价关联属性表。

在一个优选的实施例中,所述根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料,包括根据第一判据标记正样本语料;

所述据第一判据包括语料符合同时命中人物关系三元组中的三个元素、命中人物关系三元组中的头实体和尾实体并且命中所述第一等价关联属性表中的属性、同时命中可逆人物关系三元组中的三个元素、命中可逆人物关系三元组中的头实体和尾实体并且命中所述第二等价关联属性表中的属性中的至少一种情况。

一个优选的实施例中,所述根据各个人物关系三元组、人物关系三元组对应的第一等价关联属性表、人物关系三元组对应的可逆人物关系三元组以及所述可逆人物关系三元组对应的第二等价关联属性表,在所述语料库中标记正样本语料和负样本语料,包括根据第二判据标记负样本语料;

所述第二判据包括语料只命中人物关系三元组中的头实体和尾实体,

和/或,

语料中只包含人物关系三元组中的属性,所述语料还命中所述人物关系三元组中头实体或尾实体,并且还命中不属于所述人物关系三元组的其它人物实体。

进一步地,图10示出了一种用于实现本发明实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本发明实施例所提供的装置或系统。如图10所示,设备10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备10还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中所述的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种人物关系识别模型训练方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语料标注系统及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!