一种实体对齐的主动学习框架方法

文档序号:1964430 发布日期:2021-12-14 浏览:18次 >En<

阅读说明:本技术 一种实体对齐的主动学习框架方法 (Active learning framework method for entity alignment ) 是由 刘宇 张鑫 赵哲焕 刘学壮 陈鹏 于 2021-09-17 设计创作,主要内容包括:本发明提出一种实体对齐的主动学习框架方法,从缩小实体对齐的范围出发,考虑生产环境中缺少标签数据的问题,使用多角度的两个学习引擎相互对抗和增强的方式,对模型进行训练,以完成实体对齐任务。该方法主要包括:实体分块、训练集生成、主动学习过程和候选集生成与预测。主动学习过程中包含对实体的不同侧重的模型,可以分别考虑实体的属性和关系。同时对无标签数据的指标难以测量问题,提出使用继续训练这一方式进行补足,从而满足实体对齐模型在不损失性能的同时在无标签数据的情况下的应用。(The invention provides an active learning framework method for entity alignment, which is used for training a model by using a mode that two learning engines at multiple angles resist each other and are enhanced from the viewpoint of reducing the range of entity alignment and considering the problem of label data lack in a production environment so as to complete an entity alignment task. The method mainly comprises the following steps: the method comprises the steps of entity blocking, training set generation, active learning process and candidate set generation and prediction. The active learning process includes models of different emphasis on entities, and attributes and relationships of the entities can be considered respectively. Meanwhile, for the problem that indexes of the label-free data are difficult to measure, the method of continuous training is provided for complementing, so that the application of the entity alignment model under the condition of the label-free data is met without losing the performance.)

一种实体对齐的主动学习框架方法

技术领域

本发明属于知识图谱技术领域,更具体地说,涉及基于主动学习原理的实体对齐方法。

背景技术

近年来,知识图谱在越来越多的领域上得以应用,而知识图谱的构建与完善需要多源知识的融入。实体对齐是多源数据融合中的重要过程。当数据来自于不同的知识库体系,需要分辨其描述的是否为同一个实体,将相关信息融合,最终生成目标知识图谱中唯一的实体。这一般会被认为是一个求最相似问题或判断两个实体是否是同一个的二分类问题,实体名称、实体携带的属性以及其拓扑关系信息等,都可以作为有用特征。同时,通过规则或其它方法限制实体数量,缩小匹配的实体范围。

主动学习是机器学习的子领域,也称为查询学习、最优实验设计。在整个训练过程中有着人工参与的环节,通过查询策略筛选出合适的数据交给人工进行标注。主动学习从未标注样本集中选择部分样本,标注后补充到已标注样本集中来继续训练模型,降低人工标注的代价。通过标注少量的数据使得模型的性能能够与全标签数据训练的模型性能持平设置更优,于是便可以通过主动学习的方式来减少数据标注的成本,又可以保留相关模型的学习能力。

而现有的实体对齐研究中,很多方法要么只使用实体的属性,要么只使用实体的拓扑关系,相关研究人员也注意到只使用一方面信息无法完全表达出实体的含义,因此开始使用实体的多方面的信息。但这些方法都需要大量的标签数据依赖训练模型,因此这些研究成果在实际应用中具有很大的局限和不足。

发明内容

为了克服上述现有技术的缺点,本发明以解决实际环境中缺少标签数据,而难以把实体对齐模型工程应用为出发点,提供了实体对齐的主动学习框架,设置两个独立模型,这两个模型都是判断两个实体是否对齐的二元分类器,它们可以是基于任何机器学习模型和启发式算法。两个模型通过主动学习过程完成交互和增强,同时考虑协同训练的方式,增加训练数据。

为了达到上述目的,本发明提供了一种实体对齐的主动学习框架方法,包括如下步骤:

S 1、实体分块:

对输入的实体集先根据实体的相关信息,对实体进行一个粗略的匹配;从所有的实体对中,筛选出潜在匹配的实体对作为候选项;对此设置分块函数,每个分块函数确定一块,块内保存实体对,所述实体对可能在不同的块中同时存在;

S2、训练集生成:

根据实体分块的结果,从每个块中选择一部分实体对,以及通过随机匹配的方式生成一部分实体对,然后这两部分的实体对共同组成要输入到主动学习过程中的训练集,即无标签数据集;

S3、主动学习过程:

根据不同的场景,设置不同的学习引擎,即侧重不同的分类器模型;当实体的关系信息缺失或者稀疏时,设置两个基于属性的模型作为学习引擎。当实体的关系或者属性信息都比较完善时,则设置基于属性的模型和基于关系的模型为学习引擎;

然后将学习引擎对训练集的预测结果中最为冲突的一些实体对交由专家判断是否加入到标注样本集。由于学习引擎需要较多的标注数据,如果只通过人工标注,标注数据的数量较少;因此根据协同训练的思想,在基于属性的模型和基于关系的模型预测的结果中,将预测一致的实体对直接作为标注数据加入标注样本集;最后再根据标注样本集训练学习引擎和更新训练集。

S4、候选集生成与预测:

根据步骤S1实体的分块,以及步骤S3中得到标注样本集,通过分支定界算法,以最大正例覆盖范围和最小数据量为目标,确定哪一块为最终要预测的候选集;然后让两个学习引擎都对候选集进行预测,在把两个结果进行合并,得到最终的预测结果;

S5、专家对实体对齐结果进行审核,如对结果不满意,返回到S1步骤主动学习过程中,重新S1~S4步骤,继续训练,学习引擎加载上次训练停止时的参数,训练集也与停止时保持一致;在标注了一些数据后,学习引擎得到新的学习数据,对新的候选集进行预测,然后专家再审核;循环这样一个过程,直至结果满意。

优选方式下,步骤S1所述分块函数通过Hash函数、Canopy聚类、TF-IDF、编辑距离Levenshtein或Red-Blue Set Cover算法实现。

本发明的有益效果:

与现有技术相比,本发明能够在无标签数据的情况进行实体对齐,同时学习引擎都是可以替换的,不同的场景使用不同的模型即可。本发明的方法可以应用于实体对齐相关的各个领域。

附图说明

图1为本发明实体对齐的主动学习框架的整体流程图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示,本发明一种实体对齐的主动学习框架,其包括步骤:

(1)实体分块:

对输入的实体集先根据实体的相关信息,对实体进行一个粗略的匹配。从所有的实体对中,筛选出潜在匹配的实体对作为候选项。通过分块来有效降低计算量,如不进行分块,因为实体是要进行两两比对来发现两个实体是否能够对齐的,因此时间复杂度上会达到O(n2)。通过设置分块,来降低要计算的实体对数量。对此设置分块函数,分块函数可以通过Hash函数、Canopy聚类、Red-Blue Set Cover算法等方式来实现。每个分块函数确定一块,块内保存实体对,这些实体对可能在不同的块中同时存在。

(2)训练集生成:

根据实体分块的结果,从每个块中选择一部分实体对,以及通过随机匹配的方式生成一部分实体对,然后这两部分的实体对共同组成要输入到主动学习过程中的训练集,即无标签数据集。通过随机匹配来补充块内缺失的实体对,让训练数据更具多样性。同时保证训练集的实体对无重复。

(3)主动学习过程:

根据不同的场景,设置不同的学习引擎,即侧重不同的分类器模型;当实体的关系信息缺失或者稀疏时,设置两个基于属性的模型作为学习引擎。当实体的关系或者属性信息都比较完善时,则设置基于属性的模型和基于关系的模型为学习引擎;

然后将学习引擎对训练集的预测结果中最为冲突的一些实体对交由专家判断是否加入到标注样本集。由于学习引擎需要较多的标注数据,如果只通过人工标注,标注数据的数量较少;因此根据协同训练的思想,在基于属性的模型和基于关系的模型预测的结果中,将预测一致的实体对直接作为标注数据加入标注样本集;最后再根据标注样本集训练学习引擎和更新训练集。

(4)候选集生成与预测:

根据步骤(1)实体的分块,以及步骤(3)中得到标注样本集,通过分支定界算法,以最大正例覆盖范围和最小数据量为目标,确定哪一块为最终要预测的候选集。然后让两个学习引擎都对候选集进行预测,在把两个结果进行合并,得到最终的预测结果。

因为在实际的生产环境中缺少标签数据,无法通过相应的指标判断预测结果的好坏,因此需要提供继续训练功能,来对学习引擎能够继续训练,从而保证得到一个较优的结果;具体说,需要专家在对实体对齐结果进行审核,如对结果不满意,可返回到主动学习过程中,继续训练,学习引擎加载上次训练停止时的参数,训练集也与停止时保持一致。在标注了一些数据后,学习引擎得到新的学习数据,对新的候选集进行预测,然后专家再审核。循环这样一个过程,直至结果满意。

本发明提供一种实体对齐的主动学习框架,从缩小实体对齐的范围出发,然后考虑生产环境中缺少标签数据的问题,使用多角度的两个学习引擎相互对抗和增强的方式,来进行模型的训练,以完成实体对齐任务。该方法主要包括:实体分块、训练集生成、主动学习过程和候选集生成与预测。主动学习过程中包含对实体的不同侧重的模型,可以分别考虑实体的属性和关系。同时对无标签数据的指标难以测量问题,提出使用继续训练这一方式进行补足,从而满足实体对齐模型在无标签数据的情况下的应用,又可保持模型的性能。

图1给出本发明整体流程图,主要过程描述如下:

首先把实体根据其属性进行分块,分块函数采取了Hash函数、TF-IDF、编辑距离Levenshtein以及Canopy聚类进行分块。Hash函数通过映射,例如:字符串的前n个字符、n-grams、字符串中的数字等方式提取出Key,这样具有相同的key的实体会分到一块内。TF-IDF也是对关键字的提取,通过评估某个字符或者词对一个文档的重要程度,在得到关键词后,通过Canopy距离完成块的聚集。编辑距离Levenshtein是计算一个字符串转换为另一字符串需要的最少编辑次数,在得到两个字符串的编辑距离后,同样通过Canopy距离完成块的聚集。Canopy聚类是一种快速聚类的方法,在给定的对象集合中,随机选取一个对象,以该对象为中心创建一个Canopy,然后遍历该组对象的其余部分,如果当前对象与中心点的距离小于T1,则将该对象添加到这个中心点所在的Canopy中,如果距离小于T2则在集合中删除该对象。最后会得到一组Canopy,每个Canopy包含至少一个对象,而每个对象可能在多个Canopy中,通过指定T1和T2来作为阈值,可以得到一个块。这些分块函数设置可处理的数据类型,即需要对实体的属性指定其数据类型。

其中,Hash函数,即散列函数,是把任意长度的输入(又叫做预映射pre-image)通过散列算法变换成固定长度的输出,该输出就是散列值。TF-IDF,TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。Levenshtein,又称编辑距离,一种相似度算法,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。由俄国科学家Levenshtein提出。Canopy聚类,一种主流聚类算法。n-grams,一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。

如学习引擎是使用的深度学习模型,即要对实体生成初始化向量,可以通过Bert或者使用预训练的词向量等方式得到实体的初始化表达。然后通过分开和随机匹配得到了训练集,开始主动学习。

Bert,Bert(Bidirectional Encoder Representation from Transformers),是一个预训练的语言表征模型,可参见文献,Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova.BERT:Pre-training of Deep Bidirectional Transformers forLanguage Understanding[J].2018.

学习引擎可以利用任何二元分类的算法,因此以逻辑回归分类器和RDGCN为例,分别作为基于属性的模型和基于关系的模型。在考虑使用关系模型时要加载实体的关系信息,为此要构建一个图结构。通过复制一些实体来构成初始化数据,让学习引擎完成初始化。然后学习引擎分别对训练集进行预测,从预测结果中,选择各自较高分数的正例和负例然后取交集,加入到标注样本集中。然后再从预测结果中选择预测结果相差最大的一些实体对交由专家判断,专家标注后加入到标注样本集中。

RDGCN,一种卷积双向网络,可参见文献,Wu Y,Liu X,Feng Y,et al.Relation-Aware Entity Alignment for Heterogeneous Knowledge Graphs[C]//Twenty-EighthInternational Joint Conference on Artificial Intelligence IJCAI-19.2019。

通过标注样本集训练学习引擎和更新训练集,学习引擎继续预测训练集,通过一致性判断和人工标注再得到新的标注样本。重复这个过程,直至专家主观判定停止训练。

停止标注后,根据分支定界算法和标注样本集,以最大正例覆盖范围和最小数据量为目标,选择出一块或者几块作为候选集,让学习引擎进行预测。在预测结果上,为保证准确率让两个预测结果取交集,生成最终的实体对齐结果。

专家在对实体对齐结果进行审核,如对结果不满意,可返回到主动学习过程中,继续训练,学习引擎加载上次训练停止时的参数,训练集也与停止时保持一致。在标注了一些数据后,学习引擎得到新的学习数据,对新的候选集进行预测,然后专家再审核。循环这样一个过程,直至结果满意。

实施例

在本实施例中,在GTX 1080 8G显卡上,采用深度学习框架Tensorflow。

数据集:实验评估是在经过处理后的公开数据集DBP15K上进行的。该数据集包括两个实体集,分别包括19388和19572个实体,共有15000对实体是对齐实体。

为证明两个学习引擎的有效性,通过在DBP15K上测试Precision指标,结果如表1所示。

表1

Method Precision
LR 35.02%
RDGCN 35.51%
本发明方法 71.86%

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

8页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于联邦学习的模型训练方法及相关设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!