一种基于图卷积网络的远程监督关系抽取方法

文档序号:852478 发布日期:2021-03-16 浏览:6次 >En<

阅读说明:本技术 一种基于图卷积网络的远程监督关系抽取方法 (Remote supervision relation extraction method based on graph convolution network ) 是由 申时荣 漆桂林 段尚甫 于 2020-09-16 设计创作,主要内容包括:本专利公开了一种远程监督关系抽取方法,主要用于解决远程监督关系抽取中信息不充分和监督信息存在噪声的问题。本专利构建了引入多源额外信息的异构图,并以图卷积网络的方式进行建模。本专利首先对所有的信息进行编码,包括待抽取的文本、知识图谱中的实体信息、启发式的文本路径等。然后,本专利把每种信息构建成一个节点,将信息之间的关联性表示为边。接着,通过图卷积网络对所有节点进行特征抽取,然后通过注意力机制对噪声信息进行过滤。最后,通过监督学习的方式对整个框架中的参数进行更新,最后学习到一种灵活性高、表达能力强的关系抽取模型。(The patent discloses a remote supervision relation extraction method, which is mainly used for solving the problems of insufficient information and noise of supervision information in remote supervision relation extraction. The method constructs a heteromorphic graph introducing multi-source additional information and carries out modeling in a graph convolution network mode. The patent firstly encodes all information, including texts to be extracted, entity information in a knowledge graph, heuristic text paths and the like. The patent then constructs each type of information as a node, representing the associations between the information as edges. Then, feature extraction is carried out on all nodes through a graph convolution network, and then noise information is filtered through an attention mechanism. And finally, updating the parameters in the whole frame in a supervised learning mode, and finally learning a relation extraction model with high flexibility and strong expression capability.)

一种基于图卷积网络的远程监督关系抽取方法

技术领域

本发明涉及一种基于图卷积网络的远程监督关系抽取方法,属于信息抽取技术领域。

背景技术

随着计算机和互联网的快速发展和普及,人类创造的数据量呈现高速增长趋势。在这个信息爆炸的时代,如何快速地分析和处理信息,从文本中抽取出有价值的信息成为了研究的热点和急需解决的问题。为了应对这样的挑战,迫切需要开发出一批自动化的信息处理工具,自动、快速地从海量的信息中提取出有价值的知识。在这样的背景下,信息抽取(Information Extraction,IE)技术成为了学术界和工业界研究的热点内容,信息抽取的目的是从半结构化和非结构化的文本,以及结构化的数据中抽取出特定、有价值的信息,并处理成计算机易于存储与计算的结构化数据,信息抽取包括实体识别(EntityRecognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。

作为信息抽取的重要任务之一,关系抽取旨在从文本中抽取出两个实体之间包含的语义关系,在海量数据处理、知识库的自动构建、自动问答等领域上有着广泛的应用价值;如通过关系抽取技术自动处理大规模Web文本构建的大规模知识库系统,这些系统可以应用于搜索引擎优化,如Google构建了超过16亿事实数据的Knowledge Vault应用于对搜索结果的改善,提高了用户体验效果。同时,关系抽取技术在自然语言领域中的其他任务,如实体链接、自动摘要、情感分析等任务中提供基础设施。

使用已有知识库来自动化生成关系抽取的数据这一思想,最早由Craven andKumlien提出,通过利用一个蛋白质相关的知识库来抽取生物相关的关系。Mintz在前任基础上正式确认了远程监督的假设。根据解决问题角度的不同,我们将远程监督关系抽取的方法分为三个范畴,基于噪声过滤的方法,基于嵌入的方法以及引入额外信息的方法。基于噪声过滤的方法主要解决远程监督固有的问题,即由于知识库监督信息中的噪声问题。基于嵌入的方法主要是构建向量表示来解决关系抽取问题,如深度学习的卷积神经网络利用预先训练好的词的向量表示来对文本进行编码。引入额外信息的方法侧重于探索额外的信息来提升关系抽取,包括引入人工标注的信息,或者实体中包含的额外信息,如实体类别等。值得注意的是,以上三种类型的方式并不互斥,有许多方法通过引入额外信息来过滤噪声。

发明内容

本发明正是针对现有技术中存在的技术问题,提供一种基于图卷积网络的远程监督关系抽取方法,通过引入额外的信息,构建出以实体为中心的图谱,然后利用图卷积网络来挖掘图中节点的高阶特征,最后通过注意力机制来抑制引入信息中的噪声和筛选有用的特征。

本方案公开了一种基于图卷积网络的远程监督关系抽取方法,主要用于远程监督的关系抽取领域。本方案提供了一种监督学习的方法,能够从文本中挖掘出<实体h,关系,实体t>的三元组。对于每一段文本,首先通过实体识别工具找到文本中的实体h和实体t,然后通过将实体对齐到知识图谱中,或者实体h和t在知识图谱中的信息,包括实体的类别、实体的上下文等。同时,对于大量的远程监督的数据集,也可以挖掘每个实体的共现关系,找到多个实体之间的一条路径。通过将上述的信息构建为图,然后通过图卷积网络的框架,获得文本中实体对之间的关系的概率分布。

为了实现上述目的,本发明的技术方案如下:一种基于图卷积网络的远程监督关系抽取方法,具体步骤如下:

步骤1)预处理阶段准备所需要的信息。包括文本信息的处理,实体到知识图谱的链接,上下文的发掘。

步骤2)构建图,并且将图中每个节点编码为统一维度的分布式向量表示。

步骤3)运行图卷积网络,对编码后的信息在同一个空间进行卷积操作,将图中有边相连的信息以卷积的方式进行进一步的抽取。

步骤4)对步骤3)中的信息通过注意力机制的方式进行特征压缩和过滤。将过滤后的特征映射到预先定义好的关系集上,得到该文本的概率分布。

步骤5)运行大量的数据,通过mini-batch梯度下降的方式来训练网络,更新参数。

其中,步骤1)中需要通过不同的方式来获得额外的信息。

1-1)首先对文本中的实体h和实体t,分别获得对应的实体ID,然后在知识图谱中,通过ID对齐到特定的实体,然后获得h和t的所有关联的边和属性。包括实体的类别、实体的描述、所有与该实体相关的三元组。

1-2)然后对文本进行选择。首先遍历所有的数据集,每一条文本都包含两个实体,以及两者之间的关系。对于每一个实体,都找到所有包含该实体的文本。通过这样的方式,找到实体h和实体t在文本中的路径,实体h->实体e->实体t。

1-3)对包含实体对的文本进行分词,词性标注和依存句法分析。在依存句法分析产生的依存句法树中,找到两个实体之间最短的联通路。这个最短联通路上的词和边将作为文本中实体对的最短依存路径。

1-4)预训练词向量模型。预先使用GloVe或者word2vec等方式训练好数据集中的词向量。如果没有预先训练,可以在本专利的方法中与模型参数保持同步训练。但效果而言,预先在大规模预料上训练的词向量能够保存更多的语义和语法信息。

1-5)知识图谱表示学习模型。同词向量模型一致,该模型是保存了所有知识图谱中的实体的向量模型。

1-6)遍历数据集中的所有句子,识别出文本中所有的实体,找到实体对应的实体ID。然后遍历知识图谱的备份(或者通过知识图谱提供的查询API),对训练数据中涉及的实体,以及后续模型的需求,备份这些实体的类别和所有相关的实体。

1-7)遍历数据集中的句子,识别所有的实体,然后通过HashMap<String,Set>结构存储每个实体和在整体数据集中,和该实体出现在同一个句子中的其余实体。然后第二次遍历数据集中的句子,对每个句子的实体h和实体t,分别找到HashMap中两个实体的共现实体集,取交集。这样就得到若干h到t的路径;

步骤2)将相关的额外信息通过边相连,构建图,并且为每个节点编码具有同一纬度的分布式向量表示。其包含以下步骤:

2-1)预训练一个TransE模型来获得知识图谱中所有实体的向量化表示。通过TransE可以得到每个实体的向量化表达。知识图谱可以表示为三元组的集合,每个三元组表示为<实体h,关系r,实体t>。知识表示就是一种将知识图谱中所有实体和关系都映射到同一向量空间中的向量。TransE基于这样一个假设:如果将一个三元组的h,r,t分别表示为向量那么这三者之间近似满足

2-2)实体类别表示。实体类别的数量为40。首先随机初始化一个参数矩阵,将输入的实体类别映射到实数的分布式表达上。

2-3)最短依存路径节点表示。对于实体相关的所有文本的最短依存路径,都将加入到整体的图结构中,这部分信息均以实体h作为头部节点,实体e作为尾部节点,之间的节点按照最短依存路径中的顺序依次相连。两个实体中的节点使用预训练词嵌入表示其特征。

2-4)文本路径编码。文本路径同样表示为序列。对于文本s来说,其中有两个实体h和t,通过步骤1-b)可以找到若干条h->e1->e2..->t的路径。路径上任意两个节点(实体)之间,都存在一条文本同时包含两个实体。这样将实体之间的文本表示也作为序列的一部分,同样适用Bi-LSTM进行编码。

2-5)实体上下文编码。实体的上下文主要从每个实体周围的上下文实体来表示该实体。同样是通过步骤1-2)得到所有与该实体出现在一句话中的其余实体,然后用这些实体在知识图谱中的表示的均值来表示实体的上下文信息。

步骤3)通过步骤2)可以获得两个矩阵,分别是输入的特征矩阵X和表示节点之间是否关联的邻接矩阵A。其中,X是输入的所有节点的特征向量表示,维度是N*D,N是节点的数量,D是每个节点的向量表示的维度,A是邻接矩阵,维度N*N。

GCN通过卷积的方式获得每个节点的新的向量输出Z,维度是N*F,F是输出的每个节点的维度。典型是GCN可以表示为公式:

H(l+1)=f(H(l),A)

其中,H(0)是X,H(L)是Z。L是GCN的层数。

在每一层,GCN可以表示为以下函数:

f(H(l),A)=σ(AH(l)Wl)

这个函数可以看做是每个节点与和它有关联的节点进行一个卷积操作,卷积的参数树初始化的。但是直接用邻接函数和输入矩阵相乘,会导致卷积操作的时候忽略自己节点的向量。因此对上述的公式进行改进:

其中是原始的邻接矩阵A加上I,而是度矩阵。

步骤4)步骤三的输出是N*F的矩阵Z。可以将Z表示为节点的序列Z={Z0,Z1,...,ZN},每一个节点都是维度为F的向量。然后,根据加权平均的方式将每个节点的向量表示计算,得到最终的向量表示。

其中,权重是通过知识图谱中的实体的表示作为监督信息,通过注意力机制来生成的。具体计算公式如下

rh,t=t-h

uj=tanh(rhtZj+b)

然后通过一层全连接层映射到输出层,然后通过softmax函数对输出的节点值进行归一化,得到文本对关系的概率分布。

o=Mr

步骤5)最后通过mini-batch梯度下降的方式,以最小化函数的方式,更新所有的参数。

lθ(r|h,t;θ)=log(P(r|h,t))

相对于现有技术,本发明的优点如下:

1)本专利的方法引入了额外的知识图谱中的实体类别、实体表示、实体上下文以及文本路径等信息,相比于传统的基于表示的方法和基于规则的方法,能够通过参考更多的知识来做出正确的决定,具备更大的搜索空间。

2)相比于同样引入额外信息的方法,本专利的方法通过构建异构图,将各种额外信息图中的节点,并以信息之间的关系作为图中的边。这种基于图的方式非常的灵活,可以针对不同的领域,添加或者删除节点信息,具备非常好的适应性。其次,多种额外信息同时作用,可以避免单一信息覆盖率不足的问题。

3)本专利为所有额外信息定制了合理的初始化方法,在实体和关系嵌入上使用了基于知识图谱的预训练方案,在实体路径上使用了基于LSTM的编码方式,而在文本信息编码上使用了基于双向LSTM的编码方法,这些方法可以将这些额外信息编码为语义空间中的向量,进而适配各种神经网络模型。

4)本专利使用了文本的SDP(最短依存路径)与其他信息一同构成图,创新型的将文本的语义编码和其他附加信息编码整合为统一的图模型。这种做法首先保留了文本的原始语义,并加入了依存句法特征,同时可以在进行文本语义编码的时候借鉴其他信息,这是传统文本编码方式不能做到的。

5)本专利通过在图上使用图卷积网络的方式来对信息进行压缩和筛选,这种方法具备效率高、表达能力强的特点。图卷积网络可以有效挖掘实体与实体之间的关联,能够将推理链这种高阶逻辑表达融入到特征表示中,可以很好的将人类的总结经验利用起来。

6)本专利引入了注意力机制来进行进一步的特这提取以及针对噪声问题进行过滤。预处理阶段引入的各种信息可能存在很多的噪声,比如实体类别识别错误,或者文本路径引入无关的文本等,这些信息对于抽取相关的实体并没有太大的作用,因此我们采用注意力机制的方式,通过知识图谱表示来作为监督信息,对每一个节点信息计算相关性,将低相关性的节点特征赋予较小的权重,将高相关性的节点特征赋予较大的权重,这样加权过后,可以对特征进行进一步的压缩,同时也对噪声进行了过滤。

7)本专利中考虑了不同实体对和不同额外信息对关系抽取任务有不同的贡献度,使用全局注意机制对这些信息进行自动加权。这种方法的好处是避免部分信息带来的语义偏差,让模型自动选择对当前实体对最有利的信息进行关系分类。

附图说明

图1是本专利的整体框架示意图;

图2是本专利中文本路径编码的框架图。

具体实施方式

以下结合实施例和说明书附图,详细说明本发明的实施过程。

实施例1:本发明是一种基于基于图卷积网络的远程监督关系抽取方法,包括以下几个步骤:

步骤1)预处理阶段主要是准备模型训练所需要的资源,具体包含:

1-1)首先对文本中的实体h和实体t,分别获得对应的实体ID,然后在知识图谱中,通过ID对齐到特定的实体,然后获得h和t的所有关联的边和属性。包括实体的类别、实体的描述、所有与该实体相关的三元组;

1-2)然后对文本进行选择。首先遍历所有的数据集,每一条文本都包含两个实体,以及两者之间的关系。对于每一个实体,都找到所有包含该实体的文本。通过这样的方式,找到实体h和实体t在文本中的路径,实体h->实体e->实体t,

1-3)对包含实体对的文本进行分词,词性标注和依存句法分析。在依存句法分析产生的依存句法树中,找到两个实体之间最短的联通路。这个最短联通路上的词和边将作为文本中实体对的最短依存路径。

1-4)预训练词向量模型。预先使用GloVe或者word2vec等方式训练好数据集中的词向量,如果没有预先训练,可以在本专利的方法中与模型参数保持同步训练。但效果而言,预先在大规模预料上训练的词向量能够保存更多的语义和语法信息,

1-5)知识图谱表示学习模型。同词向量模型一致,该模型是保存了所有知识图谱中的实体的向量模型;

1-6)遍历数据集中的所有句子,识别出文本中所有的实体,找到实体对应的实体ID。然后遍历知识图谱的备份(或者通过知识图谱提供的查询API),对训练数据中涉及的实体,以及后续模型的需求,备份这些实体的类别和所有相关的实体。

1-7)遍历数据集中的句子,识别所有的实体,然后通过HashMap<String,Set>结构存储每个实体和在整体数据集中,和该实体出现在同一个句子中的其余实体。然后第二次遍历数据集中的句子,对每个句子的实体h和实体t,分别找到HashMap中两个实体的共现实体集,取交集。这样就得到若干h到t的路径;

步骤2)准备输入的资源到实数向量的编码。

首先准备实体类别的编码。实体类别是不需要预训练的,只需要在模型训练开始前初始化每个类别到一个向量的映射,然后在训练中保持更新即可。

词节点的向量表示。我们的图结构中,部分节点是文本中的词,为了将离散的词转换为连续语义空间中的向量,我们通过预训练语言模型在无监督语料上训练了词的嵌入,每个词对应一个固定维度的实数向量。这些向量将作为最短依存路径中节点的特征,以及文本路径编码的基础。

文本路径编码。首先,文本路径中的对象是一个独立的句子,于是,我们首先对这些句子对应的文本进行编码,本专利采用Bi-LSTM,输入的序列是文本的单词。在某一个时刻t,Bi-LSTM输出前向和后向的隐状态h。如下公式所示(前向):

通过前后和后向两次建模,得到综合的输出:

我们取Bi-LSTM双向的最后一维特征进行拼接作为文本的整体表示,并采用一个新的Bi-LSTM对文本路径进行建模,此时文本路径的输入序列是路径上的实体表示和对应的文本编码。参考图2,每个实体和实体参与的一条文本拼接作为一个输入的单元,然后通过模型进行特征的传递,最终得到的是路径的编码。

步骤3)图卷积神经网络模型构建。本实施中,输入的节点的数量是固定的。X={X0,X1,...,X7},分别表示的是实体h,实体t,句子s(h,t),路径p(h,t),实体h的类别,实体t的类别,实体h的上下文,实体t的上下文对应的编码向量。然后由于特征之间的关联性是固定的,所以邻接矩阵的形式也是固定的:

具体的连接方式是,最短依存路径中的节点按照顺序与h,t进行连接,文本路径p(h,t)分别和h和t相连接。h还和h的类别以及h的上下文连接,t和t的类别以及t的上下文连接。然后初始化参数矩阵W,并且根据A计算度矩阵D。则根据以下公式计算图卷积网络的输出Z。

步骤4)注意力机制。Z的维度是N*F,经过注意力机制后Z有N*F的矩阵转变为维度为F的向量,该向量则包含了压缩筛选后的与需要抽取的关系相关的特征。如下公式所示:

o=Mr

步骤5)模型的训练以及优化。通过编码层-图卷积网络-注意力机制-输出层这样的结构,我们得到了该文本在所有关系上的得分,或者说,条件概率。

lθ(r|h,t;θ)=log(P(r|h,t))

之后,我们通过mini-batch随机梯度下降的方式来更新模型的参数:

传统的梯度下降,每次梯度下降都是对所有的训练数据进行计算平均梯度,这种梯度下降法叫做full-batch梯度下降法。考虑一种情况,当训练数据量在千万级别时,一次迭代需要等待多长时间,会极大的降低训练速度。如果选择介于合适的bath size数据量进行训练,称为mini-batch梯度下降。

随机梯度下降的劣势每次训练的不能保证使用的是同一份数据,所以每一个batch不能保证都下降,整体训练loss变化会有很多噪声,但是整体趋势是下降的,随后会在最优值附近波动,不会收敛。

在训练过程中,我们需要一个指标来标示训练是否收敛。这里我们需要一个数据集,称为验证集,用来在每轮训练结束后观察,当前训练的模型是否已经收敛。由于验证集上的数据没有在训练中出现,所以模型在验证集上的效果可以衡量模型是否收敛。这样可以有效的进行合适的训练,避免训练时间过长导致的模型过拟合。

在训练的过程中,可以选择不同的超参数,比如词向量的维度,实体向量的维度。本实施采用如下的参数设计:词向量维度{50,100,200,300},实体向量的维度{50,100,200,300},学习速率{0.001,0.01,0.02,0.1}。batch的大小B={30,40,50,100,200},同样我们采用dropout=0.5的设置来避免过拟合。

本实施例使用了如下指标进行评估:

Held-out通过自动化地比较预测的关系和知识库中对应的事实来近似的衡量模型的性能。对于一个测试实例,通过比较模型预测得到两个实体之间的关系类别r和两个实体在对应知识库中的真实关系类别r来测试模型的性能。由于知识库中的关系存在部分误差,已经某些关系在知识库中缺失,所以held-out方法只能近似的评估模型的性能。

F1:在这样远程监督关系抽取数据集上,通过使用precision和recall以及f1来测试分类器的性能。precision是指分类器判断为正例的数据中真正属于正例的数据的比例,反应了分类器在判断正例时是否准确。recall是指真实的全部正例数据中分类器判断为正例数据的比例,反应了分类器能够将全部正例数据检索到的能力。f1得分同时兼顾了precision和recall,其计算公式是

在测试数据上抽取三元组,并进行相关指标的验证。模型训练完成后可以保存到本地,模型包含所有的参数等。之后再测试数据上进行指标的评测,和其它方法进行比较。或者在真实场景中,使用模型对自然语言文本进行关系抽取,得到若干三元组。

需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:事件抽取方法、装置、电子设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!