一种用于含噪稀疏文本的语义关系抽取方法

文档序号:1614262 发布日期:2020-01-10 浏览:12次 >En<

阅读说明:本技术 一种用于含噪稀疏文本的语义关系抽取方法 (Semantic relation extraction method for noisy sparse text ) 是由 赵翔 庞宁 谭真 郭爱博 殷风景 唐九阳 葛斌 肖卫东 于 2019-08-29 设计创作,主要内容包括:本发明公开了一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:建立训练样本集;构建语义关系抽取模型;训练语义关系抽取模型;建立待抽取语义的数据集;利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。本发明方法采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征,避免了错误积累,比传统基于特征和核的关系抽取方法,有明显的效果提升;充分利用关系实例的两种信息表示,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息;加入多实例学习方法,用于在样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。(The invention discloses a semantic relation extraction method for noisy sparse texts, which comprises the following steps of: establishing a training sample set; constructing a semantic relation extraction model; training a semantic relation extraction model; establishing a data set of semantics to be extracted; and extracting semantic relations from the data set of the semantics to be extracted by using the trained semantic relation extraction model. The method adopts different convolutional neural networks to respectively extract the word segmentation sequence and the characteristics of the corresponding dependency path, avoids error accumulation, and has obvious effect improvement compared with the traditional method for extracting the relationship based on the characteristics and the kernel; the two information representations of the relationship example are fully utilized, and are effectively combined through the feature fusion layer, so that more comprehensive information is provided for accurately predicting the semantic relationship of the target entity pair; and a multi-instance learning method is added for noise suppression under the condition of sample sparsity, and compared with an attention mechanism, the mechanism has no under-fitting problem and is more suitable for the semantic relation extraction problem under the sparse sample.)

一种用于含噪稀疏文本的语义关系抽取方法

技术领域

本发明属于中文文本语义关系抽取领域,具体涉及一种在含有噪声的稀疏中文文本中进行实体语义关系抽取的方法。

背景技术

近年来,知识图谱在一系列知识驱动的应用中发挥极其重要的作用,例如,机器翻译、推荐系统和问答系统等,而关系抽取技术是知识图谱自动构建的关键一环,具有重要的现实意义。关系抽取是通过理解非结构化文本所包含的语义信息,获得标注实体对的语义关系的过程。当前,主流的关系抽取方法是基于有监督和远程监督的关系抽取方法。

传统的有监督关系抽取方法受自然语言处理工具中错误累积的影响,为了避免这一问题,神经网络开始广泛用于文本的嵌入表示,自动提取文本语义特征。监督方法需要明确的人工注释文本,标注过程耗时耗力。为了解决这一问题,提出了一种替代范式,即远程监督。该范式利用现有知识图谱Freebase提供监督,启发式地将文本与Freebase对齐,来生成大量弱注释数据。很明显,这种启发式对齐方法会带来噪声数据,这会严重影响关系抽取器的性能。

为了解决错误的注释问题,多实例学习方法被提出可以用来缓解远程监督下的错误标注问题,另外,选择性注意机制具有可训练的参数,通过学习,拟合在噪声上的概率分布,并动态地去削弱噪声实例影响。然而,在数据稀疏情况下,传统的注意力机制和多实例学习并不能很好地拟合在噪声数据上的概率分布,使得从含噪的稀疏文本中对语义关系进行抽取的效果并不理想。另外,现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后。

发明内容

有鉴于此,本发明的目的在于提出一种用于含噪稀疏文本的语义关系抽取方法,用于从非结构的语料中抽取结构化的知识,特别是从含噪稀疏的中文文本中进行语义关系抽取。

基于上述目的,本发明提供的一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:

步骤1,建立中文文本训练样本集;

步骤2,构建语义关系抽取模型;

步骤3,训练语义关系抽取模型;

步骤4,建立待抽取语义的数据集;

步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。

所述的训练样本集是利用知识图谱远程监督***上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签;

所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。

进一步地,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。

进一步地,所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。

具体地,步骤3中,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。

由此,在步骤5中,利用训练好的语义关系抽取模型,对含有噪声的中文文本进行语义关系抽取,从非结构文本数据中获得结构化知识。

与现有技术相比,本发明以下优点和有益效果:

(1)本发明采用不同的卷积神经网络分别提取分词序列和对应依存路径的特征,自动生成嵌入表示,避免了错误积累,比传统基于特征和核的关系抽取方法,有明显的效果提升。

(2)本发明充分利用关系实例的两种信息表示,即分词序列和依存路径,通过特征融合层将二者有效结合,为准确预测目标实体对的语义关系提供更全面的信息。

(3)本发明在模型基础上,加入多实例学习方法,用于在中文样本稀疏条件下的噪声抑制,与注意力机制相比,该机制不存在欠拟合问题,更适合稀疏样本下的语义关系抽取问题。

本发明方法针对现有技术中数据构造依赖人力、去噪方法在中文样本稀疏情况下欠拟合和没有充分利用语义信息等问题,分别提出了具体的解决方法,可以更加有效减少噪声影响,更加充分获取语义信息,从而更准确地预测关系,可靠性强。

附图说明

图1为本发明实施例的整体流程示意图;

图2为本发明的语义关系抽取模型的结构示意图。

具体实施方式

下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。

如图1所示,一种用于含噪稀疏文本的语义关系抽取方法,包括以下步骤:

步骤1,建立中文文本训练样本集;

步骤2,构建语义关系抽取模型;

步骤3,训练语义关系抽取模型;

步骤4,建立待抽取语义的数据集;

步骤5,利用训练好的语义关系抽取模型从待抽取语义的数据集中提取语义关系。

所述的训练样本集是利用知识图谱远程监督***上的语料自动生成弱标注的数据,每条训练实例包含目标实体对、分词序列、依存路径和弱监督标签。对于每一条中文文本,预先确定其中包含的实体对,通过分词工具得到原文本的分词序列,通过句法分析工具得到句法分析树,并从中提取出依存路径。将相同实体对的实例放在一起,成为一个实例包,为后续的多实例学习机制的去噪做数据准备。所述的依存路径为最短依存路径,定义为:在句法分析依存树中实体对之间的最短路径。

如图2所示,所述的语义关系抽取模型包括输入层、嵌入层、卷积层、特征融合层、全连接层,上述各层先后依次连接,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口;所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间;所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征;所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合;所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系。

所述的语义关系抽取模型还包括多实例学习机制模块,从全连接层中获取数据,将学习的结果反馈到卷积层,指导卷积层的计算操作;所述的多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。

具体地,所述输入层为描述某一实体对的全部分词序列和对应依存路径所构成的实例包提供一个输入接口,在本实施例下,输入接口数量为2,分别对应分词序列和依存路径,每一条实例的输入定义如下:

Figure BDA0002184599790000052

其中,x代表输入的分词序列,

Figure BDA0002184599790000053

代表分词序列中的第i个分词,s代表输入的依存路径,

Figure BDA0002184599790000054

代表依存路径上的第i个分词,在该实施例下m和n设为固定值100和40。

具体地,所述嵌入层将所输入的分词序列和对应依存路径通过表示学习方式映射到低维向量空间,该层分别将输入的分词序列和依存路径上的每一个分词映射为向量表示,在本实施例中,每个分词的向量表示包含词向量、位置向量和词性标注向量三部分,其中词向量通过Word2Vec算法预先训练得到,包含分词的语义信息,维度为50,位置向量通过随机初始化得到,包含分词在分词序列或依存路径中的位置信息,维度为10,词性标注向量表示为单位向量,包含分词的词性信息,维度为15。因此,在分词序列或者依存路径中的任意一个分词可以进行如下的向量表示:wi=[vword:vposition:vtag],其中,vword,vposition和vtag分别表示分词的词向量,位置向量和词性标注向量,wi的维度为k,在本实施例中k为75。

将每一个分词向量表示按照分词序列和依存路径中的顺序先后水平连接,得到分词序列和依存路径的向量表示,表示为:

Figure BDA0002184599790000061

Figure BDA0002184599790000062

其中,X代表分词序列经过嵌入层之后的向量表示,Wi x代表分词序列中第i个分词的向量表示,S代表依存路径经过嵌入层之后的向量表示,Wi s代表依存路径中第i个分词的向量表示。

所述卷积层为两个独立的卷积网络,分别用于提取实例包中所有分词序列和所有对应依存路径的语义特征。因为两个卷积网络具有相同的运算机制,再此仅以分词序列为例说明在该实施例下该层的定义和运算。为从数据中获得更多有用信息,每一个卷积网络设置多个卷积滤子,表示为

Figure BDA0002184599790000063

在本实施例中,卷积滤子数量d设置为230,窗口大小设w为3,卷积操作定义为:

Figure BDA0002184599790000064

Figure BDA0002184599790000065

其中,1<i<d,1≤j≤m-w+1,

Figure BDA0002184599790000066

为第i个卷积滤子,si:j为第i个分词到第j个分词向量表示的水平串联,

Figure BDA0002184599790000067

表示矩阵的点积运算,最终每一个卷积滤子生成一个中间特征向量因此,全部卷积滤子生成的中间特征向量序列为C={c1,c2,…,cd}。在卷积运算后,最大池化用来提取每一个维度中最显著的特征,定义为:cij为C中对应位置的元素。最终生成每一条分词序列的特征向量

Figure BDA0002184599790000072

类似地,对于每条依存路径可以生成特征向量

Figure BDA0002184599790000073

所述特征融合层将来自分词序列和对应依存路径两方面的互补语义特征进行融合,本质上,是对来自分词序列和对应依存路径两方面的特征向量的加权求和,定义为:p=αpx+(1-α)ps,其中,α为权重稀疏,在本实施例中取值为0.5。

所述全连接层将实例映射至已定义的关系集合上,获得实体对之间的语义关系,其定义为:o=Up+v,其中,

Figure BDA0002184599790000074

为系数矩阵,为偏置,

Figure BDA0002184599790000076

为对应于所有关系类型的置信分数,其中nr是所有关系的数量,本实施例中设为5,置信分数最高的关系被认为是该实体对之间的语义关系。

所述多实例学习机制模块在模型学习过程中选择实例包中最好的实例作为训练和预测实例,丢弃其他实例,抑制噪声实例影响。训练数据有一系列实例包,表示为B={B1,B2,…,BN}。任一个实例包Bi中包含|Bi|个实例,在该机制下,损失函数定义为:

Figure BDA0002184599790000078

其中,

Figure BDA0002184599790000079

为实例包Bi中的一个实例,okr为实例对应关系r的置信分数,okj为实例

Figure BDA00021845997900000711

对应关系j的置信分数,对j枚举计算求和,θ为模型中的全部参数。θ更新的原则为:

Figure BDA00021845997900000712

其中,η为学习率。

故步骤3中,训练语义关系抽取模型的过程为:初始化后,以交叉熵作为损失函数,通过多实例学习方法,采用随机梯度下降法对所述的语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型。

由于在不同的初始化条件下用随机梯度下降法训练模型,所以每一次预测结果都不一样,可以将不同初始条件训练得到的模型的预测做统计平均后作为整个系统的输出,最终得到语义关系的预测系统。

具体地,训练语义关系抽取模型的具体步骤如下:

步骤301,将训练样本数据集中的实例包写入到数据文件中,数据文件的数据格式与语义关系抽取模型的读入数据接口相符;

步骤302,设定训练参数:包括读入文件路径,迭代次数,学习率,设定每一网络层的所用维度和尺寸,初始训练权重和训练偏置;

步骤303,加载训练文件:加载语义关系抽取模型定义文件、网络层参数定义文件和训练数据数据组成的训练集;

步骤304,通过多实例学习方法,采用随机梯度下降法对语义关系抽取模型进行迭代更新模型参数,每迭代一次检验一次梯度,以寻求各网络层权重和偏置的最优解,迭代多次后得到本次训练的最优语义关系抽取模型;

步骤305,将样本集中后30%的数据作为测试样本集,将测试样本集采取训练样本集相同预处理方式,利用得到的语义关系预测系统对测试样本集中的数据进行测试。

现有的关系抽取方法在英文语料上发展较为先进,而在中文语料的关系抽取研究相对落后。现有的有监督的关系抽取方法依赖人工标注数据,人工标注数据过程耗时耗力,本发明针对这一问题,采用远程监督技术,启发式地将无标注文本与知识图谱对齐,自动生成弱标注数据。现有基于远程监督的关系抽取方法一般利用注意力机制抑制错误标注实例对抽取结果的影响,而注意力机制本质上是通过在大量数据上的学习,得到在噪声数据上的概率分布,从而动态去噪。实际上,中文领域知识图谱发展缓慢,规模较小,因此,利用远程监督所构造的训练数据相对较少,不足以使注意力机制充分拟合,因此,针对注意力机制欠拟合的问题,本发明采用多实例学习方法,该机制无需学习参数,更适用于样本稀疏的情况。此外,当前的关系抽取方法采用单一输入,词序列或者依存路径,而实际上,二者存在互补关系,词序列为依存路径提供补充信息,依存路径去除词序列中的噪声分词。本发明利用中文娱乐领域知识图谱和中文***构造的弱标注数据,在进行分词和句法分析等预处理后,结合上述改进方案,解决现有问题。

上述实施例为本发明方法在含噪稀疏中文文本中的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种免手操作的翻译机

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!