基于目标模板指导和关系头编码的蒙语方面级情感分析方法

文档序号:1846597 发布日期:2021-11-16 浏览:36次 >En<

阅读说明:本技术 基于目标模板指导和关系头编码的蒙语方面级情感分析方法 (Mongolian aspect level emotion analysis method based on target template guidance and relation head coding ) 是由 苏依拉 王涵 程永坤 张妍彤 仁庆道尔吉 吉亚图 于 2021-07-14 设计创作,主要内容包括:一种基于目标模板指导和关系头编码的蒙语方面级情感分析方法,从中文短语结构树中提取目标模板指导蒙汉神经机器翻译,将中文方面级情感语料翻译为蒙语方面级情感语料;利用蒙语依存句法解析器对蒙语方面级情感语料进行依存句法分析,得到蒙语依存分析树;对蒙语依存分析树进行重构,得到具有面向方面的树结构的蒙语依存分析树;采用图注意力神经网络模型,并添加关系头得到关系图注意力网络,对重构后的蒙语依存分析树中的依存关系进行编码,并建立方面和观点词之间的联系;训练所述关系图注意力网络使其能够对蒙语进行方面级情感分析,得到积极或者消极的情感极性,本发明提高了蒙语方面级情感分析的准确率。(A Mongolian aspect level emotion analysis method based on target template guidance and relation head coding comprises the steps of extracting a target template from a Chinese phrase structure tree to guide Mongolian neural machine translation, and translating Chinese aspect level emotion corpus into Mongolian aspect level emotion corpus; carrying out dependency syntax analysis on Mongolian aspect level emotion linguistic data by using a Mongolian dependency syntax analyzer to obtain a Mongolian dependency analysis tree; reconstructing the Mongolian dependency analysis tree to obtain the Mongolian dependency analysis tree with an aspect-oriented tree structure; adopting an image attention neural network model, adding a relation head to obtain a relation image attention network, coding the dependence relation in the reconstructed Mongolian dependence analysis tree, and establishing a relation between aspects and viewpoint words; the relation graph attention network is trained to carry out aspect level emotion analysis on Mongolian, positive or negative emotion polarities are obtained, and accuracy of Mongolian aspect level emotion analysis is improved.)

基于目标模板指导和关系头编码的蒙语方面级情感分析方法

技术领域

本发明属于人工智能技术领域,特别涉及一种基于目标模板指导和关系头编码的蒙语方面级情感分析方法。

背景技术

目前情感分析的方法主要分为两大类,即基于情感词典的方法和基于机器学习的方法,其中,机器学习方法中深度学习的方法因其能够捕捉更全面更深层的文本信息而成为情感分析的主流方法。同时,情感分析可以分为三个层次:文档级、句子级以及方面级。通常情况下,一个评论语句中可能会包含多个方面的意见,方面可以是实体或者实体的属性,而且不同方面的情感倾向会有所不同。文档级和句子级的情感分析是粗粒度的情感分析,一般假设整个文档或句子仅包含一个主题的意见,显然,这在许多情况下是不合理的。方面级的情感分析即细粒度情感分析,旨在判断所研究的内容的每个方面的情感倾向,这样可以挖掘出更加丰富并且更加有价值的信息。

传统的方法大多是基于词典和句法特征的传统机器学习模型。这些模型的性能高度依赖于手工制作的特征质量,这是劳动密集型的。因此,最近的研究己经将注意力转向开发端到端深度神经网络模型。对于现有的基于深度学习的方面级情感分析方法,根据所采用的深度学习技术类型进行分类,主要的方法分为以下五类:递归神经网络、循环神经网络、基于注意力机制的循环神经网络、卷积神经网络以及记忆网络。

递归神经网络(Recursive Neural Network,RecNN)是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的神经网络,该方法学会了根据语境和句法结构来预测方面的情感极性;循环神经网络(Recurrent Neural Network,RNN)是一类用于处理序列数据的神经网络,它的隐藏层具有反馈机制,即隐藏层状态不但要受到输入的影响,上一时刻的隐藏层状态对其也有影响;基于注意力机制的循环神经网络,用于同时对方面和句子进行建模,以显式地捕捉给定方面与其上下文单词之间的交互作用;卷积神经网络(Convolutional Neural Network,CNN)擅长捕获局部模式,在处理图片,文本等非结构化数据方面有良好表现,细粒度情感分析一般采用CNN来提取文本的局部和全局表示;记忆网络使用了一种带有外部记忆的注意力机制来捕捉句子中与给定方面相关的重要信息。

但是由于缺乏蒙语方面级情感语料,导致蒙语方面级情感分析进展缓慢,而且因为语言的复杂性以及单个句子中存在多个方面,以前存在的模型经常使方面词与情感极性之间连接混乱,上述问题阻碍了蒙古语情感分析研究的进步。

除了以上问题,蒙语使用后加成分为词的派生和词型变化,粘合多个附加成分以表示多重语法意义;蒙语名词和代词有数、格等语法范畴,动词有态、时、式等语法范畴;蒙语动词在宾主之后,定语在被修饰词之前,蒙语的特点也给蒙语方面级情感分析带来了极大的挑战。

作为自然语言处理底层的一个核心技术,句法分析旨在从组成成分的角度,对句子或词串依照某种语法体系进行形式化分析,以得到展现各成分间的语法关系的图结构(通常为树结构)。它是连接上层应用和底层技术的一个重要纽带,一方面在文本理解、语义消歧、主干抽取、情感分析、机器翻译等任务中都得到了广泛应用,另一方面也可帮助提升底层任务的准确率和效率。句法分析的任务有三个:判断输出的字符串是否属于某种语言、消除输入句子中词法和结构等方面的歧义和分析输入句子的内部构成,如成分构成、上下文关系等,第二个和三个任务一般是句法分析的主要任务。

短语结构树和依存分析树为句法分析的两种语法形式。图1为短语结构树示意图,短语结构树是对句子进行短语结构分析得到的具有短语结构的树,短语结构树用来表达句子的句法结构,其只有叶子节点与输入句子中的词语相关联,其他中间节点都是标记短语成分,叶子节点(词语)的上级节点为词性。比如IP-HLN为单句-标题,NP-SBJ为名词短语-主语,NP-PN为名词短语-代词,NP为名词短语,VP为动词短语。图1中,叶子节点“上海”和“浦东”为固有名词,而且两个固有名词连在一起,所以将两个固有名词合并为名词短语,并将合并后的标签作为两个词的父节点,叶子节点“与”为连词,所以将“开发”和“法制”作为兄弟节点,“法制”和“建设”为常用名词,然后将其合并,并给这几个词的父节点加标签,最后将各标签合并,得到一棵短语结构树;图2为依存分析树示意图,依存分析树是对句子进行依存分析得到的具有句子依存关系的树,在句子中,如果一个词修饰另一个词,则称修饰词为从属,被修饰的词语称为支配词,两者之间的语法关系称为依存关系。依存关系被标注在箭头上,方框里是词,词下面的数字的是节点的位置,第一个位置为0,0代表虚根,数字右边的英文表示词的词性,具体例子比如“写”作为核心成分,是依存分析树的根,“写”修饰“程序”,所以给两个词之间添加依存关系,“都”表示“写”的程度,所以两个词的依存关系由“都”指向“写”,依存分析树中,每个词和句中某一词都有箭头,并存在依存关系。

现有的句法分析方法主要分为三种:基于规则的方法、基于统计的方法以及基于深度学习的方法。

基于规则的句法分析方法:早期的基于依存语法的句法分析方法主要包括基于约束满足的方法和确定性分析策略等。但对于一个中等长度的输入句子来说,要利用大覆盖度的语法规则分析出所有可能的句子结构是非常困难的,而且就算分析出所有可能的句子结构,也难以实现有效的消歧,并选择出最有可能的分析结果,而且手工编写的规则带有一定的主观性,还需要考虑到泛化,在面对复杂语境时正确率难以保证,手工编写规则本身就是一件大工作量的复杂劳动,而且编写的规则领域有密切的相关性,不利于句法分析系统向其他领域移植。基于规则的句法分析算法能够成功的处理程序设计语言的编译,而对于自然语言的处理却始终难以摆脱困境,是因为程序设计语言中使用的知识严格限制的上下文无关文法的子类,但自然语言处理系统中所使用的形式化描述方法远远超过了上下文无关文法的表达能力;而且人们在使用程序设计语言的时候,一切表达方式都必须服从机器的要求,是一个人服从机器的过程,这个过程是从语言的无限集到有限集的映射过程,而在自然语言处理中则恰恰相反,自然语言处理实现的是机器追踪和服从人的语言,从语言的有限集到无限集推演的过程。

基于统计的句法分析方法:统计自然语言处理领域也涌现出了一大批优秀的研究工作,包括生成式依存分析方法、判别式依存分析方法和确定性依存分析方法,最典型的是上下文无关文法(Probabilistic Context Free Grammar,PCFG),其本质是一套面向候选树的评价方法,给正确的句法树赋予一个较高分值不合理的句法树赋予一个较低分支,从而借用分值进行消歧。

基于深度学习的句法分析方法:近年来,深度学习在句法分析课题上逐渐成为研究热点,主要研究工作集中在特征表示方面。传统方法的特征表示主要采用人工定义原子特征和特征组合,而深度学习则把原子特征(词、词性、类别标签)进行向量化,在利用多层神经元网络提取特征。

在英语、汉语等通用语种上,句法分析方面的研究趋于成熟。随着通用语种的大规模句法树库的构建,基于深度神经网络的句法分析方法得到了广泛的应用。然而在蒙古语等非通用语种上,句法分析的相关研究仍相对较少。在现阶段,应用于蒙古语句法分析的主要方法还是基于规则及基于统计的方法。另外,相比于通用语种达上万句甚至上十万句规模的树库,蒙古语的树库建设仍比较落后。

近年来,学界愈发关注小语种语言资源和语言技术的构建和发展,不少研究者逐渐重视针对小语种的自然语言处理,而在蒙古语句法分析方面的研究依旧很少。

发明内容

基于上述现有技术,本发明要解决的技术问题包括:

(1)蒙古语情感语料缺乏问题

神经机器翻译模型基本工作流程:首先对语料进行预处理(中文分词,BPE编码等),使用编码器(Encoder)将源语言句子编码为固定维度的特征向量,然后将包含了源语言句子的语义信息的特征向量使用解码器(Decoder)解码出目标语言句子。图3展示了编码器-解码器模型的结构,从底向上是一个机器翻译的过程。常规的神经机器翻译模型一般直接把源语言文本翻译到目标语言文本。但实际上,人类在翻译一句话时通常是先对目标文本的句型或者结构有一个大致的想法,然后再将源语言文本翻译成为目标语言文本,并不是直接逐词进行翻译。

通常在进行造句训练的时候,最开始老师会教一些句型,例如“sb.like doingsth;There be...”等,这就是模板,然后让学生做练习。现有的多数神经机器翻译模型直接从源文本逐词翻译,翻译后的文本存在些许机翻的生硬感,而且目前缺乏蒙语方面级情感语料,现有的机器翻译方法学习不到句子的句法结构,会导致在翻译的过程中丢失情感,而丢失情感的情感语料是没有意义的。因为目前没有开源蒙语方面级情感语料,所以进行蒙语情感分析的第一步就是获取蒙语方面级情感语料。

(2)针对特定方面的情感极性的问题

将各个方面词与其各自的观点联系起来是方面级情感分析任务的核心,目前可以用各种注意力机制来实现这一目标,并有不错的结果。但是,由于语言形态和语法的复杂性,这些机制有时会失败,比如一个句子:面条是如此美味,但蔬菜却很糟糕,其中“美味”一词比“糟糕”更接近于蔬菜,并且在其他一些评论中可能出现了美味的蔬菜,这使得这两个词紧密相关。因此,在分析人们对蔬菜的态度时,注意机制可能会引发错误。

基于注意力的LSTM模型图如图4所示,在前一句中,like为动词,它表达了对recipe的积极情绪,但是,当在后一句中将like用作介词时,该模型仍会以较高的权重使用该模型,从而导致错误的预测。图5显示了一个句子中针对两个方面具有不同的情感极性的情况。对于chicken这个方面,LSTM错误地给单词but和dried赋予了很高的权重,这导致了另一个预测错误。

(3)方面词和观点词之间的歧义问题

Scientists count whales from space,可以理解为“科学家从宇宙中数鲸鱼”,也可理解为“科学家数来自宇宙的鲸鱼”。在日常生活中歧义的例子也不胜枚举,这句话出现歧义主要是介词短语(Prepositional Phrase,PP)“from speace”修饰的对象不明导致的。除此之外还存在同位语范围不明(coordination scope ambiguity)、形容词修饰对象不明(adjectival modifier ambiguity)、动词短语修饰对象不明(Verb Phraseattachment ambiguity)等多种歧义,人类可以判断出句子可能表达的多种含义,但让计算机去理解就非常困难。

为了解决上述问题,本发明的目的在于提供一种基于目标模板指导和关系头编码的蒙语方面级情感分析方法,从短语结构树中提取的模板作为目标模板来指导翻译过程,由中文方面级情感语料翻译获取蒙语方面级情感语料,解决蒙古语情感语料缺乏问题;并通过句法分析建立方面词和观点词之间的联系,可以解决方面词和观点词之间的歧义问题,最终添加关系头编码处理句法结构中的信息,提高蒙古语方面级情感分析的准确率。

为了实现上述目的,本发明采用的技术方案是:

一种基于目标模板指导和关系头编码的蒙语方面级情感分析方法,包括:

步骤1,利用中文短语结构解析器对中文方面级情感语料进行短语结构分析,得到中文短语结构树,并从中文短语结构树中提取目标模板,指导蒙汉神经机器翻译,将中文方面级情感语料翻译为蒙语方面级情感语料;

步骤2,利用蒙语依存句法解析器对蒙语方面级情感语料进行依存句法分析,得到蒙语依存分析树,蒙语依存分析树由若干节点以及节点间的依存关系构成;

步骤3,对蒙语依存分析树进行重构,得到具有面向方面的树结构的蒙语依存分析树;

步骤4,采用图注意力神经网络模型,并添加关系头得到关系图注意力网络,对重构后的蒙语依存分析树中的依存关系进行编码,并建立方面和观点词之间的联系,以提高蒙古语方面级情感分析的准确率;

步骤5,训练所述关系图注意力网络使其能够对蒙语进行方面级情感分析,得到积极或者消极的情感极性。

与现有技术相比,本发明的有益效果是:

1、本发明使用从短语结构树中提取的模板作为目标模板来指导翻译过程,在提取模板的同时保留了源语言的情感,现有的多数神经机器翻译模型直接从源文本逐词翻译,没有考虑上下文以及语义,导致通过蒙汉神经机器翻译得到的蒙语方面级情感语料缺乏情感。

2、本发明使用两个损失函数可以使得模型更易于训练避免收到模板中噪声的干扰,并获得较高的BLEU分数,因为存在一些影响翻译质量的低质量模板。通过同时优化两个目标,可以减少某些低质量模板的影响并提高模型的稳定性。

3、本发明通过依存句法分析建立方面词和观点词之间的联系,可以解决方面词和观点词之间的歧义问题。

4、本发明对普通的依存树进行重构,构造了面向方面的依存树,这种面向方面的结构具有以下优点。首先,每个方面都有其自己的依存树,并且不受无关节点和关系的影响较小;其次,如果一个方面包含多个单词,则依存关系将在该方面聚合,最后这种统一的树形结构不仅使模型能够专注于方面和观点词之间的联系,而且还有助于训练过程中的批处理和并行操作。

5、本发明使用图神经网络编码依存分析树,图神经网络可以在不同的节点上进行并行计算,并且可以被直接用于解决归纳学习问题,上述图神经网络的优点使蒙古语方面级情感分析的正确率得以提高。

6、本发明添加关系头编码处理句法结构中的信息,关系头对依存关系进行编码,并建立方面和观点词之间的联系,以提高蒙古语方面级情感分析的准确率。

7、本发明可以分析一个句子中存在的多个方面的情感。

8、本发明通过结合依存句法分析和情感分析任务,充分利用蒙语依存分析树中的信息,以提高蒙古语方面级情感分析的准确度。

附图说明

图1为短语结构树示意图。

图2为依存分析树示意图。

图3是使用编码器-解码器模型建模序列到序列的问题。

图4是基于注意力的LSTM模型。

图5是一个句子中针对两个方面具有不同的情感极性的例图。

图6是本发明主体流程图。

图7是使用软目标模板指导翻译过程示例。

图8为目标语言模板指导蒙汉机器翻译模型。

图9为利用蒙语依存句法解析器得到蒙语依存分析树的过程。

图10为添加关系头的图注意力神经网络。

图11为本发明一个具体实施例的分析流程示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图6所示,本发明为一种基于目标模板指导和关系头编码的蒙语方面级情感分析方法,包括:

步骤1,利用中文短语结构解析器对中文方面级情感语料进行短语结构分析,得到中文短语结构树,并从中文短语结构树中提取目标模板,指导蒙汉神经机器翻译,将中文方面级情感语料翻译为蒙语方面级情感语料。

因为目前没有开源的蒙语方面级情感语料,所以获得蒙语方面级情感语料是蒙语情感分析的第一步,在扩充蒙语方面级情感语料的同时,要尽可能地保存其情感,本发明提出了使用从短语结构树提取目标模板来指导翻译过程的方法。即,利用中文短语结构树生成目标模板,即中文句子的短语结构,以学习目标句子即蒙语句子的结构,将目标模板信息融合到蒙汉神经机器的编码器-解码器框架中,利用目标模板和源文本即中文生成翻译,得到蒙语方面级情感语料。

具体地,为了学习目标句子的句法结构,本发明采用短语结构树来生成候选模板。如图7所示,以中英文为例,本发明首先根据源语言文本预测将要用到的目标模板即短语结构,这里“我喜欢打篮球”,很容易想到“sb.like doing sth”这个句型,随后根据源语言和目标模板来生成翻译。

本发明并不强制要求生成的目标语言翻译一定是完全基于模板来生成,这里的模板仅仅是提供一种参考来对翻译提供一定的帮助,所以目标模板为软模板。

为了更有效地使用模板,本发明引入了基于目标模板的神经机器翻译模型,图8为目标模板指导蒙汉机器翻译模型,它可以使用源文本和目标模板来预测最终的翻译。

本步骤可以分为两个阶段:

在第一阶段,通过使用源文本和从中文短语结构树中提取的目标模板,训练一个标准Transformer模型用于预测目标模板,即,将源文本转换为下一代目标模板。

本发明使用源语言S和模板T的数据,对P(Y∣X)建模,使得可以根据源语言对模板进行预测。为了构造源语言-模板数据集,使用短语结构树来解析目标语言文本并获得树形结构。然后,裁剪超过一定深度的节点,并将裁剪后的子树按照原有顺序还原回去得到模板数据。通过这些操作,就获得了源语言-模板平行训练数据,并训练了Transformer模型P(Y∣X)来预测目标模板。

短语结构树可以显示整个句子的结构和语法信息,利用语法来区分终端和非终端节点。更确切地说,非终端节点由属于非终端节点集合S,而终端节点属于目标语言节点集合V。目标模板是提取特定深度的子树,并使用位于子树叶节点上的终端和非终端节点生成的。

为了预测目标模板,根据源文本和提取的模板的训练数据来训练一个Transformer模型。Transformer模型读取源文本,并使用束搜索预测目标模板。然后,选择束搜索的前K个结果作为模板。

选择子树的深度是一个权衡。使用Transformer模型需要构造伪训练数据(源语言文本、目标语言文本、目标模板),而不是通过短语结构树直接提取的模板。给定源文本X,使用P(Y∣X)通过束搜索来生成排名靠前的目标模板T。最后,得到三元组训练数据(源语言文本、目标语言文本、目标模板)为下一阶段做准备。

在第二阶段,使用目标模板编码器和源语言编码器两种编码器对源文本和目标模板进行编码,并由与两种编码器交互的解码器生成最终翻译。

本发明中,解码器和源语言编码器均采用Transformer模型。给定三元组训练数据(源语言文本,目标语言文本,目标模板)后,先通过源语言编码器读取源语言序列X={x1,x2,…,xi,…,xn},并由目标模板编码器提供由目标语言单词和非终端节点组成的模板序列T={t1,t2,…,ti,…tm},xi是第i个位置的源语言词条,ti是第i个位置的模板序列词条,n为源语言的长度,m为模板的长度,源语言编码器和目标模板编码器分别将源语言序列X和模板序列T映射到隐层向量,即,将两个序列编码为隐藏状态,然后,解码器生成最终翻译的目标语言序列Y={y1,y2,…,yi,…yk},即:yi是第i个位置的目标语言词条,k为目标语言的长度,P(Y∣X)为源语言序列X翻译为目标语言序列Y的概率,为源语言序列X得到模板序列T的概率,θX→T为从源语言序列X得到模板序列T的参数,的目的是预测目标模板;为源语言序列X在模板序列T指导下,翻译为目标语言序列Y的概率,θ(X,T)→Y为源语言目标语言序列X在模板目标语言序列T指导下,翻译为目标语言序列Y过程中的参数。

本发明中,基于源语言编码器隐藏层状态和目标模板编码器隐藏层状态,解码器使用编码器-解码器多头注意共同使用源语言和模板信息来生成Y。此外,解码器使用两组注意力机制参数用于不同的编码器。解码器分别使用X和T,然后通过关注源上下文和模板上下文获得两个隐藏状态,在这里,使用门控单元融合了包含源语言信息的隐藏层状态和包含模板信息的隐藏层状态,如下所示:

Z=βZX,Y+(1-β)ZT,Y

其中ZX,Y和ZT,Y是解码器的隐藏状态,ZX,Y包含在解码时的源语言信息,ZT,Y包含在解码时的模板信息,β是控制源文本和模板之间的结合程度的参数。为了有效地融合源和模板信息,计算参数β如下:

β=σ(WYZX,Y+UTZX,T)

WY和UT是参数矩阵,σ是Sigmoid激活函数,ZX,T包含在编码时的模板信息中。

为了能够预测目标序列,使用最大似然估计来更新模型参数。当在不使用目标模板编码器的情况下训练P(Y∣X)时,仅需要优化以下损失函数:

为源语言X翻译为Y的概率,θX→Y为源语言编码器和解码器的参数。

当使用目标模板编码器训练P(Y∣X,T)时,损失函数可以通过以下公式计算:

θ(X,T)→Y是源语言编码器、目标模板编码器和解码器的参数, 为X在T指导下,翻译为Y的概率。

优化上述两个损失函数可以使得模型更易于训练避免收到模板中噪声的干扰,并获得较高的BLEU分数,因为存在一些影响翻译质量的低质量模板。通过同时优化两个目标,可以减少某些低质量模板的影响并提高模型的稳定性。为了平衡这两个目标,翻译模型在两个目标上同时进行了迭代训练,如下所示:

α是参数,以获得两个损失函数的平衡。

通过目标模板指导蒙汉神经机器翻译后,得到了带情感的蒙语方面级情感语料。

步骤2,参考图9,利用蒙语依存句法解析器对蒙语方面级情感语料进行依存句法分析,得到蒙语依存分析树,蒙语依存分析树由若干节点以及节点间的依存关系构成。其中,蒙语依存句法解析器通过对人工标注的蒙语依存分析树训练集进行训练得到。

步骤3,将方面、句子、依存分析树和依存关系作为输入,对蒙语依存分析树进行重构,得到具有面向方面的树结构的蒙语依存分析树,其中,方面指蒙语的实体或者实体属性,是待进行情感分析的对象。

蒙语在形态学上以词根或词干为基础,后接附加成分派生新词和进行词形变化,在结构学上,蒙语句子里语序有一定的规律,通常主语在前,谓语在后,修饰语在被修饰语之前,谓语在宾语之后,所以针对蒙语的语言特点,构造面向方面的树结构可以对蒙语进行更准确地处理。

基于此,本步骤对蒙语依存分析树进行重构的方法如下:

首先,将蒙语依存分析树中对应方面的节点即方面节点作为根;

其次,将与方面节点直接连接的节点设置为子节点,并为子节点保留原始依存关系;

最后,丢弃与方面节点没有直接连接的节点的依存关系,并从方面节点到每个被丢弃的依存关系所指向节点放置一个虚拟关系n:con,其中n表示两个节点之间的距离,con表示对方面节点与被丢弃的节点之间构造虚拟的连接,最终,为蒙语句子中的每个方面节点构造出依存关系,得到一种面向方面的树结构,即重构后的蒙语依存分析树。其中,提出新的“n:con”关系而不是直接抛弃节点是为了增强鲁棒性,因为依存句法解析器有可能解析错误。

步骤4,采用图注意力神经网络模型,并添加关系头得到关系图注意力网络,对重构后的蒙语依存分析树中的依存关系进行编码,并建立方面和观点词之间的联系,以提高蒙古语方面级情感分析的准确率。

本步骤中,关系头用于控制来自邻域节点的信息流,参考图10,对依存关系进行编码的过程如下:

首先,将依存关系映射到关系头的向量表示中,将关系头计算为:

其中,是l+1层上节点l+1的关系头,表示关系头的拼接,是由l层上的第m个关系头计算的归一化注意力系数,是输入转换矩阵,表示l层上的节点j,为l层上的第m个关系头点经过激活函数的非线性输出结果,σ是Sigmoid激活功能,relu为激活函数,rij表示节点i和节点j之间嵌入的关系,Wm1和Wm2分别为关系头m1和关系头m2的输入转换矩阵,bm1和bm2分别为关系头m1和关系头m2的参数;表示所有节点的集合。

然后,利用多头注意力聚合邻居节点的表示:

是l+1层上节点i的注意力头,表示向量角标从1到K的连接,是由l层上的第k个注意力头计算的归一化注意力系数,是输入转换矩阵,attention(i,j)采用点积注意;

在原有图注意力神经网络中添加关系头得到关系图注意力网络,以建立方面和观点词之间的联系,提高蒙古语方面级情感分析的准确率,关系图注意力网络包含k个注意力头和m个关系头,每个节点的最终表示方式如下:

为x在l+1层上节点i的值,x为将注意力头和关系头拼接得到的值,表示l+1层上节点i的关系头和注意力头的拼接,为l+1层上节点i最终的表示,为激活函数,Wl+1为输入转换矩阵,bl+1为参数。

本发明使用transformer训练关系图注意力网络,首先对重构后的蒙语依存分析树节点的词嵌入进行编码,并获得其节点i的初始表示的输出隐藏状态hi,然后对方面对应的具体单词进行编码,并将编码的平均隐藏状态用作相应根的初始表示将关系图注意力网络应用于重构后的蒙语依存分析树后,穿过全连接的softmax层映射到不同情感极性上的概率p(a)的计算式如下:

其中,Wp为概率p(a)的输入转换矩阵,为节点a在l层的向量表示,bp为偏置;

损失函数L(θ)为交叉熵损失,其计算式为:

其中,(S,A)为句子S和方面A构成的句子-方面对,是所有句子-方面对的集合,A代表句子S中出现的方面,θ包含所有可训练参数,a为方面对应的具体单词,经过训练,得到关系图注意力网络的模型参数。

步骤5,训练关系图注意力网络使其能够对蒙语进行方面级情感分析,得到积极或者消极的情感极性。

采用本发明方法的一个具体实施例如图11所示,“今天天气真好”为现有中文方面级情感语料,对现有中文方面级情感语料进行目标模板指导神经机器翻译,得到蒙语方面级情感语料对蒙语方面级情感语料进行依存句法分析,依存句法分析通过蒙语依存句法解析器实现,并得到蒙语依存分析树,对蒙语依存分析树进行重构以解决方面词和观点词之间的歧义问题,由于没有直接连接,所以添加一个虚拟关系1:con,最终使用关系图注意力网络编码并处理句法结构中的信息,其情感输出为“积极”。在此基础上,大大拓展了蒙语方面级情感语料,据此语料即可大大提高蒙古语方面级情感分析的准确率。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于循环共同注意力Transformer的多模态蒙汉翻译方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!