基于自注意力机制方面术语提取系统、方法、介质、终端

文档序号:1922148 发布日期:2021-12-03 浏览:19次 >En<

阅读说明:本技术 基于自注意力机制方面术语提取系统、方法、介质、终端 (Self-attention mechanism-based term extraction system, method, medium and terminal ) 是由 石俊杰 王茜 于 2021-08-18 设计创作,主要内容包括:本发明属于自然语言处理技术领域,公开了一种基于自注意力机制方面术语提取系统、方法、介质、终端,包括:词嵌入层利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;第一BiReGU层对句子每一个单词的前文信息和后文信息进行处理,挖掘上下文信息,计算隐藏状态;单词注意力计算层分配不同的权重,为句子的每个单词生成不同的权重向量,并加权求和得到上下文向量;第二BiReGU层基于得到的权重向量与词嵌入相结合进行全局特征信息的提取;全连接层对提取信息进行处理;CRF层进行方面术语的标记,提取得到相应的方面术语。本发明能够有效、准确的进行方面术语的提取。(The invention belongs to the technical field of natural language processing, and discloses a system, a method, a medium and a terminal for extracting terms based on a self-attention mechanism, which comprise: the word embedding layer utilizes a part-of-speech tagging tool to perform part-of-speech of each word in the sentence, and outputs part-of-speech word vector representation of each word in the sentence; the first BiReGU layer processes the preamble information and the postamble information of each word of the sentence, excavates context information and calculates a hidden state; the word attention calculation layer distributes different weights, different weight vectors are generated for each word of the sentence, and the context vectors are obtained through weighted summation; the second BiReGU layer extracts global feature information based on the combination of the obtained weight vector and word embedding; the full connection layer processes the extracted information; and marking the CRF layer with the aspect terms, and extracting the corresponding aspect terms. The invention can effectively and accurately extract the terms.)

基于自注意力机制方面术语提取系统、方法、介质、终端

技术领域

本发明属于自然语言处理技术领域,尤其涉及一种基于自注意力机制方面术语提取系统、方法、介质、终端。

背景技术

目前:方面术语提取(Aspect Term Extraction)作为ABSA的子任务,也是一种特定领域的实体命名识别。例如,“The picture quality of my Motorola camera phone isamazing”中,从方面级情感分析的角度可以看出“picture quality”为方面术语,“amazing”是方面词所对应表达的情感观点词。所以方面术语提取是方面级情感分析中的一个关键问题,情感分析中先要去提取带有情感的方面术语,再根据提取到的方面术语进行情感分析。

通过上述分析,现有技术存在的问题及缺陷为:现有模型方法不能高效的挖掘单词间的隐式关系,导致方面术语提取不完整、不全面,甚至可能提取到了非方面术语词。

解决以上问题及缺陷的难度为:基于已有模型,将词性信息与自注意力机制相结合,找到改善ReGU(Residual gated unit)模型依赖预训练词向量模型作为输入出现的词共现信息不足现象的方法。

解决以上问题及缺陷的意义为:在准确提取到方面术语词之后,可以提高后续方面级情感分析的准确性。

发明内容

针对现有技术存在的问题,本发明提供了一种基于自注意力机制方面术语提取系统、方法、介质、终端。

本发明是这样实现的,一种基于自注意力机制方面术语提取系统,所述基于自注意力机制方面术语提取系统包括:

词嵌入层,用于利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;

第一BiReGU层,用于对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入地训练获得有用的文本特征,并计算隐藏状态;

单词注意力计算层,用于基于计算得到的隐藏状态分配不同的权重,为句子的每个单词生成不同的权重向量,并加权求和得到上下文向量;

第二BiReGU层,用于基于得到的权重向量与词嵌入相结合进行全局特征信息的提取;

全连接层,用于对提取信息进行处理;

CRF层,用于进行方面术语的标记,提取得到相应的方面术语。

本发明的另一目的在于提供一种应用于所述基于自注意力机制方面术语提取系统的基于自注意力机制方面术语提取方法,所述基于自注意力机制方面术语提取方法包括:

首先,利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;同时学习词在内容和词性方面的长期依赖关系;

其次,通过自注意力机制为文本中的每个词语赋予不同的权重;将得到的权重向量再次与词嵌入相结合,学习全局的文本特征表示;

最后,考虑邻居标签之间的相关性,进行全局选择,计算得到每一个单词的标签;用IOB2格式标记句子中的每个单词,提取标签为B、I的单词作为方面术语。

进一步,所述基于自注意力机制方面术语提取系统包括以下步骤:

步骤一,进行文本数据表示形式的转换;并利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量;

步骤二,将得到的词性向量通过第一BiReGU层对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入训练得到有用的文本特征,计算隐藏状态;

步骤三,注意力计算层基于自注意机制根据BiReGU层的输出的隐藏状态分配不同的权重,并为句子的每个单词生成不同的权重向量,同时加权求和得到上下文向量;

步骤四,将将注意力计算层的权输出与词性词向量信息进行拼接,并将拼接结果输入第二BiReGU层,得到全局的特征信息;

步骤五,将第二BiReGU层输出的向量送入全连接层进行处理并通过添加的CRF层得到预测的标签序列Y即对应语句中方面术语的标记,提取得到方面术语。

进一步,步骤一中,所述利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量包括:

输入词嵌入层得到词性词向量的表示形式:将输入句子X划分为n个词,将输入语句表示为其中Xi(1≤i≤n)表示X中第i个词,表示词之间的串联操作;

词Xi相应的采用Glove模型进行预训练,得到词向量表示,其中表示训练词向量集,|V|表示词汇表V的大小,d表示词向量维度;

利用词性标注工具得到Xi的词性,用表示,得到每一个词Xi的词性词向量表示为

进一步,步骤二中,所述隐藏状态计算公式如下:

其中,ht表示t时刻隐藏状态,表示前向ReGU的隐藏状态输出结果,表示后向ReGU的隐藏状态输出结果。

进一步,步骤三中,所述权重、权重向量、上下文向量计算公式如下:

h=tanh(Wth'+Wnhn);

et=Vttanh(Waht+ba);

其中,Wt、Wn、Wa均表示二维权重矩阵,ba表示偏置向量,αt表示第t个位置注输出的注意力权重,et表示计算注意力的分配,h'表示利用注意力向量αt加权平均后得到的向量。

进一步,步骤五中,所述CRF层计算概率如下:

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明在传统BiLSTM的基础上使用了双嵌入机制和ReGU(Residual Gated Unit)作为模型辅助信息。同时考虑到单词之间的语法关系,比如方面词通常是与形容词相关联的等等,引入自注意力机制挖掘单词之间的依赖关系。并且为了更好的识别多个单词构成的方面术语,引入了词性标记并建模,充分考虑到文本序列中不同单词的重要性和文本特征。取得了较好的效果。本发明能够有效、准确的进行方面术语的提取。

附图说明

图1是本发明实施例提供的基于自注意力机制方面术语提取系统示意图。

图2是本发明实施例提供的BiLSTM框架示意图。

图3是本发明实施例提供的BA模型框架示意图。

图4是本发明实施例提供的基于双层BiReGU方面术语提取模型示意图。

图5是本发明实施例提供的IOB2标注法示意图。

图6是本发明实施例提供的ReGU模型示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种基于自注意力机制方面术语提取系统、方法、介质、终端,下面结合附图对本发明作详细的描述。

如图1所示,本发明实施例提供的基于自注意力机制方面术语提取系统包括:

词嵌入层,用于利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;

第一BiReGU层,用于对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入地训练获得有用的文本特征,并计算隐藏状态;

单词注意力计算层,用于基于计算得到的隐藏状态分配不同的权重,为句子的每个单词生成不同的权重向量,并加权求和得到上下文向量;

第二BiReGU层,用于基于得到的权重向量与词嵌入相结合进行全局特征信息的提取;

全连接层,用于对提取信息进行处理;

CRF层,用于进行方面术语的标记,提取得到相应的方面术语。

本发明实施例提供的基于自注意力机制方面术语提取方法包括:

首先,利用词性标注工具进行语句中各个单词的词性,并输出句中每一个词的词性词向量表示;同时学习词在内容和词性方面的长期依赖关系;

其次,通过自注意力机制为文本中的每个词语赋予不同的权重;将得到的权重向量再次与词嵌入相结合,学习全局的文本特征表示;

最后,考虑邻居标签之间的相关性,进行全局选择,计算得到每一个单词的标签;用IOB2格式标记句子中的每个单词,提取标签为B、I的单词作为方面术语。

本发明实施例提供的基于自注意力机制方面术语提取方法的流程包括以下步骤:

S101,进行文本数据表示形式的转换;并利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量;

S102,将得到的词性向量通过第一BiReGU层对句子每一个单词的前文信息和后文信息进行处理,挖掘输入序列的上下文信息,深入训练得到有用的文本特征,计算隐藏状态;

S103,注意力计算层基于自注意机制根据BiReGU层的输出的隐藏状态分配不同的权重,并为句子的每个单词生成不同的权重向量,同时加权求和得到上下文向量;

S104,将将注意力计算层的权输出与词性词向量信息进行拼接,并将拼接结果输入第二BiReGU层,得到全局的特征信息;

S105,将第二BiReGU层输出的向量送入全连接层进行处理并通过添加的CRF层得到预测的标签序列Y即对应语句中方面术语的标记,提取得到方面术语。

本发明实施例提供的利用词嵌入层预训练模型得到词向量,再通过词性标注模型确定词性向量包括:

输入词嵌入层得到词性词向量的表示形式:将输入句子X划分为n个词,将输入语句表示为其中Xi(1≤i≤n)表示X中第i个词,表示词之间的串联操作;

词Xi相应的采用Glove模型进行预训练,得到词向量表示,其中表示训练词向量集,|V|表示词汇表V的大小,d表示词向量维度;

利用词性标注工具得到Xi的词性,用表示,得到每一个词Xi的词性词向量表示为

本发明实施例提供的隐藏状态计算公式如下:

其中,ht表示t时刻隐藏状态,表示前向ReGU的隐藏状态输出结果,表示后向ReGU的隐藏状态输出结果。

本发明实施例提供的权重、权重向量、上下文向量计算公式如下:

h=tanh(Wth'+Wnhn);

et=Vttanh(Waht+ba);

其中,Wt、Wn、Wa均表示二维权重矩阵,ba表示偏置向量,αt表示第t个位置注输出的注意力权重,et表示计算注意力的分配,h'表示利用注意力向量αt加权平均后得到的向量。

本发明实施例提供的CRF层计算概率如下:

下面结合具体实施例对本发明的技术方案做进一步说明。

实施例1:

1、本发明基于双向长短期记忆网络的特征提取模型

基于双向长短期网络的特征提取模型BA(BiLSTM-Attention),是本发明提出的第一个基线模型。模型不使用位置向量,利用双向长短期记忆网络以及注意力机制来获取句子中的重要信息。只关注对分类有决定性影响的词语,将提取出的句子级特征向量用于关系分类。

目前自然语言处理任务为了得到句子级别的特征,通常是将词语或者短语通过模型向量化表示,对词向量进行操作得到句子的向量表示。一般句子序列W={w1,w2,w3}计算的概率如公式1所示:

传统的句子向量的表示往往采用取平均向量法、向量相加法或者通过语法规则分析等方法。这些方法都存在一个很明显的问题,得到的句子向量没有考虑到特征提取过程中词语的影响,词语彼此出现的前后顺序以及规则的限制会对句子产生很大的影响。通过BiLSTM提取特征捕获语义依赖。充分考虑到过去信息和未来信息对当前信息的影响。所以BA模型在神经网络层选择使用BiLSTM进行特征提取。

BiLSTM模型就是对两个不同方向上的LSTM进行计算,最终将两个不同方向的隐藏层计算结果合并输出。关于LSTM的知识已在上一章节中的介绍,BiLSTM在单向LSTM中扩展加入第二层LSTM,新添加的层次以相反的时间顺序流动。所以,该模型能够利用过去和未来的信息。如图2所示。

该网络包含了两个用于左右顺序上下文的子网络,分别向前和向后传递,这里使用元素求和来组合前进和向后传递输出。

前向LSTM的计算如公式2所示:

即前面的词会影响到后面词预测的概率。

后向LSTM中则相反,后面的词会影响前面的生成。如公式3所示:

表示i时刻前向长短期记忆网络的输出,用表示i时刻后向长短期记忆网络的输出,则BLSTM在该时刻的输出如下式4所示:

双向LSTM的极大似然函数公式如公式5所示:

其中θx、θS、θLSTM,依次代表了单词、softmax和LSTM的参数,θS和θx在前后的过程中共享。

BA模型的框架如图3所示。

从上图可以看到BA模型结构主要由五部分构成。输入层就是对该模型输入要进行方面词提取的输入句,输入后通过嵌入层将单词映射为词向量;之后神经网络层利用BiLSTM从单词向量中获得高级特性,获得每个词更深层次的语义向量表达,并通过注意力层利用权重产生句子级特征向量。通过将得到的权重向量和神经网络层隐藏状态相乘求和,进而得到句子级别的特征,最后通过句子级特征向量进行关系分类。

将BiLSTM中最后一个时序的输出作为特征向量,记为H。让H成为一个由LSTM产生的输出的隐藏向量[h1,h2,…,hT]构成的矩阵,H中元素都是前后向隐藏单元输出的串联。如公式6所示:

随后模型将获得的隐藏状态序列,输入注意力层,注意力机制通过注意力描述目标输出与原输入数据之间的依赖关系,通过将计算的权重加和得到句子向量表示。随后通过softmax分类器预测句子标签Y。在实验中,加上attention层对结果有明显的提升。通过该模型进而了解双向嵌入机制特征提取以及自注意力机制的特征提取。

2、本发明基于自注意力的双层BiReGU模型

2.1基于双层BiReGU的方面术语提取模型

为了更深层次的提取向量,模型采用了基于注意力机制的双层BiReGU模型,在传统的BiLSTM模型的基础上,引入双嵌入机制和Residual Gated Unit(ReGU)作为辅助,以提高特征提取的能力。

模型使用BiReGU学习文本特征表示,更好地捕捉词语间的长期依赖关系;然后在第一层BiReGU之后加入注意力机制,给句子中每个单词添加不同的权重,得到融合后新的句子特征表示,再输入到第二层BiReGU中学习更加全局的文本特征表示,最后进行方面术语的标注,完成提取方面术语的任务。注意力机制和BiReGU模型的使用,充分考虑到文本序列中不同单词的重要性和文本特征,更好地对输出序列进行编码和捕捉标签间的长期依赖关系。因为BiReGU网络层的存在,模型可以获取过去和未来的特征;因为CRF网络层的存在,该模型可以使用句子级的标注信息。该网络结构把上下文信息输入神经网络模型中,不仅能够更好地捕捉到标签之间的长期依赖关系,而且还能更好的获取文本的特征。它还使用注意力机制来发现文本中的重要信息,自动学习输入文本序列的相对重要的单词。模型如图4所示。

本发明采用IOB2序列标注方式定义序列的标签。对句子中的单词进行打标签操作。序列标注(Sequence labeling)作为NLP中常用技术之一,多用于对句子等单词进行标注,来提取地点、术语等有效信息。序列标注主要包括原始标注和联合标注两种类型。前者是需要将每个单词标注为一个标签,后者是将所有的实体词标注为同样的标签。例如,句子“Tomorrow,Tom Bush mark a date”中的命名实体“Tom Bush”。对其标注应该得到一个完整的“名字”标签,而不是像前者进行分别标注。一般处理联合标注问多是转化为原始标注解决。标准做法就是使用IOB2标注。IOB2标注法如图5所示,B代表标签词的开始,I代表标签词的其余标记,O代表了非标签词句。通过B、I、O三种标记将句子标注不同的标签,这样能够很简单的根据序列标注结果直接得到单词的角色标注结果。

首先将文本数据表示成深度学习模型所能处理的那种形式,将输入序列表示为W={x1,x2,...,xn},n为输入文本序列的单词个数。该模型采用双嵌入机制,将Glove词向量嵌入G(xi)和特定域词向量嵌入G(xi)进行拼接,将单词向量化,得到一个词向量矩阵E={e1,e2,...,en},其中ei表示第i个词语代表的词向量,维度为

在之前的特征提取中,每一层选择利用双向的LSTM神经网络对前后文信息进行处理,充分挖掘句子的上下文信息。这里在BiLSTM结构的基础上引入ReGU结构。将原LSTM结构替换为ReGU结构,同样也拥有两个方向的表示。ReGU通过两个门ft和Ot来控制输入和隐藏状态信息的流动,其中Ot可以控制将上一层信息输入到下一层,更深入地训练和获得有用的文本特征。ReGU结构图如图6所示。

可以看到,在时间t下前一个记忆单元ct-1的输入xt以及新的记忆单元ct是通过以下公式7计算得到的:

ct=(1-ft)·ct-1+ft·tanh(wixt) (7)

新的隐藏状态计算如公式8所示:

其中是ft=σ(wf·[ht-1,xt]+bf)遗忘门,ot=σ(wo·[ht-1,xt]+bo)是残余门,是xt还是tanh(wixt)根据xt大小是否等于ct决定。

与双层BiLSTM结构一样,构建出的双层BiReGU网络模型,同样利用每一层的双向ReGU结构挖掘输入序列的上下文信息。词向量W={h1,h2,...,hn}输入到第一层BiReGU后,BiReGU中前向ReGU和后向ReGU在时刻t的输入处理分别为公式9~10所示:

其中,在t时刻,是前向ReGU的隐藏状态输出结果,是后向ReGU的隐藏状态输出结果。Ht表示为t时刻的隐藏状态输出结果,如下公式11所示:

考虑到这种双层BiReGU网络结构没有考虑到不同单词的重要性,所以本发明通过注意力计算层计算每个单词的重要程度。注意力机制的计算依然采用attention机制计算,公式如12~14所示:

M=tanh(ht) (12)

α=softmax(wTM) (13)

r=HαT (14)

其中,w是一个经过训练的参数向量,r代表了句子的表示。考虑到单层BiReGU不能获取到更加全局的特征信息,故使用了双层BiReGU,将单词注意力计算层的输出作为第二层BiReGU层的输入,来获取更加全局的特征信息。为了生成最终的方面词术语标记,模型使用CRF代替softmax分类器作为最后一层,可以提高标注之间高度依赖的性能。

CRF(Conditional Random Field)也称作条件随机场方法。通过输入序列向量,计算条件概率的分布。方法多用在词性标注、实体命名识以及句法分析等领域。CRF概率的计算如公式15所示:

训练过程中使用最大条件似然估计,计算如公式16所示:

最后的标注结果以最高的条件概率生成,如公式17所示:

通过模型实验有效的证明了ReGU模块在方面术语提取的有效性。

2.2自注意力机制模型

自注意力机制(self-Attention)能够忽略句中各词彼此的距离,捕获句子中的内部结构,得到词彼此之间的依赖关系。注意力机制在第二章中已有介绍,在自注意力机制中模型通常是通过自己进行训练不断的调节参数。即设为K=V=Q,将输入序列看做一组键值对(K,V)以及查询Q,自注意力机制会自动计算句中单词与其他单词的注意力权重。

计算方式如18所示。

其中X∈Rn代表输入向量矩阵,dk为矩阵的维度,防止出现X·XT的内积过大造成softmax出现极端数值的现象。K,V的关系是一一对应的,通过Q中每个元素K中各个元素求内积再通过softmax计算,最后进行加权求和,得到一个新的向量。本发明可以利用注意力机制处理变长的信息序列。在给出的句子中,寻找不同词之间的关系。

总体来说,自注意力机制单词通过和所有词做注意力计算,使得单词之间拥有全局语义信息。本发明可以通过自注意力机制处理任意的信息序列,增强句中单词彼此间的联系,防止距离过远权值降低。

2.3 SA-BiReGU网络结构

基于前面对BiReGU和自注意力机制的研究,本发明提出了基于自注意力机制的BiReGU方面术语提取模型。同时考虑到之前句子的输入没有考虑词的词性信息这一问题,且句子中存在的大多数方面术语都是与一个或多个形容词相关联的名词,因此在模型中加入了词性标记帮助识别方面术语,使得输入的词向量表达出更加丰富的语义信息。随后输入ReGU模块学习词在内容和词性方面的长期依赖关系。再通过自注意力机制防止句子长远上下文信息的丢失,为文本中的每个词语赋予不同的权重。将得到的权重向量再次与词嵌入相结合,输入到第二层BiReGU中,学习更加全局的文本特征表示。最后放入CRF层考虑邻居标签之间的相关性,做出全局选择,计算得到每一个单词的标签。句子中的每个单词用IOB2格式标记,提取出标签为B、I的单词作为方面术语,完成术语提取。

首先本发明应该将文本数据表示成深度学习模型所能处理的那种形式。利用预训练模型得到词向量,再通过词性标注模型确定词性向量。输入嵌入层得到词性词向量的表示形式。假设输入句子X共包含n个词,将输入语句表示为其中Xi(1≤i≤n)为X中第i个词,为词之间的串联操作。词Xi相应的采用Glove模型进行预训练,得到词向量表示,其中假设为训练词向量集,|V|为词汇表V的大小,d为词向量维度。利用词性标注工具得到Xi的词性,用表示。则每一个词Xi的词性词向量表示为

随后将得到的输入向量通过BiReGU层对句子每一个单词的前文信息和后文信息进行处理,充分挖掘输入序列的上下文信息,深入地训练获得有用的文本特征,计算出隐藏状态ht,公式如之前介绍的式11所示。

自注意机制根据BiReGU层的输出向量ht分配不同的权重,以此为句子的每个单词生成不同的权重向量,并加权求和得到上下文向量。计算公式如式19~22所示:

h=tanh(Wth'+Wnhn) (19)

et=Vttanh(Waht+ba) (22)

其中,Wt、Wn、Wa均为二维权重矩阵,ba为偏置向量,αt表示第t个位置注输出的注意力权重,et计算注意力的分配,进一步提取特征,h'为利用注意力向量αt加权平均后得到的向量。考虑到单层BiReGU不能获取到更加全局的特征信息,故将注意力计算层的输出与之前模型输入的词性词向量信息进行拼接得到并输入到BiReGU层中,公式如之前介绍的式11所示,来获得更加全局的特征信息。

在又一次通过BiReGU层获取特征信息后,将向量送入全连接层进行处理并通过添加的CRF层得到预测的标签序列Y,计算概率如式23~24所示:

CRF考虑了邻居标签之间的相关性,做出全局选择,而不是独立解码每个标签,以在给定输入句子的情况下最大化句子标签的条件概率,得到标签序列,即对应语句中方面术语的标记,最终提取出需要的方面术语。

下面结合实验对本发明的技术效果作详细的描述。

本发明通过对提出的模型进行试验,将实验结果与其他同类方法基于同样的数据集进行对比分析。

1实验环境及数据集

本发明实验使用python语言和pytorch框架设计实验。Pytorch框架主要通过GPU加速神经网络训练模型。相比于TensorFlow适用于跨平台或嵌入式部署的特点,pytorch框架更有利于小规模项目快速实现原型,受到越来越多的欢迎。

采用的物理设备及环境如下表1所示:

表1实验环境

环境 设备型号
CPU Intel Core7700HQ睿频3.8GHz
显卡 4块NVIDIA GeForce GTX1080Ti
内存 12GB DDR4 2400MHz
操作系统 Ubuntu16.04LTS
开发环境 PyCharm

本发明实验所选择的训练数据集是SemEval 2014任务中的Laptop和Restaurant数据集,以及SemEval 2016的Restaurant数据集中的Subtask 2。数据集主要针对产品评论及餐饮领域用户评论进行收集分析。同时这两个数据集都使用IOB2标签进行了标记。不同数据集所含数据以及方面术语的数量如下:

表2数据集统计信息

数据通过xml标记形式存储。数据集提供了对方面术语、方面类别和情感极性的分类标签。同时数据集还对食物、服务、价格、氛围和其他五种方面类别,以及对应的消极、中立、积极和矛盾四种情感极性。

2评估指标

本发明实验为更好地与其他方面术语提取模型进行比较,采用F1值(F1-score)作为评价指标,根据测试集得到的实际数据评估模型。F1值作为一个取值在0到1之间的评估二分类模型指标,它包含精确率(Precious)以及召回率(Recall)两种度量指标。这些指标可以通过下表3给出的混淆矩阵计算得出:

表3混淆矩阵

Positive(Actual) Negative(Actual)
Positive(Predicted) True Positive(TP) False Positive(FP)
Negative(Predicted) False Negative(FN) True Negative(TN)

表中内容通过公式25定义所示:

精确率(P)指的是正确预测出结果为正的样本数量在预测结果为正的样本中的百分比,召回率(R)则为正确预测出结果为正的样本数量在样本实际为正的数量中的百分比。计算公式如下式26所示:

综上,可以得到F1值的计算,如公式3.27所示:

3实验参数和结果分析

①实验参数设置

SA-BiReGU模型使用预训练的Glove词向量模型得到词嵌入向量并对此初始化。并且模型使用由Stanford POS tagger[60]生成的POS标签进行注释。数据集共有41种不同类型的POS标签且实验使用了所有现有的POS标签,让模型在训练阶段选择与其相关的那些标签。在LSTM上以0.01的学习率进行训练,同时设置dropout为0.2,batch_size为64,并选择Adam作为优化器,实验最后随机抽取了10%的数据集进行验证,对F1值进行计算。

Adam算法作为一种自适应学习算法,应用广泛。其收敛速度快,调参少,非常适合使用大数据集等的实验中。算法的计算过程如下所示:

②实验结果和分析

下面将对本发明的对比模型进行简要介绍:

CRF-1:仅通过最基础的条件随机场提取方面术语

CEF-2:在基础的条件随机场上加入词嵌入向量提取术语

BLSTM-CRF:使用经过预训练的词向量的双向LSTM提取特征

IHS_RD:SemEval-2014笔记本领域的获胜方案

Li:考虑到序列标注前一时刻的对当前预测的影响提取术语

DE-CNN:使用通用和特定于领域的预训练词嵌入的CNN模型提取术语

7)BiReGU-CRF:使用双层ReGU以及注意力机制提取术语

8)WDEmb:通过方面词和上下计算单词的权重位置信息输入CRF提取术语

本发明模型通过实验将得到的结果与其他基准模型进行对比,如下表4所示:

表4不同模型F1值对比试验结果

其中,“-”用来表示该模型没有采用该数据集进行试验,表中结果同时对本发明模型名称和模型在不同数据集取得的最好结果用粗体表示。

由表4可以看出本发明提出的方法同其他方法相比基本都取得了很好的效果,只有在SemEval-2016餐厅领域数据集上,模型表现效果仅差于DE-CNN。与提出方法相比,DE-CNN词嵌入使用了双嵌入向量结合,通过领域词嵌入和通用词嵌入进行特征提取。领域词嵌入有利于在特定领域能更好的挖掘方面词之间的关系,而对于其他领域不会有很好的效果,本发明模型加入词性词向量,和特定领域词嵌入相比,词性标注更为方便。特定领域词嵌入需要人工标记特定领域数据,适用范围较小。所以仅在一些特定领域,有利于DE-CNN模型的发挥。

由表4可以看到,CRF-1模型效果差于CRF-2,主要是CRF-1中模型提取特征能力不行,CRF-2可以到词向量的加入带来了非常好的效果。同样WDEmb因为加入了上下文向量特征,使得CRF输入特征变多,所以分类效果会好于CRF-2。根据这三个模型可以看出词嵌入对于方面术语提取的有效性。BiReGU-CRF效果优于BLSTM-CRF,进一步证明BiReGU相对于BLSTM有一定的效果提升。同时BLSTM-CRF和WDEmb在特征提取模型的基础上都增加了CRF,能够更好的获取网络中不同单词的依赖关系,所以模型效果好于仅基于预训练词向量的双向LSTM模型。BiReGU-CRF与本发明提出的模型相比,后者表现更好,通过对词嵌入以及注意力机制的改进,证明能够更深层次的挖掘出方面术语的关系,提取更高级的特征。总之,本发明模型能够取得不错的效果,主要是因为引入了POS标签,加入词性此词向量信息,通过自注意力机制进一步挖掘方面术语之间的隐藏关系建模特征,通过实验证明了方法的有效性。

在与相关的其他模型比较后,为了探究引入的模块的有效性,对此进行消融实验对比。基于SA-BiReGU模型评估了三种不同的模型,以研究加入词性标签功能的重要性以及使用自注意机制对词位置的学习的影响,如下表5所示:

表5消融实验结果

根据表5所示的结果,可以看到加入词性标签功能和自注意机制对于提高F1值,以及提高句子中识别方面术语的模型能力都很重要。通过上述实验结果可以看到,本发明提出的模型能够取得不错的效果。

本发明基于自注意力的方面术语提取模型。首先分析了目前主流的方面术语提取模型的特点及存在的问题,接着提出了基于自注意力的方面术语提取模型SA-BiReGU,最后对比试验证明了方法模型的有效性。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文本纠错方法、装置、电子设备和计算机存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!