一种融合先验知识的蒙古语文本情感分析方法

文档序号:1905182 发布日期:2021-11-30 浏览:23次 >En<

阅读说明:本技术 一种融合先验知识的蒙古语文本情感分析方法 (Mongolian text emotion analysis method fusing priori knowledge ) 是由 仁庆道尔吉 刘馨远 张倩 张文静 张毕力格图 郎佳珺 萨和雅 吉亚图 于 2021-07-26 设计创作,主要内容包括:一种融合先验知识的蒙古语文本情感分析方法,对含有表情符的蒙古语情感文本语料库进行预处理;将经过预处理得到的文本词和表情符转换为动态词向量;分别创建蒙古语情感词典和表情符的情感词典将二者提取的特征作为模型最终提取的情感特征;由CNN网络和门控机制组成蒙古语文本情感分析模型;将融入先验知识的模型在大规模蒙古语语料上进行预训练,得到融合先验知识的蒙古语文本情感分析模型;将该模型的分析结果与单一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,达到提高蒙古语文本情感分析性能的目的。(A Mongolian emotion text corpus integrating prior knowledge is used for preprocessing a Mongolian emotion text corpus containing emoticons; converting the text words and the expression symbols obtained through preprocessing into dynamic word vectors; respectively creating an emotion dictionary of Mongolian and an emotion dictionary of emoticons, and taking the features extracted by the Mongolian emotion dictionary and the emotion dictionaries as the emotion features finally extracted by the models; a Mongolian text emotion analysis model is composed of a CNN network and a gating mechanism; pre-training the model fused with the priori knowledge on a large-scale Mongolian corpus to obtain a Mongolian text emotion analysis model fused with the priori knowledge; and comparing and evaluating the analysis result of the model with the analysis result of a single network analysis method in terms of accuracy, recall rate and F1 value, thereby achieving the purpose of improving the emotion analysis performance of Mongolian texts.)

一种融合先验知识的蒙古语文本情感分析方法

技术领域

本发明属于人工智能技术领域,特别涉及一种融合先验知识的蒙古语文本 情感分析方法。

背景技术

随着互联网技术的快速发展,越来越多的人开始在诸如微博、论坛、影视 网站、购物网站等平台发表各种言论,以此来分享自己的心情、观点和意见。 随着时代的发展,文本的载体出现多元化,其中表情符就是一种新的载体。用 户发表的这些内容可能包含不同的感情色彩:有开心的或是喜爱的;悲伤的亦 或是愤怒的。情感分析的核心是将一段文本所表达的情感分为happiness、 like、sadness、anger四个类别。

随着人工智能的崛起,深度学习方法得到了广泛的关注,因其模型具有强 大的特征学习能力,所以逐渐成为了解决情感分类问题的重要方法。但对于蒙 古语这样的小语种来说,现有的文本情感分析方法存在以下三点不足。其一, 由于蒙古语词汇丰富形态变化多,就造成了在蒙古语文本情感分析过程中出现 了严重的未登录词现象,而大量未登录词的存在严重影响情感分析的准确率。 其二,目前单一的神经网络模型在解决文本情感分析时不具有很好的实时性, 分类效果不佳。

发明内容

为了克服上述现有技术的缺点,本发明的目的在于提供一种融合先验知识 的蒙古语文本情感分析方法,具有以下三个特点:第一,将BPE技术和词向量 修正方法结合,更好的缓解因蒙古语语法的复杂性而出现的未登录词问题;第 二,通过预训练模型分别将文本和表情符表示成向量的形式,以充分利用原始 数据中的文本和表情符的情感特征,达到多方位分析情感目标的目的;第三, 通过构建蒙古语情感词典和表情符的情感词典作为预训练模型的先验知识,再 利用蒙古语情感文本语料训练得到基于卷积和门控机制的神经网络的蒙古语文 本情感分析模型,提升蒙古语文本情感分析的质量。

为了实现上述目的,本发明采用的技术方案是:

一种融合先验知识的蒙古语文本情感分析方法,包括如下步骤:

步骤1:对含有表情符的蒙古语情感文本语料库进行预处理;

步骤2:BPE分词技术对蒙古语语料进行分词;

步骤3:将经过预处理得到的词转换为动态词向量;

步骤4:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知 识;

步骤5:将融合先验知识的模型在大规模的语料进行预训练,得到融合先 验知识模型的蒙古语文本情感分析模型;

步骤6:将融合先验知识的蒙古语文本情感分析模型的分析结果与单一网 络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价, 以达到提高蒙古语文本情感分析性能的目的。

所述步骤1中,预处理是对所获取的语料进行数据清洗,解决数据源问 题,比如原始数据错误,脏乱差。预处理包括移除用户名信息、移除URLS、 移除特殊字符等步骤。

所述步骤2中,采用字节对编码技术(BPE)分词技术对预处理的语料信 息进行切分操作,利用GloVe模型将文本语料和表情符训练生成对应的词向 量,并并使用词向量结果贪心地发现未登录词,修正切分结果。

所述利用GloVe训练生成词向量的目标函数J(W)为:

其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维 数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示 词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:

其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次 数,Xi=∑jXij

对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下 一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:

若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组 合后的词向量为二者加和归一化的结果,计算公式为:

利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的 切分结果其中m为原分词结果Y中的词向量的个数,n为修正 后的切分结果中的词向量的个数。

所述步骤3中,将经过预处理得到的词转换为计算机能识别和处理的语 言,即动态词向量。

所述步骤4中,分别创建蒙古语情感词典和表情符的情感词典作为模型的 先验知识。其中,文本情感词典包含happiness、like、sadnes、sanger四种情感 的情感词语,如,喜悦、高兴、开心等词汇属于文本情感库里happiness的情感 类别,喜欢、想要等词汇属于文本情感库里like的情感类别, 等表情符属于表情符情感词典库里happiness的情感类别。

所述步骤5中,使用融合先验知识的预训练模型Convolutional Neural Net-works And Gating Mechanisms,新的门控Tanh-ReLU单元可以根据给定的方面 或实体选择性地输出情感特征。该架构比现有模型中使用的关注层简单得多。 其次,我们模型的计算在训练过程中可以很容易地并行化,因为卷积层不像 LSTM层那样具有时间依赖性,门控单元也独立工作。

所述步骤6中,准确率的计算公式精确率的计算公式 为召回率的计算公式为F1值的计算公式为其中Acc表示准确率,P表示精确率,R表示召回率,F1表示F1值,TP表示 实际为正例,且被模型预测为正例的样本数量;FN表示被模型预测为负例, 但实际上为正例的样本数量;FP表示被模型预测为正例,但实际上为负例的 样本数量;TN表示实际为负例,且被模型预测为负例的样本数,所述准确 率、精确率、召回率和F1值的分数越高说明情感分析模型性能越好。

与现有技术相比,本发明的有益效果是:

(1)本发明将BPE技术和词向量修正方法结合,更好的缓解因蒙古语语 法的复杂性而出现的未登录词问题。

(2)本发明通过预训练模型分别将文本和表情符表示成向量的形式,以 充分利用原始数据中的文本和表情符的情感特征,达到多方位分析情感目标的 目的。

(3)本发明通过构建蒙古语情感词典和表情符的情感词典作为预训练模 型的先验知识,再利用蒙古语情感文本语料训练得到基于卷积和门控机制的神 经网络的蒙古语文本情感分析模型,提升蒙古语文本情感分析的质量。

附图说明

图1是一种融合先验知识的蒙古语文本情感分析方法的流程图。

图2是门控卷积模型的架构图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示,本发明一种融合先验知识的蒙古语文本情感分析方法,过程 如下:

第一步:对含有表情符的蒙古语情感文本语料库进行预处理。处理是对所 获取的语料进行数据清洗,解决数据源问题,比如原始数据错误,脏乱差。预 处理包括移除用户名信息、移除URLS、移除特殊字符等步骤。

第二步:在进行模型训练之前,应对情感文本语料库进行预处理。本发明 使用字节对编码技术(BPE)对语料进行切分操作,由于BPE技术是用一个没 有在这个字符串中出现的字符将字符串里频率最常见的一对字符代替的层层迭 代过程,所以通过对蒙古语词汇进行词干和词缀的切分,能够让高频词保留至 词典中,而低频词被切分为更小粒度的子单元,从而缓解数据稀疏,减少未登 录词。具体步骤为:

1、将语料库中所有字符加入字典中作为初始化字典,把所有单词变成字 符分割的形式,并在末尾加入标记,方便在输入句子后回复分词信息;

2、对语料中的字符对计数,找出次数最多的字符对(A,B),并在语料中 将其用“AB”代替,从而在字典中增加键值“AB”,此步骤称为合并操作;

3、对上一步操作迭代n次,直到已经进行了一定数量的合并操作;

4、字典由字符、词素和词语等组成,此时字典大小=初始字典大小+合并 操作次数n。

随着互联网的发展使得新词不断涌现,只基于词频而不考虑词的语法、语 义信息的切分方法准确率不高。因此,为了提升切分性能,在BPE环节之后, 本发明选择使用GloVe模型训练生成词向量,并使用词向量结果贪心地发现未 登录词,修正切分结果。

GloVe模型通过对“词-词”矩阵进行分解从而得到词的向量表示。GloVe模 型需要根据语料构建词语的共现矩阵,共现矩阵统计的是词语在给定中心词和 窗口大小的限制环境下的共现次数,因此在一定程度上可以表达词语之间的关 系。由于共现频数是在整个语料库中进行统计的,不只是针对一句话或者一段 语料,所以具有全局性。对于表达意义相近的词而言,它们之间的“距离”也较 其他的词更近。例如“人民政府”一词周围的词语有“市政府”,“政府”,“行政” 等;“科学研究”一词周围的词语有“科研”,“科学技术”,“研究”等。通过 GloVe模型训练得到的词向量包含良好的语法、语义信息。

使用GloVe模型得到的词向量进行切分修正的基本原理为:如果词wi和词 wj同时出现的频率较高,那么二者以较大的概率可以组合成新词wiwj。通过 GloVe模型生成的词向量具有以下性质:如果词wi和词wj有很大可能可以组成 新词wiwj,那么这两个词对应的词向量Wi和Wj之间的夹角θ的余弦值会接近 1。

根据上述原理,可以采用如下贪婪方法进行修正,具体步骤为:

1、将通过BPE技术切分好的词转换为词向量,使用GloVe模型训练词向 量的目标函数为:

式中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维 数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示 词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:

式中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次 数,Xi=∑jXij

2、对于原分词结果Y=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wit1的夹角余弦值,夹角余弦值公式为:

3、若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wit1组成新 词,组合后的词向量为二者加和归一化的结果,计算公式为:

4、利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正 后的切分结果其中m为原分词结果Y中的词向量的个数,n为 修正后的切分结果中的词向量的个数。

第三步:将经过预处理得到的词转换为动态词向量。

第四步:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知 识。其中,文本情感词典包含happiness、like、sadnes、sanger四种情感的情感 词语,如,喜悦、高兴、开心等词汇属于文本情感库里happiness的情感类别, 喜欢、想要等词汇属于文本情感库里like的情感类别, 等表情符属于表情符情感词典库里happiness的情感类别。

第五步:本发明采用融合先验知识的预训练模型,其中预训练模型为Convolutional Neural Net-works+Gating Mechanisms,模型建立在卷积层和门控 单元上。每个卷积滤波器分别从每个位置的嵌入向量计算不同粒度的n-gram特 征。卷积层顶部每个位置的选通单元也是相互独立的。因此,我们的模型更适 合并行计算。此外,我们的模型配备了两种有效的过滤机制:卷积层顶部的选通 单元和最大池层,这两种机制都可以准确地生成和选择与方面相关的情感特 征。

第六步:将融合先验知识模型的蒙古语文本情感分析模型的分析结果与单 一网络分析方法的分析结果就精确率、召回率和F1值进行对比和评价,以达 到提高蒙古语文本情感分析性能的目的。

其中精确率的计算公式为召回率的计算公式为F1 值的计算公式为其中P表示精确率,指的是在预测为正例的样本 中,实际为正例所占的比例,R表示召回率,指的是在实际的正例样本中,预 测为正例所占的比例,通常情况下,精确率和召回率是相互矛盾的,即提高一 个指标会导致另一个指标的下降。F1表示F1值,为了权衡精确率和召回率,F1值被用于综合评价分类模型的性能。TP(True Positive)表示实际为正例, 且被模型预测为正例的样本数量;FN(False Negative)表示被模型预测为负 例,但实际上为正例的样本数量;FP(False Positive)表示被模型预测为正 例,但实际上为负例的样本数量;TN(True Negative)表示实际为负例,且被 模型预测为负例的样本数,精确率、召回率和F1值的分数越高说明情感分析 模型性能越好。表1给出了计算中所需的混淆矩阵:

表1混淆矩阵

预测为正例 预测为负例
实际为正例 TP FN
预测为负例 FP TN

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种隐私政策文档中伪模糊检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!