基于数据增强的情感分类模型及情感分类方法

文档序号:830116 发布日期:2021-03-30 浏览:8次 >En<

阅读说明:本技术 基于数据增强的情感分类模型及情感分类方法 (Emotion classification model and emotion classification method based on data enhancement ) 是由 李博涵 王文幻 王萌 历傲然 杨新民 解文彬 于 2020-12-29 设计创作,主要内容包括:本发明公开一种基于数据增强的情感分类模型,该模型构建方法包括如下步骤:(1)获得原始数据集;(2)对原始数据集进行预处理和清洗;(3)对各文本进行否定处理;(4)将文本进行反转,形成对立文本;(5)标记原始文本和对应的对立文本的标签;(6)生成对立文本的数据集作为对立文本训练集;(7)采用分类器,从原始数据集和对立文本训练集两个方面训练分类器模型,获得情感分类模型。本发明利用数据增强技术得到对立文本训练集和对立文本测试集,并利用词嵌入将文本转换为词向量,从正反两个角度来对文本情感进行预测,增加了模型预测的鲁棒性,提高了模型预测的准确率,通过本发明提出的分类方法能够有效提高分类精度。(The invention discloses an emotion classification model based on data enhancement, and a model construction method comprises the following steps: (1) obtaining an original data set; (2) preprocessing and cleaning an original data set; (3) negating each text; (4) reversing the text to form a contradictory text; (5) labels for marking the original text and the corresponding opposite text; (6) generating a data set of the opponent text as an opponent text training set; (7) and training a classifier model from the original data set and the opponent text training set by adopting a classifier to obtain an emotion classification model. The method obtains the opponent text training set and the opponent text testing set by using a data enhancement technology, converts the text into word vectors by using word embedding, predicts the text emotion from positive and negative angles, increases the robustness of model prediction, improves the accuracy of model prediction, and can effectively improve the classification precision by using the classification method provided by the invention.)

基于数据增强的情感分类模型及情感分类方法

技术领域

本发明属于数据处理技术领域,具体是涉及一种对自然语言进行处理,以数据增强技术为支撑的情感分类方法。

背景技术

现如今,随着各种社交媒体、商业网站的兴起与发展,人们越来越习惯于在各种平台发表自己对某事或者某物的看法,例如在twitter或者新浪微博等社交平台上面发表自己对股票、政治事件、娱乐花边新闻等的评论或者分享自己的日常生活,或者表达自己对从亚马逊、淘宝或其他购物网站上买的物品的使用感受。

以twitter为例,推特是一家美国社交网络及微博客服务的公司,致力于服务公众对话。它可以让用户更新不超过140个字符的消息(除中文、日文和韩文外已提高上限至280个字符),这些消息也被称作“推文(Tweet)”,Twitter被形容为“互联网的短信服务”。Twitter在全世界都非常流行,Twitter发布的财报显示,截至2020年第三季度,Twitter的可货币化日活跃用户达1.87亿,因此每时每秒都有着新的推文产生。如此海量的信息数据蕴含着丰富的情感信息,人们通过发布推文来分享生活动态或者对某事/某物的观点(例如2020年初新冠肺炎盛行于全世界的时候,每天都有大量的相关动态或评论发布在Twitter上)。

每分每秒都有着新的评论产生,如此海量的信息数据促使了情感分析的产生。情感分析是对说话者/作者对某一主题的观点、态度、情绪的计算分析,并从文本库中识别非琐碎的、主观的信息。决策者可以通过跟踪文本信息、进行情感分析来获取利益相关者的观点,以方便后续更好的发展。情感分析往往伴随着意见挖掘和文本挖掘,其框架主要包括以下子任务:获取文本数据、数据清理和预处理、将文本转换为机器可读向量、特征选择,最后应用自然语言处理和机器学习算法。情感分析是自然语言处理中的子任务,从2011年开始成为一个热点研究对象。机器学习方法的发展和大量数据的易获取使得情感分析方面的研究很多。目前国外学者对利用自然语言处理进行文本情感处理的研究已经积累了大量的英文预料和词典资源。但是目前情感分析的分析方法趋向于用时间和空间的复杂、低效来换取准确率。

传统的文本建模方法,例如词袋模型通常只对词语的句法环境进行建模,一定程度上破坏了语法结构。为了解决这个问题,研究人员提出了词嵌入模型,该模型将单词表示成一个连续的、低维的重值向量。但是词嵌入模型有着一个固有的困难:极性转移。极性转移是指文本的情感在被分析时被逆转(消极的文本被判断为积极文本,积极的文本被判断为消极文本)。极性转移的主要诱因是文本中包含的否定项,否定项常出现于口语化文本中,而Twitter等社交平台产生的评论则是非常典型的口语化短文本,因此对其进行情感分析时对否定的处理以降低极性转移的可能性是必不可少的。但是目前大多数情感分析模型只是将否定项影响的范围简单的定义为否定项及其后的第一个标点符号之间的那些词,即否定项到子句结尾。这对否定的定义太过简单,忽略了语言的复杂性。此外,目前对推文进行情感分析的算法模型只关注实际获取到的原始文本,忽略了文本中隐含的深层次含义以及其包含的对立关系。因此,对推文等短文本进行情感分析的方法仍需要改进。。

发明内容

发明目的:本发明目的在于针对现有技术的不足,改进了否定处理的方法,结合语法分析并给出了新的否定范围假设,基于已获取到的原始数据集,通过数据增强的方法生成其对立数据集,提出了基于数据增强技术的情感分析模型。

技术方案:本发明所述基于数据增强的情感分类模型,其模型构建方法包括如下步骤:

(1)从社交平台中采集目标短文本数据集,获得原始数据集,分析短文本的特点,确定文本数据集各类型数据的数量;

(2)对步骤(1)中获取到的原始数据集进行预处理和清洗;

(3)对经过步骤(2)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;

(4)将步骤(3)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;

(5)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;

(6)生成对立文本的数据集作为对立文本训练集;

(7)采用分类器,从原始数据集和步骤(6)得到的对立文本训练集两个方面训练分类器模型,获得情感分类模型。

本发明进一步优选地技术方案为,步骤(2)中对原始数据集进行清洗包括过滤掉文本中包含的属性、邮箱、特殊字符和链接,去掉无用的停用词,忽略转发和用户修改过的文本,删除重复项。

作为优选地,步骤(3)中对文本进行否定处理的具体步骤为:

3a、使用基于规则的关键词匹配技术进行否定触发项检测;

3b、将检测到的否定触发项替换为标记“Negation”;

3c、结合连词分析技术和标点符合识别技术检测否定范围;

3d、确认否定范围。

优选地,在步骤(4)对文本进行反转前,还需对文本中存在的表情符号进行标记处理,将积极表情和消极表情分别使用标记EMO_POS和标记EMO_NEG进行替换。

优选地,步骤(7)中采用支持向量机、逻辑回归和朴素贝叶斯分类器进行模型训练。

本发明所述的情感分类方法,包括如下步骤:

(1)构建上述的情感分类模型;

(2)从社交平台中采集目标短文本数据集,获得原始测试集,分析短文本的特点,确定文本数据集各类型数据的数量;

(3)对步骤(2)中获取到的原始测试集进行预处理和清洗;

(4)对经过步骤(3)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;

(5)将步骤(4)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本;

(6)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;

(7)生成对立文本的数据集作为对立文本测试集;

(8)采用步骤(1)获得的情感分类模型对原始测试集合对立文本测试集中的数据进行情感分析,最终的预测结果取决于原始测试集和对立测试集的综合预测结果。

有益效果:(1)本发明将文本分为积极文本和消极文本,原始数据集中每条消极文本通过检测否定触发项及其范围、反转情感词、反转极性标签等一系列操作可变为一条积极文本,反之亦然;由对比文本组成的数据集称为对比数据集,对比数据集的使用的技术称为数据增强技术;本发明利用数据增强技术得到对立文本训练集和对立文本测试集,并利用词嵌入将文本转换为词向量,在使用测试集对文本进行极性预测时,不仅考虑原始文本的积极程度(消极程度),还考虑对比文本的消极程度(积极程度),生成的对立文本数据集可以有效利用文本种蕴含的深层次情感信息,从正反两个角度来对文本情感进行预测,增加了模型预测的鲁棒性,提高了模型预测的准确率,通过本发明提出的分类方法能够有效提高分类精度;

(2)本发明在检测否定触发项和否定范围时,充分理解语言的复杂性,不简单定义否定范围为否定触发项到其后的第一个标点符号之间的所有单词,而是将标点符号识别技术与连词分析技术相结合,全面考虑并定义了多条规则以解决否定句中出现连词的复杂问题。

具体实施方式

下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。

实施例:

1、构建基于数据增强的情感分类模型,包括如下步骤:

(1)从社交平台中采集目标短文本数据集,获得原始数据集,分析短文本的特点,确定文本数据集各类型数据的数量;

(2)对步骤(1)中获取到的原始数据集进行预处理和清洗,过滤掉文本中包含的属性、邮箱、特殊字符、链接等,去掉无用的停用词,忽略转发和用户修改过的文本,删除重复项;

(3)对经过步骤(2)处理后的各文本进行否定处理,包括否定触发词检测和否定范围检测,将检测到的否定触发词进行标记替换,确认该否定触发项影响的范围,划定否定触发项涉及的距离;

具体步骤为:

3a、使用基于规则的关键词匹配技术进行否定触发项检测;

3b、将检测到的否定触发项替换为标记“Negation”;

3c、结合连词分析技术和标点符合识别技术检测否定范围;

3d、确认否定范围。

为了更加准确的确定否定触发项以及涉及的否定范围,本实施例中不是简单的将否定范围定义为否定项及其后的第一个标点符号之间的那些词,即否定项到子句结尾,而是结合连词分析技术和标点符号识别技术,分别从并列词和转折词的角度,给出如下表1所示的六种否定情况:

表1六种否定情况

(4)对文本中的表情进行标记处理,将积极表情和消极表情分别使用标记EMO_POS和标记EMO_NEG进行替换。

常见的推文中包含的表情符号,给出如表2所示的表情替换模式,其中包含23个典型的积极表情符号和11个典型的消极表情符号。

表2常见的表情符号和标记替换

(5)将步骤(4)得到的文本进行反转,否定范围内的情感词不变,否定范围外的情感词根据情感词典里的反义词进行替换,并去掉否定触发项标记,形成对立文本,需要注意的是这里的反义词不是绝对意义上的反义词,是含有相反的意思的词语;

(6)标记原始文本和对应的对立文本的标签,原始文本为积极或消极标签,对立文本的标签标记为消极或积极标签;

(7)生成对立文本的数据集作为对立文本训练集,最终形成对立文本举例如表3所示:

表3原始文本和对立文本的比较

(8)采用支持向量机、逻辑回归、朴素贝叶斯三个传统的分类器,从原始数据集和步骤(7)得到的对立文本训练集两个方面训练分类器模型,获得情感分类模型。

2、基于以上的模型的情感分类方法,包括如下步骤:

(1)采用与构建模型时获得原始数据集和对立文本训练集相同的方法,分别获得原始测试集和对立文本测试集。

(2)用获得的情感分类模型对原始测试集合对立文本测试集中的数据进行情感分析,最终的预测结果取决于原始测试集和对立测试集的综合预测结果。

模型预测阶段,考虑两条对立文本x和x’来预测原始样本x的标签分类。主要任务并不是要预测对立测试数据集中x’的类,而是通过x’辅助预测x的类。因此,模型不仅考虑原始文本x多么积极或消极,还要考虑其对立文本x’多么消极或积极。p(.|x)和p(.|x’)分别表示原始文本x和对立文本x’的后验概率。.表示积极(+)或消极(-)。在预测阶段,一条文本的类需要考虑文本的两个方面。

一个测试文本的积极情感程度是由两部分衡量的,即

(1)原始测试文本x有多积极,p(+|x);

(2)对立测试文本x’有多消极,p(-|x’)。

一个测试文本的消极情感程度是由两部分衡量的,即

(1)原始测试文本x有多消极,p(-|x);

(2)对立测试文本x’有多积极,p(+|x’)。

如表4所示,本发明使用的两个数据集分别为斯坦福数据集和桑德斯推特情绪语料库数据集。斯坦福数据集包含160000条训练推文,同时包含80000条积极和消极的推文。而桑德斯的Twitter情绪数据集包含570个正面和654个负面推文。

表4数据集详表

两个数据集中的每个类别的文本被随机分成五份(其中四份作为训练数据,剩余一份作为测试数据),原始训练文本数据集和原始测试文本数据集都将采用数据增强技术生成对立训练文本数据集和对立测试文本数据集。最终所得的所有实验结果均以五倍交叉验证的平均准确率来进行报告和分析。使用基于LibLinear工具包的逻辑回归分类器,所有参数值都为默认值。为了证明我们提出的框架的有效性,我们还使用了基于多项式与拉普拉斯平滑事件模型的朴素贝叶斯分类器和基于LibSVM工具包的支持向量机分类器。支持向量机模型中的核函数为线性核,惩罚参数设为默认值,其中Platt概率输出被应用于近似后验概率。

由于本发明的最终目标是对原始文本进行更稳健的预测,因此设置权衡参数是为了避免本末倒置,重视原始文本的预测表现。首先,发明基于斯坦福数据集数据集,发现预测精度较高时权衡参数参数值在0.4和0.8之间。然后,同样地在桑德斯推特情绪语料库数据集上使用权衡参数(0<α<l)。两次实验表明,当α得值在0.4~0.8之间时,模型对两个数据集的分类精度都较高。为了取得更好的更稳定的实验效果,我们假设α=0.5。

模型是有着数据增强技术支撑且基于支持向量机,朴素贝叶斯和逻辑回归三个分类器的。本发明提出的模型中,基于支持向量机的分类器取得了最好的结果,这可能是由于我们的否定处理进一步提高了支持向量机的可解释性。

下面通过一个文本样本来说明模型在训练阶段解决极性转移的有效性。

原始训练文本:I don’t like this eye shadow tray,and it is unpretty.标签:Negative

对立训练文本:I like this eye shadow tray,and it is elegant.标签:Positive

在日常用语中“like”被认为是具有强烈积极情感的词,但是由于原始文本存在否定词“not”,使得极性发生偏移,并且错误的将积极词“like”与原始评论的负标签相关联。回顾极大似然估计,可以知道“like”的权重将被一个负分数相加。而在模型训练阶段中,本发明去掉了否定,“like”被正确的与反转文本的积极标签相关联,其权重能够以正分数相加。基于此,本发明可以得出一个结论:在模型训练阶段通过否定处理,可以部分补偿由否定引起的学习错误。

再通过该文本说明本发明为什么会认为在预测阶段可以有效的解决极性转移问题。

原始测试文本:I don’t like this eye shadow tray,and it is unprettyEMO_NEG.

对立测试文本:I like this eye shadow tray,and it is elegant EMO_POS.

对于原始测试文本,尽管存在着否定结构,但是“like”在预测测试样本的总体方向上具有较高的正性,那么传统的机器学习算法可能会错误的将原始推测文本预测为负类。但是在预测阶段,本发明在数据增强过程中移除了否定项“not”,那么“like”可以顺利的发挥其积极作用,附加对立测试样本中的积极令牌“EMO_POS”表示的积极表情,对立测试样本被分为积极类的可能性极高。此外,在预测阶段,本发明对原始预测和对立预测进行加权组合,对立预测辅助原始预测的准确性,一定程度上对原始预测的学习错误进行了补偿。在定义否定范围时,没有简单的根据标点符号区分否定范围,而是将包括连词的复杂否定也纳入考虑范围,对于否定覆盖考虑的更为周到,因此本发明提出的模型在预测阶段能够有效的减少由极性漂移引起的一些预测误差,提高预测结果的鲁棒性。

以上的分析证明了在对文本进行有效否定处理的情况下,利用数据增强技术生成对立文本,在模型训练和预测阶段充分考虑一条文本的两个情感对立面能够有效的提高情感分析的准确率,从应用的角度证明了本发明训练出来的情感分类器的有效性与实用性。

如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:确定争议焦点的方法和装置、存储介质和设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!