一种面向可解释的情感溯源方法

文档序号:190527 发布日期:2021-11-02 浏览:26次 >En<

阅读说明:本技术 一种面向可解释的情感溯源方法 (Interpretable emotion tracing method ) 是由 万海 黄紫菱 刘亚男 曾娟 黄佳莉 于 2021-06-30 设计创作,主要内容包括:本发明提供一种面向可解释的情感溯源方法,该方法针对情感分析问题,首次提出了情感溯源的概念,情感溯源指的是对情感分析过程找到完整的推理链路以及推理链路具有文本支撑;利用规则模板,使得情感分析的过程更具有可解释性;利用对溯因证据模型,对提取到的规则寻找文本支撑,本发明认为,只有具备文本支撑的规则,才能作为正确的规则,加入到结果中,使得结果更为准确;验证了溯因证据模型可以有助于情感溯源,从而有助于情感分析,具有较好的实用性。(The invention provides an interpretable emotion tracing method, which provides an emotion tracing concept for the first time aiming at emotion analysis problems, wherein emotion tracing refers to the fact that a complete reasoning link is found in an emotion analysis process and the reasoning link has text support; the emotion analysis process is made to be more interpretable by utilizing the rule template; the text support is searched for the extracted rule by utilizing the traceability evidence model, and the text support is considered to be a correct rule only if the rule with the text support is included and added into the result, so that the result is more accurate; the traceability evidence model is verified to be beneficial to emotion traceability, so that emotion analysis is facilitated, and the method has good practicability.)

一种面向可解释的情感溯源方法

技术领域

本发明涉及计算机技术的自然语言领域,更具体地,涉及一种面向可解释的情感溯源方法。

背景技术

溯因推理在形式逻辑和自然语言处理中都有研究。溯因推理指的是,给定一个理论C和可能暗示Q,这个暗示是不能在理论C中证明的。存在一个新的事实f,在C中添加了f,可以得出暗示Q,在NLP中,可以通过遮盖的方式,将f从C中遮盖掉。

情感分析在近年来,因为社交媒体的快速发展而得到了诸多研究者的关注,随着社交媒体的快速发展,评论、论坛讨论、社交平台的言论等信息大量出现,对于这些信息挖掘表达者对事物、事件或主题等实体的情感,有助于了解该类人群的观点以及他们做出的选择。自2000年初开始,情感分析就成为自然语言处理种最活跃的研究领域之一。

情感分析是对信息进行情感分类,有的任务分成两类:正面或负面,有的任务在此基础上增加了中性的分类。早期的情感分析方法包括有监督的方法和无监督的方法,有监督的方法是基于传统的机器学习方法,例如支持向量机、最大熵、朴素贝叶斯等,无监督的方法例如情感词典等。后来,随着机器学习的发展,机器学习的方法也用于情感分析的任务中,例如Kalchbrenner等人提出了一种动态CNN模型(DCNN),该模型使用动态K-Max池化算法作为非线性子采样函数,特征图由网络生成,能够捕捉词之间的关系。随着情感分析的发展,Thet等人提出了方面情感分析的任务,方面情感需要同时考虑情感和目标信息,目标通常为实体或者方面,即给定一个句子和一个目标方面,方面级情感分类旨在推断句子对于指定目标方面的情感极性。

现有方法的基本是无监督的情感词典方法或者是有监督的深度学习网络的方法,但是现有的模型存在解释性不强的问题,而且也存在迁移性不强的问题,对于另一个领域的文本,使用有监督的方法可能需要再次进行大量标注和训练。

发明内容

本发明提供一种面向可解释的情感溯源方法,该方法弥补过去的情感分析模型可解释性不高的问题,通过情感溯源得到更有说服力的结果。

为了达到上述技术效果,本发明的技术方案如下:

一种面向可解释的情感溯源方法,包括以下步骤:

S1:采集数据并对采集的数据进行预处理;

S2:训练规则抽取模型;

S3:训练溯因证据模型;

S4:组成情感溯因结果;

S5:输入未标注文本得到情感溯因结果。

进一步地,所述步骤S1的具体过程是:

S11:从社交平台或者购物平台上爬取评论信息;

S12:针对爬取到的信息,清洗去除其中不涉及评价的部分,保留表达了用户对商品或者实体情绪或者看法的信息;

S13:人工对爬取得到的信息进行标注,其中,标注的内容包括:句子涉及的方面类别以及对应的情感极性、得到这个结果的推理过程、将这个推理过程模板化得到规则模板,并标注规则模板中,哪些子句属于需要在文本中寻找证据的,哪些属于外部知识。

进一步地,所述步骤S2的具体过程是:

S21:划分数据集为训练集和测试集,其中训练集70%,测试集30%;

S22:规则抽取模型是一种序列标注问答模型,这里采用的是预训练语言模型Roberta模型的基础上,添加序列标注的线性层;

S23:模型训练会对每一个标注过的推理规则子句中属于模板变量的部分遮盖,转换成疑问句,将标注的变量结果作为问题的答案,输入问句和文本,训练模型使得最高评价序列为正确答案。所有训练集的所有涉及的子句作为一次完整训练;

S24:在训练过程中,记录每一次训练的模型,通过测试集测试,得到测试集准确率和单条f1值最高的模型。

进一步地,所述步骤S3的具体过程是:

S31:构建这一步的数据集:通过将规则模板里涉及到的变量,通过同类替换的方式,将句子中的相同类别替换得到新的推理子句。将按照这种方式生成的子句标记为假,原来标注的推理链条子句标记为真;训练集占70%,测试集占30%;

S32:溯因证据模型是通过对文本中的句子拼接相应编码后的子句,中间使用Roberta的特殊分隔符</s>分割开,经过编码后,输入Roberta预训练语言模型中,将<s>的向量相加起来,输入到线性层和softmax归一化后得到判断相应变量是否符合子句描述情况;

S33:在训练过程中,每完成一次所有样本的训练,存储一次模型,最后使用测试集正确率最高的模型。

进一步地,所述步骤S4的具体过程是:

S41:通过步骤S3得到的每一个子句的评分,从而获得整个情感溯源链路的评分;

S42:比较各条链路的评分,取每个方面中评分最高的链路作为最终的情感溯源结果;

S43:获得情感溯源结果后,可以通过情感溯源推理链条的结论,得到该段话对该方面的情感分析结果。

进一步地,所述步骤S5的具体过程是:

S51:对于每一个规则模板,拆分子句,遮盖变量,构造问题文本;

S52:将上一步得到的问题和文本,输入到规则抽取模型中,得到问题答案,替换变量,构造下一步的问题文本,如果不存在答案,则可认为这个文本的情感溯源不能使用该模板进行;

S53:不断重复S51和S52直到所有模板的所有变量已经被确认,即确认为具体的内容或者确认为无法找到;

S54:将S53中涉及到需要从文本中寻找证据的子句,和文本中提及到相应变量的句子,输入到溯因证据模型,得到各个子句的评分,从而得到结果的评分;

S54:从上一步得到的评分得到完整情感溯源链路的评分,从而得到最终结果。

进一步地,所述步骤S1中,使用爬虫工具从社交网站、购物网站上爬取评论信息,只保留存在表达用户情绪的评论,人工对数据进行方面情感极性标注,极性分为积极、消极以及中性,并在其中添加使用的规则,同时,标注还需要将标注过的规则提取规则模板作为输入;所述步骤S2中,通过将规则模板拆分,并转化为疑问句,训练问答模型,得到模板中对应变量的信息;针对步骤S2中获得的结果,训练溯因证据模型,将文本中,所有提及到相关变量的句子,通过模型计算能证明步骤S2中的涉及句子信息规则子句评分,从而对组合起来的规则进行评分;对于步骤S4中的评分,设定阈值,得到每条推理链路的评分,确定最终的情感推理链路,得到最后的结果。

进一步地,步骤S5中,通过将未标注文本匹配规则模板,将规则模板中的变量遮盖,设计成疑问句,通过规则抽取模型,得到变量的结果,输入模板中,继续获得下一个变量的结果,知道模板语句中所有变量都已经找到结果,得到多条情感溯因推理链路。将上一步得到的结果,通过溯因证据模型,得到每个链路子句的评分,使用在相同方面的最高分作为情感溯因结果,使用链路结果作为情感分析的结论。

与现有技术相比,本发明技术方案的有益效果是:

本发明针对情感分析问题,首次提出了情感溯源的概念,情感溯源指的是对情感分析过程找到完整的推理链路以及推理链路具有文本支撑;利用规则模板,使得情感分析的过程更具有可解释性;利用对溯因证据模型,对提取到的规则寻找文本支撑,本发明认为,只有具备文本支撑的规则,才能作为正确的规则,加入到结果中,使得结果更为准确;验证了溯因证据模型可以有助于情感溯源,从而有助于情感分析,具有较好的实用性。

附图说明

图1为本发明方法的流程图;

图2为本发明方法应用阶段流程图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-2所示,一种面向可解释的情感溯源方法,包括以下步骤:

步骤1、数据爬取、清洗以及标注等预处理:使用爬虫工具从社交网站、购物网站等上爬取评论信息,将一些没有意义的文本清洗掉,只保留存在表达用户情绪的评论,人工对数据进行方面情感极性标注,极性分为积极、消极以及中性,并在其中添加使用的规则。同时,标注还需要将标注过的规则提取规则模板作为输入:

S11:从社交平台或者购物平台上爬取评论信息;

S12:针对爬取到的信息,清洗去除其中不涉及评价的部分,保留表达了用户对商品或者实体情绪或者看法的信息;

S13:人工对爬取得到的信息进行标注,其中,标注的内容包括:句子涉及的方面类别以及对应的情感极性、得到这个结果的推理过程、将这个推理过程模板化得到规则模板,并标注规则模板中,哪些子句属于需要在文本中寻找证据的,哪些属于外部知识。

步骤2:训练证据抽取模型:通过步骤2得到的段落,使用证据抽取模型,抽取相关的证据,证据使用三元组的方式表示,关系在构建数据集的过程中已经定义:

S21:划分数据集为训练集和测试集,其中训练集占70%,测试集占30%;

S22:规则抽取模型是一种序列标注问答模型,这里采用的是预训练语言模型Roberta模型的基础上,添加序列标注的线性层;

S23:模型训练会对每一个标注过的推理规则子句中属于模板变量的部分遮盖,转换成疑问句,将标注的变量结果作为问题的答案,输入问句和文本,训练模型使得最高评价序列为正确答案。所有训练集的所有涉及的子句作为一次完整训练;

S24:在训练过程中,记录每一次训练的模型,通过测试集测试,得到测试集准确率和单条f1值最高的模型;

S25:在使用的过程中,通过上一个问题获得的答案得到变量的值,然后带入到下一个子句中,构成下一个子句的详情。例如对于规则模板:如果A是积极的,B是A的,B属于C,那么C是积极的,第一个子句的疑问句:什么是积极的?,在获得答案a后,让A等于答案,替换到第二个子句,疑问句变成:什么是a的?以此类推直到整个规则模板的每一个变量都找到具体的答案。

步骤3:组成情感溯因结果:对于步骤4中的评分,设定阈值,得到每条推理链路的评分,确定最终的情感推理链路,得到最后的结果:

S31:构建这一步的数据集:通过将规则模板里涉及到的变量,通过同类替换的方式,将句子中的相同类别替换得到新的推理子句。将按照这种方式生成的子句标记为假,原来标注的推理链条子句标记为真。训练集占70%,测试集占30%;

S32:溯因证据模型是通过对文本中的句子拼接相应编码后的子句,中间使用Roberta的特殊分隔符</s>分割开,经过编码后,输入Roberta预训练语言模型中,将<s>的向量相加起来,输入到线性层和softmax归一化后得到判断相应变量是否符合子句描述情况;

S33:在训练过程中,使用随机梯度下降方式更新参数,每完成一次所有样本的训练,存储一次模型,最后使用测试集正确率最高的模型。

步骤4:组成情感溯因结果:对于步骤4中的评分,设定阈值,得到每条推理链路的评分,确定最终的情感推理链路,得到最后的结果:

S41:通过步骤3得到的每一个子句的评分,从而获得整个情感溯源链路的评分;

S42:比较各条链路的评分,取每个方面中评分最高的链路作为最终的情感溯源结果;

S43:获得情感溯源结果后,可以通过情感溯源推理链条的结论,得到该段话对该方面的情感分析结果。

步骤5:输入未标注文本得到情感溯因结果:通过将未标注文本匹配规则模板,将规则模板中的变量遮盖,设计成疑问句,通过规则抽取模型,得到变量的结果,输入模板中,继续获得下一个变量的结果,知道模板语句中所有变量都已经找到结果,得到多条情感溯因推理链路。将上一步得到的结果,通过溯因证据模型,得到每个链路子句的评分,使用在相同方面的最高分作为情感溯因结果,使用链路结果作为情感分析的结论:

S51:对于每一个规则模板,拆分子句,遮盖变量,构造问题文本;

S52:将上一步得到的问题和文本,输入到规则抽取模型中,得到问题答案,替换变量,构造下一步的问题文本,如果不存在答案,则可认为这个文本的情感溯源不能使用该模板进行;

S53:不断重复S51和S52直到所有模板的所有变量已经被确认,即确认为具体的内容或者确认为无法找到;

S54:将S53中涉及到需要从文本中寻找证据的子句,和文本中提及到相应变量的句子,输入到溯因证据模型,得到各个子句的评分,从而得到结果的评分;

S54:从上一步得到的评分得到完整情感溯源链路的评分,从而得到最终结果。

相同或相似的标号对应相同或相似的部件;

附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种可解释的文本推断方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!