一种基于情感词典实体的情感得分的分析处理方法

文档序号：661720 发布日期：2021-04-27 浏览：31次 >En<

阅读说明：本技术 一种基于情感词典实体的情感得分的分析处理方法 (Emotional score analysis processing method based on emotional dictionary entity ) 是由张娴王盼盼周庆勇于 2021-01-08 设计创作，主要内容包括：本发明提供一种基于情感词典实体的情感得分的分析处理方法,属于自然语言处理领域,本发明包括6个步骤：1)词典准备；2)建立定义实体的结构,3)建立实体比较器；4)根据建立的实体遍历待分析文本,产生所有的候选实体；5)筛选候选实体；6)计算情感得分。本方法使用情感词典等四个词典创建实体,在实体的遍历上进行了细粒度的处理,减小了误差。(The invention provides an analysis processing method of emotion scores based on an emotion dictionary entity, which belongs to the field of natural language processing and comprises 6 steps: 1) preparing a dictionary; 2) establishing a structure defining an entity, and 3) establishing an entity comparator; 4) traversing the text to be analyzed according to the established entity to generate all candidate entities; 5) screening candidate entities; 6) an emotion score is calculated. The method uses four dictionaries such as an emotion dictionary to create the entity, and fine-grained processing is performed on the traversal of the entity, so that errors are reduced.)

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于情感词典实体的情感得分的分析处理方法。

背景技术

什么是情感分析？简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如大众点评、美团)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性，喜、怒、哀、乐和批评、赞扬等。基于此，潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。该领域的发展和快速起步得益于网络上的社交媒体，例如产品评论、论坛讨论、微博等的快速发展。自2000年初以来，情感分析已经成长为自然语言处理(NLP)中最活跃的研究领域之一，也是在数据挖掘、Web挖掘、文本挖掘和信息检索方面有广泛的研究。目前情感方向的分析主要采用文本分类的方法或者基于词典的方法进行分析，对于分类的方法，缺点是需要人工标注训练样本的标签，耗费人力物力；基于词典的计算方法部分只考虑了情感词典一种词典或者对于情感词的查找上存在一定的误差。

发明内容

为了解决以上技术问题，本发明提供了一种基于情感词典实体的情感得分的分析处理方法，在实体的遍历上进行了细粒度的处理，减小了误差，旨在通过文本处理和统计方法对于非结构化的情感文本数据进行情感得分的分析处理。

本发明的技术方案是：

一种基于情感词典实体的情感得分的分析处理方法，

包括6个步骤：

1)词典准备

2)建立定义实体的结构，

3)建立实体比较器；

4)根据建立的实体遍历待分析文本，产生所有的候选实体；

5)筛选候选实体；

6)计算情感得分。

进一步的，

首先需要准备好情感词、程度副词、否定词以及标点符号四个词典。

四个词典根据具体需求来自于通用词典或者具体行业的自定义词典；其中，

表示积极的情感词赋值为正数的分值且情感越强烈分值越高，相反的消极的情感词赋值为负数的分值且情感越强烈分值越低；程度副词词典中每个程度副词根据表达的强度的不同赋值不同的分值，一般程度词代表的程度越高分值越大；否定副词是单纯的否定词的词典；标点符号词典也是常用的进行断句或者分段的符号词典。

进一步的，

实体结构包含实体名称、实体的起始索引、实体的结束索引、实体类型、实体长度，其中实体类型分为情感词、程度副词、否定词、标点符号。

进一步的，

建立实体比较器，即设置两个实体：实体一和实体二，如果实体一的起始位置大于实体二的起始位置，返回1，如果实体一小于实体二的起始位置，返回-1，两个实体的起始位置相等，则比较两个实体的长度，如果实体一的长度大于实体二的长度，返回1，否则返回-1。

进一步的，

产生候选实体，给定待分析的文本，依次遍历四个词典，如果词典中的词在文本中出现，就由该词构造一个相应的实体，放入候选实体列表中，遍历完四个词典则产生所有的候选实体，并对候选实体根据定义的筛选器进行排序，则候选实体列表是根据起始位置大小生成的列表。

进一步的，

筛选实体时，迭代检索候选实体列表，如果后面的实体和当前实体起始索引一致，则找最长的实体，作为当前索引的实体，下一个词的起始索引要大于最长实体的结束索引，当前实体索引小于上一实体的结束索引，直接略过，判断下一实体，最终得到需要的实体列表。

进一步的，

遍历产生的最终的实体列表，如果该当前实体类型不是情感实体则直接跳过，如果是情感实体则根据该实体的位置往前寻找距离该情感实体最近的情感实体或者标点符号实体的位置为index，同时记录所有的情感实体的个数number。

计算当前情感实体的情感分值：该情感实体的初始权重为该情感词的分值,从该情感实体往前至位置index为止，找到出现的否定实体和程度副词实体，并且去除程度副词*程度副词*情感词的情况，该情感实体的得分为：程度副词实体分值^程度副词实体的次数*(-1)^否定词实体的次数*初始权重，即得到当前情感实体的情感得分。

遍历完所有的情感实体，将所有的情感得分进行加和，则得到该待分析文本的情感得分；如果需要进行标准化则可以除以情感实体的个数number。

本发明的有益效果是

1、本发明不局限某具体领域或者场景，待分析的情感文本可以来自如新闻、产品评价、舆情分析等领域中；

2、对于文本类的分析通常会首先进行分词，那么会有一定的分词误差。本发明并没有对待分析文本进行基础的分词等操作，提高了一定的准确度；

3、本发明用户自定义方法中使用的包含四个词典，添加了句子或者段落的标点符号实体，提高了在实体查找的准确度，并且寻找到修饰该实体的修饰实体，进行相应的权重变化。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的基于情感词典实体的情感得分的分析处理方法，主要是通过以下技术方案进行实现的，具体包括：

1、词典准备

首先需要准备好情感词、程度副词、否定词以及标点符号四个词典：四个词典根据具体需求可以来自于通用词典或者具体行业的自定义词典；情感词词典中每个情感词赋值一定的分数表达情感的强弱，一般表示积极的情感词赋值为正数的分值且情感越强烈分值越高，相反的消极的情感词赋值为负数的分值且情感越强烈分值越低；程度副词词典中每个程度副词根据表达的强度的不同赋值不同的分值，一般程度词代表的程度越高分值越大；否定副词是单纯的否定词的词典；标点符号词典也是常用的进行断句或者分段的符号词典。

2、定义实体的结构

实体结构包含实体名称、实体的起始索引、实体的结束索引、实体类型、实体长度，其中实体类型分为情感词、程度副词、否定词、标点符号。后续的计算步骤会使用实体的这些具体属性计算。

3、建立实体比较器

比如，现在有两个实体为实体一和实体二，如果实体一的起始位置大于实体二的起始位置，返回1，如果实体一小于实体二的起始位置，返回-1，如果两个实体的起始位置相等，则比较两个实体的长度，如果实体一的长度大于实体二的长度，返回1，否则返回-1。

4、产生候选实体

给定待分析的文本，依次遍历四个词典，如果词典中的某个词在文本中出现，就由该词构造一个相应的实体，放入候选实体列表中，遍历完四个词典则产生所有的候选实体，并对候选实体根据定义的筛选器进行排序，则候选实体列表是根据起始位置大小生成的列表。

5、筛选候选实体

迭代检索候选实体列表，如果后面的实体和当前实体起始索引一致，则找最长的实体，作为当前索引的实体，下一个词的起始索引要大于最长实体的结束索引，当前实体索引小于上一实体的结束索引，直接略过，判断下一实体。最终得到需要的实体列表。

6、计算情感得分

遍历上一步骤产生的最终的实体列表，如果该当前实体类型不是情感实体则直接跳过，如果是情感实体则根据该实体的位置往前寻找距离该情感实体最近的情感实体或者标点符号实体的位置为index，同时记录所有的情感实体的个数number。下边计算当前情感实体的情感分值，该情感实体的初始权重为该情感词的分值,从该情感实体往前至位置index为止，找到出现的否定实体和程度副词实体，并且去除程度副词*程度副词*情感词的情况，该情感实体的得分为：程度副词实体分值^程度副词实体的次数*(-1)^否定词实体的次数*初始权重，即得到当前情感实体的情感得分。遍历完所有的情感实体，将所有的情感得分进行加和，则得到该待分析文本的情感得分。如果需要进行标准化则可以除以情感实体的个数number。

该发明可根据实际的需求进行调节，比如根据实际需求自定义四个词典的具体内容，并就具体细节进行相应的个性化，比如不同行业对于情感词的定义可能不同，可以通过情感词典的修改来优化。本方法中考虑了四种词典的组合，针对不同的组合形式可以自行赋予权重，比如当程度副词*程度副词*情感词时，用户更加突出该组合，可以赋值相应的权重，所以本文的方法具有很大的适用性以及可扩展性。

本发明对于待分析文本并没有进行分词、过滤等操作，减少了分词等操作对于信息的不准确处理带来的误差。通过实体遍历的方式产生候选实体，再根据候选实体以及设计的相应规则进行进一步的实体筛选，保留最终实体，提高了准确度。最后根据待分析文本计算得到情感分值，并进行标准化或者归一化，最后用户可以根据需要来划分情感等级。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

8页详细技术资料下载

一种基于情感词典实体的情感得分的分析处理方法

相关技术

网友询问留言