基于表情词典与情感常识的微博情感分析方法

文档序号:1215830 发布日期:2020-09-04 浏览:5次 >En<

阅读说明:本技术 基于表情词典与情感常识的微博情感分析方法 (Microblog emotion analysis method based on expression dictionary and emotion common sense ) 是由 徐新燕 张顺香 朱广丽 于 2020-05-25 设计创作,主要内容包括:本发明提供一种基于表情词典与情感常识的微博情感分析方法。其包括对某一话题下的微博文本数据进行采集、预处理和分词操作;选取高频使用表情构建微博表情词典;抽取ConceptNet语义库的二元搭配,进行情感标注,并用同义词词典进行扩展形成情感常识库;根据表情符号和情感常识的权值计算来对微博进行情感分析等步骤。本发明利用表情词典与情感常识相结合的方式来判定微博的情感分类,在情感分析任务中融合了网络用语和表情符号等显性特征以及情感常识等隐性特征,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。(The invention provides a microblog emotion analysis method based on an expression dictionary and emotion common knowledge. The method comprises the steps of collecting, preprocessing and segmenting microblog text data under a certain topic; selecting high-frequency used expressions to construct a microblog expression dictionary; extracting binary collocation of a concept net semantic library, carrying out emotion marking, and expanding by using a synonym dictionary to form an emotion common sense library; and performing emotion analysis on the microblog according to the expression symbols and weight calculation of the emotion common knowledge. According to the method, the emotion classification of the microblog is judged by combining the expression dictionary with the emotion common sense, explicit characteristics such as network expressions and expression symbols and implicit characteristics such as emotion common sense are fused in the emotion analysis task, and the implicit emotion to be expressed in the microblog text can be deeply mined to a great extent, so that the accuracy of emotion analysis is improved.)

基于表情词典与情感常识的微博情感分析方法

技术领域

本发明属于自然语言处理中的文本情感分析技术领域,特别是涉及基于表情词典与情感常识的微博情感分析方法。

背景技术

微博已逐渐成为互联网时代重要的新兴社会网络平台,用户可以通过网页或者客户端,在微博上分享个人生活,发布个人观点,与朋友交流互动。截止到目前为止,微博用户数目已超过3亿人,在海量的微博数据中,包含许多用户带有主观情感倾向性的微博资源,研究如何高效挖掘隐藏于这些纷繁复杂的微博消息中的主题与情感有助于政府的舆情分析及网络监管,亦有助于企事业单位对所关心话题的舆论引导。

然而微博独有的原创性、不可预见性等特点,现有的微博情感分析基本从表情符号和网络用词等显性特征来进行情感值的计算,微博文本中隐性情感往往对情感倾向的判断有着重要影响,而隐性情感的表达很大程度上并不含有情感词,需要读者拥有一定的知识背景通过推理来发现一些常识隐晦地传达出的隐藏情感。

发明内容

为了解决上述问题,本发明的目的在于提供基于表情词典与情感常识的微博情感分析方法。

为了达到上述目的,本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:

(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;

(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;

(3)二元实体候选集的情感极性计算;

(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库;

(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类;

在步骤(1)中,所述的采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典的方法是:对某个话题下的微博文本进行采集,对采集的微博数据进行预处理操作,主要包括去除“#话题#”、“@用户名”、图片、视频以及网页链接等在内的噪声信息;之后利用中科院ICTCLAS分词工具进行分词,最后对高频使用的表情符号进行提取,构建表情词典,人工标注情感强度。

在步骤(2)中,所述的抽取具有明显情感倾向的二元实体作为常识候选集,主要是由于ConceptNet内包含的常识知识绝大多数并不具有情感倾向。

在步骤(3)中,所述的二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:

1)计算两个词之间的最大相似度:

利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:

S(W1,W2)=max(S(xi,yj))i∈(1,n)j∈(1,m) (1)

Figure BDA0002507122510000021

其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离;

2)通过义原相似度均差得到词语情感倾向:

对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值,最终得到词语W的情感倾向值。词语W的情感倾向计算公式为:

其中,Pi表示正向情感中的一个种子词;Nj表示负向情感中的某一个种子词;

在步骤(4)中,所述的利用哈工大的同义词词林对情感常识的覆盖范围进行扩展方法是:在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。例如:(“学校”,“放假”),根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”,“放假”),而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”,“休假”)。

在步骤(5)中,所述的对于整条微博消息的情感值,需要综合考虑表情符号和微博文本对倾向值结果的影响。微博文本中查找是否有二元情感常识搭配,如果有匹配,则用现有的已标注情感权值的二元情感常识替代微博文本现有的词语搭配来计算微博文本的情感倾向,对上述两部分进行情感倾向值加权处理后计算得到整条微博情感倾向。得到整条微博文本情感倾向的方法包括下列步骤:

1)表情的情感倾向可以通过表情符号的权值大小计算得到,即:

其中,Ei为某一微博消息中第i个表情的情感强度。

2)整条微博消息的情感值倾向公式,即:

当所得的Q值大于0是则该条微博情感倾向为正面,小于0时为负面情感,等于0时为中性。

本发明提供的基于表情词典与情感常识的微博情感分析方法有以下优点:(1)本发明利用显性特征和隐性特征相结合的方法来判定微博消息的情感倾向,运用常识知识,在很大程度上可以深度挖掘微博文本所要表达的隐含情感,从而提高情感分析的准确性。(2)本发明不同于机器学习方法,不需要使用大规模数据进行训练,比较适用于实时数据处理。

附图说明

图1是本发明的流程框架图。

具体实施方式

下面结合附图对本发明提供的基于表情词典与情感常识的微博情感分析方法进行详细说明。

如图1所示,本发明提供的基于表情词典与情感常识的微博情感分析方法包括按顺序进行的下列步骤:

(1)采集指定话题下的微博文本并对文本数据进行预处理和分词操作,选取高频使用的表情符号构建微博表情词典;

采集指定话题下的微博文本作为本发明的分析对象,对文本数据进行预处理操作,去除对后续情感分析影响甚微的噪声信息,主要包括“#话题#”、“@用户名”、图片、视频以及网页链接等。

然后利用中科院ICTCLAS分词工具进行分词。

之后对高频使用的表情符号进行提取,构建表情情感词典,人工标注情感强度,如表1所示。

表1表情符号词典示例

(2)抽取ConceptNet内具有明显情感倾向的二元实体作为常识候选集,过滤含有显式情感的二元情感常识搭配;

(3)二元实体候选集的情感极性计算,主要是利用义原相似度的均差值来计算。得到情感常识情感倾向的方法包括下列步骤:

1)计算两个词之间的最大相似度:

利用知网义原树中的距离计算义原相似度,从而得出词语的语义相似度,对于2个汉语词语w1和w2,如果w1有n个概念:x1,x2,…,xn,w2有m个概念:y1,y2,…,yn,规定w1和w2的相似度是各个概念的相似度的最大值,即:

S(W1,W2)=max(S(xi,yj))i∈(1,n)j∈(1,m) (1)

Figure BDA0002507122510000042

其中,λ是正可变参数;d(x1,y2)表示义原x1和义原y2在层次树中的距离。

2)通过义原相似度均差得到词语情感倾向:

对于任意一个词语,可以通过该词语和情感词典中的种子词之间的距离获得其情感倾向值。词语W与情感词典中的每个种子词进行比较得到其正面情感倾向值和负面情感倾向值通过比较它们之间的均差值,最终得到词语W的情感倾向值。词语W的情感倾向计算公式为:

其中,Pi表示正向情感中的一个种子词;Nj表示负向情感中的某一个种子词。

(4)利用哈工大的同义词词林对情感常识的覆盖范围进行扩展,形成情感常识库,在已标注极性的情感常识中,对两个实体分别进行同义词林替换,将替换的同义词元组扩充到现有的情感常识库中。例如:(“学校”,“放假”),根据“学校”的同义词“高校”向左扩展可以形成新的情感常识(“高校”,“放假”),而根据“放假”同义词“休假”向右扩展形成新的情感常识(“学校”,“休假”);

(5)根据步骤(1)中表情权重和步骤(3)中情感常识权重计算对微博文本进行情感分类,得到整条微博文本情感倾向的方法包括下列步骤;

1)表情的情感倾向可以通过表情符号的权值大小计算得到,即:

Figure BDA0002507122510000052

其中,Ei为某一微博消息中第i个表情的情感强度。

2)整条微博消息的情感值倾向公式,即:

Figure BDA0002507122510000053

当所得的Q值大于0是则该条微博情感倾向为正面,小于0时为负面情感,等于0时为中性。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

7页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:交互方法、装置及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!