一种基于emoji的语义解析方法

文档序号:1504920 发布日期:2020-02-07 浏览:1次 >En<

阅读说明:本技术 一种基于emoji的语义解析方法 (Semantic analysis method based on emoji ) 是由 梁敏 唐军 于 2019-10-14 设计创作,主要内容包括:本发明公开了一种基于emoji的语义解析方法,所述方法包括步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;步骤2:将采集到的文本数据划分为训练集和测试集;步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。(The invention discloses a semantic parsing method based on emoji, which comprises the following steps of 1: establishing an emoji emoticon text data acquisition and storage platform, acquiring text contents containing emoji to perform word segmentation processing, and processing the emoji emoticon as a single word group; step 2: dividing the collected text data into a training set and a test set; and step 3: and (3) establishing an algorithm model, training the divided data in the step (2) to obtain a semantic analysis model, and applying the semantic analysis model to a newly acquired text to obtain an analysis result of emoji emoticons in the text. The problem that the emoji emoticons intelligently distinguished by the Unicode code table recognition in the prior art cannot recognize specific meanings, and the emoji emoticons and the paraphrase comparison table cannot accurately form an understandable phrase is solved.)

一种基于emoji的语义解析方法

技术领域

本发明涉及emoji解析、语义分析领域,具体的说,是一种基于emoji的语义解析方法。

背景技术

emoji,即绘文字,是日本在无线通信中所使用的视觉情感符号,绘指图画,文字指的则是字符,可用来代表多种表情,如笑脸表示笑、蛋糕表示食物等,后来逐渐流行与网络与手机用户群体。Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案,emoji在Unicode编码中范围为E63E到E757,有固定的特征值表征emoji字符。

随着网络的逐渐普及,越来越多的网络用户在论坛或通讯软件中适用emoji表情符号,更有用户使用纯emoji表情符号编写文本内容,如果信息接收者对于emoji表情符号不熟悉,则不能获取到正确的信息,或只能猜测出部分信息。

现今emoji表情符号在网络论坛及通讯软件上的运用越来越广泛,对于信息接收者而言,如果对emoji表情符号不是特别熟悉,则不能对接收到的文本信息进行正确的释义,或者只能依靠个人对emoji表情符号的理解猜测出具体含义;特别是由多个emoji表情符号组成的内容,由于发送者可能会用到谐音或者联想等方式组合emoji表情符号,翻查码表或是emoji释义对照表往往不能得到准确的释义。

为了使用户能够更准确的理解当前语境中emoji表情符号表达的含义,我们使用该方法将文本中的emoji表情符号翻译成可理解的文本内容。

现有emoji识别方法主要有两类:

Unicode码表识别,好处是可以识别文本中的emoji表情符号以及对应的Unicode码,缺陷就是只能区分出emoji表情符号,不能识别出具体含义。

emoji表情符号与释义对照表,好处是可以比对单个emoji表情符号的含义,缺陷就是对多个emoji表情符号组成的词组,释义对照表比对出的结果,不能准确构成一个可以理解的词组。

发明内容

本发明的目的在于提供一种基于emoji的语义解析方法,用于解决现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。

本发明通过下述技术方案解决上述问题:

一种基于emoji的语义解析方法,所述方法包括如下步骤:

步骤1:建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;

步骤2:将采集到的文本数据划分为训练集和测试集;

步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果。

优选地,所述步骤1通过爬虫技术爬取各互联网论坛的发言贴文本数据,从而建立emoji表情符号文本数据采集与存储平台。

优选地,所述测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%。

优选地,所述步骤3对样本的训练包括如下步骤:

步骤3.1:将训练集中的emoji表情符号提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;

步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;

步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];

步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。

优选地,所述步骤3.1中,通过正则表达式对emoji表情符号进行提取。

本发明与现有技术相比,具有以下优点及有益效果:

本发明利用了大量用户使用emoji的历史数据和文本数据,给出emoji表情符号在文本中最可能的释义结果,降低信息接收者对emoji表情符号的理解难度。另外,由于emoji是一种全球流行的且有专门机构管理的标准化的符号语言,利用本发明,不同国家和地区的用户可以更轻松方便的使用emoji表情符号。很好的解决了现有技术中Unicode码表识别智能区分出emoji表情符号不能识别出具体含义,emoji表情符号与释义对照表不能准确构成一个可以理解的词组的问题。

附图说明

图1为本发明的基于emoji的语义解析方法流程示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。

实施例1:

结合附图1所示,一种基于emoji的语义解析方法,所述方法包括如下步骤:

步骤1:通过爬虫技术爬取各互联网论坛的发言贴文本数据,建立emoji表情符号文本数据采集与存储平台,采集含有emoji的文本内容进行分词处理,将emoji表情符号作为单个词组处理;

步骤2:将采集到的文本数据划分为训练集和测试集,测试集为释义好的包含emoji表情符号的文本片段,训练集为待释义的emoji表情符号文本片段,测试集为采集数据量随机抽取的20%;

步骤3:建立算法模型,对步骤2所划分好的数据进行训练得出语义解析模型,将语义解析模型应用于新采集的文本中即可得出文本内的emoji表情符号的予以解析结果,包括如下步骤:

步骤3.1:将训练集中的emoji表情符号通过正则表达式提取出来,并标记其在原文本所在位置,emoji表情符号在Unicode编码汇中有特定编码范围与格式,通过构造正则表达式可以筛选出文本中出现的emoji表情符号;

步骤3.2:利用相关系数公式计算出步骤1所得分词结果的前后词组间相关系数,相关系数越大,说明词组组合出现的频次越多;

步骤3.3:用含emoji表情符号的结果,比对不含emoji表情符号文本的结果中使用相同前后词组的文本,找出该emoji表情符号可能的释义结果A;用该结果集与该emoji表情符号释义对照表里结果集B比对,通过词频[w1]、词性[w2]、读音[w3]、词义[w4]等维度训练BP神经网络,找出A、B两个结果集中元素最匹配的结果作为该emoji表情符号在此段文本片段内的释义词组,得到最佳权重组合[w1,w2,w3,w4];

步骤4:将训练集的模型结果应用到测试集中,比对模型产出结果与测试集人工给出结果,调整权重组合[w1,w2,w3,w4]得到最终的训练模型。

实施上述方法,其过程如下:

第1步:首先从网络论坛、微博上爬取包含emoji表情符号的文本,并进行以下预处理:

1.1、根据Unicode编码格式,设计检测emoji表情符号的正则表达式,并使用该表达式检测爬取文本内的emoji表情符号,标记emoji表情符号在文本内的位置信息;

1.2、对文本内容切词,根据语法规则排列,用特殊符号替换emoji表情符号;

第2步:准备训练集和测试集,训练集为包含待释义的emoji表情符号的文本,测试集为人工释义后的含emoji表情符号文本;

第3步:搭建emoji表情符号释义算法模型:

3.1.建立emoji表情符合对应的可选词汇集合,包含emoji原始释义词汇、联想词汇、谐音词汇等;

3.2.将以上词汇集合,分别代入文本中,依据语法特征,计算出每种释义词汇组合的特征值,用于训练学习模型;

3.3利用训练得到的模型,对测试集进行测试,得到测试集里emoji表情符号最佳释义词组,与测试集中人为设定的释义词组比对,计算准确率,准确率达不到设定标准的,调整模型参数后,用训练集继续训练,直至准确率达到设定标准,得到最终的语义解析模型;

第4步:持续爬取新的包含emoji表情符号的文本数据,重复以上三步,得到emoji表情符号新的使用方法和对应的释义词组。

尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:图片处理方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!