文本信息处理方法、装置、存储介质及电子设备

文档序号：1378992 发布日期：2020-08-14 浏览：5次 >En<

阅读说明：本技术 文本信息处理方法、装置、存储介质及电子设备 (Text information processing method and device, storage medium and electronic equipment ) 是由刘澍刘智静周宇超康斌于 2020-04-13 设计创作，主要内容包括：本申请实施例公开了一种文本信息处理方法、装置、存储介质及电子设备。文本信息处理方法包括：当文本信息存在情感词时,按照预设规则对文本信息中的情感词进行量化处理,并根据量化处理结果确定文本信息的目标情感类别；当文本信息中不存在情感词时,检测文本信息的文本长度；若文本长度小于或等于预设值,则根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率,并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别；若文本长度大于预设值,则根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别。本方案中,按照计算复杂程度从易到难的逻辑架构对文本信息进行处理,提升了文本信息的处理速度和处理效果。(The embodiment of the application discloses a text information processing method and device, a storage medium and electronic equipment. The text information processing method comprises the following steps: when the text information has the emotion words, carrying out quantitative processing on the emotion words in the text information according to a preset rule, and determining the target emotion type of the text information according to a quantitative processing result; when the emotional words do not exist in the text information, detecting the text length of the text information; if the text length is smaller than or equal to a preset value, determining the probability of the text information corresponding to a plurality of different sample emotion categories according to the sentence vector of the text information, and determining the target emotion category of the text information from the plurality of different sample emotion categories according to the probability; and if the text length is larger than the preset value, determining the target emotion category of the text information according to the embedded vector of the specified type of the text information. In the scheme, the text information is processed according to the logic architecture with the complexity of calculation from easy to difficult, and the processing speed and the processing effect of the text information are improved.)

技术领域

本申请涉及信息处理技术领域，具体涉及一种文本信息处理方法、装置、存储介质及电子设备。

背景技术

随着互联网的发展和移动通信网络的发展，同时也伴随着电子设备的处理能力和存储能力的迅猛发展，海量的应用程序得到了迅速传播和使用，尤其是可供用户发表文本、图片、声音或视频等媒体信息的应用。

文本情感分析又称意见挖掘、倾向性分析等，具体为对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性，如喜、怒、哀、乐和批评、赞扬等。因此，通过对这些媒体信息进行情感分析，其分析结果可以为信息审核、用户画像刻画、内容推荐等应用场景下的决策提供较高的参考价值。

发明内容

本申请实施例提供一种文本信息处理方法、装置、存储介质及电子设备，可以提升文本信息的处理速度和处理效果。

本申请实施例提供了一种文本信息处理方法，包括：

获取待处理的文本信息；

当所述文本信息存在情感词时，按照预设规则对所述文本信息中的情感词进行量化处理，并根据量化处理结果确定所述文本信息的目标情感类别；

当所述文本信息中不存在情感词时，检测所述文本信息的文本长度；

若所述文本长度小于或等于预设值，则根据所述文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据所述概率从多个不同样本情感类别中确定所述文本信息的目标情感类别；

若所述文本长度大于所述预设值，则根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别，其中，不同类型的嵌入向量基于所述文本信息在不同维度上的特征及特征间的相关性得到。

相应的，本申请实施例还提供了一种文本信息处理装置，包括：

获取单元，用于获取待处理的文本信息；

第一确定单元，用于当候选文本集合中存在与所述文本信息匹配的目标候选文本时，将所述目标候选文本对应的情感类别确定为所述文本信息的目标情感类别；

长度检测单元，用于当候选文本集合中不存在与所述文本信息匹配的目标候选文本时，检测所述文本信息的文本长度；

第二确定单元，用于若所述文本长度小于或等于预设值，则根据所述文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据所述概率从多个不同样本情感类别中确定所述文本信息的目标情感类别；

第三确定单元，用于若所述文本长度大于所述预设值，则根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别，其中，不同类型的嵌入向量基于所述文本信息在不同维度上的特征及特征间的相关性得到。

相应的，本申请实施例还提供了一种计算机可读存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述的文本信息处理方法。

相应的，本申请实施例还提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的文本信息处理方法。

本申请实施例中，当文本信息存在情感词时，按照预设规则对文本信息中的情感词进行量化处理，并根据量化处理结果确定文本信息的目标情感类别；当文本信息中不存在情感词时，检测文本信息的文本长度；若文本长度小于或等于预设值，则根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别；若文本长度大于预设值，则根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别。本方案中，按照计算复杂程度从易到难的逻辑架构对文本信息进行处理，提升了文本信息的处理速度和处理效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的文本信息处理方法的流程示意图。

图2是本申请实施例提供的TF-ID模型的结构示意图。

图3是本申请实施例提供的Text CNN模型的结构示意图。

图4是本申请实施例提供的BERT模型的结构示意图。

图5是本申请实施例提供的模型在线部署流程示意图。

图6是本申请实施例提供的文本情感分析的模型架构示意图。

图7是本申请实施例提供的文本信息处理装置的结构示意图。

图8是本申请实施例提供的电子设备的结构示意图。

图9是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种文本信息处理方法、装置、存储介质及电子设备。其中，该文本信息处理装置具体可以集成在平板PC(Personal Computer)、手机等具备储存单元并安装有微处理器而具有运算能力的电子设备中。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统，使机器具有感知、推理与决策的功能。

自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解等技术。

在本方案中，便是采取了大量自然语言处理技术对文本信息进行理解、分类，对文本信息中表达的情感进行分析。根据不同文本处理算法或模型的特点，智能地为不同文本信息匹配合适的算法或模型，针对性的对文本信息进行分析处理，从而达到智能化处理文本目的。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。请参阅图1，图1为本申请实施例提供的文本信息处理方法的流程示意图。该文本信息处理方法的具体流程可以如下：

101、获取待处理的文本信息。

其中，文本信息可以包括单词、句子、段落、篇章等不同层级的文本。该文本信息可以实施实时获取的，也可以是从预设的数据库中获取的。

以实时获取为例，当用户通过电子设备输入的内容为文本内容时，可以直接获取该文本内容作为待处理的文本信息。

当输入内容为图像内容时，可以利用图像识别技术识别并提取图片中的文字，并将提取到的文字作为文本信息；或者识别图片所表达的含义，并根据识别出的含义生成相应的文字表达从而得到文本信息。

当输入内容为视频内容时，可将视频内容划分为图像帧，再通过图像识别技术识别图片中的文字，并将提取到的文字作为文本信息；或者识别图片所表达的含义，并根据识别出的含义生成相应的文字表达从而得到文本信息。

当输入内容为语音时，可利用语音识别技术将语音转成文本内容，从而得到文本信息。

102、当文本信息存在情感词时，按照预设规则对文本信息中的情感词进行量化处理，并根据量化处理结果确定文本信息的目标情感类别。

本实施例中，目标情感类别可以包括：正向(即积极的)、负向(消极的)以及中性。具体的，要分析一句话是积极的还是消极的，最简单最基础的方法就是找出句子里面的情感词。情感词指表达情感的词汇，情感大致可以分为以下类型：“喜”、“怒”、“哀”、“乐”、“愁”、“恐”、“惜”、“恨”“惊”、“思”、“静”、“平静”、“失望”、“激动”。积极的情感词比如：赞，好、华丽，消极情感词比如：差、烂、坏。

本申请实施例中，对情感词进行量化处理，即将情感在其所表达情感上的程度转换成可用数值来衡量的物理量。具体的，可以对文本中针对该情感词的修饰词或特定标点符号数值化，并根据数值化后的值确定为该情感词在该文本中的情感值，以实现对情感词的量化。其中，修饰词可以包括程度词(如“非常”、“极其”、“一般”)、否定词(如“不”)、及表程度的标点符号(如感叹号)等。通过预先对不同的修饰词赋予不同的数值、并制定相应的计算规则，则可以对该情感词的修饰词或特定标点符号进行数值化处理，并将数值化处理后得到的情感值，作为该情感词量化处理的结果。在本实施例中，可以通过情感词典的对文本信息中的情感词进行量化处理，以确定文本信息的目标情感类别。其中，该情感词典的算法具体设备可以如下：

第一步：读取文本，对文本进行分句；

第二步：查找对分句的情感词，记录积极还是消极，以及位置；

第三步：往情感词前查找程度词，找到就停止搜寻；为程度词设权值，乘以情感值；

第四步：往情感词前查找否定词，找完全部否定词，若数量为奇数，乘以-1，若为偶数，乘以1；

第五步：判断分句结尾是否有感叹号，有叹号则往前寻找情感词，有则相应的情感值+2；

第六步：计算完一条评论所有分句的情感值，用数组记录起来；

第七步：计算并记录所有评论的情感值；

第八步：通过分句计算每条评论的积极情感均值，消极情感均值，积极情感方差，消极情感方差。

例如，句子“你的做法让我非常不满意！”，其中积极情感词有“满意”、程度词有“非常”、否定词有“不”、及特定标点符号“！”，无消极情感词。假设“非常”的权重值设定为80％，则可以计算得到该句子的积极情感值为0、消极情感值为-2.8，则-2.8即为该句子中情感词量化处理的结果，可确定该文本信息的情感类别为消极。

在一些实施例中，在按照预设规则对文本信息中的情感词进行量化处理之前，还可以包括以下流程：

(11)基于样本词集合对所述文本信息进行检测，所述样本词集合包括属于同一情感类别的样本词；

(12)当检测到文本信息存在与所述样本词集合中匹配的内容时，将所述样本词集合对应的情感类别确定为所述文本信息的目标类别。

具体的，可以按照预设的匹配规则，将该文本与黑名单词库、无意义文本规则等对应的样本词集合进行匹配，以匹配对应样本词。

在一些实施例中，在基于样本词集合对文本信息进行检测之前，还包括：

基于预设文本库对所述文本信息进行检测；

当所述预设文本库中存在与所述文本信息相同的预设文本时，将所述预设文本关联的情感类别确定为所述文本信息的目标情感类别。

具体的，以媒体评论为例，由于媒体网站经常存在用户刷帖行为，因此可以将最近的已分析过的评论存在预设文本库中，以该预设文本库中的评论作为基准过滤掉重复的评论，以减轻后续模型的预测压力。

103、当文本信息中不存在情感词时，检测文本信息的文本长度。

当文本信息中不存在情感词时，表示简单的情感词典的方式已经无法满足对该文本信息进行处理的需求了。此时需采取更加智能化的方式对文本信息的情感进行分析。由于文本信息长度不一，若采用复杂算法对长度较短的文本新信息进行分析，则会浪费资源；若采用简单的算法对长文本进行情感分析，可能会丢失许多有用信息。因此，可针对文本长度的不同采用不同的算法模型进行处理，以实现在提升准确性的同时还达到节省资源的目的。

具体实施时，在检测文本信息的文本长度时，具体可以检测文本信息中单个字符以及字符间的连接关系，然后根据字符间的连接关系确定文本的文本长度。

104、若文本长度小于或等于预设值，则根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据该概率从多个不同样本情感类别中确定文本信息的目标情感类别。

其中，预设值可根据实际需求进行设定。若文本长度小于或等于预设值，可以认为是短文本(short text)语料，如短语、一句话或几句话等。具体的，可以针对该文本信息提取句子或短语，并将提取的句子或短语转换为数值张量以得到所提取句子或短语的向量表示，即句向量(sentence vector)。在提取句子或短语时，可根据文本信息中分隔符(如标点符号、空格等)的位置对文本进行划分，以从中提取各个句子或短语。需要说明的是，短语也可认为是一长度更短的句子。本实施例中，在生成句子的向量表示时，首先可对每个提取到的句子进行分词处理，然后基于分词结果生成句子中每个词的向量表示，最后将句子中所有词的向量表示相加取平均，得到的向量作为该句子最终的向量表示。

本实施例中，由于是短文本，由于对文本中词与词之间的距离较近，位置上不会存在太大差异，因此主要关注文本中词组本身，可对直接对该文本进行清除标点、细粒度结巴(jieba)分词、清除emoji表情符号等预处理操作，无需考虑词与词之间的相关性。然后，可采用TF-IDF(term frequency-inverse document frequency，词频-逆文本词频指数)模型对文本中每个词按照TF-IDF进行打分，再按照打分对文本中每个词的词向量进行加权平均，得到最终的的向量表示，作为文本的句向量。

由于短文本语料的文本结构特性，理解语义时主要关注文本中词组本身，因此基于文本本身的句向量表示去匹配相似度较高的样本句向量即可。也即，在一些实施例中，根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别时，具体可以包括以下流程：

(21)计算该句向量与样本句向量集合中每一样本句向量之间的相似度；

(22)按照相似度由大到小的顺序，从样本句向量集合中确定预设数量的目标样本句向量；

(23)根据相似度的值，确定针对每一目标样本句向量对应的样本情感类别的加权信息；

(24)基于该加权信息对每一目标样本句向量对应的样本情感类别进行加权处理；

(25)根据加权处理结果确定所述文本信息的目标情感类别。

参考图2，对待测短文本，通过TF-IDF模型转换为句向量，并从预训练语料中选取最相似的多个句子，分别得到待测短文本与所选取句子的“相似性”、及所选取句子的“情感标签”(参考图2中标签1、标签2……标签n)，过滤掉相似性过低的句子。对过滤得到的相似度较高的前N个(如前10个)句子进行以相似度为概率的“情感标签”加权，得到最终类别概率。

例如，测试句子“今天真开心”。训练语料包括：“开心”且情感标记为正向、“真恶心”且情感标记为负向、“你真棒”且情感标记为正向。假设测试短文本和这三个训练语料的相似性分别为0.5、0.2、0，过滤掉相似性较低的句子“真恶心”以及“你真棒”。最后得到“今天真开心”的预测结果为：正向0.5、负向0、中性0，概率化后为1：0：0。则可以预测得到该待测短文本在TF-IDF模型下的预测情感类别为“正向”。

在一些实施例中，在根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别之后，还可以建立确定的目标情感类别与文本信息之间的第一关联关，并基于第一关联关系更新预设文本库。以便在更新预设文本库后，在后续使用过程中若存在与该文本信息匹配的语料，则可以直接与该文本信息进行匹配，从而得到对应的情感标签，节省电子设备的运算资源。

105、若文本长度大于预设值，则根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别，其中，不同类型的嵌入向量基于所述文本信息在不同维度上的特征及特征间的相关性得到。

具体的，若文本长度大于预设值，可以认为是长文本语料。文本信息的维度可以包括文本内容、文本中各字词的位置、文本分类等等维度。例如，在文本内容维度上，可基于文本内容特征与内容中各字词间的相关性得到文本的词嵌入向量(word embeddings)；在文本中各字词的位置的维度上，可基于文本中单词或词组的位置特征得到文本的位置嵌入向量(position embeddings)。其中，词嵌入向量为文本中每个单词或词组被映射在实数域上的向量表示；位置嵌入向量为文本中各单词或词组的位置被映射在实数域上的向量表示。

在一些实施例中，指定类型的嵌入向量包括：词嵌入向量。其中，词嵌入向量为文本中每个单词或词组被映射在实数域上的向量表示按照词与词之间的相关性进行加权后得到。在根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别，具体可以对词嵌入向量进行卷积处理；将卷积处理后的词嵌入向量进行池化处理转换成句嵌入向量，并根据句嵌入向量确定文本信息的目标情感类别。

参考图3，图3为本实施例提供的多感知层Text CNN模型。具体实施时，可对文本进行预处理，具体可使用jieba分词对文本进行分词处理，保留文本中标点，丢弃词表中词频小于2的单词，并提取所有表情包的文字，使用AILab提出的word embedding(词嵌入)将分词得到的单词转换成向量表示。本实施例中，该多感知层Text CNN模型可以包括输入层、卷积层、池化层、全连接层、对半全连接层、感知层及输出层。

参考图3，输入层用于输入词嵌入向量(如w1、w2、w3……wn)；卷积层主要用于对输入的词嵌入向量进行特征提取，其可为卷积核数200、卷积大小为[3,4,5]、句子padding(指属性定义元素边框与元素内容之间的空间)大小为4的单卷积层。Pooling池化层(也称采样层)用于将卷积层输出的卷积处理后的词嵌入向量组合成句嵌入向量。全连接层可以将学到的特征映射到样本标记空间，其在整个卷积神经网络中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如池化层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定。比如，在该文本检测模型中，全连接层的神经元数量可以均设置为512个，或者，也可以均设置为128个，等等。可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。最后，通过感知层将前面两层(即全连接层和对半全连接层)输出相加，得到最终情感标签。

对于多感知层Text CNN模型，其预测速度较快，在调用方需要牺牲一些准确率换取响应速度的极大提高的时候可以选择。如在线观看视频的场景下，对弹幕等文本的预测，则更需要强调实时性，此时可选取多感知层Text CNN进行文本的情感预测。

在一些实施例中，对于给定的文本信息，其输入表示是通过对相应的目标词、段和位置的嵌入进行求和来构造的。也即，本实施例中指定类型的嵌入向量包括：词嵌入向量、位置嵌入向量及段嵌入向量(segment embeddings)。其中，词嵌入向量为文本中每个单词或词组被映射在实数域上的向量表示；位置嵌入向量为文本中各单词或词组的位置被映射在实数域上的向量表示；段嵌入向量为当文本包含句子对时，用于区分句子对中每一句子的所属句类被映射在实数域上的向量表示，如用于区分问答场景下的问题与答案。

在本实施例中，需要预先对文本信息进行分词处理得到相应词集，生成词集的向量表示，得到词嵌入向量；确定文本信息的文本序列，根据每一单词在文本序列中的位置生成每一单词位置的向量表示，得到位置嵌入向量。具体实施时，在生成词集的向量表示之前，还可以检测文本信息中的表情包，并提取表情包中的文字进行分词处理，并基于得到的单词更新词集，将更新后词集中词频小于预设词频的单词删除，以去除无用词。

在根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别时，具体可以基于位置嵌入向量和段嵌入向量于对词嵌入向量进行编码处理；将编码处理后的词嵌入向量变换成句嵌入向量；根据句嵌入向量确定文本信息的目标情感类别。

参考图4，为本实施例提供的BERT模型的架构示意图。其中，输入可以包括：词嵌入向量(如图4中w1、y1)，位置嵌入向量(如图4中1、2、……k+1……n)，段嵌入向量。编码层由多个(如6个)相同的结构块Transformer堆叠而成，每个Transformer结构又包含两层。第一层是一个多头自注意力层，第二层是全连接层。多头自注意力层是有多个注意力单元组合而成，每个注意力单元基本结构为通过点积计算的注意力层。全连接层对于每个输入单元是独立的，由两组线性变化和一组非线性变换ReLU组成。池化层可以用于将词隐层嵌入向量变换成句子隐层嵌入向量感知层可以句子隐层嵌入向量作为输入，输出是文本的情感分类标签。

关于段嵌入向量,因为BERT里面的下一句的预测任务，所以会有两句拼接起来，上句有上句段嵌入向量，下句则有下句段嵌入向量，也就是图4中A与B。另外，句子末尾都加有[SEP]结尾符，两句拼接开头有[CLS]分离符。

对于BERT模型，其为大规模预训练模型，方便迁移，适用于对准确率要求较高的场景，可以极大的提高模型的预测结果准确性。

具体的，本实施例中，可以使用“多感知层Text CNN”结合“BERT+Pooling+感知层”集成预测。也即，在一些实施例中，指定类型的嵌入向量包括：词嵌入向量、位置嵌入向量及段嵌入向量。在根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别时，具体可以包括以下流程：

对词嵌入向量进行卷积处理，并将卷积处理后的词嵌入向量转换成第一句嵌入向量；

基于位置嵌入向量和段嵌入向量于对词嵌入向量进行编码处理，并将编码处理后的词嵌入向量变换成第二句嵌入向量；

根据第一句嵌入向量确定文本信息对应属于多个不同样本情感类别的第一概率，以及根据第二句嵌入向量确定文本信息对应属于多个不同样本情感类别的第二概率；根据第一概率和第二概率确定文本信息的目标情感类别。

具体的，可将“多感知层Text CNN”结合“BERT+Pooling+感知层”集成作为一个整体的模型，其中的两个子模型之间是并行预测的，将两个子模型分别预测得到的结果进行汇总加权后，得到最终的情感预测标签。其中，加权信息可根据模型的实际预测准确率进行设定。

在一实施例中，在根据第一概率和第二概率确定目标文本的情感类别时，可以分别确定每一样本情感类别对应的第一概率和第二概率，然后对确定出的第一概率和第二概率做均值处理，得到每一样本情感类别对应的目标概率，再从多个样本情感类别中选取目标概率值最大的确定为文本信息的目标情感类别。

在一些实施例中，在根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别之后，还可以建立确定的目标情感类别与文本信息之间的第二关联关系，基于第二关联关系更新预设文本库。以便在更新所述预设文本库后，可以在后续使用过程中若存在与该文本信息匹配的语料，则可以直接与该文本信息进行匹配，从而得到对应的情感标签。

本申请实施例提供的文本信息处理方法，当文本信息存在情感词时，通过情感词典模型确定文本信息的目标情感类别；当文本信息中不存在情感词时，检测文本信息的文本长度；若为短文本，则根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别；若为长文本，则根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别。本方案中，按照计算复杂程度从易到难的逻辑架构对文本信息进行处理，提升了文本信息的处理速度和处理效果。

参考图5和图6，图5是本申请实施例提供的模型在线部署流程示意图；图6是本申请实施例提供的文本情感分析的模型架构示意图。

以在线进行文本的情感标签预测任务为例，由于部署GPU(Graphics ProcessingUnit，图像处理器)服务时实时请求会从多个客户端发出并发访问服务端，然而GPU不适合并发使用。因此在本实施例中，参考图5，在部署在线服务时，可以将瞬时的并发请求在服务端先打包成批次(batch)格式，然后使用GPU，得到整个batch的预测结果之后再分拆成单条结果，并分发到各个请求的应答中。在此过程中，需维护两个全局变量：全局队列(queue)临时存储请求服务和全局OrderedDict临时存储分拆得到的单条结果。通过使用多生产者单消费者模型，生产者接受请求并将数据存储到Queue中，然后在OrderedDict轮询查找其请求的返回结果，消费者打包Queue中的数据成batch，进入GPU模型得到结果后，分拆存储到OrderedDict中。

参考图6，系统通过多进程接收调用方请求。每个进程工作进程如下：先在redis(Remote Dictionary Server，远程字典服务)中寻找缓存，若命中则直接返回结果(若调用方在请求中明确不使用缓存则继续)。若未在缓存中命中，则执行利用规则模型(如黑名单过滤模型和正则匹配模型等)进行情感预测。在利用规则模型预测时，若命中则直接返回预测结果，若未命中则执行利用CPU模型(即情感词典得分模型)进行情感预测。

若使用CPU模型命中时，则直接返回结果。而若未命中，当待测文本为短文本语料时，则使用TF-IDF模型进行情感预测，并将预测结果分拆并存放在“结果哈希表”中，并将待测文本与预测结果关联后缓存至redis中，然后将结果返回给调用方。当待测试文本为长文本语料时，则该待预测文本添加至“GPU处理队列”中，GPU进程通过其集成的GPU模型(即多感知层Text CNN+BERT分类模型，可参考上述Text CNN模型、BERT模型)进行文本的情感预测，并在输出的“结果哈希表”中寻找预测结果，并将待测文本与预测结果关联后缓存至redis中，然后将结果返回给调用方。

下面将以在对视频的视频弹幕进行分析的任务为例，对本方案中的文本情感分析方法进行描述。

首先，服务器可以获取视频A中的弹幕文本集合，该弹幕文本集合中包括弹幕文本A、弹幕文本B以及弹幕文本C，

然后，服务器可以检测本地数据库中是否存在与弹幕文本集合中的弹幕文本匹配的文本，服务器当检测到本地数据库中存在弹幕文本A匹配的文本，则生成弹幕文本A的分析结果，接着，服务器基于预设的规则模型分别对弹幕文本B以及弹幕文本C进行文本匹配，该文本匹配可以包括黑名单文本库匹配以及无意义文本规则匹配等等，服务器当检测到弹幕文本B属于黑名单文本库中的文本时，生成弹幕文本B的分析结果；再然后，对弹幕文本C进行情感词分析，当弹幕文本C存在情感词时，按照预设规则对弹幕文本C中的情感词进行量化处理，并根据量化处理结果确定弹幕文本C的目标情感类别。

当弹幕文本C中不存在情感词时，检测弹幕文本C的文本长度。

若弹幕文本C小于或等于预设文本长度，则根据弹幕文本C的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定确定的的目标情感类别。

若确定的大于预设文本长度，则根据弹幕文本C指定类型的嵌入向量确定弹幕文本C的目标情感类别。

最后，将弹幕文本C添加至本地数据库中，以对本地数据库的数据进行更新。

本实施例提供的文本情感分析的模型架构，包含模型训练、测试、反馈及部署等步骤。在模型训练时，采用长文本对“多感知层Text CNN”架构结合“BERT+Pooling+感知层”架构进行训练，使用短文本对TF-IDF模型进行训练，并将不同预测模型进行相似集成。另外，可返回错误句子的详细信息，并依据概率将模型预测错误的句子进行错误严重程度的区分，量化Bad Case的错误程度，便于召回Bad Case(错误例子)，完善抽取Bad Case的机制。

在线预测时，首先依次使用谩骂词表过滤谩骂评论、使用简单规则过滤中性评论。对于短评论，使用无监督tf-idf进行匹配label预测；剩下的句子使用“多感知层TextCN”结合“BERT+Pooling+感知层”集成预测。在线部署时使用“多进程+服务Batch化+异步线程池”的方法，最大化利用CPU和GPU的资源，使得预测结果和速度均达到较好的效果。

本方案提供了一种全自动的视频智能调节方法，可自动识别视频是否过亮过暗，给出自动调节方案，并且自动识别视频所处的分类场景，给出相应场景的优化方案，无需依赖用户手动调节，提升文本信息处理效率。

为便于更好的实施本申请实施例提供的文本信息处理方法，本申请实施例还提供一种基于上述文本信息处理方法的装置。其中名词的含义与上述文本信息处理方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图7，图7为本申请实施例提供的文本信息处理装置的结构示意图，其中该处理装置可以包括获取单元301、第一确定单元302、长度检测单元303、第二确定单元304以及第三确定单元305，具体可以如下：

获取单元301，用于获取待处理的文本信息；

第一确定单元302，用于当所述文本信息存在情感词时，按照预设规则对所述文本信息中的情感词进行量化处理，并根据量化处理结果确定所述文本信息的目标情感类别；

长度检测单元303，用于当所述文本信息中不存在情感词时，检测所述文本信息的文本长度；

第二确定单元304，用于若所述文本长度小于或等于预设值，则根据所述文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据所述概率从多个不同样本情感类别中确定所述文本信息的目标情感类别；

第三确定单元305，用于若所述文本长度大于所述预设值，则根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别，其中，不同类型的嵌入向量基于所述文本信息在不同维度上的特征及特征间的相关性得到。

在一些实施例中，所述指定类型的嵌入向量包括：词嵌入向量；在根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别时，第三确定单元304可以用于：

对所述词嵌入向量进行卷积处理；

将卷积处理后的词嵌入向量转换成句嵌入向量；

根据所述句嵌入向量确定所述文本信息的目标情感类别。

在一些实施例中，所述指定类型的嵌入向量包括：词嵌入向量、位置嵌入向量及段嵌入向量。在根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别时，第三确定单元304可以用于：

基于位置嵌入向量和段嵌入向量于对所述词嵌入向量进行编码处理；

将编码处理后的词嵌入向量变换成句嵌入向量；

根据所述句嵌入向量确定所述文本信息的目标情感类别。

在一些实施例中，指定类型的嵌入向量包括：词嵌入向量、位置嵌入向量及段嵌入向量；

在根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别时，第三确定单元304可以用于：

对所述词嵌入向量进行卷积处理，并将卷积处理后的词嵌入向量转换成第一句嵌入向量；

基于位置嵌入向量和段嵌入向量于对所述词嵌入向量进行编码处理，并将编码处理后的词嵌入向量变换成第二句嵌入向量；

根据所述第一句嵌入向量确定所述文本信息对应属于多个不同样本情感类别的第一概率，以及根据所述第二句嵌入向量确定所述文本信息对应属于所述多个不同样本情感类别的第二概率；

根据所述第一概率和第二概率确定所述文本信息的目标情感类别。

在一些实施例中，在根据所述第一概率和第二概率确定所述目标文本的情感类别时，第三确定单元304可以用于：

分别确定每一样本情感类别对应的第一概率和第二概率；

对所述第一概率和第二概率做均值处理，得到每一样本情感类别对应的目标概率；

从所述多个样本情感类别中选取目标概率值最大的确定为所述文本信息的目标情感类别。

在一些实施例中，该文本处理装置还可以包括：

第一生成单元，用于对所述文本信息进行分词处理得到相应词集，生成所述词集的向量表示，得到词嵌入向量；

第二生成单元，用于确定所述文本信息的文本序列，根据每一单词在所述文本序列中的位置生成每一单词位置的向量表示，得到位置嵌入向量。

在一些实施例中，在生成所述词集的向量表示之前时，还可以包括：

长度检测单元，用于检测所述文本信息中的表情包；

提取单元，用于提取所述表情包中的文字；

分词单元，用于对所述文字进行分词处理，并基于得到的单词更新所述词集；

删除单元，用于将更新后词集中词频小于预设词频的单词删除。

在一些实施例中，第二确定单元可以用于：

计算所述句向量与样本句向量集合中每一样本句向量之间的相似度；

按照相似度由大到小的顺序，从所述样本句向量集合中确定预设数量的目标样本句向量；

根据相似度的值，确定针对每一目标样本句向量对应的样本情感类别的加权信息；

基于所述加权信息对每一目标样本句向量对应的样本情感类别进行加权处理；

根据加权处理结果确定所述文本信息的目标情感类别。

在一些实施例中，该文本信息处理装置还可以包括：

词集检测单元，用于在按照预设规则对所述文本信息中的情感词进行量化处理之前，基于样本词集合对所述文本信息进行检测，所述样本词集合包括属于同一情感类别的样本词；

当检测到所述文本信息存在与所述样本词集合中匹配的内容时，将所述样本词集合对应的情感类别确定为所述文本信息的目标类别。

在一些实施例中，该文本信息处理装置还包括：

文本检测单元，用于在基于样本词集合对所述文本信息进行检测之前，基于预设文本库对所述文本信息进行检测；

当所述预设文本库中存在与所述文本信息相同的预设文本时，将所述预设文本关联的情感类别确定为所述文本信息的目标情感类别。

在一些实施例中，文本信息处理装置还可以包括：

第一关联单元，用于在根据所述文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据所述概率从多个不同样本情感类别中确定所述文本信息的目标情感类别之后，建立确定的目标情感类别与所述文本信息之间的第一关联关系；

第一更新单元，用于基于所述第一关联关系更新所述预设文本库。

在一些实施例中，文本更新单元300还可以包括：

第二关联单元，用于在根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别之后建立确定的目标情感类别与所述文本信息之间的第二关联关系；

第二更新单元，用于基于所述第二关联关系更新所述预设文本库。

本申请实施例提供的文本信息处理装置，当待处理的文本信息存在情感词时，按照预设规则对文本信息中的情感词进行量化处理，并根据量化处理结果确定文本信息的目标情感类别；当文本信息中不存在情感词时，检测文本信息的文本长度；若文本长度小于或等于预设值，则根据文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据概率从多个不同样本情感类别中确定文本信息的目标情感类别；若文本长度大于预设值，则根据文本信息指定类型的嵌入向量确定文本信息的目标情感类别。本方案中，按照计算复杂程度从易到难的逻辑架构对文本信息进行处理，提升了文本信息的处理速度和处理效果。

本申请实施例还提供一种电子设备，该电子设备具体可以是智能手机、平板电脑等终端设备。如图8所示，该电子设备可以包括射频(RF，Radio Frequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图8中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图8中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一电子设备，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与电子设备的通信。

WiFi属于短距离无线传输技术，电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图8示出了WiFi模块607，但是可以理解的是，其并不属于电子设备的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是电子设备的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行电子设备的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

电子设备还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取待处理的文本信息；当所述文本信息存在情感词时，按照预设规则对所述文本信息中的情感词进行量化处理，并根据量化处理结果确定所述文本信息的目标情感类别；当所述文本信息中不存在情感词时，检测所述文本信息的文本长度；若所述文本长度小于或等于预设值，则根据所述文本信息的句向量确定其对应属于多个不同样本情感类别的概率，并根据所述概率从多个不同样本情感类别中确定所述文本信息的目标情感类别；若所述文本长度大于所述预设值，则根据所述文本信息指定类型的嵌入向量确定所述文本信息的目标情感类别，其中，不同类型的嵌入向量基于所述文本信息在不同维度上的特征及特征间的相关性得到。

本申请实施例提供的电子设备，可按照计算复杂程度从易到难的逻辑架构对文本信息进行处理，提升了文本信息的处理速度和处理效果。

本申请实施例还提供一种服务器，该服务器具体可以是应用服务器。如图9所示，该服务器可以包括射频(RF，Radio Frequency)电路701、包括有一个或一个以上计算机可读存储介质的存储器702、包括有一个或者一个以上处理核心的处理器704、以及电源703等部件。本领域技术人员可以理解，图9中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路701可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器704处理；另外，将涉及上行的数据发送给基站。通常，RF电路701包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路701还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器702可用于存储软件程序以及模块，处理器704通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器704和输入单元703对存储器702的访问。

处理器704是服务器的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行服务器的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器704可包括一个或多个处理核心；优选的，处理器704可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器704中。

服务器还包括给各个部件供电的电源703(比如电池)，优选的，电源可以通过电源管理系统与处理器704逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

具体在本实施例中，服务器中的处理器704会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器704来运行存储在存储器702中的应用程序，从而实现各种功能：

本申请实施例提供的服务器，可按照计算复杂程度从易到难的逻辑架构对文本信息进行处理，提升了文本信息的处理速度和处理效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种文本信息处理方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种文本信息处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种文本信息处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种文本信息处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

25页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种多源管理条款的语义互斥的智能检测方法

文本信息处理方法、装置、存储介质及电子设备

相关技术

网友询问留言