一种话题分析方法、装置和存储介质

文档序号:1414311 发布日期:2020-03-10 浏览:3次 >En<

阅读说明:本技术 一种话题分析方法、装置和存储介质 (Topic analysis method and device and storage medium ) 是由 耿雪芹 王晓斌 焦梦姝 黄三伟 于 2020-01-20 设计创作,主要内容包括:本发明公开了一种话题分析方法,包括:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。本发明还同时公开了话题分析装置和存储介质,通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。(The invention discloses a topic analysis method, which comprises the following steps: acquiring text corpora to be processed, and acquiring word segmentation results and corresponding parts of speech corresponding to each text corpora to be processed; obtaining filtered text corpora; analyzing the word segmentation result and the corresponding part of speech of each filtered text corpus through dependency syntax to obtain the grammar components of the word segmentation and the dependency relationship among the words and obtain the dependency pair corresponding to each text corpus; obtaining topics corresponding to each text corpus according to the combined sentence pattern structure and the dependency pairs; and acquiring similar topics and sequencing according to the number of the similar topics. The invention also discloses a topic analysis device and a storage medium, which analyze the dependency relationship between the syntactic structure and the word segmentation result in the text sentence by using syntactic analysis on the basis of word segmentation, and extract smooth and accurate topics according to the preset structure of various common Chinese combined sentences, thereby being capable of analyzing topics from massive texts.)

一种话题分析方法、装置和存储介质

技术领域

本发明涉及话题的分析处理领域,尤其涉及一种话题分析方法、装置和存储介质。

背景技术

随着信息技术的飞速发展,互联网已经成为民众获取和发布信息的主要渠道。由于网络信息量大、来源广泛、传播速度快,对于普通网民来说,如何快速、准确地找到自己想要的网络信息,变得越来越麻烦。因此,如何快速、准确、全面地从海量的网络信息中分析提取出网民所关注的热门话题,已经成为当前很热门的一个研究方向。

目前网络话题仍然以文本为主要的表达方式,而现阶段从文本中发现话题的技术手段仍然局限在词法级别,即依靠关键词、热词、共现词、敏感词、情感倾向词、实体词识别等寻找与话题有关的信息,另一方面目前话题分析算法大都基于聚类算法,把同一话题的文本聚为一类。然而,仅在词的级别上来分析,获取到的往往是局部的信息,无法获取到完整的语义信息。另外,有时一篇文章不仅仅只有一个话题,还会有相关的子话题。即话题与文章不是一对一的关系,而聚类算法认为一篇文本只有一个话题,因此无法完整概括出整篇文本的核心内容。

发明内容

有鉴于此,本发明的主要目的在于提供一种话题分析方法、装置和存储介质,旨在通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。

为达到上述目的,本发明的技术方案是这样实现的:本发明提供了一种话题分析方法,所述方法包括:

获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;

根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;

通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;

根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;

获取相似话题,并根据相似话题的数量进行排序;

所述获取相似话题,并根据相似话题的数量进行排序,包括:

针对每一话题,计算与所获取的其他话题的相似度值;

根据相似度值进行相似性合并;

根据话题的文档id分布进行合并,若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;

将合并后的话题进行排序,根据频数选择目标数量的话题输出。

上述方案中,所述获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果的步骤,包括:

根据标点符号,对文本语料进行语句划分处理;

对每一个待处理文本语料进行分词处理,得到分词结果。

上述方案中,所述根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料的步骤,包括:

计算分词结果中每一分词的文档频率,并进行降序排列;

获取排列在前的话题关键词;

获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;

从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。

上述方案中,所述根据标点符号,对文本语料进行语句划分处理的步骤,包括:

给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;

采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;

将分割后的且标记频数和文档id的文本语料作为待处理文本语料。

上述方案中,所述对每一个待处理文本语料进行分词处理,得到分词结果的步骤,包括:

对每一个待处理文本语料进行分词处理;

去除分词处理结果中的停用词、特殊符号、字母、表情符;

获得分词结果。

上述方案中,所述通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对的步骤,包括:

通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;

将构成依存关系的分词确定为一个依存对;

其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。

上述方案中,所述根据组合句式结构和所述依存对,获得每一个文本语料对应的话题的步骤,包括:

根据依存句法分析,获得每一文本语句的核心词;

确定与核心词依存关系为主谓关系和动宾关系的分词;

将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;

对所确定的话题主干进行填充,获得话题。

上述方案中,所述对所确定的话题主干进行填充,获得话题的步骤,包括:

通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;

保留长度在预设长度区间内的填充结果,作为话题;

所述获取相似话题,并根据相似话题的数量进行排序的步骤,包括:

针对每一话题,计算与所获取的其他话题的相似度值;

根据相似度值进行相似性合并;

将合并后的话题重新排序,根据频数选择目标数量的话题输出。

为实现上述目的,本发明还提供了一种话题分析装置,所述装置包括处理器、以及通过通信总线与所述处理器连接的存储器;其中,

所述存储器,用于存储话题分析程序;

所述处理器,用于执行所述话题分析程序,

所述一个或者多个处理器执行上述任一方案所述的话题分析步骤。

为实现上述目的,本发明还提供了一种计算机可读存储介质,具体为计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以使所述一个或者多个处理器执行上述任一方案所述的话题分析步骤。

本发明所提供的一种话题分析方法、装置和存储介质,通过分词的基础上使用句法分析,来分析文本语句中的语法结构和分词结果之间的依存关系,再按照预设的多种汉语常见组合句式结构,提取出通顺、准确的话题,能够从海量文本中分析话题。

附图说明

图1为本发明一可选实施例中话题分析方法流程示意图;

图2为本发明一可选实施例中的依存关系示意图;

图3为本发明一可选实施例中的依存句法分析的结果可视化示意图;

图4为本发明一可选实施例中的组合句式结构示例图;

图5为本发明一可选实施例中话题分析装置的组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

图1为本发明实施例中话题分析方法流程示意图,请参阅图1,本发明实施例提供了一种话题分析方法,所述方法包括:

S101:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性。

需要说明的是文本语料为进行数据抓取的语料集合,其中可能包含有病句或者语句中包含特殊符号。因此,需要对包含特殊符号的文本进行处理。

本发明的一种实现方式中,根据标点符号,对文本语料进行语句划分处理,从而去除语句中所包含的特定标点符号。

具体的,所述根据标点符号,对文本语料进行语句划分处理的步骤,包括:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。

一种实现中,分句处理过程包括:首先删除以下标点符号:【】、{}、「」、“”、[]、《》;然后按以下标点符号分割文本:逗号、分号、句号、问号、感叹号、省略号。

可以理解的是,通过标点符号进行文本分割能够将文本处理为一个个的文本语句,将分割后的文本语句作为待处理文本语料。

进而对每一个待处理文本语料进行分词处理,得到分词结果。具体实现包括:对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。

需要说明的是,分词是文本挖掘的预处理的重要的一步,可以通过LSTM等语言模型实现分词,该过程为现有技术,分词完成后,可以继续做一些其他的特征工程,比如向量化(vectorize),TF-IDF以及Hash trick。

S102:根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料。

可以理解的是,可以通过文本挖掘获得待处理文本语料,其中未必所有的语句都具有关联,例如,语句之间可能存在完全不一样的内容,那么需要对语句进行过滤筛选,筛选掉那些完全不相关的语句。

本发明实施例,所述根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料的步骤,包括:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。

可以理解的是,在进行分词处理完毕后,计算词的文档频率,根据词的文档频率排序,根据降序排列,输出排序最高的预设数量个关键词作为话题关键词。将不包含话题关键词的文本语料进行去除,实现不包含话题关键词的文本语料的过滤,使待处理文本语料中均是与话题关键词相关的文本语料。

S103:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对。

本发明的一种实现方式中,通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。

输出的每个句子的词、词性输入到依存句法分析算法,得到词的语法成分和词之间的依存关系。本发明中,采用的词的语法成分包括主语、谓语、宾语、定语、状语、补语等,采用的依存关系为中文短语结构中常见的短语关系,如图2所示,依存关系为主谓关系,例如我喜欢;动宾关系,例如写作文;定中关系,例如红花;状中关系,例如非常喜欢;动补关系,例如写完;并列关系,例如蓝天和白云;前置宾语,例如作业写完;介宾关系,例如把作业;左右附加关系,例如包含“的”字句;核心关系,例如句子的核心词一般为动词,以及其他关系,在此不做具体限定。

关于依存句法分析的结果,如图3所示。依存句法分析是对输入的文本句子进行分析以得到句子的句法结构或者句子中词汇之间的依存关系的一种算法。依存句法中,词与词之间发生依存关系,构成一个依存对,依存对中包含两个词(其中一个是核心词,另一个是修饰词)和一个依存弧(一个有向弧,用来表示两个词的依存关系,依存弧的方向为由修饰词指向核心词)。

因此,能够获得每一个文本语料对应的依存对,且每一个文本语料可以对应多个依存对。

S104:根据组合句式结构和所述依存对,获得每一个文本语料对应的话题。

在获得每一个文本语料对应的依存对以后,可以根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。

还可以通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题。

通过每个句子中两个词、词之间的依存关系,按照多种组合句式结构将相关词组合在一起作为话题,本发明实施例中给出了主谓宾组合句式,其他就是提取方式类似,本领域技术人员可以依据主谓宾组合句式的形式获得其他的组合句式,本发明实施例在此不对其他句式进行赘述。

具体的,句法组合步骤为包括根据依存句法分析的结果寻找句子的核心词,例如图4中核心词为“做出”;然后寻找与核心词依存关系为“主谓关系”和“动宾关系”的词,图4中分别为“警方”和“通报”;再将词按照主谓宾顺序<主谓关系词+核心词+动宾关系词>组合在一起,图4中词组合为:警方[主语]做出[谓语]通报[宾语],因此,获得了话题主干,由于话题主干的成分并不完整,所以需要进行填充,获得话题枝干。

枝干填充步骤为:

1)修饰限定填充:寻找与主语、谓语、宾语依存关系为“定中关系”或“状中关系”的词。图4中只有谓语词“做出”存在这两种依存关系,对应词为“对”;

2)其他成分填充:若上一步没有填充到词,结束。若有,继续对上一步填充的词进行填充,寻找与填充词依存关系为图2中其他关系的词。图4中存在填充词“对”,且存在依存关系“介宾关系”,对应词为“事件”。

3)重复2),直至没有填充词为止。图4对词“事件”继续填充,得到“定中关系”词“暴力”。

4)填充后的词组合在一起的短句即为话题。图4中为:“警察对暴力事件做出通报”。

5)对上述话题,保留长度在预设长度区间内的话题。

S105:获取相似话题,并根据相似话题的数量进行排序。

在话题较多的情况下,需要通过判断哪些是相似的话题,从而进行归类或者合并处理。对于众多相似的话题,随机选择一条话题,频数为其所有相似话题频数的累加。

所述获取相似话题,并根据相似话题的数量进行排序的步骤,包括:针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。

经过步骤S101-S104处理后,所有文本语料都会输出对应的话题,记句子频数为该句生成话题的频数,记句子文档id为该句生成话题的文档id,对所有话题进行相似性合并,相似性合并方法包括聚类、编辑距离、词向量等。将合并后的话题重新排序,按频数选择一定数量的话题输出(例如按照话题的频数进行降序排列,选取排列在前的一定数量个话题),作为最终的话题。

为实现上述目的,本发明还提供了一种话题分析装置,请参阅图5,所述装置包括处理器501、以及通过通信总线502与所述处理器501连接的存储器503;其中,所述存储器503,用于存储话题分析程序;所述处理器501,用于获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:根据标点符号,对文本语料进行语句划分处理;对每一个待处理文本语料进行分词处理,得到分词结果。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。

这里,所述处理器501,用于执行所述话题分析程序,以实现如下话题分析步骤:通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题;针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。

可选的,所述处理器501可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。这里,所述处理器501执行的程序可以存储在与所述处理器501通过通信总线502连接的存储器503之中,所述存储器503可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器503旨在包括但不限于这些和任意其它适合类型的存储器503。本发明实施例中的存储器503用于存储各种类型的数据以支持所述处理器501的操作。这些数据的示例包括:供所述处理器501操作的任何计算机程序,如操作系统和应用程序;联系人数据;电话簿数据;消息;图片;视频等。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。

为实现上述目的,本发明还提供了一种计算机可读存储介质,具体为计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行上述任一方案所述的话题分析步骤:获取待处理文本语料,并获取每一个待处理文本语料所对应的分词结果和对应的词性;根据所述分词结果,对所述待处理文本语料进行过滤,并获取过滤后文本语料;通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,获得分词的语法成分和分词之间的依存关系以及获得每一个文本语料对应的依存对;根据组合句式结构和所述依存对,获得每一个文本语料对应的话题;获取相似话题,并根据相似话题的数量进行排序。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:根据标点符号,对文本语料进行语句划分处理;对每一个待处理文本语料进行分词处理,得到分词结果和对应的词性。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:计算分词结果中每一分词的文档频率,并进行降序排列;获取排列在前的话题关键词;获取待过滤文本语料,其中,所述待过滤文本语料为不包含话题关键词中任意一个分词的文本语料;从所述待处理文本语料中去除待过滤文本语料,获取过滤后文本语料。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:给文本语料中的各文档随机分配编号,删除文本语料各文档中的预设标点符号,获得目标文本语句,并标记文本语句所在的文档编号;采用标点符号,对所述目标文本语句进行分割,并统计分割后语句的频数,将分割后语句所在的文档编号标记为句子的文档id。其中,所述标点符号至少包括:逗号、分号、句号、问号、感叹号、省略号;将分割后的且标记频数和文档id的文本语料作为待处理文本语料。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:从对每一个待处理文本语料进行分词处理;去除分词处理结果中的停用词、特殊符号、字母、表情符;获得分词结果。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:通过依存句法对过滤后的每一文本语料的分词结果和对应的词性进行分析,得到语法成分和分词之间的依存关系,其中,所述语法成分包括主语、谓语、宾语、定语、状语、补语,所述依存关系为短语关系;将构成依存关系的分词确定为一个依存对;其中,所述依存句法为:基于图的分析方法、基于转移的分析方法或基于深度学习的分析方法。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:根据依存句法分析,获得每一文本语句的核心词;确定与核心词依存关系为主谓关系和动宾关系的分词;将所确定的分词按照预设顺序进行组合,获得话题主干,其中,所述预设顺序为:主谓宾顺序和其他关系的组合,其中,所述其他关系为:主谓关系词、核心词、动宾关系词的组合;对所确定的话题主干进行填充,获得话题。

可选的,所述一个或者多个程序可被一个或者多个处理器501执行,以使所述一个或者多个处理器501执行以下话题分析步骤:通过寻找与主语、谓语、宾语依存关系为定中关系或状中关系的词,进行填充;保留长度在预设长度区间内的填充结果,作为话题;针对每一话题,计算与所获取的其他话题的相似度值;根据相似度值进行相似性合并;根据话题的文档id分布进行合并:若两个话题的文档id列表中相同的id个数超过预设数量时,则这两个话题合并成一个话题;将合并后的话题重新排序,根据频数选择目标数量的话题输出。

可选的,所述计算机可读存储介质可以是易失性存储器,例如随机存取存储器;或者非易失性存储器,例如只读存储器,快闪存储器,硬盘或固态硬盘;也可以是包括上述存储器503之一或任意组合的各自设备,如移动电话、计算机、平板设备、个人数字助理等。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:提取反馈信息的关键词的方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!