基于词性结构的主题列表生成方法、装置和计算机设备

文档序号:1087400 发布日期:2020-10-20 浏览:7次 >En<

阅读说明:本技术 基于词性结构的主题列表生成方法、装置和计算机设备 (Topic list generation method and device based on part-of-speech structure and computer equipment ) 是由 柳明辉 徐国强 于 2020-06-24 设计创作,主要内容包括:本申请涉及人工智能技术领域,揭示了一种基于词性结构的主题列表生成方法、装置、计算机设备和存储介质,所述方法包括:获取待分析语料;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到词性序列;获取多个指定词组;将多个指定词组输入预设的概率主题模型中,得到多个主题;生成频率矩阵;调用参数矩阵;计算出排序矩阵Y;对排序矩阵Y相同横行的元素进行加和,得到n个横行加和值;将n个主题根据n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。此外,本申请还涉及区块链技术,所述概率主题模型可存储于区块链中。(The application relates to the technical field of artificial intelligence, and discloses a topic list generation method and device based on a part of speech structure, computer equipment and a storage medium, wherein the method comprises the following steps: obtaining a corpus to be analyzed; performing word segmentation on the linguistic data to be analyzed to obtain a word sequence; inputting the word sequence into a preset part-of-speech structure analysis model so as to obtain a part-of-speech sequence; acquiring a plurality of specified phrases; inputting a plurality of specified phrases into a preset probability theme model to obtain a plurality of themes; generating a frequency matrix; calling a parameter matrix; calculating a sorting matrix Y; summing elements of the same horizontal rows of the sorting matrix Y to obtain n horizontal row sum values; and arranging the n subjects in a descending order according to the n horizontal line sum values to obtain a subject list, and outputting the subject list. Thereby improving the trend, pertinence and accuracy of the corpus analysis. In addition, the present application relates to blockchain techniques, and the probabilistic topic model can be stored in a blockchain.)

基于词性结构的主题列表生成方法、装置和计算机设备

技术领域

本申请涉及到计算机领域,特别是涉及到一种基于词性结构的主题列表生成方法、装置、计算机设备和存储介质。

背景技术

语料分析可采用主题模型进行分析。其中,传统方案采用主题模型的基本单位是单词,即以每个单词为分析的基础,从而分析得到对应的多个主题。但是这种分析方式存在缺陷:趋势性分析不足。具体地,一个单词难以体现出趋势性,例如一般与相变相关的语料,该语料中多处出现单词:相变点,因此分析时会采集相变点,进而分析出对应主题为相变。但是,相变主题不足以全面地反应该语料的特点,例如该语料是分析相变点降低的影响因素,则其更为准确的主题应该是相变点降低。因此传统方案的趋势性分析不足。并且,传统方案的主题模型对于单词出现在何处并无限定,即任意位置的单词对于主题的贡献均是相同的,因此传统方案的语料分析的针对性与准确性不足。综上,传统方案的语料分析的趋势性、针对性和准确性有待提高。

发明内容

本申请的主要目的为提供一种基于词性结构的主题列表生成方法、装置、计算机设备和存储介质,旨在实现语料分析的趋势性、针对性和准确性的提高。

为了实现上述发明目的,本申请提出一种基于词性结构的主题列表生成方法,包括以下步骤:

获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;

对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成;

从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;其中所述连续词性结构由连续的两个单词对应的构词词性组成;

将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;

生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵其中A11、A12、A13和A14为第一个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;A21、A22、A23和A24为第二个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;An1、An2、An3和An4为第n个主题对应的词组分别在摘要、前言、正文和结语中出现的次数,共有n个主题;

调用预设的参数矩阵其中B11、B12、B13和B14为与第一个主题相关的四个参数,并且B11、B12、B13和B14分别对应摘要、前言、正文和结语,B11大于B14,B14大于B13,B13大于B12;B21、B22、B23和B24为与第二个主题相关的四个参数,并且B21、B22、B23和B24分别对应摘要、前言、正文和结语,B21大于B24,B24大于B23,B23大于B22;Bn1、Bn2、Bn3和Bn4为与第n个主题相关的四个参数,并且Bn1、Bn2、Bn3和Bn4分别对应摘要、前言、正文和结语,Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2;

根据公式:

计算出排序矩阵Y,

其中指两个矩阵中相同位置的元素相乘;

对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;

将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。

进一步地,所述对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成的步骤之前,包括:

获取预先收集的样本数据,并根据预设比例将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括训练用文本和与所述训练用文本对应的构词词性标注;

将所述训练数据输入预设的神经网络模型中进行训练,从而得到中间模型;

利用所述验证数据对所述中间模型进行验证,并判断验证结果是否为验证通过;

若验证结果为验证通过,则将所述中间模型记为词性结构分析模型。

进一步地,所述将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题的步骤,包括:

调取预设的多个主题词集,所述主题词集包括一个主题名称和与所述主题名称对应的多个专用词组;

判断所有的指定词组是否属于所述多个主题词集;

若所有的指定词组都属于所述多个主题词集,则获取所有的指定词组所属的多个主题词集中的多个主题名称,并输出所述多个主题名称。

进一步地,所述判断所有的指定词组是否属于所述多个主题词集的步骤之后,包括:

若所有的指定词组不均属于所述多个主题词集,则将所述指定词组划分为第一类指定词组和第二类指定词组,其中所述第一类指定词组属于主题词集,所述第二类指定词组不属于主题词集;

根据预设的相似度计算方法,计算所述第二类指定词组与预设的多个参考词组之间的多个相似度值;

判断所述多个相似度值是否均小于预设的相似阈值;

若所述多个相似度值均小于预设的相似阈值,则输出所述第一类指定词组对应的主题名称。

进一步地,所述将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表的步骤,包括:

调取预设的第一层次参数值、第二层次参数值、...、第m-1层次参数值,其中所述第一层次参数值、第二层次参数值、...、第m-1层次参数值的数值依次增大,m为大于1且小于n的整数;

将所述n个横行加和值划分为m个层次,其中处于第一层次的横行加和值的数值均小于第一层次参数值,处于第二层次的横行加和值的数值均小于第二层次参数值,...,处于第m-1层次的横行加和值的数值均小于第m-1层次参数值,处于第m层次的横行加和值的数值均大于第m-1层次参数值;

将所述n个主题根据所述m个层次进行降序排列,从而得到层次化主题列表,并输出所述层次化主题列表。

本申请提供一种基于词性结构的主题列表生成装置,包括:

待分析语料获取单元,用于获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;

词性序列获取单元,用于对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成;

多个指定词组获取单元,用于从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;其中所述连续词性结构由连续的两个单词对应的构词词性组成;

多个主题获取单元,用于将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;

频率矩阵生成单元,用于生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵其中A11、A12、A13和A14为第一个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;A21、A22、A23和A24为第二个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;An1、An2、An3和An4为第n个主题对应的词组分别在摘要、前言、正文和结语中出现的次数,共有n个主题;

参数矩阵调用单元,用于调用预设的参数矩阵

Figure BDA0002556092160000052

其中B11、B12、B13和B14为与第一个主题相关的四个参数,并且B11、B12、B13和B14分别对应摘要、前言、正文和结语,B11大于B14,B14大于B13,B13大于B12;B21、B22、B23和B24为与第二个主题相关的四个参数,并且B21、B22、B23和B24分别对应摘要、前言、正文和结语,B21大于B24,B24大于B23,B23大于B22;Bn1、Bn2、Bn3和Bn4为与第n个主题相关的四个参数,并且Bn1、Bn2、Bn3和Bn4分别对应摘要、前言、正文和结语,Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2;

排序矩阵计算单元,用于根据公式:

计算出排序矩阵Y,其中

Figure BDA0002556092160000054

指两个矩阵中相同位置的元素相乘;

横行加和值计算单元,用于对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;

降序排列单元,用于将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。

进一步地,所述装置,包括:

样本数据划分单元,用于获取预先收集的样本数据,并根据预设比例将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括训练用文本和与所述训练用文本对应的构词词性标注;

中间模型获取单元,用于将所述训练数据输入预设的神经网络模型中进行训练,从而得到中间模型;

中间模型验证单元,用于利用所述验证数据对所述中间模型进行验证,并判断验证结果是否为验证通过;

中间模型标记单元,用于若验证结果为验证通过,则将所述中间模型记为词性结构分析模型。

进一步地,所述多个主题获取单元,包括:

主题词集调取子单元,用于调取预设的多个主题词集,所述主题词集包括一个主题名称和与所述主题名称对应的多个专用词组;

主题词集判断子单元,用于判断所有的指定词组是否属于所述多个主题词集;

主题名称输出子单元,用于若所有的指定词组都属于所述多个主题词集,则获取所有的指定词组所属的多个主题词集中的多个主题名称,并输出所述多个主题名称。

本申请提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于词性结构的主题列表生成方法、装置、计算机设备和存储介质,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵;调用预设的参数矩阵;计算出排序矩阵Y;对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。

附图说明

图1为本申请一实施例的基于词性结构的主题列表生成方法的流程示意图;

图2为本申请一实施例的基于词性结构的主题列表生成装置的结构示意框图;

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请实施例提供一种基于词性结构的主题列表生成方法,包括以下步骤:

S1、获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;

S2、对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成;

S3、从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;其中所述连续词性结构由连续的两个单词对应的构词词性组成;

S4、将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;

S5、生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵其中A11、A12、A13和A14为第一个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;A21、A22、A23和A24为第二个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;An1、An2、An3和An4为第n个主题对应的词组分别在摘要、前言、正文和结语中出现的次数,共有n个主题;

S6、调用预设的参数矩阵

Figure BDA0002556092160000082

其中B11、B12、B13和B14为与第一个主题相关的四个参数,并且B11、B12、B13和B14分别对应摘要、前言、正文和结语,B11大于B14,B14大于B13,B13大于B12;B21、B22、B23和B24为与第二个主题相关的四个参数,并且B21、B22、B23和B24分别对应摘要、前言、正文和结语,B21大于B24,B24大于B23,B23大于B22;Bn1、Bn2、Bn3和Bn4为与第n个主题相关的四个参数,并且Bn1、Bn2、Bn3和Bn4分别对应摘要、前言、正文和结语,Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2;

S7、根据公式:

计算出排序矩阵Y,

其中

Figure BDA0002556092160000092

指两个矩阵中相同位置的元素相乘;

S8、对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;

S9、将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。

本申请通过特别的设计,以提高语料分析的趋势性、针对性和准确性。其中,利用连续词性结构的设计,实现了趋势性分析的提高,并利用参数矩阵以区分出对主题有贡献的单词的出处,实现了针对性和准确性的提高。

如上述步骤S1所述,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分。其中,所述待分析语料可为任意可行语料,例如为专业的文献。本申请尤其适合于专业文献的主题分析。所述待分析语料包括摘要、前言、正文和结语四个部分,而处于这四个部分中的单词对于主题的贡献是不同的。具体而言,摘要是整个语料的简化,其中用词最为谨慎,因此其中存在的单词对于主题的贡献最大。依次分析,可知结语部分的单词对于主题的贡献其次,正文部分再次,前言部分最小。而这种自然特性是本申请在后续的主题分析中提高针对性和准确性的依据。

如上述步骤S2所述,对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成。其中所述分词可采用任意可行方式,例如采用开源的JIEBA分词工具进行分词。所述词性结构分析模型实际上是对所述单词序列的构词词性进行标注,从而得到词性序列。所述词性结构分析模型可采用任意可行的模型,例如采用现有的词性标注模型,在此不再赘述。其中所述构词词性包括:主语、宾语、谓语、定语、状语等等。

如上述步骤S3所述,从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;其中所述连续词性结构由连续的两个单词对应的构词词性组成。其中所述指定连续词性结构例如包括动宾关系、前置宾语、定中关系、状中结构等等,所述至少一种指定连续词性结构指可以仅选择其中一种连续词性结构,也可以选择多种甚至于全部的连续词性结构。相比而言,普通的主题分析是以单个单词作为分析的基础,而本申请是以与所述指定连续词性结构对应的多个指定词组为分析的基础,从而使主题的趋势分析成为了可能。例如对于普通的主题分析仅能得到相变或相变点的主题,而本申请能够得到相变点下降的主题,从而实现了趋势分析。

如上述步骤S4所述,将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题。其中所述概率主题模型可采用任意可行模型,例如采用潜在狄立克雷分配模型、层次潜在狄利克雷分配等等。从而以所述多个指定词组为依据,得到所述概率主题模型输出的多个主题。在此需要注意的是,本申请采用的概率主题模型可以采用忽视主题对应的词组出现的次数,即该词组仅需要出现过一次,则输出该词组对应的主题。

如上述步骤S5所述,生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵其中A11、A12、A13和A14为第一个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;A21、A22、A23和A24为第二个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;An1、An2、An3和An4为第n个主题对应的词组分别在摘要、前言、正文和结语中出现的次数,共有n个主题。所述频率矩阵中的每个元素都与主题对应的词组的出现次数相关。由于频率矩阵有四列,因此将词组出现的位置区分开来,即分别出现在摘要、前言、正文和结语中,从而使区分不同位置的词组的贡献成为了可能。

如上述步骤S6所述,调用预设的参数矩阵

Figure BDA0002556092160000111

其中B11、B12、B13和B14为与第一个主题相关的四个参数,并且B11、B12、B13和B14分别对应摘要、前言、正文和结语,B11大于B14,B14大于B13,B13大于B12;B21、B22、B23和B24为与第二个主题相关的四个参数,并且B21、B22、B23和B24分别对应摘要、前言、正文和结语,B21大于B24,B24大于B23,B23大于B22;Bn1、Bn2、Bn3和Bn4为与第n个主题相关的四个参数,并且Bn1、Bn2、Bn3和Bn4分别对应摘要、前言、正文和结语,Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2。其中所述参数矩阵的所有元素可采用任意可行方式获取,例如通过统计预先收集的已知主题的语料,再进行词组分析以得到主题对应词组在摘要、前言、正文和结语部分中出现的次数,再以对应部分出现的次数除以总次数得到的值,作为所述参数矩阵中对应位置中的元素数值。其中,由于摘要、前言、正文和结语对于整个语料的重要性不同,即摘要重要性大于结语,结语大于正文,正文大于前言,因此设置Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2。

如上述步骤S7所述,根据公式:

Figure BDA0002556092160000112

计算出排序矩阵Y。从而得到的排序矩阵Y同样为n×4的矩阵,并且排序矩阵Y中的每个位置的元素数值,均为频率矩阵和参数矩阵中对应位置元素的乘积。从而所述排序矩阵Y反应了词组对于主题的贡献度。

如上述步骤S8所述,对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值。每个横行加和值,均反应了该横行对应的主题对于所述待分析语料的影响程度。即,横行加和值越大,其对应的主题是所述待分析语料的主要主题的可能性越高。

如上述步骤S9所述,将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。进行降序排列后得到主题列表,因此处于首位的主题是最能反应所述待分析语料的主题,依次类推,直至最后一个主题。从而所述主题列表体现出了不同出处的词组对于主题的贡献,提高了主题分析的针对性与准确性。

进一步地,本申请还涉及区块链技术,所述概率主题模型可存储于区块链中。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一个实施方式中,所述对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成的步骤S2之前,包括:

S11、获取预先收集的样本数据,并根据预设比例将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括训练用文本和与所述训练用文本对应的构词词性标注;

S12、将所述训练数据输入预设的神经网络模型中进行训练,从而得到中间模型;

S13、利用所述验证数据对所述中间模型进行验证,并判断验证结果是否为验证通过;

S14、若验证结果为验证通过,则将所述中间模型记为词性结构分析模型。

如上所述,实现了将所述中间模型记为词性结构分析模型。其中所述预设比例可为任意可行比例,例如为9:1-99:1,可根据样本数量的实际数量进行调整。所述神经网络可为任意可行模型,例如为长短期记忆模型、深度卷积生成对抗网络模型等等。本申请通过根据预设比例将所述样本数据划分为训练数据和验证数据;将所述训练数据输入预设的神经网络模型中进行训练,从而得到中间模型。其中训练的方式可采用任意可行方式,例如采用随机梯度下降法进行训练。再利用所述验证数据对所述中间模型进行验证。若验证结果为验证通过,则表明经过训练得到的中间模型可胜任词性结构分析任务,因此将所述中间模型记为词性结构分析模型。进一步地,所述词性结构分析模型可存储于预设的区块链中。例如,通过所述区块链中的一个区块链节点,将所述词性结构分析模型发送至所述区块链中的其他审核节点。并在所述其他审核节点审核通过后,将所述词性结构分析模型以新的区块的形式,存入所述区块链的公共帐本中。本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一个实施方式中,所述将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题的步骤S4,包括:

S401、调取预设的多个主题词集,所述主题词集包括一个主题名称和与所述主题名称对应的多个专用词组;

S402、判断所有的指定词组是否属于所述多个主题词集;

S403、若所有的指定词组都属于所述多个主题词集,则获取所有的指定词组所属的多个主题词集中的多个主题名称,并输出所述多个主题名称。

如上所述,实现了将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题。不同的主题词集包括多个对应的专用词组,例如相变点下降的主题,包括温度下降、结晶点降低等等。一篇语料中,一般存在多个主题,因此本申请预设多个主题词集,当确定一个专用词组属于某个主题词集时,则该主题词集对应的主题名称即为与该语料相关的主题。因此判断所有的指定词组是否属于所述多个主题词集;若所有的指定词组都属于所述多个主题词集,则获取所有的指定词组所属的多个主题词集中的多个主题名称,并输出所述多个主题名称。从而以忽略词组贡献的方式,初步输出多个主题名称,以提高处理效率,实现了趋势性分析,并且由于后续使用频率矩阵的方式实现了细分词组贡献,则能够一步保证主题分析的准确性与针对性。

在一个实施方式中,所述判断所有的指定词组是否属于所述多个主题词集的步骤S402之后,包括:

S4021、若所有的指定词组不均属于所述多个主题词集,则将所述指定词组划分为第一类指定词组和第二类指定词组,其中所述第一类指定词组属于主题词集,所述第二类指定词组不属于主题词集;

S4022、根据预设的相似度计算方法,计算所述第二类指定词组与预设的多个参考词组之间的多个相似度值;

S4023、判断所述多个相似度值是否均小于预设的相似阈值;

S4024、若所述多个相似度值均小于预设的相似阈值,则输出所述第一类指定词组对应的主题名称。

如上所述,实现了若所述多个相似度值均小于预设的相似阈值,则输出所述第一类指定词组对应的主题名称。若所有的指定词组不均属于所述多个主题词集,表明在普通判定条件下,不属于所述多个主题词集的词组对语料无贡献。但实际上,还存在主题词集规划的不准确的情况,即存在某些词组实际上也是能够对主题存在贡献的。因此,本申请为了进一步提高主题分析的准确性,则根据预设的相似度计算方法,计算所述第二类指定词组与预设的多个参考词组之间的多个相似度值,若所述多个相似度值均小于预设的相似阈值,表明所述第一类指定词组的确无贡献,因此输出所述第一类指定词组对应的主题名称。进一步地,若所述多个相似度值不均小于预设的相似阈值,则获取不小于预设的相似阈值的第二类指定词组对应的指定参考词组,并获取指定参考词组对应的主题名称,输出所述第一类指定词组对应的主题名称和所述指定参考词组对应的主题名称。其中,所述多个参考词组是分别从不同的主题词集中抽取出来的词组,其抽取方式可为任意可行方式,例如为随机抽取。所述相似度计算方法可为任意可行方式,例如为,通过查询预设的词向量库,将多个参考词组分别映射为多个第一向量,并将所述第二类指定词组映射为第二向量,再利用余弦相似度计算方法计算第一向量与第二向量之间的相似度,从而得到所述第二类指定词组与预设的多个参考词组之间的多个相似度值。据此,实现了提高主题分析的准确性。

在一个实施方式中,所述将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表的步骤S9,包括:

S901、调取预设的第一层次参数值、第二层次参数值、...、第m-1层次参数值,其中所述第一层次参数值、第二层次参数值、...、第m-1层次参数值的数值依次增大,m为大于1且小于n的整数;

S902、将所述n个横行加和值划分为m个层次,其中处于第一层次的横行加和值的数值均小于第一层次参数值,处于第二层次的横行加和值的数值均小于第二层次参数值,...,处于第m-1层次的横行加和值的数值均小于第m-1层次参数值,处于第m层次的横行加和值的数值均大于第m-1层次参数值;

S903、将所述n个主题根据所述m个层次进行降序排列,从而得到层次化主题列表,并输出所述层次化主题列表。

如上所述,实现了将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。传统方案输出多个主题,一般为根据主题对于语料的贡献进行排序,然而在某些情况下,主题之间的贡献差别很少,实际上可视为等同贡献,即该语料的主题是多个并列主题,但是传统方案的输出主题列表无法体现。因此,本申请采用调取预设的第一层次参数值、第二层次参数值、...、第m-1层次参数值;将所述n个横行加和值划分为m个层次;将所述n个主题根据所述m个层次进行降序排列,从而得到层次化主题列表,并输出所述层次化主题列表的方式,实现了层次化输出,以实现主题间的模糊化处理,有利于主题的准确分析。

本申请的基于词性结构的主题列表生成方法,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵;调用预设的参数矩阵;计算出排序矩阵Y;对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。

参照图2,本申请实施例提供一种基于词性结构的主题列表生成装置,包括:

待分析语料获取单元10,用于获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;

词性序列获取单元20,用于对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;所述词性结构分析模型基于神经网络,并利用预设的训练数据训练而成,所述训练数据由预先标注有构词词性的文本所组成;

多个指定词组获取单元30,用于从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;其中所述连续词性结构由连续的两个单词对应的构词词性组成;

多个主题获取单元40,用于将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;

频率矩阵生成单元50,用于生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵其中A11、A12、A13和A14为第一个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;A21、A22、A23和A24为第二个主题对应的词组分别在摘要、前言、正文和结语中出现的次数;An1、An2、An3和An4为第n个主题对应的词组分别在摘要、前言、正文和结语中出现的次数,共有n个主题;

参数矩阵调用单元60,用于调用预设的参数矩阵其中B11、B12、B13和B14为与第一个主题相关的四个参数,并且B11、B12、B13和B14分别对应摘要、前言、正文和结语,B11大于B14,B14大于B13,B13大于B12;B21、B22、B23和B24为与第二个主题相关的四个参数,并且B21、B22、B23和B24分别对应摘要、前言、正文和结语,B21大于B24,B24大于B23,B23大于B22;Bn1、Bn2、Bn3和Bn4为与第n个主题相关的四个参数,并且Bn1、Bn2、Bn3和Bn4分别对应摘要、前言、正文和结语,Bn1大于Bn4,Bn4大于Bn3,Bn3大于Bn2;

排序矩阵计算单元70,用于根据公式:

Figure BDA0002556092160000172

计算出排序矩阵Y,

其中指两个矩阵中相同位置的元素相乘;

横行加和值计算单元80,用于对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;

降序排列单元90,用于将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中,所述装置,包括:

样本数据划分单元,用于获取预先收集的样本数据,并根据预设比例将所述样本数据划分为训练数据和验证数据,其中所述样本数据包括训练用文本和与所述训练用文本对应的构词词性标注;

中间模型获取单元,用于将所述训练数据输入预设的神经网络模型中进行训练,从而得到中间模型;

中间模型验证单元,用于利用所述验证数据对所述中间模型进行验证,并判断验证结果是否为验证通过;

中间模型标记单元,用于若验证结果为验证通过,则将所述中间模型记为词性结构分析模型。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中,所述多个主题获取单元,包括:

主题词集调取子单元,用于调取预设的多个主题词集,所述主题词集包括一个主题名称和与所述主题名称对应的多个专用词组;

主题词集判断子单元,用于判断所有的指定词组是否属于所述多个主题词集;

主题名称输出子单元,用于若所有的指定词组都属于所述多个主题词集,则获取所有的指定词组所属的多个主题词集中的多个主题名称,并输出所述多个主题名称。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中,所述装置,包括:

指定词组划分单元,用于若所有的指定词组不均属于所述多个主题词集,则将所述指定词组划分为第一类指定词组和第二类指定词组,其中所述第一类指定词组属于主题词集,所述第二类指定词组不属于主题词集;

相似度计算单元,用于根据预设的相似度计算方法,计算所述第二类指定词组与预设的多个参考词组之间的多个相似度值;

相似阈值判断单元,用于判断所述多个相似度值是否均小于预设的相似阈值;

主题名称输出单元,用于若所述多个相似度值均小于预设的相似阈值,则输出所述第一类指定词组对应的主题名称。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中,所述降序排列单元90,包括:

层次参数值调取子单元,用于调取预设的第一层次参数值、第二层次参数值、...、第m-1层次参数值,其中所述第一层次参数值、第二层次参数值、...、第m-1层次参数值的数值依次增大,m为大于1且小于n的整数;

横行加和值划分子单元,用于将所述n个横行加和值划分为m个层次,其中处于第一层次的横行加和值的数值均小于第一层次参数值,处于第二层次的横行加和值的数值均小于第二层次参数值,...,处于第m-1层次的横行加和值的数值均小于第m-1层次参数值,处于第m层次的横行加和值的数值均大于第m-1层次参数值;

降序排列子单元,用于将所述n个主题根据所述m个层次进行降序排列,从而得到层次化主题列表,并输出所述层次化主题列表。

其中上述单元或子单元分别用于执行的操作与前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

本申请的基于词性结构的主题列表生成装置,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵;调用预设的参数矩阵;计算出排序矩阵Y;对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。

参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于词性结构的主题列表生成方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于词性结构的主题列表生成方法。

上述处理器执行上述基于词性结构的主题列表生成方法,其中所述方法包括的步骤分别与执行前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵;调用预设的参数矩阵;计算出排序矩阵Y;对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于词性结构的主题列表生成方法,其中所述方法包括的步骤分别与执行前述实施方式的基于词性结构的主题列表生成方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质,获取待分析语料,所述待分析语料包括摘要、前言、正文和结语四个部分;对所述待分析语料进行分词,从而得到单词序列;并将所述单词序列输入预设的词性结构分析模型,从而得到所述词性结构分析模型输出的词性序列,所述词性序列中标注了单词对应的构词词性;从所述词性序列中提取出至少一种指定连续词性结构,并获取所述单词序列中,与所述指定连续词性结构对应的多个指定词组;将所述多个指定词组输入预设的概率主题模型中,从而得到所述概率主题模型输出的多个主题;生成所述多个主题对应的词组在所述摘要、前言、正文和结语四个部分中分别出现的频率矩阵;调用预设的参数矩阵;计算出排序矩阵Y;对所述排序矩阵Y相同横行的元素进行加和,从而得到与所述n个主题分别对应的n个横行加和值;将所述n个主题根据所述n个横行加和值进行降序排列,从而得到主题列表,并输出所述主题列表。从而提高语料分析的趋势性、针对性和准确性。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于NPL的药品名片自动提取方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!