一种融合文本结构信息和语义信息的文本关键词抽取方法

文档序号:1831799 发布日期:2021-11-12 浏览:9次 >En<

阅读说明:本技术 一种融合文本结构信息和语义信息的文本关键词抽取方法 (Text keyword extraction method fusing text structure information and semantic information ) 是由 陈雪 王小飞 王鹏 于 2021-07-19 设计创作,主要内容包括:本发明公开了一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:1)对单篇文本的段落进行重新组合,构成新文本;2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;3)计算每个候选关键词的结构权重;4)计算每个候选关键词的语义权重;5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个后选关键词的权重,并选择权重最高的K个候选关键词作为文本的关键词。本方法充分利用文本自身结构特点和语义特点,无需依赖领域文本集,且无需进行循环收敛计算,因此简便且效果更好。(The invention discloses a text keyword extraction method fusing text structure information and semantic information, which comprises the following specific steps: 1) recombining paragraphs of a single text to form a new text; 2) preprocessing the new text, including word segmentation, part-of-speech tagging and stop word removal, and keeping nouns and verbs as candidate keywords; 3) calculating the structural weight of each candidate keyword; 4) calculating the semantic weight of each candidate keyword; 5) calculating the weight of each post-selected keyword according to the structural weight obtained in the step 3) and the semantic weight obtained in the step 4), and selecting K candidate keywords with the highest weight as the keywords of the text. The method makes full use of the structural characteristics and semantic characteristics of the text, does not need to depend on a field text set, and does not need to perform circular convergence calculation, so that the method is simple and has better effect.)

一种融合文本结构信息和语义信息的文本关键词抽取方法

技术领域

本发明涉及一种融合文本结构信息和语义信息的文本关键词抽取方法,具体是涉及将文本标题作为文本首段,按照自然段重要性调整文本结构,并采用分段叠加候选关键词的结构权重和语义权重的方法进行关键词抽取。

背景技术

文本特征抽取是自然语言处理领域最基础也是最重要的问题之一,主要方法包括基于统计的文本特征抽取和基于神经网络的文本特征抽取。基于统计的方法有TF-IDF,TEXTRANK和RAKE等。

TF-IDF利用词频TF(Term Frequency)与逆文档频率IDF(Inverse DocumentFrequency)的乘积计算词权重。这种方法简单有效,但需要依赖文本集,无法只对单篇文本进行计算,并而文本集的质量是决定关键词抽取准确程度的关键因素。

TEXTRANK是由网页重要性排序算法PageRank改进的图排序算法。通过把文本划分成词的连接图,用词的相似度作为边的权重,通过迭代词的TEXTRANK值,最后抽取词的权重排名。该方法需循环迭代进行收敛,复杂性较高。

RAKE算法的特色是设计独特的停用词表抽取英文词组而非单词,计算词频和词共现次数的比值作为权重,因此应用在英文文本中的准确度比在中文文本中更高。

基于神经网络的文本特征抽取主要思路是利用神经网络训练后的词向量表示文本词语,而后通过聚类算法对词向量进行聚类,选择top-N个聚类中心作为文本关键词。词向量模型的训练需要海量的语料才能达到较好的效果,因此复杂性较高。

发明内容

本发明的目的在于针对现有的TFIDF,TEXTRANK以及RAKE的不足,提出一种融合文本结构信息和语义信息的文本关键词抽取方法,具体是涉及将文本标题作为文本首段,按照自然段重要性调整文本结构,并采用分段叠加候选关键词的结构权重和语义权重的方法进行关键词抽取。该方法可以只针对单篇文本进行计算,不涉及领域文本集辅助计算,无需循环迭代过程,也无需大规模训练集。

为达到上述目的,本发明采用下述技术方案:

一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:

1)对单篇文本的段落进行重新组合,构成新文本;

2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;

3)计算每个候选关键词的结构权重;

4)计算每个候选关键词的语义权重;

5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个候选关键词的权重,并选择权重最高的K个候选关键词作为文本的关键词。

所述步骤1)中对文本的段落进行重新组合的方法如下:原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他段按照原顺序排列在后面,新文本共计n段。

所述步骤3)中计算每个候选关键词的结构权重;对于一个候选关键词vi,其结构权重str(vi,k)计算公式如下:

其中,i≤m,m为该文本中候选关键词的个数;k表示文本的第k段(k=1…n),freq(vi,k)表示候选关键词vi在第k段的词频。

所述步骤4)中计算每个候选关键词的语义权重;对于一个候选关键词vi,其语义权重sem(vi,k)表示在第k段中,候选关键词vi与其他候选关键词vj共现的次数,其中i≤m,j≤m。

所述步骤5),计算每个候选关键词的权重;对于一个候选关键词vi,其权重计算公式如下:

本发明的文本关键词权重计算方法与现有的技术相比较,具有如下突出优点:

本发明方法无需领域文本集,仅需对单篇文本进行关键词的抽取;无需词权重的循环迭代收敛过程及大规模训练集的训练过程。因此该方法操作简单且效果好。

附图说明

图1是本发明的一种融合文本结构信息和语义信息的文本关键词抽取方法的流程图。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

本发明的实施例,从知网(https://www.cnki.net/)搜索下载10个领域的共计1000篇文章,每个领域100篇。10个领域为:机器学习,计算机视觉,系统结构,天文学,物理,音乐,电力,经济,公共卫生和地理。每篇下载的论文均有文章自带的关键词作为评价指标。

如图1所示,一种融合文本结构信息和语义信息的文本关键词抽取方法,具体步骤如下:

1)对单篇文本的段落进行重新组合,构成新文本;将原文本的题目作为新文本的第一段;原文本首尾两段分别作为新文本的第二段和第三段;原文本的其他段按照原顺序排列在后面,新文本共计n段。

2)对新文本进行预处理,包括分词、词性标注和去除停用词,保留名词和动词作为候选关键词;

3)计算每个候选关键词的结构权重;对于一个候选关键词vi,其结构权重str(vi,k)计算公式如下:

其中,i≤m,m为该文本中候选关键词的个数;k表示文本的第k段(k=1…n),freq(vi,k)表示候选关键词vi在第k段的词频。

4)计算每个候选关键词的语义权重;对于一个候选关键词vi,其语义权重sem(vi,k)表示在第k段中,候选关键词vi与其他候选关键词vj共现的次数,其中i≤m,j≤m。

5)根据步骤3)所得的结构权重和步骤4)所得的语义权重,计算每个候选关键词的权重,对于一个候选关键词vi,其权重计算公式如下:

选择权重最高的K个候选关键词作为文本的关键词。

以每篇论文自带的关键词作为标准集。由于每篇论文自带的关键词数量不是固定的,因此将准确度指标定义为:TF-IDF,RAKE,TEXTRANK和本发明抽取的TOP-K个关键词全部属于关键词标准集的百分比。分别计算10个领域的准确度。表1表示四种方法抽取的TOP-5个关键词的准确度。表2表示四种方法抽取的TOP-10个关键词的准确度。

表1.四种方法的TOP-5关键词的准确度

表2.四种方法的TOP-10关键词的准确度

由表1和表2可见:TF-IDF会受领域文本集中其他文本的影响。本次实验在知网中搜索的是具有较大范围的领域,领域文本集内文本相似度不够高,所以导致IDF计算不够准确。RAKE方法抽取关键词在中文文本中效果欠佳。TEXTRANK效果较好,但循环迭代计算较为复杂。本发明的方法准确度最高,并且随着抽取的关键词数量增加,准确度也逐步提高。

上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:敏感数据识别模型训练方法、敏感数据识别方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!