基于共现语言网络的文本关键词自动抽取方法和装置

文档序号:1170288 发布日期:2020-09-18 浏览:7次 >En<

阅读说明:本技术 基于共现语言网络的文本关键词自动抽取方法和装置 (Method and device for automatically extracting text keywords based on co-occurrence language network ) 是由 刘斌 王维 赵火军 聂常赟 于 2020-06-10 设计创作,主要内容包括:本发明公开了基于共现语言网络的文本关键词自动抽取方法和装置,解决了有监督机器学习中需要大量人工标注数据的缺点,克服了语言分析方法泛化能力弱的不足,避免了统计方法易忽略频度低但很重要关键词的问题,本发明包括对网页进行预处理、构建语言网络图模型、候选关键词特征联合提取和候选关键词特征综合排序并输出关键词。本发明通过对网络文本预处理、共现语言网络模型构建、关键词特征联合提取、候选关键词排序优选,使得所抽取的关键词具有良好的可读性、连贯性和相关性,能够广泛应用于自然语言处理、信息检索、文本挖掘、情感分析和多模式人机交互等领域中。(The invention discloses a method and a device for automatically extracting text keywords based on a co-occurrence language network, which solve the defect that a large amount of manually labeled data is needed in supervised machine learning, overcome the defect that a language analysis method is weak in generalization capability, and avoid the problem that a statistical method is easy to ignore keywords with low frequency but very important. According to the method, the extracted keywords have good readability, coherence and relevance by preprocessing the network text, constructing a co-occurrence language network model, jointly extracting the characteristics of the keywords and preferably sequencing the candidate keywords, and the method can be widely applied to the fields of natural language processing, information retrieval, text mining, emotion analysis, multi-mode man-machine interaction and the like.)

基于共现语言网络的文本关键词自动抽取方法和装置

技术领域

本发明涉及关键词抽取领域,具体涉及基于共现语言网络的文本关键词自动抽取方法和介质。

背景技术

随着网络技术的快速发展以及大数据时代的来临,网络空间产生了海量网络文本数据,在进行文本大数据分析中,关键词抽取是一项基础性工作,具有重要的现实意义。关键词是最小的语义单位,关键词抽取是指从单篇或多篇文本中抽取和文本主题相关的词或短语,也被称为关键词标注。在早期,由于不支持全文检索,为了能够使用关键词来检索论文,要求作者必须在论文中手动设定关键词。传统的人工标注关键词的方式已经无法有效应对当今的文本大数据,因此,关键词自动抽取技术应运而生。根据已有文献的研究,可以将现有的关键词抽取技术主要分为三类:语言分析方法、统计学习方法、机器学习方法。

基于语言分析方法的关键词抽取技术,最早应用在图书馆学、情报学、自然语言处理等领域,早期一直是通过手工的方式进行关键词的抽取。这种方法主要是依据权威词典,对文本进行语法分析(含词法分析、句法分析)、语义分析来抽取能表示文档含义的关键词。

基于统计学习方法的关键词抽取技术,从大量的语料中获取统计特征(词频、TF-IDF、 N-Gram、词共现、中心性等),然后构建分类器进行关键词的抽取。该方法最早由IBM公司的Luhn HP在1957年提出,Luhn使用词频作为统计特征对文献资料进行自动标引,被国内外学者们认为是关键词抽取研究的开端。后来,Edmundson HP第一次实现了能够对文档关键词抽取的程序系统,标志着该领域的研究进入新时期。KEA系统使用朴素贝叶斯(NB) 进行分类器的训练;使用空格、标点符号、换行进行词语分割;在训练分类器时选择候选词的TF-IDF和首次出现位置作为特征。GenEx使用决策树(DT)算法进行分类器的训练,选择词频和词性作为特征。这两个关键词抽取系统也成为了后续改进方法的对比基准系统。 2003年,Song等人实现了KPSpotter系统,在KEA的基础上增加了信息增益特征,并使用 WordNet提高了关键词抽取的精确度。Trieschnigg等人则利用词频、词性、候选词首次出现的位置以及TF-IDF为特征,构建支持向量机(SVM)分类模型对关键词进行抽取。

基于机器学习方法的关键词抽取技术,按照是否需要人工标注样本来分类,可以分为有监督学习和无监督学习。有监督的关键词抽取方法首先通过人工标注大量的文本中的关键词形成训练集,然后使用训练集对分类器进行训练,得到分类模型,最后使用模型从新的文本中抽取关键词。有监督的关键词抽取方法将文本中的所有词看作候选关键词,然后通过分类算法判断候选词是或不是关键词。Turney认为文本中的所有词都是潜在的关键词,但是只有与人工指定的关键词或短语匹配的词才是正确的关键词。Turney使用启发式的规则结合遗传算法进行关键词抽取,并在此基础上开发了GenEx系统。无监督的关键词抽取方法一般会先设置关键词的重要性量化指标,然后对候选词进行排序,最后选择前k个作为文本的关键词。无监督的关键词抽取方法通常采用基于统计的方法、基于主题的方法和基于网络图的方法等。

通过查阅现有相关文献,调研业界相关技术,经分析比较后发现:

(1)语言学分析方法:采用语法(含词法、句法)、语义分析,简单易行能够提高关键词抽取质量,但是需要维护额外的词表或词典,要求语法规范,其泛化能力弱,并且语法、语义分析准确度不高。

(2)统计学方法简单易行,不受特定应用领域限制,泛化能力强,不要求文本质量,但是查准率低,容易忽略文档中具有重要意义但出现频率低的词汇或短语,侧重于文档的表层统计特性,而忽略了文档的句内和句间结构、语义结构信息,导致关键词结构信息和语义的缺失。

(3)机器学习方法中,虽然有监督学习的查准率高、不要求文本质量,但是与特定领域相关,需要人工标注大量训练样本,多分类器的训练比较耗时。由于有监督的关键词抽取方法需要大量的训练样本,关键词的标注需要大量的人力和时间,过程比较复杂,并且关键词抽取的质量受到训练样本数量和质量的影响。因此,相对于有监督的关键词抽取,无监督或半监督的关键词抽取技术成为近几年的研究热点。

发明内容

本发明针对现有网络文本关键字抽取不足之处,根据Cancho R F I等人发现的自然语言中的词语存在小世界网络(Small World Network)的特性,以及词语之间的相邻关系建立共现语言网络图模型,网络中节点之间的连接关系对应于词语之间的关系,提取篇章特征与网络图特征,然后在图中根据网络拓扑图中节点重要性指标计算算法,确定出重要的节点,将这些节点对应的词语抽取出来,最后采用基于排序的方法生成文档的关键词。

该方法有效地解决了有监督机器学习中需要大量人工标注数据的缺点,克服了语言分析方法泛化能力弱的不足,避免了统计方法易忽略频度低但很重要关键词的问题,采用共现语言网络模型的方法,在不依赖于词典和训练样本的情况下,实现网络文本关键词的自动抽取。

本发明总体目标是面向网络文本构建共现语言网络图,综合考虑候选词节点在共现网络图中的中心性特征,以及使用词频、位置、邻居节点权重等特征指标,计算候选词节点的重要性并对候选词进行权重排序进而筛选出关键词,提出基于共现语言网络的文本关键词自动抽取方法和介质,可以实现文本关键词无监督自动提取的效果。

本发明通过下述技术方案实现:

基于共现语言网络的文本关键词自动抽取方法,包括如下步骤:

S1:对网页进行预处理:

在聚焦爬虫中,为了提高网页内容和主题相关性的判断准确性,网页文本预处理需要在不损失有用信息的前提下,对页面进行网页清洗、分词以及特征抽取等操作,该阶段得到已分句、分词和不含停用词的规范格式化文本。主要步骤如下:网页预处理包括对网络文本子句分解,然后进行分词和词性标注,得到已分句、已分词和不含有停用词的规范格式化文本,对分句后同一子句邻近两个候选关键词,合并形成新的候选关键词或短语,新的候选关键词或短语构成候选关键词集合,候选关键词为关键词的备选;

网页规范化:对网页HTML文件中的语法错误进行修正,并去掉无效标签和标签属性;

子句分解:以所述网络文本为语言处理单位,将网络文本按照标点符号初步进行分解,得到子句集合;

分词和词性标注:对所述子句集合中的子句使用分词系统,进行分词和词性标注后,再去除停用词,分词系统包括ICTCLAS、LTP;

生成候选关键词集合:对在同一个所述子句中相邻的两个候选关键词,按照复合词的组词规范合并形成新的复合候选关键词或短语,如***所著的《高级汉语》中列出的中文组词规范。

S2:构建语言网络图模型:

自所述S1中的候选关键词集合选候选关键词,每个所述节点代表一个候选关键词,选定连接任意两个节点形成边,基于所述边、边的权重值和节点三项建立语言网络图模型,每个所述边连接的两个节点于同一句子中且两个节点代表的候选关键词之间的间隔不大于1,两个节点之间为所述边;

语言网络图模型G采用共现网络图的形式建立,其中,语言网络图模型G= (V,E,W),图模型中的节点V代表一个候选词,E代表两个节点V之间的边,i和j代表两个候选关键词,所述候选关键词i和候选关键词j出现在同一个句子中且间隔不大于1,所述边 E连接候选关键词i和候选关键词j,Wab为边的权重值,Wij的计算公式如下:

Figure BDA0002532900390000031

其中,f(i,j)表示候选关键词a和候选关键词b出共同出现的次数,f(i)和f(j)分别表示候选词i和j在文中出现的次数。

为了区分节点相对重要性,将间隔不大于1的节点进行连接形成边。输入是多层次分词策略处理后的文本内容,输出是共现网络图G。

具体方法为:依次遍历每个子句中的候选关键词,将两个间隔不大于1的候选关键词V 构造形成一条边,然后放入边集合E中,如果边在集合E已经存在,则将这条边的权重加一。

S3:候选关键词特征联合提取:

为了获得具有可读性、连贯性和相关性的高质量关键词,采用篇章特征、语言网络图特征联合提取技术。

基于篇章特征、语言网络图模型特征联合提取技术,对所述S2中的语言网络图模型中的节点进行特征计算;

基于所述网络文本中以词性、词频为节点的篇章特征进行词性的权重设置、词频统计计算,对于以词跨度为节点的篇章特征运用平均间距来区分外间距和内间距的方法计算内间距和外间距的熵,内间距为关键词在关键段落的词距离,外间距为关键词在多个段落间的距离;

基于语言网络图模型中的节点离中心性计算,离中心性为每个节点到中心节点的距离倒数,度中心性最大的节点为中心节点;

基于语言网络图模型中的节点接近中心性计算,计算节点与其他各节点之间距离和的倒数;

基于语言网络图模型中的邻节点强度计算,计算多个节点的强度,同时计算多个节点的邻节点强度,邻节点为节点的邻近节点;

详细计算步骤如下:

根据相关研究结果表明,在关键词中名词和动名词的占比最大,其次是形容词、副词,因此将词性作为一项特征,并根据已有研究经验分别对名词、动词、形容词及其它词性设置相应的权重,设置词性POSi的权重如下:

Figure BDA0002532900390000041

基于能够反映文档主题的关键词必然会在文章中多次出现的理论,将词频作为一项重要特征,对于词ti在文档Dj中出现次数为nij,所述词的词频TFi计算公式为:

Figure BDA0002532900390000042

研究发现表达作者写作意图的词语分布特点为:关键词在关键段落中具有小的内间距,在多个段落中具有大的外间距;而无关词语则在文档中随机分布。基于这一事实,业界采用词的内外间距熵差来提取关键词。此处使用一种以平均间距来区分外间距和内间距的方法,所述词跨度的详细操作如下:

当出现频率为m的词出现的位置为t1,t2,...tm,词间距di=ti+1-ti

判断:如果词间距di小于平均间距μ,则被划入内间距,如果词间距di不小于平均间距μ,词间距di被划入外间距,分别计算内间距熵、外间距熵:

H(di)=-∑Pdlog2Pd

其中Pd为一个词出现在位置d的概率,公式中的D表示文档的长度;

得到内间距熵差、外间距熵差ED2(d)=(H(dI))2-(H(dE))2,其中H(dI)、H(dE)分别表示内间距熵和外间距熵;

节点离中心性的计算公式如下:

Figure BDA0002532900390000053

其中,首先将度中心性最大的节点视为中心节点c,然后计算每个节点i到中心节点c的距离为dic

接近中心性反映了节点和其它各节点关系的紧密程度,如果一个节点距离其它节点越近,那么它的中心度越高,节点接近中心性的计算公式如下:

Figure BDA0002532900390000055

考虑到一个节点的邻节点具有较高的重要性,那么该节点通常也具有较高的重要性。因此,在计算节点强度时同时考虑了邻节点强度,邻节点强度SNeighi的计算公式如下:

Figure BDA0002532900390000056

S4:候选关键词特征综合排序并输出关键词:基于所述S3中关于词性、词频、词跨度、节点离中心性、节点接近中心性和邻节点强度六个特征进行归一化处理,建立包括所述六个特征的线性模型,将归一化处理后的六个特征载入所述线性模型,依据候选关键词的特征值降序排列,依据降序排列结构,筛选出关键词。

所述线性模型如下:

最后使用该排序模型对候选关键词按照重要性指标进行降序排序,根据排序结果,筛选出所需要关键词。

进一步的,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本方法中的步骤。本方法的具体使用依赖大量计算,因此优选的通过计算机程序来实现上述计算过程,所以任何包含本方法中所保护的步骤的计算机程序及其存储介质也属于本申请的保护范围内。

本发明具有如下的优点和有益效果:

本发明针对文本处理的关键词抽取这一基础性工作迫切需要对传统方式改进的要求,通过对网络文本预处理、共现语言网络模型构建、关键词特征联合提取、候选关键词排序优选,使得所抽取的关键词具有良好的可读性、连贯性和相关性,能够广泛应用于自然语言处理、信息检索、文本挖掘、情感分析和多模式人机交互等领域中。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为本发明关键词自动抽取整体流程示意图。

图2为本网络文本预处理流程示意图。

具体实施方式

在对本发明的任意实施例进行详细的描述之前,应该理解本发明的应用不局限于下面的说明或附图中所示的结构的细节。本发明可采用其它的实施例,并且可以以各种方式被实施或被执行。基于本发明中的实施例,本领域普通技术人员在没有做出创造性改进前提下所获得的所有其它实施例,均属于本发明保护的范围。

基于共现语言网络的文本关键词自动抽取方法,如图1所示,包括如下步骤:

S1:对网页进行预处理:

在聚焦爬虫中,为了提高网页内容和主题相关性的判断准确性,网页文本预处理需要在不损失有用信息的前提下,对页面进行网页清洗、分词以及特征抽取等操作,该阶段得到已分句、分词和不含停用词的规范格式化文本。主要步骤如下:网页预处理包括对网络文本子句分解,然后进行分词和词性标注,得到已分句、已分词和不含有停用词的规范格式化文本,对分句后同一子句邻近两个候选关键词,合并形成新的候选关键词或短语,新的候选关键词或短语构成候选关键词集合,候选关键词为关键词的备选;

如图2所示,网页规范化:对网页HTML文件中的语法错误进行修正,并去掉无效标签和标签属性;

子句分解:以所述网络文本为语言处理单位,将网络文本按照标点符号初步进行分解,得到子句集合;

分词和词性标注:对所述子句集合中的子句使用分词系统,进行分词和词性标注后,再去除停用词,分词系统包括ICTCLAS、LTP;

生成候选关键词集合:对在同一个所述子句中相邻的两个候选关键词,按照复合词的组词规范合并形成新的复合候选关键词或短语,如***所著的《高级汉语》中列出的中文组词规范。

S2:构建语言网络图模型:

自所述S1中的候选关键词集合选候选关键词,每个所述节点代表一个候选关键词,选定连接任意两个节点形成边,基于所述边、边的权重值和节点三项建立语言网络图模型,每个所述边连接的两个节点于同一句子中且两个节点代表的候选关键词之间的间隔不大于1,两个节点之间为所述边;

语言网络图模型G采用共现网络图的形式建立,其中,语言网络图模型G= (V,E,W),图模型中的节点V代表一个候选词,E代表两个节点V之间的边,i和j代表两个候选关键词,所述候选关键词i和候选关键词j出现在同一个句子中且间隔不大于1,所述边 E连接候选关键词i和候选关键词j,Wab为边的权重值,Wij的计算公式如下:

Figure BDA0002532900390000071

其中,f(i,j)表示候选关键词a和候选关键词b出共同出现的次数,f(i)和f(j)分别表示候选词i和j在文中出现的次数。

为了区分节点相对重要性,将间隔不大于1的节点进行连接形成边。输入是多层次分词策略处理后的文本内容,输出是共现网络图G。

具体方法为:依次遍历每个子句中的候选关键词,将两个间隔不大于1的候选关键词V 构造形成一条边,然后放入边集合E中,如果边在集合E已经存在,则将这条边的权重加一。

S3:候选关键词特征联合提取:

为了获得具有可读性、连贯性和相关性的高质量关键词,采用篇章特征、语言网络图特征联合提取技术。

基于篇章特征、语言网络图模型特征联合提取技术,对所述S2中的语言网络图模型中的节点进行特征计算;

基于所述网络文本中以词性、词频为节点的篇章特征进行词性的权重设置、词频统计计算,对于以词跨度为节点的篇章特征运用平均间距来区分外间距和内间距的方法计算内间距和外间距的熵,内间距为关键词在关键段落的词距离,外间距为关键词在多个段落间的距离;

基于语言网络图模型中的节点离中心性计算,离中心性为每个节点到中心节点的距离倒数,度中心性最大的节点为中心节点;

基于语言网络图模型中的节点接近中心性计算,计算节点与其他各节点之间距离和的倒数;

基于语言网络图模型中的邻节点强度计算,计算多个节点的强度,同时计算多个节点的邻节点强度,邻节点为节点的邻近节点;

详细计算步骤如下:

根据相关研究结果表明,在关键词中名词和动名词的占比最大,其次是形容词、副词,因此将词性作为一项特征,并根据已有研究经验分别对名词、动词、形容词及其它词性设置相应的权重,设置词性POSi的权重如下:

基于能够反映文档主题的关键词必然会在文章中多次出现的理论,将词频作为一项重要特征,对于词ti在文档Dj中出现次数为nij,所述词的词频TFi计算公式为:

Figure BDA0002532900390000082

研究发现表达作者写作意图的词语分布特点为:关键词在关键段落中具有小的内间距,在多个段落中具有大的外间距;而无关词语则在文档中随机分布。基于这一事实,业界采用词的内外间距熵差来提取关键词。此处使用一种以平均间距来区分外间距和内间距的方法,所述词跨度的详细操作如下:

当出现频率为m的词出现的位置为t1,t2,...tm,词间距di=ti+1-ti

判断:如果词间距di小于平均间距μ,则被划入内间距,如果词间距di不小于平均间距μ,词间距di被划入外间距,分别计算内间距熵、外间距熵:

H(di)=-∑Pdlog2Pd

其中Pd为一个词出现在位置d的概率,公式中的D表示文档的长度;

得到内间距熵差、外间距熵差ED2(d)=(H(dI))2-(H(dE))2,其中H(dI)、H(dE)分别表示内间距熵和外间距熵;

节点离中心性的计算公式如下:

Figure BDA0002532900390000091

其中,首先将度中心性最大的节点视为中心节点c,然后计算每个节点i到中心节点c的距离为dic

接近中心性反映了节点和其它各节点关系的紧密程度,如果一个节点距离其它节点越近,那么它的中心度越高,节点接近中心性

Figure BDA0002532900390000092

的计算公式如下:

考虑到一个节点的邻节点具有较高的重要性,那么该节点通常也具有较高的重要性。因此,在计算节点强度时同时考虑了邻节点强度,邻节点强度SNeighi的计算公式如下:

S4:候选关键词特征综合排序并输出关键词:基于所述S3中关于词性、词频、词跨度、节点离中心性、节点接近中心性和邻节点强度六个特征进行归一化处理,建立包括所述六个特征的线性模型,将归一化处理后的六个特征载入所述线性模型,依据候选关键词的特征值降序排列,依据降序排列结构,筛选出关键词。

所述线性模型如下:

最后使用该排序模型对候选关键词按照重要性指标进行降序排序,根据排序结果,筛选出所需要关键词。

优选的,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本方法中的步骤。本方法的具体使用依赖大量计算,因此优选的通过计算机程序来实现上述计算过程,所以任何包含本方法中所保护的步骤的计算机程序及其存储介质也属于本申请的保护范围内。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:文本处理方法、装置、计算机设备以及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!