一种基于混合模型和聚类算法的电力专业词库构建方法

文档序号:1799318 发布日期:2021-11-05 浏览:28次 >En<

阅读说明:本技术 一种基于混合模型和聚类算法的电力专业词库构建方法 (Electric power professional word bank construction method based on hybrid model and clustering algorithm ) 是由 陈文刚 宰洪涛 刘建国 张轲 许泳涛 何洪英 罗滇生 尹希浩 奚瑞瑶 符芳育 方 于 2021-07-30 设计创作,主要内容包括:本发明涉及人工智能领域,具体涉及一种基于混合模型和聚类算法的电力专业词库构建方法。将电力文本和平行语料进行预处理,再通过分词模型进行分词,其中互信息和左右熵算法和TextRank算法对结巴分词结果进行词语组合,TF-IDF算法和Word2Vec词聚类算法对结巴分词结果提取文本关键词,信息熵分词算法直接对文本分词,上述结果汇总、对比得到特征语料词;从特征语料词中挑选电力专业词汇作为种子词;同时用导出来的电力文本词库作为候选词对电力文本分词,然后使用word2vec算法把词变为词向量;聚类得到相似词,然后规则过滤获得电力专业词库。本发明使用一个聚类模型能够过滤掉大部分非电力领域专业词语,专业词语较为完整。(The invention relates to the field of artificial intelligence, in particular to a method for constructing a power professional word bank based on a hybrid model and a clustering algorithm. Preprocessing an electric text and parallel language materials, and then segmenting words by a Word segmentation model, wherein mutual information, a left-right entropy algorithm and a TextRank algorithm are used for carrying out Word combination on the result of the segmentation of the crust words, a TF-IDF algorithm and a Word2Vec Word clustering algorithm are used for extracting text keywords from the result of the segmentation of the crust words, the information entropy segmentation algorithm is used for directly segmenting the text words, and the results are summarized and compared to obtain characteristic language material words; selecting electric power professional vocabularies from the characteristic corpus words as seed words; meanwhile, the derived electric text word bank is used as a candidate word to divide the electric text into words, and then a word2vec algorithm is used for changing the words into word vectors; clustering to obtain similar words, and then filtering according to rules to obtain a power professional word bank. According to the invention, most of professional words in non-electric power fields can be filtered by using one clustering model, and the professional words are complete.)

一种基于混合模型和聚类算法的电力专业词库构建方法

技术领域

本发明涉及人工智能领域,具体涉及一种基于混合模型和聚类算法的电力专业词库构建方法。

背景技术

在中文语言中单字表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语能简单且准确的提取出来。而中文语言除了标点符号之外,字之间紧密相连,没有明显的边界,因此很难将词提取出来。中文分词方法大致分为三种:基于词典的切分,基于统计模型的切分、基于规则的切分三种方式。基于词典切分是比较常用且高效的分词方式,其前提是要有词库。

电力专业领域目前还没有建立较全的电力专业词库。随着对电力文本语义理解需求的增多,构建电力专业领域词库的需求越来越迫切。电力专业领域积累了大量的文本数据,这些数据包括电力科技论文、项目报告、电力规程、电力操作手册等。基于这些数据,利用自然语言处理技术开展电力专业领域词汇发现研究,进而构建电力专业领域词典,对于后续开展电力领域文本理解、挖掘及信息管理具有重要的意义。然而,由于文本挖掘技术属于人工智能领域近年来出现的新技术,分词发现、词库构建技术在国内电力专业领域还属于新兴的前沿领域,大部分研究还处于探究试验阶段,应用效应尚未显现。

中文与大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字串的形式出现,对中文进行处理的第一步就是进行自动分词,即将字串转变成词串。中分句法语言复杂多变,中文中存在交集歧义,组合歧义,无法在句子中解决的歧义,具有未登录词等等特征,使得中文分词困难。如果要较好地完成语言处理任务,在进行中文数据挖掘时首先需要进行分词操作。目前常用的分词方法都是基于人工词库,人工可以把一些常用的词语收集到词库中,然而这却应付不了层出不穷的新词,尤其是网络新词。而这往往是语言分词任务的关键地方。因此,中文分词的一个核心任务就是完善新词发现算法。新词发现,即不加入任何先验素材,直接从大规模的语料库中,自动发现可能成词的语言片段。

发明内容

本发明所要解决的技术问题是提供一种基于混合模型和聚类算法的电力专业词库构建方法。本发明方法可以克服现有电力专业领域词库构建技术中分词算法的不足,具有对电力文本数据挖掘新词的功能。

本发明方案包括以下步骤:

步骤一、将电力文本和平行语料进行预处理,去掉空格、标点符号和无实体意义词,获得合格输入文本数据;

步骤二、对电力文本和非电力专业的平行语料通过分词模型进行分词,获得电力文本词库和平行语料词库,电力文本词库通过与平行语料词库对比得到特征语料词;

步骤三、从特征语料词中挑选电力专业词汇作为种子词;同时用步骤二导出来的电力文本词库作为候选词对电力文本分词,然后使用word2vec算法把词变为词向量;

步骤四、词向量和种子词输入聚类模型,聚类得到电力专业领域词,然后规则过滤掉非电力专业词汇,最终获得电力专业词库。

步骤一中,所述电力文本包括电力科技论文、项目报告、电力规程、电力操作手册等,所述平行语料可以采用爬取的维基百科中语料库。

步骤二中,所述分词模型中,基于Jieba分词并通过TF-IDF统计模型、Word2Vec词聚类模型、TextRank模型和左右信息熵和互信息熵模型得到词集1,通过频数、凝固度和自由度来建立词集2,最后合并两个词集得到最终词库。

词集1建立过程如下:通过结巴分词,再分别通过TF-IDF模型、Word2Vec词聚类模型提取关键词,通过TextRank模型、左右信息熵和互信息熵模型进行词语组合,再将这些词合并得到词集1。

词集2建立过程如下:

(1)统计:从语料中统计每个字的频率(Pa,Pb),以及统计相邻两字的共现频率(Pab);

(2)切分:分别设定出现频率的阈值min_prob和互信息的阈值min_pmi,然后在语料中将Pab<min_prob或的邻字切开;

(3)截断:经过第(2)步的切分后,统计步骤(2)获得各个准词语的频率Pw′,仅保留Pw′>min_prob部分;

(4)去冗:将步骤(3)获得候选词按字数从多到少排列,然后依次将每个候选词在词库中删除掉,用剩下的词和词频将这个候选词分词,计算原词与子词的互信息,根据如果互信息大于1,则恢复这个词,否则保持删除,并且更新出切分出来的子词的频率;

(5)统计:经过第4步去冗后得到的词,基于该词集统计出每个词的左信息熵右信息熵其中n,m分别是每个词的左邻字与右邻字的不重复个数,并定义文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值,设定自由度的阈值min_pdof,若自由度大于该阈值,则认为该片段独立成词。

本发明基于混合模型对电力领域文献文本分词,分词的片段符合中文语义,能够有效的完成分词任务。本发明使用混合模型比使用单一模型,词库的建立更加的完整,词语更加的丰富。本发明基于混合模型提取出的词含有部分非电力领域词,本发明采用一个聚类模型,聚类电力领域专业词语,聚类结果表明能够过滤掉大部分非电力领域专业词语,聚类电力领域专业词语较为完整,效果很好。

附图说明

图1,文本预处理过程示意图。

图2,提取特征语料词过程示意图。

图3,分词模型。

图4,电力专业领域词库构建流程示意图。

图5,词语组合示意图。

具体实施方式

本发明的一种基于混合模型和聚类算法的电力专业词库构建方法,包括以下步骤:

步骤一、将电力文本和平行语料进行预处理,包括删除初始文本数据中的空格,标点符号,特殊字符和一些没有实体意义的字或词,获得合格输入文本数据;

步骤二、对电力文本和非电力专业的平行语料通过分词模型进行分词,获得电力文本词库和平行语料词库,电力文本词库通过与平行语料词库对比得到电力领域的特征语料词;

步骤三、特征语料词中仍含有非电力专业词汇,从特征语料词中挑选电力专业词汇作为种子词;同时用步骤二导出来的电力文本词库作为候选词对电力文本分词,然后使用word2vec算法把词变为词向量;

步骤四、词向量和种子词输入聚类模型,聚类得到电力专业领域词,然后规则过滤掉非电力专业词汇,最终获得电力专业词库。

在图1中所示的文本数据预处理中,初始电力领域文本数据和平行语料文本数据中存在大量空格和标点符号,特殊字符如%、*,和一些没有实体意义的字如及、其、等、与。要获得合格的输入文本,就需要对文本进行相应的处理。其中电力专业领域文本包括电力科技论文、项目报告、电力规程、电力操作手册等,平行语料可以使用维基百科,人民日报等语料,要与电力文本数据有区别。此外电力文本数据和平行语料足够大,建立的词库才能足够大。

在图2中所示的提取特征语料词中,电力专业领域文本与平行语料经过分词模型分词得到两个词库,两个词库经过对比得到特征语料词。

步骤二中,所述分词模型中,基于Jieba分词并通过TF-IDF统计模型、Word2Vec词聚类模型、TextRank模型和左右信息熵和互信息熵模型得到词集1,通过频数、凝固度和自由度来建立词集2,最后合并两个词集得到最终词库。

词集1建立过程如下:

(1)结巴分词:Jieba分词是一个很好的文本分词工具,能够较精确的对文本分词,但获得的词粒度较小,所以大部分电力专业领域词语被切分了,得到的词集电力专业领域词不够丰富。因此,要组合这些粒度小的词语,丰富整个词库。如图5所示:

(2)组合:Jieba分词的结果词语粒度较小,大部分电力专业领域词语拆开了,所以要经过词语的组合获得最终结果。

a.TF-IDF模型提取关键词

统计模型是选择TF-IDF模型,TF-IDF是两个统计量的乘积。有多种方法可以确定统计量的具体值。

词频(TF):词w文档d中的词频,即词w在文档中出现的次数count(w,d)和文档d中总词数size(d)的比重:tf=count(w,d)/size(d)

逆文档频率(IDF):词w在整个文档集合中的逆向文档频率idf,即文档总数n与词w所出现文件数df(w,D)比值的对数:idf=log(n/df(w,D))

故:wi=tfi×idf

但,本发明使用改进后的TF-IDF模型作为评价标准,改进后的模型加大了DF的惩罚,

b.Word2Vec词聚类方式提取关键词。

1)Word2Vec词向量表示:

利用浅层神经网络模型自动学习词语在语料库中的出现情况,把词语嵌入到一个高维的空间中,通常在100-500维,在高维空间中词语被表示为词向量的形式。特征词向量的抽取是基于已经训练好的词向量模型。

2)K-means聚类算法:

聚类算法旨在数据中发现数据对象之间的关系,将数据进行分组,使得组内的相似性尽可能的大,组间的相似性尽可能的小。

算法思想是:首先随机选择K个点作为初始质心,K为用户指定的所期望的簇的个数,通过计算每个点到各个质心的距离,将每个点指派到最近的质心形成K个簇,然后根据指派到簇的点重新计算每个簇的质心,重复指派和更新质心的操作,直到簇不发生变化或达到最大的迭代次数则停止。

3)基于Word2Vec词聚类关键词提取方法的实现过程:

主要思路是对于用词向量表示的词语,通过K-Means算法对文章中的词进行聚类,选择聚类中心作为文本的一个主要关键词,计算其他词与聚类中心的距离即相似度,选择前面K个距离聚类中心最近的词作为关键词,而这个词间相似度可用Word2Vec生成的向量计算得到。具体步骤如下:

i.对语料进行Word2Vec模型训练,得到词向量文件;

i i.对文本进行预处理获得N个候选关键词;

i i i.遍历候选关键词,从词向量文件中提取候选关键词的词向量表示;

iv.对候选关键词进行K-Means聚类,得到各个类别的聚类中心;

v.计算各类别下,组内词语与聚类中心的距离(欧几里得距离或曼哈顿距离),按聚类大小进行降序排序;

vi.对候选关键词计算结果得到排名,取前面K个词语作为文本关键词。

c.TextRank模型提取关键词

TextRank模型将词语视为“节点”,构建出词关系,根据词之间的共线关系计算每个词的重要性。TextRank用于关键词提取的算法如下:

TextRank模型:

式中,d是阻尼因子,一般取值0.85,In(Vi)表示指向Vi的节点,Out(Vi)表示由Vi所指向的节点。wij表示由节点Vi→Vj的边的权重,WS(Vi)表示节点i的权重,WS(Vj)表示节点j的权重。

1)把给定的文本T按照完整句子进行分割,即

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即其中tij是保留后的候选关键词。

3)构建候选关键词图G=(V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。

4)根据上面公式,迭代传播各节点的权重,直至收敛。

5)对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。

6)由5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

d.利用左右信息熵和互信息熵提取多词关键词。

1)计算互信息:首先寻找一阶共现,并返回词频率。然后寻找二阶共现,并返回互信息和词频率。互信息(PMI)越大说明a,b两个词相关性越大。

2)计算左右熵;首先寻找左频次,统计左熵H(x),并返回左熵。然后寻找右频次,统计右熵H(x),并返回右熵。

3)计算结果:Score=PMI+MIN(H(x),H(x)),分数越大说明组合词概率越大。

最后,步骤a,b,c,d得到的词语合并得到词集1。

词集2建立过程中,凝固度取对数后就是互信息熵,自由度就是左右信息熵。词集2建立过程如下:

(1)统计:从语料中统计每个字的频率(Pa,Pb),以及统计相邻两字的共现频率(Pab);

(2)切分:分别设定出现频率的阈值min_prob和互信息的阈值min_pmi,然后在语料中将Pab<min_prob或的邻字切开;

(3)截断:经过第(2)步的切分后,统计步骤(2)获得各个准词语的频率Pw′,仅保留Pw′>min_prob部分;

(4)去冗:将步骤(3)获得候选词按字数从多到少排列,然后依次将每个候选词在词库中删除掉,用剩下的词和词频将这个候选词分词,计算原词与子词的互信息,根据如果互信息大于1,则恢复这个词,否则保持删除,并且更新出切分出来的子词的频率;

(5)统计:经过第4步去冗后得到的词,基于该词集统计出每个词的左信息熵右信息熵其中n,m分别是每个词的左邻字与右邻字的不重复个数,并定义文本片段的自由运用程度定义为它的左邻字信息熵和右邻字信息熵中的较小值,设定自由度的阈值min_pdof,若自由度大于该阈值,则认为该片段独立成词。过上述步骤得到词集2。

在步骤二中得到的特征语料词中挑选出种子词。对电力专业领域文本分词得到词集作为候选词,对电力文本进行分词,再用词向量模型进行训练得到词向量,其中词向量模型是Word2Vec模型。然后根据词向量模型得到的词向量对词进行聚类,聚类是根据挑出来的若干个种子词,然后找到一批相似词来。算法是用相似的传递性(有点类似基于连通性的聚类算法),即A和B相似,B和C也相似,那么A、B、C就聚为一类(哪怕A、C从指标上看是不相似的)。当然,这样传递下去很可能把整个词表都遍历了,所以要逐步加强对相似的限制。比如A是种子词,B、C都不是种子词,A、B的相似度为0.6就定义它为相似,B、C的相似度要大于0.7才能认为它们相似。相似阈值计算公式如下:simi=k+d×(1-e-d×i),i是传递次数,k是初始相似阈值,d一般取0.2~0.5。

由于前面是纯无监督的,哪怕进行了语义聚类,还是会出来一些非电力专业词汇,甚至还保留一些“非词”,所以需利用规则来过滤。聚类的词最终通过规则过滤得到最终结果。

本发明方法按流程的结果展示如下:

(1)基于频数,凝固度,自由度分词的部分词结果:一致、一台、三相、专家、绝缘垫块、熔丝熔断、电容芯体、绕组电容量、串联电抗器、开关芯子、继电器挡板、中压侧、实验室、保护动作跳闸、大部分、固体绝缘材料、在线监测系统、差动保护动作、油纸电容式套管、绝缘油色谱分析、频率响应分析法、轻瓦斯保护动作等。

(2)基于Jieba分词的统计模型提取关键词部分结果:协调、安全措施、油机、合适、跳闸、值班人员、电源线、等效电路、易燃易爆、注意事项、螺旋形、变压器厂、国家电网、检测技术、模型、油污、挡位、磁通、绝缘纸、塑料布、牢固地、开关柜、直流电源、电力公司、消防措施等。

(3)基于Jieba分词的Word2Vec聚类模型提取关键词部分结果:规范、泄露、资料、教学、主要参数、电流表、接地装置、高能量、控制措施、滤波器、计算机、一氧化碳、检查、运行、设备、断路器、气体、母线、处理、人员、本体、操作、跳闸、直流、负责人、内部、铁芯等

(4)基于Jieba分词的TextRank模型提取关键词组部分结果:断电保护人员、孔内、国家电网公司、挡机构箱指示、表色谱分析数据、负载运行、变压器检修、出口短路冲击、接地刀闸、放电烧损痕迹、作用变压器、制造质量问题、线性算法、电能损耗、套管外绝缘、接触铁心、树枝状放电痕迹等。

(5)基于Jieba分词的互信息熵和左右信息熵模型提取关键词组部分结果:分接开关、号主变压器、低压绕组、绕组变形、低压断路器、吊罩检查、替油泵、换位导线、回路断线、产气速率、浸式变压器、母线电压、中性点套管、电力设备预防性、真空滤油机、干式电抗器、圆筒形绕组等。

(6)基于聚类模型最终部分结果:主磁通、传感器、储油柜、充电机、冷却器、制造厂、双母线、变压器、呼吸器、主变压器、#主变压器、断路器、低压断路器、断路器跳闸、低电压、低电压阻抗、高电压绕组、绕组、绕组变形、三相绕组、电弧放电、替油泵、有载调压、有载调压开关、母线电压、变压器故障诊断、母线保护装置、二次总开关、绝缘垫块、熔丝熔断、电容芯体、绕组电容量、串联电抗器、开关芯子、继电器挡板、电源线电动工具、充电机交流电源、磁力电流、干扰脉冲、并联导线、母线电压、特征气体、电气设备、电源开关、直流电源、空气开关、调压开关、真空滤油机、油纸电容式套管、绝缘油色谱分析、频率响应分析法、轻瓦斯保护动作、重瓦斯保护动作、红外热成像检测、位置报警灯、压脉冲分析法、无励磁分接开关、易燃易爆物品、红外热成像等。

统计模型和Word2Vec词聚类模型基于结巴分词结果提取关键词,可以发现上述结果中含有非电力词语,且词语粒度细。互信息和左右信息熵模型和TextRank模型基于结巴分词结果提取关键词组,解决了结巴分词粒度细,领域词错误拆分的问题。基于信息熵的分词模型可以看出分词结果准确,效果好。聚类算法是上述模型分词结果汇总,然后聚类出电力领域词,可以发现聚类结果筛除了非电力词语,聚类效果显著。上述模型相互协同,最终建立的词库较全。

本发明提出了一种基于信息熵的分词方法。本发明采用最小信息熵原理的方法对电力文本进行分词,实现了分词较准确的作用。该方法首先利用频数和凝固度对电力文本处理,筛选出准词语,然后利用自由度再筛选准词语,初步建立词库,提高了分词的准确率。

本发明提出了词语再组合的方法。因为基于结巴的分词结果,由于分词后词语粒度小,一些电力专业领域词语拆开分词了,且存在一些非专业词,所以利用统计模型、Word2Vec聚类模型、左右信息熵和互信息熵模型和TextRank模型对分词结果进行关键词提取和词语组合,丰富和完善了词库。

本发明提出一种词语聚类的方法。聚类规则是根据挑出来的若干个种子词,然后找到一批相似词,该方法能够从词库中聚类出符合电力专业领域的词语,丰富和完善了电力专业领域词库。

本发明与现有词库构建方法相比,优势在于:

1.针对结巴分词粒度小,领域词被错误拆分的缺陷,互信息和左右信息熵词语组合算法和TextRank算法对气分词结果进行词语组合,发现更多电力领域词,解决了这些问题。其中设计了互信息和左右熵组合判断,对词语是否组合更加严格,提高的词语组合的准确率,TextRank算法方法是提取关键词,对关键词重要性排序组合,组合成词更加准确。

2.TF-IDF算法和Word2Vec词聚类算法是对结巴分词提权关键词,可以提炼出文本中重要性词语,即部分电力领域词。设计了改进的TF-IDF算法,加大了关键词提取的惩罚力度,提取关键词更加准确。

3.信息熵分词算法设计了三个阈值:词频,互信息,左右信息,成词判断严格,提高了分词准确性,上述模型分词结果汇总,分词结果相互补充,建立的候选词库更加完备

4.词聚类算法作业是聚类领域词汇,可以对上述分词结果聚类电力领域词,过滤非电力领域词,减少了人工的工作量,建立词库更加简洁,方便,建立的词库更全更好。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种实时解析模板引擎的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!