一种基于文本向量化的故障停电抢修事中处置参考方法
阅读说明:本技术 一种基于文本向量化的故障停电抢修事中处置参考方法 (Text vectorization-based handling reference method in fault power failure repair work ) 是由 蔡德福 周鲲鹏 曹侃 王文娜 刘海光 王莹 饶渝泽 陈汝斯 叶畅 余笑东 王涛 于 2021-01-09 设计创作,主要内容包括:本发明提供一种基于文本向量化的故障停电抢修事中处置参考方法,包括以下步骤:步骤一:已处置故障停电事件及其处置方案数据获取;步骤二:已处置故障停电事件描述文本预处理与分词;步骤三:停电事件描述文本向量化表示;步骤四:停电事件描述文本语义相似度计算及处置方案推送:采用余弦相似度计算新增待处置故障停电事件与存量已处置故障停电事件的描述文本向量语义相似度,当相似度超过设定阈值时,将存量已处置故障停电事件的处置方案推送给作业人员作为参考。本发明能够识别与新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息提供给作业人员作为参考,可提高事件处置效率。(The invention provides a text vectorization-based handling reference method in fault power failure repair work, which comprises the following steps: the method comprises the following steps: acquiring data of a processed fault power failure event and a processing scheme thereof; step two: preprocessing and word segmentation of the description text of the processed fault power failure event; step three: the power failure event description text is vectorized and represented; step four: calculating semantic similarity of the description text of the power failure event and pushing a disposal scheme: and calculating semantic similarity of description text vectors of newly added to-be-treated fault power failure events and stored treated fault power failure events by adopting cosine similarity, and pushing a treatment scheme of the stored treated fault power failure events to an operator as reference when the similarity exceeds a set threshold. The invention can identify the processed fault power failure event of the stock with higher semantic similarity with the description text of the newly added to-be-processed fault power failure event, provides information such as a processing scheme, processing duration and the like of the processed fault power failure event to operating personnel as reference, and can improve the event processing efficiency.)
技术领域
本发明涉及电网故障抢修领域,具体是一种基于文本向量化的故障停电抢修事中处置参考方法。
背景技术
电网企业已经建立起了面向流程管理的配网故障抢修管理平台,其中事件管理是抢修平台功能的重要组成部分,在故障抢修处置方面发挥了显著的作用。故障抢修平台事件管理最主要的工作就是故障报修及故障抢修处理工单的流转,不断重复建单、派单、转单、解决、关闭这一过程,从而在日常维护工作中积累了大量事件工单。这些大量的历史工单中有很多都是重复发生或者类似的事件,当前因没有将这些历史工单有效地利用起来,从而使客服或作业人员很多时间都耽搁在这种重复繁杂的工作中。
文献[1]提出了一种提升配电网恢复效率的抢修策略优化方法,该方法以系统损失电量最小为目标构建抢修策略优化模型,并利用贪心算法求解得到提升配电网恢复效率的优化抢修策略,并以IEEE 33节点配电网系统为算例进行了仿真及验证。文献[2]分析了当前配电网故障抢修中存在的主要问题,从管理角度提出了提高配网故障抢修效率的具体策略。文献[3]提出了一种基于用户画像技术和故障诊断技术的计量装置故障抢修主动服务预警模型,利用K-Means聚类方法构建用户画像模型,利用极端梯度提升XGBoost算法构建计量装置故障识别模型,进而建立计量装置故障抢修主动服务预警模型。文献[4]通过对影响电网故障抢修的主要因素进行分析,提出了相关电网故障定位及抢修时间的主要技术手段,并提出了基于故障行波传输路径及分支判定矩阵的电网故障定位方法。文献[5]建立了电力系统在多故障情况下的多目标抢修策略优化模型,针对配电网接线呈辐射状的特点,提出了一种遗传拓扑混合算法作为寻优策略,算例结果证明了该混合智能算法的有效性和鲁棒性。文献[6]建立了多故障抢修与供电恢复的联合优化模型,通过故障抢修顺序和停电负荷恢复路径的交互影响和反复迭代,最终得到最优的抢修计划和各个阶段最优的供电恢复策略。
快速处置是故障抢修管理的重要目标之一,尤其对一线人员,当接到故障报修时能够在建单的过程中就能快速地从历史信息中找到对当前事件有益的参考信息,对事件的快速处置将起到很大的帮助。
参考文献:
[1]杨隆,李长城,罗伟,等.提升配电网恢复效率的抢修策略优化研究[J].浙江电力,2020.
[2]马峻峰.浅谈提高配网故障的抢修效率的措施[J].科技资讯,2020.
[3]殷新博,唐旭东,王数,等.计量装置故障抢修主动服务预警模型研究[J].信息技术,2020.
[4]刘洋,白东海,贺卫华,等.基于缩短故障定位及抢修时间的决策方法研究[J].机械电子,2020.
[5]张晶伟,张粒子,黄弦超.基于遗传拓扑混合算法的配电网多故障抢修策略[J].电力系统自动化,2008.
[6]黄弦超,杨雨,范闻博.配电网多故障抢修与供电恢复联合优化模型[J].电力系统自动化,2014.
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于文本向量化的故障停电抢修事中处置参考方法。
为了实现上述目的,本发明采用了以下技术方案:
一种基于文本向量化的故障停电抢修事中处置参考方法,包括如下步骤:
步骤一:已处置故障停电事件及其处置方案数据获取:从生产管理系统配网抢修管控模块获取已处置故障停电事件描述文本及与已处置故障停电事件对应的抢修处置方案,所述已处置故障停电事件描述文本包含已处置故障停电事件的停电编号、停电类型、线路名称、停电原因、停电范围;
步骤二:已处置故障停电事件描述文本预处理与分词:对已处置故障停电事件的停电原因等关键描述文本信息,进行冗余信息、非法字符剔除等预处理,结合Python的jieba内置的词典与停电地址要素库对停电原因、停电范围进行分词,整合后表示成已处置故障停电事件描述文本特征词集;
步骤三:停电事件描述文本向量化表示:采用词频-逆文本频率指数算法(TF-IDF)将已处置故障停电事件描述文本特征词集转换成向量化形式,即生成已处置故障停电事件的描述文本向量;
步骤四:停电事件描述文本语义相似度计算及处置方案推送:针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障重复发生,若存在则直接调取其历史处置方案并参考;若不存在,则采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,当相似度超过设定阈值时,将已处置故障停电事件所对应的处置方案推送给作业人员作为参考。
进一步的,步骤三中词频-逆文本频率指数算法(TF-IDF)如式(1)所示:
式中,wi,j为权重,tfi,j为特征词tj在文档di中的词频TF(Term Frequency),idfj为特征词tj在整个文档集合D={d1,d2,…dk}中的逆向文档频率IDF(Inverse DocumentFrequency),ni,j为特征词tj在文档di中出现次数,k为文档总数,为特征词tj在文档集合D={d1,d2,…dk}中出现总次数,nj为特征词tj所出现文件数。
进一步的,步骤四中,采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,具体步骤为:
假定两个文本的特征向量分别表示为和并且它们之间的夹角为θ,则两个向量的余弦相似度由式(2)表示:
进一步的,步骤四中根据实际经验将所述阈值设置在0.7-0.8之间。
本发明的技术效果与优点:
本发明采用词频-逆文本频率指数算法(TF-IDF)将故障停电事件描述文本特征词集转换成向量化形式,可以有效避免传统词表示的“维数灾难”问题,而且词与词之间的语义关联性可以通过向量距离计算;本发明所提方法能够识别与新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员,提高事件处置效率。
附图说明
图1是本发明一种基于文本向量化的故障停电抢修事中处置参考方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供了一种基于文本向量化的故障停电抢修事中处置参考方法,包括以下步骤:
步骤一:已处置故障停电事件及其处置方案数据获取:从生产管理系统配网抢修管控模块获取已处置故障停电事件描述文本及与已处置故障停电事件对应的抢修处置方案,所述已处置故障停电事件描述文本包含已处置故障停电事件的停电编号、停电类型、线路名称、停电原因、停电范围;
步骤二:已处置故障停电事件描述文本预处理与分词:对已处置故障停电事件的停电原因等关键描述文本信息,进行冗余信息、非法字符剔除预处理,结合Python的jieba内置的词典与停电地址要素库对停电原因、停电范围进行分词,整合后表示成已处置故障停电事件描述文本特征词集;
步骤三:停电事件描述文本向量化表示:采用词频-逆文本频率指数算法(TF-IDF)将已处置故障停电事件描述文本特征词集转换成向量化形式,即生成已处置故障停电事件的描述文本向量。
在步骤三中,为了防止TF-IDF算法经典计算模型(公式(1))的nj为0导致计算错误或者出现log计算结果为负的情形,TF-IDF算法模型调整为公式(2)。
TF-IDF经典计算模型如下所示:
将TF-IDF权重算法模型调整为:
式中,wi,j为权重,tfi,j为特征词tj在文档di中的词频TF(Term Frequency),idfj为特征词tj在整个文档集合D={d1,d2,…dk}中的逆向文档频率IDF(Inverse DocumentFrequency),ni,j为特征词tj在文档di中出现次数,k为文档总数,为特征词tj在文档集合D={d1,d2,…dk}中出现总次数,nj为特征词tj所出现文件数。
步骤四:停电事件描述文本语义相似度计算及处置方案推送:针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障重复发生,若存在则直接调取其历史处置方案并参考;若不存在,则采用余弦相似度计算新增待处置故障停电事件与已处置故障停电事件的描述文本向量的语义相似度,当相似度超过设定阈值时,将已处置故障停电事件所对应的处置方案推送给作业人员作为参考。
假定两个文本的特征向量分别表示为和并且它们之间的夹角为θ,则两个向量的余弦相似度可由下式表示。
步骤四中根据实际经验将所述阈值设置在0.7-0.8之间。
下面为说明本发明提出的基于文本向量化的故障停电抢修事中处置参考方法的有效性,从生产管理系统配网抢修管控模块中,抽取巴东县2019年1月1日至7月30日共801条故障停电抢修记录数据,作为存量故障停电事件处置方案参考样本数据集,将2019年7月31日共15条故障停电事件数据作为新增待处置样本数据集。
针对新增待处置故障停电事件,首先查询该设备历史故障停电事件记录,判断是否存在因同类原因导致故障停电事件重复发生,若存在则可直接调取其历史处置方案并参考。以停电编号为“2019073142000248”的新增故障停电事件为例进行说明。该停电事件对应的线路名称为“10kV金鄢线金804”,停电类型为“电网故障停限电”,查询该线路、该类型历史停电事件,如表1所示,共发现11条历史故障停电事件记录,查找历史记录中“停电原因”是否存在因大风导致线路断线或类似的停电事件,若有则调取其历史处置方案并参考。
本例编号为“2019073142000248”的新增停电事件对应的线路“10kV金鄢线金804”,查询其历史故障停电事件记录发现存在因同类停电原因导致的故障停电事件,编号为“2019051142000193”停电事件。可调取“2019051142000193”历史故障停电事件处置方案供编号“2019073142000248”的新增停电事件处置方案参考。
表1 10kV金鄢线金804新增与历史故障停电事件比对
针对新增待处置故障停电事件,查询该设备历史故障停电事件记录,若查无历史故障停电记录或历史记录中并无因同类原因导致的故障停电事件发生,则对该新增待处置故障停电事件及其同类设备存量已处置故障停电事件的描述文本依次进行文本预处理、文本分词及文本向量化表示后,计算该新增待处置故障停电事件及其同类设备存量已处置故障停电事件的描述文本向量语义相似度,筛选与该新增待处置故障停电事件描述文本语义相似度较高的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员作为参考,当同时发生多个新增待处置故障停电事件时可批量执行计算,提高故障抢修效率。
故障停电事件工单中最主要的文本标签是“停电原因”和“停电范围”。这几段文本信息基本能将一个故障停电事件信息概括完整,而针对同类设备、同类故障的故障停电事件仅“停电原因”一个文本标签即可将该类故障停电事件信息概括完整。本项目所指的文本向量化针对的是“停电原因”和“停电范围”这几段文本。文本信息经过分词、过滤表示成特征词集的形式后就可以采用不同算法转换成向量化形式。
收集整理故障停电事件工单文本信息构建故障停电事件描述特征词库,基于词库对故障停电事件文本进行分词。表2为部分故障停电事件的文本信息分词后形成的特征词集形式。
表2停电描述文本特征词集
选取停电编号为“2019072142000017”与“2019030542000055”的故障描述文本,表示成特征词集形式,即d4={线路断线导致停电湖北省恩施州巴东县东壤口镇三河口村乐乡大道桥头滨江大道烟草焦家湾村五里堆村学苑路神龙大道政府},d5={下雨引起线路故障停电湖北省恩施州巴东县东壤口镇焦家湾村神龙大道滨江大道旧县坪三组学苑路}。
将d4和d5的特征词转换成数值,数值可用概率来表示。概率计算包括两方面,特征单词在文本中出现的词频tf值,还有该词的逆向文档频率idf值。那么某一维的表征概率值就是tf和idf的一个因式乘积,即TF-IDF权重。
计算tf值,即特征词在某个文本词集中出现的次数和在所有文本词集中出现的总次数的比值。
表3 tf值
序号
tf值
d4
d5
序号
tf值
d4
d5
1
线路
0.5
0.5
13
烟草
1
0
2
断线
1
0
14
焦家湾村
0.5
0.5
3
导致
1
0
15
五里堆村
1
0
4
停电
0.5
0.5
16
学苑路
0.5
0.5
5
湖北省
0.5
0.5
17
神龙大道
0.5
0.5
6
恩施州
0.5
0.5
18
政府
1
0
7
巴东县
0.5
0.5
19
下雨
0
1
8
东壤口镇
0.5
0.5
20
引起
0
1
9
三河口村
1
0
21
线路
0.5
0.5
10
乐乡大道
1
0
22
故障
0
1
11
桥头
1
0
23
旧县坪三组
0
1
12
滨江大道
0.5
0.5
计算idf值,即该词出现在多个文本中的频率,如果一个单词在很多文本中出现的频率都很高,那么这个单词就太普遍了,不足以用来表征一个故障停电事件。idf的计算可利用公式log(n+1/(t+1))+1,其中n表示文本词集总个数,本例中n=2,t表示包含该特征词的文本词集数量。
表4 idf值
序号
文本
idf值
序号
文本
idf值
1
线路
1
13
烟草
1.18
2
断线
1.18
14
焦家湾村
1
3
导致
1.18
15
五里堆村
1.18
4
停电
1
16
学苑路
1
5
湖北省
1
17
神龙大道
1
6
恩施州
1
18
政府
1.18
7
巴东县
1
19
下雨
1.18
8
东壤口镇
1
20
引起
1.18
9
三河口村
1.18
21
线路
1
10
乐乡大道
1.18
22
故障
1.18
11
桥头
1.18
23
旧县坪三组
1.18
12
滨江大道
1
计算tf×idf值,即TF-IDF权重。
表5 tf×idf值
序号
tf×idf值
d4
d5
序号
tf×idf值
d4
d5
1
线路
0.5
0.5
13
烟草
1.18
0
2
断线
1.18
0
14
焦家湾村
0.5
0.5
3
导致
1.18
0
15
五里堆村
1.18
0
4
停电
0.5
0.5
16
学苑路
0.5
0.5
5
湖北省
0.5
0.5
17
神龙大道
0.5
0.5
6
恩施州
0.5
0.5
18
政府
1.18
0
7
巴东县
0.5
0.5
19
下雨
0
1.18
8
东壤口镇
0.5
0.5
20
引起
0
1.18
9
三河口村
1.18
0
21
线路
0.5
0.5
10
乐乡大道
1.18
0
22
故障
0
1.18
11
桥头
1.18
0
23
旧县坪三组
0
1.18
12
滨江大道
0.5
0.5
表示成向量,最终就可以将d4和d5表示成如下的空间向量:
d4={0.5,1.18,1.18,0.5,0.5,0.5,0.5,0.5,1.18,1.18,1.18,0.5,1.18,0.5,1.18,0.5,0.5,1.18,0,0,0.5,0,0},
d5={0.5,0,0,0.5,0.5,0.5,0.5,0.5,0,0,0,0.5,0,0.5,0,0.5,0.5,0,1.18,1.18,0.5,1.18,1.18},其中向量对应的维度特征变量为:线路,断线,导致,停电,湖北省,恩施州,巴东县,东壤口镇,三河口村,乐乡大道,桥头,滨江大道,烟草,焦家湾村,五里堆村,学苑路,神龙大道,政府,下雨,引起,线路,故障,旧县坪三组。
采用余弦相似性公式计算向量d4和d5间相似度:
计算得到d4与d5的夹角余弦值为0.62,这个余弦值越接近1表明夹角越小也就越相似。同理文本较多时可算出任意文本与其余文本夹角余弦值,将值按大小排列就可以分出相似度高低。
依次计算每条新增待处置故障停电事件与全部存量已处置故障停电事件的描述文本语义相似度,设置相似度阈值为0.8,筛选与新增待处置故障停电事件描述文本语义相似度高于0.8的存量已处置故障停电事件,将其处置方案与处理时长等信息推送给作业人员作为参考,提高故障抢修效率。
对于巴东县2019年7月31日共15条新增待处置故障停电事件,通过本发明所提方法,从存量已处置的801条故障停电抢修记录数据中匹配到了6条新增处置故障停电事件对应的故障抢修方案,匹配用时5秒,其中6条新增处置故障停电事件对应的故障抢修方案被作业人员采纳5条,有效率为83%。通过常规的人工方式编制5条新增故障停电事件的故障抢修方案一般需要2-3小时,采用本发明所提方法只需要5秒,可以极大提升工作效率。
针对当前生产管理系统配网抢修管控模块在日常维护工作中积累了大量故障停电抢修事件工单但未有效发挥其数据价值的问题,本发明提出了一种基于文本向量化的故障停电抢修事中处置参考方法。该方法通过首先对故障停电事件描述文本预处理与分词,然后采用词频-逆文本频率指数算法(TF-IDF)将故障停电事件描述文本特征词集转换成向量化形式,再采用余弦相似度计算新增待处置故障停电事件与存量已处置故障停电事件的描述文本向量语义相似度,当相似度超过设定阈值时,将存量已处置故障停电事件的处置方案推送给作业人员作为参考,可有效提升故障停电事件处置效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种中文句子的命名实体识别方法及装置