电网文本数据实体识别方法、系统、设备及介质

文档序号:1938131 发布日期:2021-12-07 浏览:17次 >En<

阅读说明:本技术 电网文本数据实体识别方法、系统、设备及介质 (Power grid text data entity identification method, system, equipment and medium ) 是由 闵睿 乔骥 宋磊 王永星 季知祥 张伯远 于 2021-08-31 设计创作,主要内容包括:本发明属于电力人工智能领域,公开了一种电网文本数据实体识别方法、系统、设备及介质,包括以下步骤:获取待识别电网文本数据;将待识别电网文本数据输入预设的电网文本实体识别模型中,得到待识别电网文本数据的实体识别结果;其中,预设的电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,所述实体识别模型从输入至输出方向依次包括ERNIE预训练模型和BiLSTM-CRF模型。能够在低数量标注电网文本数据的情况下,实现电网文本数据较高的实体识别准确率,满足电网文本数据的实体识别需求。(The invention belongs to the field of electric power artificial intelligence, and discloses a method, a system, equipment and a medium for recognizing a text data entity of a power grid, which comprise the following steps: acquiring power grid text data to be identified; inputting the power grid text data to be recognized into a preset power grid text entity recognition model to obtain an entity recognition result of the power grid text data to be recognized; the preset power grid text entity recognition model is obtained by marking power grid text data to train an entity recognition model, and the entity recognition model sequentially comprises an ERNIE pre-training model and a BilSTM-CRF model from the input direction to the output direction. The method can realize higher entity identification accuracy of the power grid text data under the condition of low quantity of marked power grid text data, and meets the entity identification requirement of the power grid text data.)

电网文本数据实体识别方法、系统、设备及介质

技术领域

本发明属于电力人工智能领域,涉及一种电网文本数据实体识别方法、系统、设备及介质。

背景技术

命名实体识别(Named Entity Recognition,NER)是自然语言处理的一项基础、重要的技术,旨在从文本中识别出重要信息,通常包括时间,人物,地点等各类信息。传统命名实体识别是基于规则、字典和在线知识库的方案,而随着机器学习和深度学习的不断发展,出现了各类新的算法,可以用计算机强大的计算能力和学习能力减轻人工完成特征工程等步骤的工作。

随着智能化电网的发展,电网的知识图谱构建作为一项重要的工作急需完成。实体识别作为知识图谱构建的基础,需要先完成电网文本数据的实体识别,然而,由于电网文本数据中存在大量的非结构化数据,导致在应用现有的实体识别方法时,需要大量的人工预先标注的数据进行训练,但人工标注实体的工作繁重琐碎,带来较高的人工消耗和人工成本,若是采用少量标注的数据进行训练,又会导致训练后的实体识别方法,在识别电网文本数据中的实体时的识别准确率较差,无法满足电网文本数据的实体识别需求。

发明内容

本发明的目的在于克服上述现有技术的缺点,提供一种电网文本数据实体识别方法、系统、设备及介质。

为达到上述目的,本发明采用以下技术方案予以实现:

本发明第一方面,一种电网文本数据实体识别方法,包括以下步骤:

获取待识别电网文本数据;

将待识别电网文本数据输入预设的电网文本实体识别模型中,得到待识别电网文本数据的实体识别结果;其中,预设的电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,所述实体识别模型从输入至输出方向依次包括 ERNIE预训练模型和BiLSTM-CRF模型。

本发明电网文本数据实体识别方法进一步的改进在于:

所述获取待识别电网文本数据的具体方法为:获取待识别电网文本,通过io 数据读取方式,以句号为标志,将待识别电网文本以单句为一条数据的形式保存,得到待识别电网文本数据。

还包括:将待识别电网文本数据进行去重处理。

所述标注电网文本数据通过如下方式得到:获取电网文本数据,将电网文本数据按照IOB2标注体系进行标注,得到标注电网文本数据。

所述电网文本数据为电网调度控制管理规程文本数据;所述将电网文本数据按照IOB2标注体系进行标注时,标签字典为:

{0:'B-P',1:'B-F',2:'B-M',3:'I-P',4:'I-F',5:'I-M',6:'O'}

其中,B表示实体的开始,I表示实体内容的持续,O表示不关注的字,P、 M及F分别表示故障现象实体、故障处置操作实体及故障情景实体。

所述通过标注电网文本数据训练实体识别模型时,实体识别模型的学习率为 1×10-5,权重衰减值为0.01,优化器采用Adam优化器。

所述ERNIE预训练模型的输出类型为字级别的语义特征。

本发明第二方面,一种电网文本数据实体识别系统,包括:

数据获取模块,用于获取待识别电网文本数据;

实体识别模块,用于将待识别电网文本数据输入预设的电网文本实体识别模型中,得到待识别电网文本数据的实体识别结果;其中,预设的电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,所述实体识别模型从输入至输出方向依次包括ERNIE预训练模型和BiLSTM-CRF模型。

本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述电网文本数据实体识别方法的步骤。

本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述电网文本数据实体识别方法的步骤。

与现有技术相比,本发明具有以下有益效果:

本发明电网文本数据实体识别方法,通过获取待识别电网文本数据,然后根据入预设的电网文本实体识别模型,实现待识别电网文本数据的实体识别。其中,电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,而实体识别模型通过将ERNIE预训练模型迁移至BiLSTM-CRF模型中构建,基于ERNIE 预训练模型对中文语言特征的统一建模能力,以及超强的通用中文语言表示能力,通过迁移学习的方式,使得实体识别模型在构建之初就具有较强的识别能力,有效适应存在大量的非结构化数据的电网文本数据。同时,采用迁移的方式还有效的降低了实体识别模型后续训练所需的标注电网文本数据样本数量,通过少量的标注电网文本数据训练实体识别模型,就能够得到较高的实体识别准确率的电网文本实体识别模型,充分满足电网领域实体识别需求,同时,较少的标注电网文本数据样本数量,也降低了人工消耗和人工成本。

附图说明

图1为本发明的电网文本数据实体识别方法流程框图;

图2为本发明的实体识别模型结构框图;

图3为本发明的LSTM网络的结构示意图;

图4为本发明的损失函数曲线示意图;

图5为本发明的一具体实例的实体识别示意图;

图6为本发明的电网文本数据实体识别系统结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述:

参见图1,本发明一实施例中,提供一种电网文本数据实体识别方法,用于解决现有实体识别方法,无法满足电网领域实体识别需求的问题。具体的,该电网文本数据实体识别方法包括以下步骤。

S1:获取待识别电网文本数据。

具体的,所述获取待识别电网文本数据的具体方法为:获取待识别电网文本,通过io数据读取方式,以句号为标志,将待识别电网文本以单句为一条数据的形式保存,得到待识别电网文本数据。

本实施例中,以电网调度控制管理规程文本数据为例说明,通过io数据读取方式,以句号为标志,将电网调度控制管理规程文本数据截取为以单句为一条数据的形式保存,进而筛选出电网故障及处置的规则数据,即待识别电网文本数据。

优选的,在得到待识别电网文本数据之后,将待识别电网文本数据进行去重处理,以避免重复电网文本数据的多次实体识别带来的不必要消耗。本实施例中,通过去重处理后,共计395条电网调度控制管理规程文本数据。

S2:将待识别电网文本数据输入预设的电网文本实体识别模型中,得到待识别电网文本数据的实体识别结果。其中,预设的电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,所述实体识别模型从输入至输出方向依次包括ERNIE预训练模型和BiLSTM-CRF模型。

具体的,所述标注电网文本数据通过如下方式得到:获取电网文本数据,将电网文本数据按照IOB2标注体系进行标注,得到标注电网文本数据。

本实施例中,电网文本数据采用上述电网调度控制管理规程文本数据,通过将一部分的电网调度控制管理规程文本数据进行人工标注,得到标注电网文本数据。首先,通过对观察电网调度控制管理规程文本数据和实际应用需求的分析,确定了电网调度控制管理规程文本数据中需要提取的实体信息:故障现象实体、故障处置操作实体以及故障情景实体三类实体。其中,故障现象实体包含对各类设备的异常情况描述,故障处置操作实体为相关工作人员对故障发生后的处置操作,故障情景实体是故障现象所处情景的补充描述。

例如“发电机开关跳闸时,应立即汇报冀北调控中心值班调度员,并按现场规程规定进行检查。当机组可以恢复并网运行时,经冀北调控中心值班调度员同意后方可启动并网。”这一电网调度控制管理规程文本数据中,包含了“发电机开关跳闸”的故障现象,“立即汇报冀北调控中心值班调度员,并按现场规程规定进行检查”的故障处置操作,还有“机组可以恢复并网运行时”的情景补充,以及最后“经冀北调控中心值班调度员同意后方可启动并网”作为该场景的处置操作。电网调度控制管理规程文本数据大多只包含三类实体中的一项或两项,其中故障现象和故障处置操作居多,情景较少,且存在一条电网调度控制管理规程文本数据包含多个同类实体的情况。

继而,将电网文本数据按照IOB2标注体系进行标注,具体的,依照IOB2标注体系,结合电网调度控制管理规程文本数据的实际情况,确定标注标签共七类,标签字典为:

{0:'B-P',1:'B-F',2:'B-M',3:'I-P',4:'I-F',5:'I-M',6:'O'}

其中,B表示实体的开始,I表示实体内容的持续,O表示不关注的字,P、 M及F分别表示故障现象实体、故障处置操作实体及故障情景实体。

具体的,本实施例中,参见图2,实体识别模型基于预训练模型和迁移学习,通过ERNIE预训练模型和BiLSTM-CRF模型为基础构建。

其中,预训练模型是由海量的未标注语料训练,获得了自然语言的语法、句法和语义特征的模型。研究表明,使用宏伟规模的未标注语料库训练出的预训练模型,能够学习自然语言的通用规则,具有良好的泛化能力,辅助完成下游任务。而ERNIE预训练模型,是2019年推出的开源预训练模型,在多个中文任务上取得了非常出色的成果,相较于其它预训练模型更适合中文预训练。ERNIE预训练模型包括训练编码器和编译器,通过大规模的中文语料库实现了对中文语言特征的统一建模,具有超强的通用中文语言表示能力,采用字级别、短语级别和实体级别的掩码策略,引入了对字、词和短语的学习能力,具有中文全局建模的能力。

BiLSTM-CRF模型从输入至输出方向依次包括BILSTM网络和条件随机场 CRF。其中,BILSTM网络是由前向LSTM(长短期记忆网络)网络和后向LSTM 网络组合而成。将两个LSTM网络的隐藏状态进行拼接,则对前文和后文都具有记忆功能,能够捕捉双向的语义依赖。LSTM网络继承了循环神经网络处理序列的能力,改进了细胞结构,通过遗忘门、输入门及输出门三个阀门结构,配合控制人工神经细胞状态与输出,有效解决了梯度消失的问题。

具体的,参见图3,LSTM网络的结构示意,其数学表达形式为下式:

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wi·[ht-1,xt]+bi)

ot=σ(Wo[ht-1,xt]+bo)

ht=ot*tanh(Ct)

其中,ot,ft,it分别为t时刻的输出门、遗忘门、输入门;tanh,σ分别为激活函数tanh和sigmiod函数;Wf,Wi,Wo,WC为权重参数矩阵,bf,bi,bo,bC为偏置系数;ht,Ct分别为t时刻的隐藏状态和细胞状态,xt为t时刻的输入。

条件随机场CRF于标注应用上为线性链条件随机场,用于输入和输出均为线性链表示的随机变量序列,获取在给定观测序列X条件下的标记序列Y的条件概率分布。在BiLSTM网络后加上CRF层后,模型则考虑了上下文标签的约束关系,实现选择最大概率的符合语句规则的标注序列结果。

本实施例中,将ERNIE预训练模型迁移至BiLSTM-CRF模型中,构建出了初始的实体识别模型,即ERNIE-BiLSTM-CRF模型。其中,所述迁移基于迁移学习,迁移学习是从相关领域或任务中,迁移知识和特征至目标领域或任务中,以提升或改进在目标领域或任务的学习效果,迁移学习借助了其他领域学到的经验,共享给相似任务,可以减少对数据量的要求,充分利用了相关领域的数据,又保证了在新的任务上的模型精度。

本实施例中,为了支撑实体识别模型的稳定实施,实体识别模型运行环境及配置如表1所示。

表1实体识别模型运行环境及配置表

运行环境与配置 属性
操作平台 Jupyter Notebook
CPU 4Cores.RAM:32GB.Disk:100GB
GPU Tesla V100.Video Mem:16GB
Python 3.7
PaddlePaddle 1.8.4

优选的,ERNIE预训练模型的输出包含2部分,分别是sequence_output和 pooled_output。其中,sequence_output是对应每个输入字级别的语义特征表示, pooled_output是对应整个句子的语义特征表示。本实施例中,基于电网文本数据中包括较多非结构化数据的特点,选择字级别的语义特征,即sequence_output迁移至BiLSTM-CRF模型,以实现实体识别模型在电网文本上较高的识别准确率。

实体识别模型在实施时,先经过ERNIE预训练模型的token嵌入层,将电网调度控制管理规程文本数据转化为词嵌入向量,该词嵌入向量由Token Embeddings、SegmentEmbeddings和Position Embeddings三个词向量拼接而成,不仅将电网调度控制管理规程文本数据种的各字符转化为词向量,还考虑了各字符所处的位置信息。ERNIE预训练模型的训练编码器为Transformer的12层 encoder,通过该训练编码器将词嵌入向量处理成(256,768)特征向量 sequence_output,其中,256表示为电网调度控制管理规程文本数据的输入序列长度,768为隐藏单元个数。

最终,在构建了初始的实体识别模型之后,通过上述的标注电网文本数据训练实体识别模型,即可得到电网文本实体识别模型。具体的,本实施例中,根据以上分析情况,随机选取100条电网调度控制管理规程文本数据进行标注,并按照8:1:1的比例随机分成训练集、测试集和验证集,将剩余的295条未标注的电网调度控制管理规程文本数据作为待识别电网文本数据。通过训练集、测试集和验证集完成实体识别模型的训练和测试,得到电网文本实体识别模型。

优选的,在训练实体识别模型时,实体识别模型的学习率为1×10-5,权重衰减值为0.01,优化器采用Adam优化器。具体的,本实施例中,实体识别模型的模型训练参数配置表如表2所示。

表2模型训练参数配置表

参见图4,展示了在训练集和验证集上实体识别模型的损失函数曲线。训练初期损失函数值的下降速度快,实体识别模型的学习和拟合能力出色,当 Step=560时,实体识别模型的损失函数值稳定在0.3附近,且此时验证集的损失函数值也只有3.83,表面实体识别模型的泛化能力强,训练情况优秀。

以精确率(Precision),召回率(Recall)和综合评价指标(F1)作为电网文本实体识别模型的评估指标包含,分别用于评估模型预测的准确率、全面性和综合性,通过测试集获取电网文本实体识别模型的评估指标,最终发现,仅用80条标注电网文本数据训练得到的电网文本实体识别模型,在测试集上达到了84.46%的准确率,71.19%的召回率,综合评价指标为77.26%。

参见图5,在一个具体实例中,对电网文本实体识别模型输入:“当安自装置发生严重故障时,厂站运行值班人员可按照现场运行规程,先行退出本装置的所有出口跳闸压板,然后汇报值班调度员,并通知设备运行维护单位专业人员到现场处理故障。”这一待识别电网文本数据,最终输出:安自装置发生严重故障/P,退出本装置的所有出口跳闸压板/M,汇报值班调度员/M,通知设备运行维护单位专业人员到现场处理故障/M。表明本发明电网文本数据实体识别方法,实现了对电网文本数据的实体的准确识别。

综上所述,本发明电网文本数据实体识别方法,通过获取待识别电网文本数据,然后根据入预设的电网文本实体识别模型,实现待识别电网文本数据的实体识别。其中,电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,而实体识别模型通过将ERNIE预训练模型迁移至BiLSTM-CRF模型中构建,基于ERNIE预训练模型对中文语言特征的统一建模能力,以及超强的通用中文语言表示能力,通过迁移学习的方式,使得实体识别模型在构建之初就具有较强的识别能力,有效适应存在大量的非结构化数据的电网文本数据。同时,采用迁移的方式还有效的降低了实体识别模型后续训练所需的标注电网文本数据样本数量,通过少量的标注电网文本数据训练实体识别模型,就能够得到较高的实体识别准确率的电网文本实体识别模型,充分满足电网领域实体识别需求,同时,较少的标注电网文本数据样本数量,也降低了人工消耗和人工成本。

下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。

参见图6,本发明再一实施例中,提供一种电网文本数据实体识别系统,能够用于实现上述的电网文本数据实体识别方法,具体的,该电网文本数据实体识别系统包括数据获取模块以及实体识别模块。

其中,数据获取模块用于获取待识别电网文本数据;实体识别模块用于将待识别电网文本数据输入预设的电网文本实体识别模型中,得到待识别电网文本数据的实体识别结果;其中,预设的电网文本实体识别模型通过标注电网文本数据训练实体识别模型得到,所述实体识别模型从输入至输出方向依次包括ERNIE预训练模型和BiLSTM-CRF模型。

本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(CentralProcessing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于电网文本数据实体识别方法的操作。

本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器 (non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网文本数据实体识别方法的相应步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于模式预训练的关系抽取方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!