一种通信领域过程类知识事件抽取方法

文档序号:1953451 发布日期:2021-12-10 浏览:16次 >En<

阅读说明:本技术 一种通信领域过程类知识事件抽取方法 (Method for extracting process knowledge events in communication field ) 是由 李飞 周源 万飞 王德玄 夏献军 于 2021-09-07 设计创作,主要内容包括:本发明公开了一种通信领域过程类知识事件抽取方法,属于信息技术领域,包括以下步骤:S1:对通信领域事件抽取问题进行定义,并选择抽取方法;S2:对通信领域过程类知识的数据预处理;S3:构建分层序列标注任务;S4:使用预训练模型和图卷积神经网络获取增强语义表征;S5:使用门控神经单元获取语义表征的长距离语义依赖信息;S6:使用条件随机场对步骤S5中存在的标签偏差问题进行解决;S7:利用基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取模型对事件进行抽取。本发明使用基于模型迁移学习和图卷积神经网络的融合模型实现语义表征提取,且使用门控神经单元获取语义表征的长距离依赖信息,同时使用条件随机场克服标签偏差问题。(The invention discloses a method for extracting process knowledge events in the communication field, which belongs to the technical field of information and comprises the following steps: s1: defining the event extraction problem of the communication field, and selecting an extraction method; s2: preprocessing data of process knowledge in the communication field; s3: constructing a hierarchical sequence marking task; s4: obtaining an enhanced semantic representation by using a pre-training model and a graph convolution neural network; s5: obtaining long-distance semantic dependency information of semantic representation by using a gated neural unit; s6: solving the tag bias problem existing in step S5 using conditional random fields; s7: and extracting the events by using a communication field process knowledge event extraction model based on model transfer learning and a graph convolution neural network. According to the method, a fusion model based on model transfer learning and a graph convolution neural network is used for extracting semantic representation, a gated neural unit is used for acquiring long-distance dependence information of the semantic representation, and a conditional random field is used for overcoming the problem of label deviation.)

一种通信领域过程类知识事件抽取方法

技术领域

本发明涉及信息技术领域,具体涉及一种通信领域过程类知识事件抽取方法。

背景技术

近年来,随着自然语言处理技术的飞速发展以及5G技术在通信领域的广泛应用,如何利用自然语言处理技术对通信领域过程类知识进行抽取成为了一个越来越受到关注的问题。通信领域事件抽取旨在从无结构的过程类知识文本中抽取指定的事件属性,是文本结构化的重要步骤之一,也是知识图谱广泛应用的基础。

当前通信领域事件抽取任务普遍面临标注成本过高、标注样例稀少的问题。因此,在较少标注样本条件下实现高质量的事件抽取,对通信领域事件抽取技术的广泛应用具有重要价值。采用基于规则的事件抽取方法,由于语言结构的不确定性,导致制定统一完整的规则难度较大;而传统机器学习又大多基于有监督学习,难以处理事件元素表述多样化和事件元素缺损(漏抽取、文本描述缺损)的问题。为此,提出一种通信领域过程类知识事件抽取方法。

发明内容

本发明所要解决的技术问题在于:如何解决现有通信领域事件抽取技术中存在的制定统一完整的规则难度较大、难以处理事件元素表述多样化和事件元素缺损等问题,提供了一种通信领域过程类知识事件抽取方法,该方法通过对通信运维过程中的“事件”和“事件关系”进行抽取和梳理,可以更直观地呈现通信运维过程中故障发生的逻辑,是后续故障排查和一线处理现网故障的重要先决条件。

本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:

S1:通信领域过程类知识事件抽取的问题定义和方法选择;

S2:对通信领域过程类知识的数据预处理;

S3:构建分层序列标注任务;

S4:使用预训练模型和图卷积神经网络(GCN)获取增强语义表征;

S5:使用门控神经单元(GRU)获取语义表征的长距离语义依赖信息;

S6:使用条件随机场(CRF)克服步骤S5中存在的标签偏差问题;

S7:基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取模型进行数据抽取流程。

更进一步地,所述的步骤S1中的问题定义是指从通信领域事件文本语料中抽取哪些事件元素;在进行需求分析之后,给出事件抽取的问题定义:首先从文本语料中识别是否存在相关的通信领域事件,其次识别出相关事件的涉及元素,最后确定每个元素所扮演的角色。事件抽取的方法选择管道式抽取方法。

更进一步地,所述的步骤S2中的数据预处理指通过数据清洗、数据去重和文本规范化等操作,解决原始人工标注数据存在的数据不规范、特征遗漏和标注错误问题。

更进一步地,所述的步骤S3中分层序列标注是指按照事件类别,基于数据Schema中的事件类型与事件元素,使用程序化手段,将数据划分为结构化的8类30级地址,采用BIO标注策略进行序列标注的任务。

更进一步地,所述的步骤S4中的预训练模型是指在海量语料基础上运行自监督学习方法得到的预训练模型;预训练模型提供的是一个供其他任务进行模型迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器;图卷积神经网络是指在图上使用消息传递和消息接收机制,经过图上的卷积操作,挖掘图中节点之间的深层关系,从而可以获取增强的节点语义表征。

更进一步地,所述的步骤S5中的门控神经单元(GRU)是拥有重置门和更新门的LSTM简化模型,GRU的参数更少,效率更高;长距离语义依赖是由GRU中的重置门和更新门特性所决定,重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。

更进一步地,所述的步骤S6中的条件随机场(CRF)是根据K个特征函数、对应的K个权重以及观测序列x={x1,x2,x3,...,xn},预测最优的标记序列

更进一步地,所述的步骤S7中的数据流程是指文本语料经过文本输入层、预训练模型层、GCN层、GRU层、CRF层以及输出层,得到通信领域过程类知识事件抽取的预测结果。

本发明相比现有技术具有以下优点:该通信领域过程类知识事件抽取方法,使用基于模型迁移学习和图卷积神经网络的融合模型实现语义表征提取,且使用门控神经单元(GRU)获取语义表征的长距离依赖信息,同时使用条件随机场(CRF)克服标签偏差问题,在此基础上构建的事件抽取模型可以更好地在中文语料上完成事件抽取任务,能够适用于大多数通信领域过程类知识事件抽取任务,值得被推广和应用。

附图说明

图1是本发明实施例中预训练模型对通信领域过程类知识语料进行masking预测示意图图;

图2是本发明实施例中图卷积神经网络(GCN)实现多层语义更新示意图;

图3是本发明实施例中门控神经单元(GRU)t时刻数据更新过程示意图;

图4是本发明实施例中基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取模型的执行流程示意图。

具体实施方式

下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

如图1~4所示,本实施例提供一种技术方案:一种基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取方法,包括如下步骤:

S1:事件抽取的问题定义

通信领域事件抽取问题可以描述为:首先从文本语料中识别是否存在相关的通信领域事件,其次识别出相关事件的涉及元素,最后确定每个元素所扮演的角色。如例句所示,将例句输入到事件抽取模型中,需要将E1、A1、A2、A3和A4抽取出来。其中E1称为触发词,A1、A2、A3和A4称为事件元素。

例句:XX小区晚上8点之后苹果终端(A1)接入(E1)5G网络(A2)失败(A3)

其中,例句中的触发词为“接入”,说明包含着一个软硬件异常(SoftHardwareFault)的事件,而抽取的元素A1、A2、A3在软硬件异常事件中的元素角色分别表示故障发生的位置、故障相关的宾语和故障状态。

目前基于机器学习的事件抽取主要有两种方法,分别是管道式方法(ThePipelined Approach)和联合学习方法(The Joint Approach)。管道式方法是在第一阶段进行触发词识别、事件类型确定,第二阶段进行事件元素的识别,即先把例句中的E1先抽取出来,判断属于哪类事件,之后根据E1事件框架进行A1、A2、A3和A4的抽取。联合学习方法是同时提取触发词和事件元素,即将例句中E1、A1、A2、A3和A4同时抽取出来。管道式方法存在误差传播的现象,如果在第一阶段事件类型判断错误,会导致第二阶段事件元素抽取错误,因此在通常情况下使用联合学习方法的效果会优于管道式方法。但是在通信领域,事件类型和事件元素都异常复杂,经常出现事件触发词和事件元素重叠覆盖的情况,例如触发词为“接入”,事件元素为“接入终端”,则模型很容易将两次出现的“接入”都标记为事件触发词,从而导致抽取任务的失败。因此在本发明中,采用管道式方法,对事件触发词和事件元素分别单独建模,依次抽取出事件所包含的触发词和事件元素。实验证明,在语境复杂的通信领域事件抽取任务中,采用管道式方法的效果要明显好于联合学习方法。

S2:对通信领域过程类知识的数据预处理

通信领域存在多种过程类知识,常见的过程类知识事件类型包括:指标恶化类、软硬件异常、采集数据、核查类、配置类故障、外部事件、调整机器、操作机器等。训练数据集详细地标注了事件所属的类型,以及各类型下包含的触发词和事件元素。“pair_id”为事件对ID。训练数据集和验证数据集的统计信息和示例分别如表1和表2、表3所示。

表1数据集统计信息

表2训练数据集示例

表3验证数据集示例

id Text
15001 但是没有接在一个天馈上
15002 更加不幸的是手机会动!
15003 但由于现场未配置GERAN系统的邻区
15004 出现了RRC建立失败的现象
15005 很多站点无法调整

由于通信领域过程类知识是设备运行过程中实时生成的,在经过人工清洗和标注之后仍然存在大量数据不规范、特征遗漏甚至标注错误等问题。因此在将数据输入模型之前,需要进行数据预处理工作。

S21:数据清洗。标注的通信领域知识抽取语料文本中存在部分明显的标注错误,在数据清洗过程中需要直接弃用这部分数据。

S22:数据去重。有时候设备会在一定时间内对同一设备状态进行记录,这样就会产生很多的重复数据。大量重复的数据会对样本分布造成影响,因此在预处理环节会将重复数据进行去重操作。

S23:文本规范化。统一处理了样本中存在的文本和符号全半角不统一问题。

S3:构建分层序列标注任务

序列标注问题是NLP中最常见的问题,绝大多数NLP问题都可以转化为序列标注问题。所谓“序列标注”,就是说对于一个一维线性输入序列:x={x1,x2,x3,...,xn},给线性序列中的每个元素打上标签集合中的某个标签y={y1,y2,y3,...,yn}。所以说,序列标注任务的本质上是对线性序列中每个元素根据上下文内容进行分类的问题。

本发明将事件抽取看作为序列标注任务,标注策略采用BIO策略,B表示事件元素的开始,I表示事件元素的中间或结尾词,O表示无关词。

基于数据Schema中的事件类型与事件元素,使用程序化手段,将数据划分为结构化的8类30级地址,使用A-H标记8种类别下的触发词,使用An-Hn标记每种类别下的事件元素,用B标记开始位置,I标记中间和结束位置。标记说明如表4所示。

表4:序列标注标签定义规则

标签 定义
B-A1 SoftHardwareFault起始位置
I-A1 SoftHardwareFault中间位置或结束位置
B-A2 Subject起始位置
I-A2 Subject中间位置或结束位置
B-A3 Object/object起始位置
I-A3 Object/object中间位置或结束位置
B-A4 State起始位置
I-A4 State中间位置或结束位
B-A5 Owner起始位置
I-A5 Owner中间位置或结束位
B-B1 CollectData起始位置
I-B1 CollectData中间位置或结束位
B-B2 Object/object起始位置
I-B2 Object/object中间位置或结束位
B-B3 Source起始位置
I-B3 Source中间位置或结束位
... ...

标记的规则如下所示:

trigger_dic={'SoftHardwareFault':'A1','CollectData':'B1','Check':'C1','SettingFault':'D1','ExternalFault':'E1','SetMachine':'F1','Operate':'G1','IndexFault':'H1'}

a_dic={'Subject':'A2','Object':'A3','object':'A3','State':'A4','Owner':'A5'}

b_dic={'Object':'B2','object':'B2','Source':'B3'}

c_dic={'Object':'C2','object':'C2','Standard':'C3'}

d_dic={'Setting':'D2','Owner':'D3','Reference':'D4','State':'D5'}

e_dic={'State':'E2'}

f_dic={'Object':'F2','object':'F2','Network':'F3','InitialState':'F4','FinalState':'F5'}

g_dic={'Object':'G2','object':'G2','Owner':'G3'}

h_dic={'Index':'H2','Owner':'H3','State':'H4'}

S4:使用预训练模型和图卷积神经网络(GCN)获取增强语义表征

S41:本发明使用预训练模型进行语料的token化处理。首先,利用分词方法将文本分成一个字或者短语等词汇单位。由于需要将原始语料输入到预训练模型中,因此需要进行分词。对于给定句子x={x1,x2,x3,...,xn},其中xi表示输入句子的第i个字,n为句子所包含的字的个数,输入到层时,使用的是预训练模型自带的分词器,而这个分词器在处理中文时,是以字进行分词的。分词后,在序列后补0至统一长度,得到分词结果ωi∈Rm(i=1,2,...,m),ωi是句子中第i个标记,m为句子分词后序列的长度。

本发明使用预训练模型获取语料文本的语义表征。预训练模型提供的是一个供其他任务进行模型迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。使用字符的位置编码作为transformer的输入,在语料中随机masking一部分单词,然后利用上下文的信息预测masking的单词,这样可以更好地根据语料上下文理解被masking单词的含义。在本发明中,使用预训练模型对通信领域过程类知识语料进行masking预测的方法如图1所示。

本发明使用图卷积神经网络对预训练模型的节点语义表征进行增强处理。

S42:将语料文本中的事件触发词和事件元素视为节点,每条语料中的节点存在相邻边关系,构造动态网络拓扑图;通过消息传递机制将每一个节点自身的特征信息经过变换后发送给邻居节点,实现对节点特征信息的抽取变换,再通过消息接收机制将每个目标节点周围邻居节点的传递信息进行聚合:

其中,A表示目标节点的邻接矩阵,D表示目标节点的度矩阵,H(l)为第l层的节点语义表征,H(l+1)为第l+1层的节点语义表征,W(l)为第l层目标节点的特征权重矩阵,σ为Sigmoid激活函数。

经过图上的多层卷积操作,可以挖掘图中节点之间的深层关系,图上的l+1层卷积操作如图2所示。

S5:使用门控神经单元(GRU)获取语义表征的长距离语义依赖信息

门控神经单元(GRU)是LSTM的简化模型,在模型中添加GRU层是用于获取输入向量的长距离语义依赖信息。GRU与循环神经网络相比,解决了梯度消失、梯度爆炸的问题,与LSTM模型相比,LSTM拥有三个门(输入门、遗忘门和输出门),GRU只拥有两个门(重置门和更新门)。GRU并不会控制和保留内部记忆,且没有LSTM中的输出门,因此同样结构的神经网络GRU的参数更少、效率更高,在很多任务上也有更好的效果。由于通信领域事件中出现的事件主体比较多也比较复杂,因此通过GRU可以进一步提炼通过预训练模型提取之后的特征信息,获取远距离通信领域事件要素之间的联系。

如图3所示,GRU使用了更新门(update gate)与重置门(reset gate)。重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。

S51:在时间步t,使用更新门将上一时间步的信息与当前时间步的信息聚合:

zt=σ(W(z)xt+U(z)ht-1)

其中ht-1表示第t-1个时间步的隐层语义输出,xt表示第t个时间步的原始语义输入,W(z)和U(z)均为权重矩阵,σ为Sigmoid激活函数。

S52:在时间步t,使用重置门将上一时间步的信息与当前时间步的信息聚合:

zt=σ(W(r)xt+U(r)ht-1)

在更新门中,语义聚合时使用了不同的权重矩阵。

S53:在时间步t,衡量重置门控值的大小,确定是保留或遗忘以前的信息:

h t=tanh(Wxt+zt⊙Uht-1)

其中tanh为激活函数,zt为重置门的结果,⊙表示Hadamard乘积。

S54:在时间步t的最后,衡量更新门控值的大小,确定传递到下一个单元的信息是上一时间步的隐藏层信息或更新门的信息:

ht=zt⊙ht-1+(1-zt)⊙h′t

S6:使用条件随机场(CRF)克服步骤S5中存在的标签偏差问题

条件随机场(Conditional Random Field,CRF)能够对标签之间的依赖关系进行建模,克服标签偏差问题。将上述获取了上下文语义依赖的特征向量H传入线性层之后,得到m*n的矩阵P,其中Pi,j是第i个标记中属于第j个标签的得分,m是标签个数,n是模型设定的句子最大长度。

输入:模型的K个特征函数、对应的K个权重以及观测序列x={x1,x2,x3,...,xn}

输出:最优标记序列

S61:进行CRF建模初始化,求出初始位置各个标记组合的概率:

其中,i表示标记所在的位置,δ1(l)表示在初始位置标记l各个标记组合的概率,wk为第k对标记组合的CRF模型参数,fk表示第k对标记组合的特征函数,表示在初始位置使δ1(l)达到最大值的标记取值;

S62:对i=1,2,...n进行递推,求出到位置i的各个标记l=1,2,...,m的非规范化概率最大值:

其中,δi+1(l)表示在位置i标记l各个可能取值对应的非规范化概率的最大值,δi(j)表示在位置i标记j组合的概率;

S63:记录非规范化概率最大值的路径:

其中,表示使δi+1(l)达到最大值的位置i的标记取值;

S64:当i遍历取值完所有的n个语料样本时终止递推过程,此时非规范化概率的最大值为:

同时可以获得最优路径的终点:

S65:由最优路径的终点回溯,即可得到整条最优路径:

其中,表示第i个位置的最优标记;

将最优路径上的节点连接起来,即可得到最优路径的标记序列:

S7:基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取模型数据流程

如图4所示,基于模型迁移学习和图卷积神经网络的通信领域过程类知识事件抽取模型主要包括文本输入层、BERT预训练模型层、GRU层、CRF层以及输出层。

S71:文本输入层中,对原始语料进行数据预处理,利用BERT预训练模型将文本语料按照中文字符进行token化处理,得到token化的分词结果:

x={x1,x2,x3,...,xn}

其中xi表示输入句子的第i个字,n为句子所包含的字的个数,若句子长度不足n,则序列后会自动补0至相同长度。

S72:通过BERT预训练模型层,获取原始文本语料的语义表征;

S73:将预训练模型的语义表征输入GRU层提取通信领域事件语料关键信息:

其中,是当前GRU的输入,Ht是GRU的隐藏层状态向量。

S74:使用条件随机场(Conditional Random Field,CRF)对标签之间的依赖关系进行建模,克服标签偏差问题。对于一个输入序列:x={x1,x2,x3,...,xn},计算输入标签序列y={y1,y2,y3,...,yn}到目标标签序列的LOSS值得分:

其中A为转移概率矩阵,Ai,j为标签i到标签j的转换分数,Pi,j表示第i个标记中属于第j个标签的得分,m为单条文本语料的最大长度。

在训练过程中,优化{xi,yi}的最大似然函数:

其中,λ和Θ为正则参数,P(yi|xi)为原序列到预测序列的概率。依据最大似然函数,得到最后的序列标签。

S75:在输出层中,根据CRF层调整的输出标签y={y1,y2,y3,...,yn}和表4中定义的“序列标注标签定义规则”,将输出标签y转换成BIO标签,从而在推理过程中获得语料文本的事件触发词和事件元素。

综上所述,上述实施例的通信领域过程类知识事件抽取方法,使用基于模型迁移学习和图卷积神经网络的融合模型实现语义表征提取,且使用门控神经单元(GRU)获取语义表征的长距离依赖信息,同时使用条件随机场(CRF)克服标签偏差问题,在此基础上构建的事件抽取模型可以更好地在中文语料上完成事件抽取任务,能够适用于大多数通信领域过程类知识事件抽取任务,值得被推广和应用。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种业务需求文本检查方法及相关设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!