基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法

文档序号:1953454 发布日期:2021-12-10 浏览:23次 >En<

阅读说明:本技术 基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法 (Method for realizing BcBERT-SW-BilSTM-CRF model based on vocabulary enhancement and pre-training ) 是由 朱磊 祝轩 黑新宏 张梓恒 杨子梁 高科研 于 2021-07-19 设计创作,主要内容包括:本发明公开了基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方法。基于词汇增强的模型SW-BiLSTM-CRF,并以构建的语料库作为训练数据进行训练,得到的模型作为数据矫正的依据,迭代语料库。在此基础上,使用基于预训练语言模型的命名实体识别方法进行跨领域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行深度预训练,得到BcBERT(Building Code BERT),从而将通用领域和建筑领域其他规范文本的知识迁移至SW-BiLSTM-CRF模型。以有效提升地铁设计规范命名实体识别任务的性能。(The invention discloses a method for realizing a BcBERT-SW-BilSTM-CRF model based on vocabulary enhancement and pre-training. Based on the vocabulary enhanced model SW-BilSTM-CRF, the constructed corpus is used as training data for training, the obtained model is used as the basis of data correction, and the corpus is iterated. On the basis, the named entity recognition method based on the pre-training language model is used for carrying out cross-domain knowledge migration, so that the recognition error caused by small data scale is weakened to a certain extent. And continuously performing deep pre-training on the BERT general field pre-training model by using other standard texts in the building field to obtain BcBERT (building Code BERT), so that the knowledge of the other standard texts in the general field and the building field is transferred to the SW-BilSTM-CRF model. The performance of the subway design specification named entity recognition task is effectively improved.)

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现 方法

技术领域

本发明是地铁领域实体识别和实体关系抽取研究的一个重要过 程,具体涉及到基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模 型的实现方法。

背景技术

随着计算机科学技术发发展,自然语言处理领域在深度学习方向 也得到了具有现实意义和应用前景的进展,而对于自然语言处理,要 做到精细深度的语义理解,单纯的依靠人工的方法进行数据标注与算 力投入无法解决本质问题。

目前,对于地铁领域实体识别和实体关系抽取的研究正处于起步 阶段,没有针对地铁设计规范文本对应的公开权威的语料库。根本原 因在于,规范中的内容涉及专业多,情况多,关系复杂,使得专业领 域人员和具备自然语言处理技术的人都无法单独展开工作。因此,基 于机器学习的方法无法获得有效的标注语料。因此需要相关的模型算 法来优化提升机器的实体关系识别的能力。

发明内容

本发明的目的在于提供基于词汇增强和预训练的 BcBERT-SW-BiLSTM-CRF模型的实现方法。解决了现有技术中存在的 地铁设计规范命名实体识别准确性不高的问题。

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方 法,本发明首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于 预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现 BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。

SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、 数据投射层和输出层五个模块。

输入层的字需要提前做如下处理:以BIO标注体系标注的文本文 档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别 得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入 层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其 中还需要用特殊字符0来补齐句子,使每条句子长度一致。词汇增 强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的 边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实 体的始末,以及实体的中间位置,词信息的处理和字处理的方式类似。

查找层主要工作是将输入层的句子编号序列用向量进行表征;提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量;这些向量可以采用随机初始化的 方法,从一个区间均匀分布中生成随机数字,也可以是预训练得到的 向量文件。如果是后者,则需要使用输入层中预处理得到的编号到字 的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向 量。最后将字、词边界和词信息进行拼接作为下一层的输入。

特征提取层主要工作是基于给定的核心特征集合,字、词边界和 词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。 为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和 后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响, 而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出 进行拼接,得到这一层的输出向量。

数据投射层工作是将特征提取层得到的特征向量进行维度投射, 特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一 个全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。

输出层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。

BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:

当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:

z(x)=∑yexp(∑kλkitk(yi-1,yi,x,i)+∑lμlisl(yi,x,i)) (4-2)

公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是 两个特征对应的权重。z(x)是规范化因子,对y的所有可能取值求和。 训练过程中,采用最大似然估计得到损失函数:

loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。

具体实现的过程:

步骤1:选择BIO的标注方式。

步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;

步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。

步骤4:使用BERT作为文本编码器,在通用领域预训练模型基 础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型。

本发明的有益效果是:

本发明使用基于预训练语言模型的命名实体识别方法进行跨领 域的知识迁移,来一定程度地减弱由于数据规模小造成的识别误差。 使用建筑领域其他规范文本在BERT通用领域预训练模型上继续进行 深度预训练,得到BcBERT(Building Code BERT),从而将通用领域 和建筑领域其他规范文本的知识迁移至SW-BiLSTM-CRF模型。以有效 提升地铁设计规范命名实体识别任务的性能。

附图说明

图1为本发明基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF 模型的实现方法的设计步骤

图2为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法SW-BiLSTM-CRF模型的结构图

图3为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法BERT输入示例

图4为基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的 实现方法BcBERT-SW-BiLSTM-CRF模型的模型框架

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

基于词汇增强和预训练的BcBERT-SW-BiLSTM-CRF模型的实现方 法,本发明首先经过动态引入的SW-BiLSTM-CRF模型;然后使用基于 预训练语言模型的命名实体识别方法进行跨领域的知识迁移实现 BcBERT,最终实现BcBERT-SW-BiLSTM-CRF的模型。

SW-BiLSTM-CRF模型,主要分为输入层、查找层、特征提取层、 数据投射层和输出层五个模块。

输入层的字需要提前做如下处理:以BIO标注体系标注的文本文 档作为框架的输入,并进行字和标签的统计,以词频进行编号,分别 得到字到编号、编号到字、标签到编号和编号到标签四个字典;输入 层实际的输入是根据字到编号的这个字典,得到的句子编号序列,其 中还需要用特殊字符0来补齐句子,使每条句子长度一致。词汇增 强的设计在这一层需要得到词的边界信息和词信息的编号序列。词的 边界信息借助四个离散的编号来实现,编号分别代表不属于实体,实 体的始末,以及实体的中间位置,词信息的处理和字处理的方式类似。

查找层主要工作是将输入层的句子编号序列用向量进行表征;提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量;这些向量可以采用随机初始化的 方法,从一个区间均匀分布中生成随机数字,也可以是预训练得到的 向量文件。如果是后者,则需要使用输入层中预处理得到的编号到字 的字典,查出编号对应的字,然后去预训练向量文件中查找对应的向 量。最后将字、词边界和词信息进行拼接作为下一层的输入。

特征提取层主要工作是基于给定的核心特征集合,字、词边界和 词,让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。 为了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和 后向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响, 而后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出 进行拼接,得到这一层的输出向量。

数据投射层工作是将特征提取层得到的特征向量进行维度投射, 特征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一 个全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。

输出层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。

BcBERT-SW-BiLSTM-CRF模型中词汇增强的部分具体为:

当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:

z(x)=∑yexp(∑kλkitk(yi-1,yi,x,i)+∑lμlisl(yi,x,i)) (4-2)

公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是

loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。

具体实现的过程:

步骤1:选择BIO的标注方式。

步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息;

步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。

步骤4:使用BERT作为文本编码器,在通用领域预训练模型基 础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型。

步骤1:选择BIO的标注方式。

步骤2:提出了基于词汇增强的SW-BiLSTM-CRF模型,向 BiLSTM-CRF模型中动态引入了词的边界信息和词的嵌入信息。

如图2所示,模型主要分为输入层、查找层、特征提取层、数据 投射层和输出层五个模块,下面分别介绍这五个模块和模型中词汇增 强的部分。

1)输入层

模型以句子序列中的字为单位作为输入,输入层的字需要提前做 这样的处理:以BIO标注体系标注的文本文档作为框架的输入,并进 行字和标签的统计,以词频进行编号,分别得到字到编号、编号到字、 标签到编号和编号到标签四个字典。输入层实际的输入是根据字到编 号的这个字典,得到的句子编号序列,其中还需要用特殊字符,例如 0来补齐句子,使每条句子长度一致。词汇增强的设计在这一层需要 得到词的边界信息和词信息的编号序列。词的边界信息借助四个离散 的编号来实现,编号分别代表不属于实体,实体的始末,以及实体的 中间位置,词信息的处理和字处理的方式类似。

2)查找层

这一层主要工作是将输入层的句子编号序列用向量进行表征。提 前准备一个字、词边界和词对应的三个向量矩阵,例如字向量矩阵中, 矩阵的行表示一个个字的表征向量。这些向量可以采用随机初始化的 方法,例如从一个区间均匀分布中生成随机数字,也可以是预训练得 到的向量文件。如果是后者,则需要使用1)中预处理得到的编号到 字的字典,查出编号对应的字,然后去预训练向量文件中查找对应的 向量。最后将字、词边界和词信息进行拼接作为下一层的输入。

3)特征提取层

这一层的主要工作是基于给定的核心特征集合,字、词边界和词, 让模型自动选择更重要的特征组合或者学习更深层次的抽象特征。为 了同时兼顾上下文信息,这一层使用双向LSTM网络,包括前向和后 向的链式结构。前向LSTM用于获取过去时刻对当前时刻的影响,而 后向则获取未来时刻对当前时刻的影响。将每个时刻的正反向输出进 行拼接,得到这一层的输出向量。

4)数据投射层

这一层的工作是将特征提取层得到的特征向量进行维度投射,特 征向量是根据BiLSTM结构配置的一个高维度向量,这一层通过一个 全连接层将该高维向量投射到标签维度上,向量大小为[批大小 (batch size)*序列长度(sequence length)*标签数量(label number)],这样就得到了每个标签的得分情况。

5)输出层

这一层的主要工作是根据数据投射层得到的标签得分,选择分数 最高的标签作为最终预测的标签。但是仅仅依靠得分进行预测会存在 标签转移错误的问题,因此通常会在这一层使用CRF算法来进一步约 束标签的转移关系,修正预测结果。CRF算法以路径为单位,考虑路 径的概率,将序列标注看作1个kn(k是类别个数,n是句子长度) 的分类问题,实际训练过程中采用最大似然估计方法来寻找最优的标 注序列。

当观测序列,即输入序列为X=x0,x1,...,xn,状态序列,即输出 标签序列为Y=y0,y1,...,yn的概率为:

z(x)=∑yexp(∑kλkitk(yi-1,yi,x,i)+∑lμlisl(yi,x,i)) (4-2)

公式(4-1)实现了从特征到概率的转化,tk(yi-1,yi,x,i)是定义 在边上的特征函数,代表标签转移特征,sl(yi,x,i)是定义在节点上的 特征函数,代表状态特征,特征函数的取值为1或0。λk和μl分别是 两个特征对应的权重。z(x)是规范化因子,对y的所有可能取值求和。 训练过程中,采用最大似然估计得到损失函数

loss=-log(P(Y=y|x)),使用梯度下降算法进行学习, 最终选取得分最高的Y作为X的标注序列。

步骤3:使用BERT预训练,将已有的部分土木建筑信息文本语 料输入构造BERT输入特征。如图3所示,BERT输入包含三个嵌入特 征,分别是字嵌入、上下句嵌入和位置嵌入。字嵌入构造采用 WordPiece过程,将输入的词拆开,使得词表更加精简,意义更加明 确,是一种解决不在字典中(Out Of Vocabulary,OOV)问题的方法, 拆词过程采用双字节编码(Byte Pair Encoding,BPE)实现。具体 地,在包含英文单词的中文文本中,将中文部分分割为单字,英文单 词分割为子词,比如testing分成test和##ing,##表示分词。这些 分割好的块是BERT语言模型训练时遮盖的最小单位,同时,将拼接 的两个句子使用特殊符号[SEP]进行区分,第二个句子末尾也会加上 该符号。[CLS]是模型表示开始的特殊符号,表示句首位置。

上下句嵌入是针对句子关系判断类任务的输入构造,EA部分是 必须的,EB部分是可选的,0表示第一句话,1表示第二句话。监督 信息在[CLS]标志中体现,如果后者为空则变成单句分类任务。位置 嵌入是字在句子中的绝对位置信息,且BERT支持的序列长度上限为 512。最后,将这三层嵌入编码相加作为输入表征向量,持久化到 TFRecord格式的二进制文件中。

步骤4:如图4所示,使用BERT作为文本编码器,在通用领域 预训练模型基础上,继续进行建筑语料文本深度预训练,构建基于 BcBERT-SW-BiLSTM-CRF的命名实体识别模型,模型主要由预训练文 本表征层和完成命名实体识别任务的特征提取层两个模块构成。BcBERT是进行了建筑语料文本深度训练的领域预训练模型,融合了 与地铁设计规范相关的无监督建筑语料文本的相关知识,使预训练语 言模型具备一定的领域适配性,更适合下游地铁设计规范的命名实体 识别任务。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于文本挖掘的科技文献数据自动抽取方法及系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!