中文实体识别模型的训练方法、装置、设备及存储介质

文档序号:8293 发布日期:2021-09-17 浏览:26次 >En<

阅读说明:本技术 中文实体识别模型的训练方法、装置、设备及存储介质 (Training method, device and equipment for Chinese entity recognition model and storage medium ) 是由 吴晓东 于 2021-07-09 设计创作,主要内容包括:本申请为自然语言处理技术领域,本申请提供了一种中文实体识别模型的训练方法、装置、设备及存储介质,其中,所述方法包括:对中文文本进行多语言翻译,生成多种语言的源文本;利用机器翻译工具对多种源文本分别进行回译,得到多种源中文文本;利用预设投票机制对多种源中文文本进行相应的投票,将票数排在前N位的源中文文本作为目标中文文本;将目标中文文本输入中文实体识别模型进行训练,在训练出的实体识别结果满足要求时,完成所述中文实体识别模型的训练。本申请通过翻译、回译和投票的方式额外增加诸多高质量样本,提高了中文实体识别模型的训练效果。(The application belongs to the technical field of natural language processing and provides a training method, a device, equipment and a storage medium for a Chinese entity recognition model, wherein the method comprises the following steps: performing multi-language translation on the Chinese text to generate source texts of multiple languages; respectively retranslating the multiple source texts by using a machine translation tool to obtain multiple source Chinese texts; performing corresponding voting on a plurality of source Chinese texts by using a preset voting mechanism, and taking the source Chinese texts with the top N-bit arranged votes as target Chinese texts; inputting a target Chinese text into a Chinese entity recognition model for training, and finishing the training of the Chinese entity recognition model when the trained entity recognition result meets the requirement. According to the method and the device, a plurality of high-quality samples are additionally added in a translation, retranslation and voting mode, and the training effect of the Chinese entity recognition model is improved.)

中文实体识别模型的训练方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理

技术领域

,具体而言,本申请涉及一种中文实体识别模型的训练方法、装置、设备及存储介质。

背景技术

实体抽取是自然语言处理领域的基础任务之一,也是信息抽取任务中一个重要的子任务。实体抽取意在提取文本中最主要的实体,具体的主要工作是从一段文本中识别出发生的实体以及实体中的各个元素。例如提取一个中文文本中的触发词和实体元素,实体元素包括实体主体、实体客体、时间和国别等。

目前针对中文实体识别模型的训练方法,在中文文本的样本量足够的情况下,准确率和召回率都可以达到很高的水平,但在无法获取到足够的样本量的情况下,训练结果却难以满足要求,训练效果较差。

发明内容

本申请的主要目的为提供一种中文实体识别模型的训练方法、装置、设备及存储介质,以在无法获取到足够的样本量的情况下,提高中文实体识别模型的训练效果。

为了实现上述发明目的,本申请提供一种中文实体识别模型的训练方法,其包括以下步骤:

获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

判断所述实体识别结果是否满足要求;

若是,完成所述中文实体识别模型的训练。

进一步地,所述利用机器翻译工具对所述多种源文本分别进行回译的步骤,还包括:

判断所述源文本的文本数量是否大于预设阈值;

若是,利用机器翻译工具对所述多种源文本分别进行回译;

否则,将所述源文本中的至少一个词进行同义词替换,利用机器翻译工具对所述同义词替换后的源文本进行回译。

优选地,所述利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数的步骤,包括:

提取所述源中文文本的语法特征、语义特征和主题特征;

根据所述语法特征、语义特征和主题特征分别对所述源中文文本进行相应的语法投票、语义投票及主题投票,得到语法票数、语义票数以及主题票数;

根据所述语法票数、语义票数、主题票数及预先设置的权重进行加权求和,确定每种源中文文本的票数。

优选地,所述提取所述源中文文本的语法特征的步骤,包括:

通过预设的词性识别工具,识别所述源中文文本中字符的词性,得到识别结果;

通过预设的编码器将所述识别结果转化为特征向量,得到所述语法特征。

优选地,所述提取所述源中文文本的语义特征的步骤,包括:

检测所述源中文文本中字符的位置,得到所述源中文文本中字符的位置信息;

通过预设的编码器将所述源中文文本中字符的位置信息转化为特征向量,得到所述语义特征。

优选地,所述判断所述实体识别结果是否满足要求的步骤,包括:

根据所述实体识别结果计算所述中文实体识别模型的损失值;

判断所述损失值是否小于预设损失值;

当确定所述损失值小于预设损失值时,则判定所述实体识别结果满足要求。

进一步地,所述判断所述损失值是否小于预设损失值的步骤之后,还包括:

当确定所述损失值不小于预设损失值时,根据所述损失值调整所述中文实体识别模型的参数,并返回执行所述将所述目标中文文本输入中文实体识别模型进行训练的步骤,以对调整参数后的所述中文实体识别模型再次训练。

本申请还提供一种中文实体识别模型的训练装置,其包括:

生成模块,用于获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

回译模块,用于利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

投票模块,用于利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

训练模块,用于将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

第一输入模块,用于将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

第二输入模块,用于将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

加权平均模块,用于将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

输出模块,用于将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

判断模块,用于判断所述实体识别结果是否满足要求;

完成模块,用于若是,完成所述中文实体识别模型的训练。

本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本申请所提供的一种中文实体识别模型的训练方法、装置、设备及存储介质,通过对获取到的中文文本进行多语言翻译,生成多种其他语言的源文本,并对多种源文本分别进行回译,得到多种源中文文本,以增加中文文本的样本量;并通过投票机制对多种源中文文本进行相应的投票,筛选出票数排在前N位的源中文文本作为目标中文文本,以确保目标中文文本的样本质量;然后将目标中文文本输入BERT层中训练得到目标中文文本的文本向量,将文本向量分别输入BiGRU层和TextCNN层中,分别得到第一特征向量和第二特征向量;并将第一特征向量和第二特征向量进行加权平均后得到目标特征向量,将目标特征向量输入CRF层中,输出中文文本的实体识别结果,最后完成中文实体识别模型的训练,从而在中文文本的样本量较少的情况下,通过翻译、回译和投票的方式额外增加诸多高质量样本,极大地降低了人工标注成本,提高了训练效果,并且提高了少样本下中文实体抽取的准确率和召回率;此外,本申请的中文实体识别模型为BERT+BiGRU+TextCNN+CRF结构,增强了文本的表征能力,并在一定程度上提高了模型的泛化能力,从而进一步提高了中文实体抽取的准确率和召回率。

附图说明

图1为本申请一实施例的中文实体识别模型的训练方法的流程示意图;

图2为本申请一实施例的中文实体识别模型的训练装置的结构示意框图;

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参考图1,本申请提出一种中文实体识别模型的训练方法,以解决在无法获取到足够多的中文文本样本量的情况下,中文实体识别模型的训练效果较差的技术问题,参照图1,其中一个实施例中,该中文实体识别模型的训练方法包括如下步骤:

S11、获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

S12、利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

S13、利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

S14、将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

S15、将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

S16、将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

S17、将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

S18、将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

S19、判断所述实体识别结果是否满足要求;

S20、若是,完成所述中文实体识别模型的训练。

如上述步骤S11所述,本步骤可获取已标注的少量中文文本,利用外语机器翻译工具将标注的少量中文文本进行多语言翻译,翻译成多种不同语言的源文本,以得到更多的训练样本。其中,多语言翻译表示利用不同的机器翻译工具进行多种语言的回译增强,例如,利用谷歌翻译、百度翻译、有道翻译等机器翻译工具对获取的中文文本进行文本翻译,将中文文本翻译成日文、英文、德文等任何非中文文本的源文本。

如上述步骤S12所述,本步骤利用机器翻译工具再将不同语言的所述源文本分别进行回译,得到源中文文本,其中,翻译与回译所采用的机器翻译工具不同,例如,将中文文本翻译成日文时,采用谷歌翻译,将日文回译成中文文本时可采用百度翻译,以得到大量的训练样本。

如上述步骤S13所述,投票机制表示的是将不同机器翻译工具回译增强后得到的中文文本进行相应的投票,得到每种源中文文本的票数,然后依据票数的多少对多种源中文文本进行排序,根据排序结果将投票较多的中文文本作为目标中文文本,以筛选得到满足条件的训练样本,确保目标中文文本的样本质量。其中,该投票机制可根据用户需求进行自定义设置,从不同维度对源中文文本进行投票。

如上述步骤S14所述,本申请将中文实体识别模型由传统的BiLSTM+CRF网络结构改进为BiLSTM+TextCNN+CRF结构,具体由BERT层、BiGRU层、TextCNN层和CRF层构成,其中,BERT层是由12层的Transformer Encoder串联而成。BERT层通常同时使用掩码语言模型和下一句预测这两者作为损失函数。所以,在本文的实施例中,在利用上述训练预料对中文实体识别模型进行预训练时,可以只选择掩码语言模型作为损失函数,而不使用下一句预测。这样,能够更加有针对性地完成对中文实体识别模型的预训练。

BERT层输出的文本向量为Embedding向量,所述Embedding向量是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个Embedding向量的性质是能使距离相近的向量对应的物体有相近的含义。

如上述步骤S15所述,本步骤将所述Embedding向量输入BiGRU层中,得到第一特征向量。其中,BiGRU层的目的主要是对输入的文本向量进行文本深层次特征的提取,可以把BiGRU层看做由向前GRU和反向GRU两部分组成,通过BiGRU层特征提取后,可以更加充分地学习中文文本的上下文之间的关系,进行语义编码。

如上述步骤S16、S17所述,TextCNN层与BiGRU层并联设置,且赋予不同的权值,BiGRU层的输出结果与TextCNN层的输出结果乘以相应权值之后得到目标特征向量。具体的,本步骤将词向量分别送入BiGRU和TextCNN两个神经网络层做进一步的特征抽取,并将两个特征向量进行加权平均后作为最终的目标特征向量。

其中,TextCNN层利用卷积神经网络对词向量进行分类,具体通过一维卷积来获取句子中n-gram的特征表示。TextCNN层对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快。

如上述步骤S18所述,所述CRF层可以添加一些约束条件,依照约束条件对所述目标特征向量进行筛选,从而保证预测标签的有效性。而这些约束条件是CRF层自动从训练数据中学到。此外,CRF层还可用于接收一个输入序列并且输出目标序列,也能被看作是一种seq2seq模型。这里使用大写X,Y表示序列。例如,在词性标注任务中,输入序列为一串单词,输出序列就是相应的词性。除了词性标注之外,CRF层还可以用来做chunking,命名实体识别等任务。

如上述步骤S19、S20所述,本步骤对CRF层输出的实体识别结果进行判断,如判断训练后的中文实体识别模型识别中文文本中实体的准确率,当识别中文文本中实体的准确率大于预设准确率时,则完成所述中文实体识别模型的训练,得到训练合格的中文实体识别模型;否则需要对中文实体识别模型继续训练,以得到训练合格的中文实体识别模型。

本申请所提供的一种中文实体识别模型的训练方法,通过对获取到的中文文本进行多语言翻译,生成多种其他语言的源文本,并对多种源文本分别进行回译,得到多种源中文文本,以增加中文文本的样本量;并通过投票机制对多种源中文文本进行相应的投票,筛选出票数排在前N位的源中文文本作为目标中文文本,以确保目标中文文本的样本质量;然后将目标中文文本输入BERT层中训练得到目标中文文本的文本向量,将文本向量分别输入BiGRU层和TextCNN层中,分别得到第一特征向量和第二特征向量;并将第一特征向量和第二特征向量进行加权平均后得到目标特征向量,将目标特征向量输入CRF层中,输出中文文本的实体识别结果,最后完成中文实体识别模型的训练,从而在中文文本的样本量较少的情况下,通过翻译、回译和投票的方式额外增加诸多高质量样本,极大地降低了人工标注成本,提高了训练效果,并且提高了少样本下中文实体抽取的准确率和召回率;此外,本申请的中文实体识别模型为BERT+BiGRU+TextCNN+CRF结构,增强了文本的表征能力,并在一定程度上提高了模型的泛化能力,从而进一步提高了中文实体抽取的准确率和召回率。

在一实施例中,在步骤S19中,所述判断所述实体识别结果是否满足要求的步骤,可具体包括:

S191、根据所述实体识别结果计算所述中文实体识别模型的损失值;

S192、判断所述损失值是否小于预设损失值;

S193、当确定所述损失值小于预设损失值时,则判定所述实体识别结果满足要求。

在本实施例中,在对中文实体识别模型每次训练后,可利用损失函数计算训练完成后的损失值,并在损失值满足预设阈值或小于预设损失值时,即满足要求,则表明中文实体识别模型达到训练要求,完成所述中文实体识别模型的训练,以提高中文实体识别模型对实体抽取的精度。

在另一个实施例中,在步骤S192之后,即所述判断所述损失值是否小于预设损失值的步骤之后,还包括:

S194、当确定所述损失值不小于预设损失值时,根据所述损失值调整所述中文实体识别模型的参数,并返回执行所述将所述目标中文文本输入中文实体识别模型进行训练的步骤,以对调整参数后的所述中文实体识别模型再次训练。

在本实施例中,当所述损失值不小于预设损失值时,可根据损失值在中文实体识别模型的神经网络结构中进行前向传递,调整中文实体识别模型的相关参数,基于重新设置的相关参数对调整后的中文实体识别模型进行重新训练,并计算再次训练后的损失值,直至损失值满足预设要求时,最终得到损失值满足预设阈值所对应的中文实体识别模型的参数,至此中文实体识别模型训练结束,以确保由中文实体识别模型对文本数据中实体的抽取满足要求。

在一实施例中,在步骤S12中,即所述利用机器翻译工具对所述多种源文本分别进行回译的步骤,还可包括:

判断所述源文本的文本数量是否大于预设阈值;

若是,利用机器翻译工具对所述多种源文本分别进行回译;

否则,将所述源文本中的至少一个词进行同义词替换,利用机器翻译工具对所述同义词替换后的源文本进行回译。

在本实施例中,在得到源文本之后,还需判断源文本的文本数量是否大于预设阈值,即判断源文本的文本数量是否足够。其中,该预设阈值可自定义设置,其与训练效果成正相关,即当训练样本越多时,训练得到的中文实体识别模型对实体的抽取的准确率越高。

当确定所述源文本的文本数量大于预设阈值时,则表明源文本的文本数量满足条件,可利用不同机器翻译工具对所述多种源文本分别进行回译,以得到足够样本量的源中文文本。

当确定所述源文本的文本数量小于预设阈值时,则提取所述源文本中的至少一个词,得到目标词,并查询所述目标词的同义词,将所述源文本中的目标词进行同义词替换,以增加训练样本,然后利用不同机器翻译工具对所述同义词替换后的源文本进行回译。

在一实施例中,在步骤S13中,所述利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数的步骤,可具体包括:

S131、提取所述源中文文本的语法特征、语义特征和主题特征;

S132、根据所述语法特征、语义特征和主题特征分别对所述源中文文本进行相应的语法投票、语义投票及主题投票,得到语法票数、语义票数以及主题票数;

S133、根据所述语法票数、语义票数、主题票数及预先设置的权重进行加权求和,确定每种源中文文本的票数。

本实施例针对语法特征、语义特征和主题特征对多种源中文文本进行全面的投票分析,根据所述语法特征、语义特征和主题特征分别对所述源中文文本进行语法投票、语义投票及主题投票,分别得到在语法特征上的语法票数、在语义特征上的语义票数以及在主题特征上的主题票数,并根据预先为语法特征、语义特征和主题特征设置的权重进行加权求和计算,得到所述源文本的票数,从而增强投票结果的可靠性。

其中,语法特征用于研究源中文文本中句子成分、时态、语态以及句子结构(如简单的主语+谓语+宾语、复杂的主语从句、宾语从句等)等语言学特征。语义特征用于表征源中文文本的语义连贯度;主题特征用于表征源中文文本与预设的文本主题的相关度。

在一实施例中,在步骤S131中,所述提取所述源中文文本的语法特征的步骤,可具体包括:

S1311、通过预设的词性识别工具,识别所述源中文文本中字符的词性,得到识别结果;

S1312、通过预设的编码器将所述识别结果转化为特征向量,得到所述语法特征。

在本实施例中,语法特征可以句子为单位研究包括句子成分、时态、语态以及句子结构(如简单的主语+谓语+宾语、复杂的主语从句、宾语从句等)等语言学特征。而这些句子内部语言学特征的获取依赖于最基本的要素,即单词的词性,因此本实施例从单词的词性出发,抽取文章句法方面的特征。

本实施例可采用词性标注工具Stanford Tagger标记源中文文本的每个单词的词性,共计36种不同类型,然后同样通过模型的embedding_lookup层将词性文章和相应的位置信息embedding,得到了词性embedding和位置embedding,并使用6层的transformerblocks对上述embedding进行训练得到能表示源中文文本的语法特征的向量表示。最后通过一个sigmoid函数的线性转换层,得到一个[0,1]区间的分数值。

在一实施例中,在步骤S131中,所述提取所述源中文文本的语义特征的步骤,可具体包括:

检测所述源中文文本中字符的位置,得到所述源中文文本中字符的位置信息;

通过预设的编码器将所述源中文文本中字符的位置信息转化为特征向量,得到所述语义特征。

在语义特征方面,本实施例可使用transformer编码器的embedding_lookup层检测源中文文本的字符以及相应的位置信息embedding,得到语义网络的输入embedding和位置embedding,然后在输入embedding和位置embedding的基础上堆叠了6层的transformerblocks,从而得到源中文文本的语义表示,并通过一个带有sigmoid函数的线性转换层,得到一个[0,1]区间的分数值。其中,字符是源中文文本的字形、类字形单位或符号的基本信息,可包括字母、数字、字和符号。

参照图2,本申请实施例中还提供一种中文实体识别模型的训练装置,包括:

生成模块11,用于获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

回译模块12,用于利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

投票模块13,用于利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

训练模块14,用于将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

第一输入模块15,用于将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

第二输入模块16,用于将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

加权平均模块17,用于将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

输出模块18,用于将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

判断模块19,用于判断所述实体识别结果是否满足要求;

完成模块20,用于若是,完成所述中文实体识别模型的训练。

首先,可获取已标注的少量中文文本,利用外语机器翻译工具将标注的少量中文文本进行多语言翻译,翻译成多种不同语言的源文本,以得到更多的训练样本。其中,多语言翻译表示利用不同的机器翻译工具进行多种语言的回译增强,例如,利用谷歌翻译、百度翻译、有道翻译等机器翻译工具对获取的中文文本进行文本翻译,将中文文本翻译成日文、英文、德文等任何非中文文本的源文本。

利用机器翻译工具再将不同语言的所述源文本分别进行回译,得到源中文文本,其中,翻译与回译所采用的机器翻译工具不同,例如,将中文文本翻译成日文时,采用谷歌翻译,将日文回译成中文文本时可采用百度翻译,以得到大量的训练样本。

投票机制表示的是将不同机器翻译工具回译增强后得到的中文文本进行相应的投票,得到每种源中文文本的票数,然后依据票数的多少对多种源中文文本进行排序,根据排序结果将投票较多的中文文本作为目标中文文本,以筛选得到满足条件的训练样本,确保目标中文文本的样本质量。其中,该投票机制可根据用户需求进行自定义设置,从不同维度对源中文文本进行投票。

本申请将中文实体识别模型由传统的BiLSTM+CRF网络结构改进为BiLSTM+TextCNN+CRF结构,具体由BERT层、BiGRU层、TextCNN层和CRF层构成,其中,BERT层是由12层的Transformer Encoder串联而成。BERT层通常同时使用掩码语言模型和下一句预测这两者作为损失函数。所以,在本文的实施例中,在利用上述训练预料对中文实体识别模型进行预训练时,可以只选择掩码语言模型作为损失函数,而不使用下一句预测。这样,能够更加有针对性地完成对中文实体识别模型的预训练。

BERT层输出的文本向量为Embedding向量,所述Embedding向量是用一个低维的向量表示一个物体,可以是一个词,或是一个商品,或是一个电影等等。这个Embedding向量的性质是能使距离相近的向量对应的物体有相近的含义。

此外,本实施例还将所述Embedding向量输入BiGRU层中,得到第一特征向量。其中,BiGRU层的目的主要是对输入的文本向量进行文本深层次特征的提取,可以把BiGRU层看做由向前GRU和反向GRU两部分组成,通过BiGRU层特征提取后,可以更加充分地学习中文文本的上下文之间的关系,进行语义编码。

TextCNN层与BiGRU层并联设置,且赋予不同的权值,BiGRU层的输出结果与TextCNN层的输出结果乘以相应权值之后得到目标特征向量。具体的,本步骤将词向量分别送入BiGRU和TextCNN两个神经网络层做进一步的特征抽取,并将两个特征向量进行加权求和后作为最终的目标特征向量。

其中,TextCNN层利用卷积神经网络对词向量进行分类,具体通过一维卷积来获取句子中n-gram的特征表示。TextCNN层对文本浅层特征的抽取能力很强,在短文本领域如搜索、对话领域专注于意图分类时效果很好,应用广泛,且速度快。

所述CRF层可以添加一些约束条件,依照约束条件对所述目标特征向量进行筛选,从而保证预测标签的有效性。而这些约束条件是CRF层自动从训练数据中学到。此外,CRF层还可用于接收一个输入序列并且输出目标序列,也能被看作是一种seq2seq模型。这里使用大写X,Y表示序列。例如,在词性标注任务中,输入序列为一串单词,输出序列就是相应的词性。除了词性标注之外,CRF层还可以用来做chunking,命名实体识别等任务。

最后,本实施例对CRF层输出的实体识别结果进行判断,如判断训练后的中文实体识别模型识别中文文本中实体的准确率,当识别中文文本中实体的准确率大于预设准确率时,则完成所述中文实体识别模型的训练,得到训练合格的中文实体识别模型;否则需要对中文实体识别模型继续训练,以得到训练合格的中文实体识别模型。

如上所述,可以理解地,本申请中提出的所述中文实体识别模型的训练装置的各组成部分可以实现如上所述中文实体识别模型的训练方法任一项的功能,具体结构不再赘述。

参照图3,本申请实施例中还提供一种计算机设备,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储中文文本、文本向量等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种中文实体识别模型的训练方法。

上述处理器执行上述的中文实体识别模型的训练方法,包括:

获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

判断所述实体识别结果是否满足要求;

若是,完成所述中文实体识别模型的训练。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种中文实体识别模型的训练方法,包括步骤:

获取中文文本,对所述中文文本进行多语言翻译,生成多种语言的源文本;

利用机器翻译工具对所述多种源文本分别进行回译,得到多种源中文文本;

利用预设投票机制对所述多种源中文文本进行相应的投票,得到每种源中文文本的票数,根据所述票数对所述多种源中文文本进行排序,并将票数排在前N位的源中文文本作为目标中文文本;其中,所述N为大于或等于1的正整数;

将所述目标中文文本输入所述BERT层中训练得到所述目标中文文本的文本向量;

将所述文本向量输入所述BiGRU层中,得到第一特征向量;其中,所述BiGRU层用于对输入的所述文本向量进行文本深层次特征的提取;

将所述文本向量输入所述TextCNN层中,得到第二特征向量;其中,所述TextCNN层用于对所述文本向量进行分类预测;

将所述第一特征向量和所述第二特征向量进行加权平均后得到目标特征向量;

将所述目标特征向量输入所述CRF层中,输出所述中文文本的实体识别结果;其中,所述CRF层用于对所述目标特征向量进行筛选;

判断所述实体识别结果是否满足要求;

若是,完成所述中文实体识别模型的训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述,本申请的最大有益效果在于:

本申请所提供的一种中文实体识别模型的训练方法、装置、设备及存储介质,通过对获取到的中文文本进行多语言翻译,生成多种其他语言的源文本,并对多种源文本分别进行回译,得到多种源中文文本,以增加中文文本的样本量;并通过投票机制对多种源中文文本进行相应的投票,筛选出票数排在前N位的源中文文本作为目标中文文本,以确保目标中文文本的样本质量;然后将目标中文文本输入BERT层中训练得到目标中文文本的文本向量,将文本向量分别输入BiGRU层和TextCNN层中,分别得到第一特征向量和第二特征向量;并将第一特征向量和第二特征向量进行加权平均后得到目标特征向量,将目标特征向量输入CRF层中,输出中文文本的实体识别结果,最后完成中文实体识别模型的训练,从而在中文文本的样本量较少的情况下,通过翻译、回译和投票的方式额外增加诸多高质量样本,极大地降低了人工标注成本,提高了训练效果,并且提高了少样本下中文实体抽取的准确率和召回率;此外,本申请的中文实体识别模型为BERT+BiGRU+TextCNN+CRF结构,增强了文本的表征能力,并在一定程度上提高了模型的泛化能力,从而进一步提高了中文实体抽取的准确率和召回率。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语义识别方法、装置、电子设备及计算机可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!