标点符号标注模型及其训练系统

文档序号:830105 发布日期:2021-03-30 浏览:10次 >En<

阅读说明:本技术 标点符号标注模型及其训练系统 (Punctuation mark model and training system thereof ) 是由 沈大框 陈培华 陈成才 于 2019-09-27 设计创作,主要内容包括:标点符号标注模型及其训练系统,所述系统包括:训练语料获取单元获取包含标点符号的第一训练语料和包含标点符号的第二训练语料;语料处理单元将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;预训练单元将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;迁移学习训练单元将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型。上述方案无需人工标注大量的训练数据,提高召回率,获得的标点符号标注模型具有较好的泛化能力及通用性。(Punctuation mark model and its training system, the said system includes: the method comprises the steps that a corpus obtaining unit obtains a first corpus containing punctuation marks and a second corpus containing punctuation marks; the corpus processing unit removes punctuation marks from the second training corpus, and marks corresponding label combinations at the positions of word segmentation units before and after the removed punctuation marks to obtain a third training corpus; the pre-training unit inputs the first training corpus into a preset neural network model with a time sequence for pre-training to obtain a pre-trained language sub-model; and the transfer learning training unit inputs the third training corpus into an initial punctuation mark model for transfer learning training to obtain a trained punctuation mark model. According to the scheme, a large amount of training data does not need to be marked manually, the recall rate is improved, and the obtained punctuation mark marking model has good generalization capability and universality.)

标点符号标注模型及其训练系统

技术领域

本发明实施例涉及计算机自然语言处理技术领域,尤其涉及一种标点符号标注模型及其训练系统。

背景技术

现有的标点符号恢复的方案通常采用序列标注的方式,主要应用于恢复语音识别得到的文本的标点符号,一般只能增加简单的标点符号,如:逗号、句号。使用这种方式添加的标点,一方面准确度较低、泛化能力差;另一方面标注的标点丰富性差,给人造成很差的阅读体验。

随着深度学习技术的不断发展,可以采用经过训练学习的神经网络模型预测语音识别得到的文本的标点符号,提高准确度。然而,神经网络模型的学习训练需要人工标注大量的训练数据,且现有训练方法获得的神经网络模型的召回率较低。此外,所采用的标点符号标注模型泛化能力弱、通用性差。

发明内容

有鉴于此,本发明实施例的一个方面,提供了一种标点符号标注模型的训练系统,无需人工标注大量的训练数据,并且可以提高召回率。

本发明实施例的另一个方面,提供了一种标点符号标注模型,具有较好的泛化能力及通用性。

本发明实施例提供了一种标点符号标注模型的训练系统,包括:训练语料获取单元,适于获取包含标点符号的第一训练语料和包含标点符号的第二训练语料;语料处理单元,适于将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,其中,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合;预训练单元,适于将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;迁移学习训练单元,适于将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型。可选地,所述语料处理单元包括:识别子单元,适于根据预设的标点符号集合,识别所述第二训练语料的标点符号;去除子单元,适于去除所述第二训练语料中的标点符号,获得相应的无标点文本集合;标注子单元,适于根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。

可选地,所述标注子单元包括以下至少一种:第一标注模块,适于在已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;第二标注模块,适于在已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。

可选地,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;所述标注子单元还包括以下至少一种:第三标注模块,适于在连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;第四标注模块,适于在连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。

可选地,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签;所述标注子单元还包括:第五标注模块,适于在一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。

可选地,所述预训练单元包括以下至少一种:第一预训练子单元,适于从所述第一训练语料中获取随机的第一训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测所述第一训练文本的下一个分词单元,当预测准确的概率达到预设的第一阈值时,得到所述预训练的语言子模型;第二预训练子单元,适于从所述第一训练语料中获取随机掩盖预设比例部分的第二训练文本,并输入所述神经网络模型,所述神经网络模型在给定上下文的条件下预测被掩盖的预设比例部分,当预测准确的概率达到预设的第二阈值时,得到所述预训练的语言子模型。

可选地,所述预训练单元还包括:第三预训练子单元,适于从所述第一训练语料中获取随机掩盖一条语句的第三训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测被掩盖的一条语句,当预测准确的概率达到预设的第三阈值时,得到所述预训练的语言子模型。

可选地,所述标点符号标注模型还包括预设的条件随机场子模型;所述迁移学习训练单元包括:提取子单元,适于提取所述语料处理单元得到的无标点文本集合的一段无标点文本,以及所述无标点文本在所述标签序列集合中相应的第一标签序列;迁移训练子单元,适于将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列;误差计算子单元,适于确定所述第二标签序列与所述第一标签序列之间的误差;微调子单元,适于在确定所述误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,直至所述第二标签序列与所述第一标签序列之间的误差不大于所述误差阈值,得到训练好的标点符号标注模型。

可选地,所述第一训练语料包括以下至少一种:在互联网中抓取的包含标点符号的文本数据;在互联网中抓取的经过语音识别和标注得到相应的文本数据;人工录入的包含标点符号的文本数据;所述第二训练语料包括以下至少一种:在所述第一训练语料中抓取的文本数据;在互联网中抓取的预设领域的包含标点符号的文本数据;人工录入的预设领域的包含标点符号的文本数据。

本发明实施例还提供了一种标点符号标注模型,包括:输入层,适于对待添加标点符号的文本提取相应的分词单元特征信息;编码层,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型;条件随机场网络层,适于基于所述句子特征信息,预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注;输出层,适于输出对应的标点符号标注结果。

采用本发明实施例的标点符号标注模型的训练方案,将获取的包含标点符号的第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,可以获得预训练的语言子模型,同时,去除获取的包含标点符号的第二训练语料的标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,可以得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,可以得到训练好的标点符号标注模型。采用上述的标签组合进行标注,能够充分考虑到标点符号前后分词单元的信息,使得训练语料的标签分布更加均衡,可以避免只标注标点符号前面的分词单元导致标签分布不均衡的问题,同时,还可以避免标注的无效标签过多的情况,提升标点符号预测的准确率;并且,具有时间序列的神经网络模型经过预训练后能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备,可以实现半监督的学习,无须人工标注大量数据,且迁移学习训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,使用很少的数据集达到很好的效果,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。

进一步地,当已去除的标点符号前后均有分词单元时,可以根据所述标点符号位置标签集合对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合;当已去除的标点符号之前或之后有一处无分词单元时,可以在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,填补的空位补齐符号在标注标签组合时可以视为分词单元,再根据所述标点符号位置标签集合对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。采用上述方案,根据所述标点符号位置标签集合对所述标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现;在已去除的标点符号之前或之后有一处无分词单元时,添加空位补齐符号填补空缺分词单元的位置,可以避免标点符号在结尾或开头出现而没有分词单元可以给予标注的问题,保证标点符号对应的标签组合能够一直成对出现。

进一步地,所述标点符号位置标签集合包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签;当连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,可以除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;当连续两个已去除的标点符号之间不存在分词单元时,可以在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。采用上述方案,可以优化标签标注的方式,使之后模型训练时对于与分词单元间隔较短、容易连续出现的标点符号的预测更加准确。

进一步地,所述标点符号位置标签集合还包括:无标点符号对应的空白位置标签,当一个分词单元前后均无标点符号时,可以根据所述标点符号位置标签集合在所述分词单元处标注空白位置标签。通过空白位置标签可以使第三训练语料中每个分词单元均有相应的标点符号位置标签,可以进一步提高标签分布的均衡性,便于后面的模型训练时候进行微调。

进一步地,通过选取第一训练语料输入预设的具有时间序列的神经网络模型,在给定上文的条件下预测所述第一训练文本的下一个分词单元,或在给定上下文的条件下预测被掩盖的预设比例部分,可以增强预训练的语言子模型对文本语料中上下文句子特征的表征能力。通过选取第一训练语料输入预设的具有时间序列的神经网络模型,在给定上文的条件下预测被掩盖的一条语句,可以进一步增强预训练的语言子模型理解上下段落之间关系的能力。采用本发明实施例的标点符号标注模型,可以通过编码层的预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,然后,通过条件随机场网络层预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注。由上可知,所述标点符号标注模型包括预训练的语言子模型,能够充分考虑到标点符号前后分词单元的信息,进而条件随机场网络层可以更加精确地预测标点符号类型,然后,采用标签组合进行标注使标注的标签分布更加均衡,可以避免标签分布不均衡的问题和标注的无效标签过多的情况,提高标点符号标注的准确率;并且,采用上述训练系统获得的标点符号标注模型可以用于对待加标点符号的文本进行标点符号添加,也可以对现有文本的标点符号进行校正,精确度高,通用性强,应用范围更加广泛。

附图说明

为了更清楚地说明本说明书实施例的技术方案,下面将对本说明书实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1本发明实施例中一种标点符号标注模型的训练系统的结构示意图。图2为本发明实施例中一种获取第三训练语料的示意图。

图3为本发明实施例中另一种获取第三训练语料的示意图。图4为本发明实施例中一种标点符号标注模型的结构示意图。

具体实施方式

如前所述,虽然标点符号添加方法的准确度已经在神经网络使用下得到了大大的提升,然而,标点符号添加方法需要事先准备大量的训练数据进行神经网络模型训练,这些训练数据往往是通过自动语言识别(Automatic Speech Recognition,ASR)所产生的无标点的语料,需要费时费力进行人工标注之后才能开展训练,然后利用训练好的神经网络模型对语音识别得到的无标点符号的文本进行标点符号预测,得到的标点符号预测结果往往召回率较低。另外,当前神经网络模型的训练数据往往只考虑到了标点符号前一个字的信息,导致训练数据的标签分布很不均衡,以此训练的神经网络模型泛化能力差、不通用。

针对上述问题,本说明书实施例通过将获取的包含标点符号的第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,可以获得预训练的语言子模型,同时,通过去除获取的包含标点符号的第二训练语料的标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,可以得到第三训练语料;将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,可以得到训练好的标点符号标注模型。

其中,分词单元对应于第二训练语料的语言种类的最小语句组成单元,例如,中文的最小语句组成单元是“字”,英文的最小语句组成单元是“单词(word)”,因此,分词单元的具体表述由第二训练语料的语言种类所决定。

采用本说明书实施例的标签组合进行标注,能够充分考虑到标点符号前后分词单元的信息,使得训练语料的标签分布更加均衡,可以避免只标注标点符号前面的分词单元导致标签分布不均衡的问题,同时,还可以避免标注的无效标签过多的情况,提升标点符号预测的准确率;并且,具有时间序列的神经网络模型经过预训练后能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备,可以实现半监督的学习,无须人工标注大量数据,且迁移学习训练能够使得整个标点符号标注模型可以快速收敛,提高召回率,使用很少的数据集达到很好的效果,从而可以得到一个通用而强大的标点符号标注模型,使之具有较好的泛化能力及通用性。

为使本领域技术人员更加清楚地了解及实施本说明书实施例,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本说明书的一部分实施例,而不是全部实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本说明书保护的范围。

参照图1所示的一种标点符号标注模型的训练系统的结构示意图,在本发明实施例中,标点符号标注模型的训练系统10具体可以包括:

训练语料获取单元11,适于获取包含标点符号的第一训练语料和包含标点符号的第二训练语料;

语料处理单元12,适于将所述第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料,其中,所述第三训练语料包括:无标点文本集合和标签序列集合,所述标签序列集合包括所述标签组合;

预训练单元13,适于将所述第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;

迁移学习训练单元14,适于将所述第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型。

在具体实施中,包含标点符号的第一训练语料的来源越广泛、标点符号标注越规范,对后续进行神经网络模型的预训练越有利,可以增加预训练的语言字模型的通用性和准确性。因此,一方面,为了使第一训练语料的来源更加广泛,训练语料获取单元11尽可能在不同领域获取语料,另一方面,为了使第一训练语料中标点符号的使用较为规范,训练语料获取单元11可以获取经过校对的语料。

例如,所述第一训练语料可以包括:偏向于书面用语的新闻语料、百度百科语料和论文语料等;偏向于口语化的聊天语料、微博语料、评论语料等。

在具体实施中,具有时间序列的神经网络模型包括:具有自注意力机制(self-attention)的转换器(Transformer)网络模型、双向长短时记忆(Bi-directional LongShort-Term Memory,BiLstm)网络模型、门控循环单元(Gated Recurrent Unit,GRU)网络模型等,预训练单元13利用所述第一训练语料对预设的具有时间序列的神经网络模型进行预训练,得到的预训练的语言子模型能够深度捕获文本上下文的信息,为之后的标点符号标注模型的迁移学习训练做准备。

在具体实施中,包含标点符号的第二训练语料可以同上述获取第一训练语料一样,训练语料获取单元11可以在多个不同领域获取语料或者获取经过校对的语料,从而可以增加标点符号标注模型的通用性和准确性。为了节约语料获取的时间,训练语料获取单元11也可以直接从所述第一训练语料中抓取,获得第二训练语料。例如,所述第二训练语料可以包括:偏向于书面用语的新闻语料、百度百科语料和论文语料等;偏向于口语化的聊天语料、微博语料、评论语料等。因此第二训练语料的来源可以比较广泛。

在具体实施中,为了能够准确预测一个或几个特定领域的无标点文本的标点符号,训练语料获取单元11也可以对特定的一个或几个领域获取语料,获得第二训练语料。例如,为了能够预测金融领域的无标点文本的标点符号,第二训练语料可以包括从金融领域获取包含标点符号的语料。

在本发明实施例中,语料处理单元12可以对所述第二训练语料进行去除标点符号和标注标签组合,获得的第三训练语料中无标点文本集合和所述标签序列集合可以进行关联,使得在获取无标点文本集合中部分或全部的无文本合集时,能够获得相应的部分或者全部的标签序列。

在本发明实施例中,标签序列集合中可以包含所有用于在已去除的标点符号的前后分词单元处进行标注的标签组合,采用标签组合进行标注能够充分考虑到第二训练语料的标点符号前后分词单元的信息,使得第三训练语料的标签分布更加均衡,可以避免只标注已去除的标点符号前面分词单元处的标签而导致的标签分布不均衡的问题,以及可以避免标注的无效标签过多的情况,提升标点符号标注模型预测标点符号的准确率。

可以理解的是,第一训练语料、第二训练语料和第三训练语料所对应的语言种类可以包含但不仅限于中文,可以根据实际标点符号标注模型所需标注的文本语言种类进行调整。在具体实施中,可以根据后续需要标注或者处理的文本的语言种类,选取相应语言种类的训练语料。

还可以理解的是,获取第一训练语料和第二训练语料的时机可以不限于上述步骤顺序的限制,在预设的具有时间序列的神经网络模型进行预训练之前,可以获取到第一训练语料,以及,在将第三训练语料输入初始的标点符号标注模型进行迁移学习训练之前,可以获取到第二训练语料即可。例如,第一训练语料和第二训练语料可以同时获取。

在具体实施中,由于标点符号标注模型可以包括预训练的语言子模型,因此,标点符号标注模型需要的第三训练语料的数量大大缩小,进而可以减少第二训练语料的数量,节约人工成本和标注时间,减少标点符号标注模型的训练时间。同时,迁移学习训练能够使得整个标点符号标注模型在减少第三训练语料的数量的前提下可以快速收敛,提高召回率。

在具体实施中,如图1所示,所述语料处理单元12可以包括:

识别子单元121,适于根据预设的标点符号集合,识别所述第二训练语料的标点符号;

去除子单元122,适于去除所述第二训练语料中的标点符号,获得相应的无标点文本集合;

标注子单元123,适于根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。

在具体实施中,为了能够实现自动获取第三训练语料,可以提前预设一个标点符号集合和一个预设的标点符号位置标签集合。在获取包含标点符号的第二训练语料后,可以将用第二训练语料中的各分词单元和标点符号转换为字节型格式的标记(token),这样可以避免分词带来的误差,同时也避免了因为词典过大带来学习成本太高和词向量(wordvector)表示稀疏等问题。

具体而言,根据预设的标点符号集合,识别子单元121可以识别所述第二训练语料的标点符号,然后,去除子单元122可以去除所述第二训练语料中的标点符号,获得相应的无标点文本集合,标注子单元123可以根据预设的标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,获得相应的标签序列集合。由此获得第三训练语料的无标点文本集合和相应的标签序列集合,用于后续训练标点符号标注模型。

其中,可以根据第一训练语料、第二训练语料和第三训练语料所对应的语言种类,使标点符号集合包括相应常用的标点符号,并且,标点符号位置标签集合可以包括标点符号集合对应的标签组合。例如,如果第一训练语料、第二训练语料和第三训练语料对应的语言种类为中文,则标点符号集合可以包括逗号、句号和顿号等常用的标点符号,标点符号位置标签集合可以包括逗号对应的标签组合、句号对应的标签组合和顿号对应的标签组合等。这些标签组合成对出现,用于标注在已去除的标点符号的前后分词单元处,使得第三训练语料的标签分布更加均衡。标点符号集合和标点符号位置标签集合可以根据具体的应用场景做设定,本说明书的实施例对此不作任何限定。

在具体实施中,所述标点符号标注模型的训练系统还可以包括语料清洗单元(未示出),在进行语言子模型的预训练和标点符号标注模型的训练之前,可以对获取的第一训练语料和第二训练语料进行数据清洗,主要是剔除明显使用不规范的标点符号,例如,句首有不可用于句首的标点符号,句中有不应该连续出现的标点符号,句尾有非句子结尾标点等使用不规范的标点符号的情况,则可以将这些使用不规范的标点符号删除。由此可以避免语言子模型和标点符号标注模型学习到不规范的标点符号使用方式。

在具体实施中,如图1所示,所述标注子单元123可以包括以下至少一种:

第一标注模块1231,适于在已去除的标点符号前后均有分词单元时,根据所述标点符号位置标签集合,对已去除的各个标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现。例如,第二训练语料为S:{t1t2t3...tn},n为一确定的正整数,表示集合S中包含标记(token)的个数,若文本中包含m个标点符号,m<n,则第三文本语料为集合R:{t1t2...tn-m},第一标注模块1231可以在已去除的标点符号前后ti处打上标签组合,获得对应的标签序列集合L为{L1L2L3...Ln-m}。

第二标注模块1232,适于在已去除的标点符号之前或之后有一处无分词单元时,在已去除的标点符号之前或之后添加空位补齐符号填补空缺分词单元的位置,再根据所述标点符号位置标签集合,对所述标点符号之后或之前的分词单元处及空位补齐符号标注相应位置关系的标签组合。

由于当已去除的标点符号之前或之后有一处无分词单元时,标签组合无法成对标注,因此,可以将空位补齐符号视为分词单元,使得标签组合能够成对标注。

在本发明实施例中,第二标注模块1232在以下几种情况可以使用空位补齐符号:

第一种,标点符号位于句尾。例如,第二训练语料为:{今天是星期三。},其中,第二训练语料的分词单元为中文的一个字,句尾出现一个句号,则在去除标点符号时,第二标注模块1232可以在已去除的句号后面添加用于句尾的空位补齐符号EOS,得到无标点文本集合{今天是星期三EOS},然后,第二标注模块1232可以在已去除的句号之前的文字“三”处和已去除的句号之后的空位补齐符号“EOS”处标注句号的标签组合。

可以理解的是,本文中“{}”仅用于限定举例的内容范围,并不是在表示训练语料的内容时必不可少的一部分,本领域技术人员可以用其他不容易混淆的符号来限定训练语料的内容范围,而“{}”中的分词单元与标点符号可以是转换为字节型格式的标记,也可以转换为其他格式的标记,以下“{}”均同上所述。

第二种,标点符号位于句首。例如,第二训练语料为:{《读者》是一本好杂志。},其中,第二训练语料的分词单元为中文的一个字,句首出现左书名号,则在去除标点符号时,第二标注模块1232可以在已去除的左书名号前面添加用于句首的空位补齐符号BOS,得到无标点文本集合{BOS读者是一本好杂志EOS},然后,第二标注模块1232可以在已去除的左书名号之前的空位补齐符号“BOS”处和左书名号之后的文字“读”处标注上左书名号的标签组合。

可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制,在具体实施过程中,由第二训练语料获得的无标点文本集合和标签序列集合往往是海量的。

采用上述方案,根据所述标点符号位置标签集合对所述标点符号的前后分词单元处标注相应位置关系的标签组合,使得标点符号对应的标点符号位置标签成对出现;在已去除的标点符号之前或之后有一处无分词单元时,根据具体情况添加相应的空位补齐符号填补空缺分词单元的位置,可以避免标点符号没有分词单元可以给予标注的问题,保证标点符号对应的标点符号位置标签能够一直成对出现。

在具体实施中,标点符号位置标签集合可以包括:设置在各个标点符号之前的分词单元处的起始位置标签、设置在各个标点符号之后的分词单元处的结束位置标签。所述标点符号位置标签集合可以与所述标点符号集合对应。

在本发明的实施例中,预设一个标点符号集合P和一个标点符号位置标签集合Q,其中,P={。?!,;:、《》“”}时,Q={B-period I-period B-questionmark I-questionmarkB-exclamation I-exclamation B-comma I-comma B-semicolon I-semicolon B-colonI-colon B-caesura I-caesura B-openingchevron I-openingchevron B-closingchevron I-closingchevron B-upperquotationmark I-upperquotationmark B-lowerquotationmark I-lowerquotationmark},标点符号集合P和标点符号位置标签集合Q相关联,由标点符号位置标签集合Q表示标点符号集合P中各个标点符号与其前后分词单元的相应位置关系。当通过标点符号集合P识别出第二训练语料中的标点符号时,能够通过标点符号集合P与标点符号位置标签集合Q之间的关联获得识别出的标点符号相应的标点符号位置标签,进而可以在去除识别出的标点符号后,在其前后分词单元处标注相应的标签组合。

可以理解的是,此处实施例中标点符号位置标签集合用的是“B-标点符号的英文全称”和“I-标点符号的英文全称”的表示形式,但是,也可以采用其他表示方式,例如,考虑到有写标点符号的英文全称过长,标点符号的英文全称可以使用缩写进行代替,又例如,标点符号的英文全称可以直接使用标点符号进行替代,本发明实施例对此不做限制。

标点符号、标点符号集合与标点符号位置标签集合的对照表如表1所示。

表1

继续以上述示例说明,第二标注模块1232可以在无标点文本集合{今天是星期三EOS}中句号前一个文字“三”处标注句号的起始位置标签“B-per”,在句号后一个空位补齐符号“EOS”处标注句号的结束位置标签“I-per”。同理可得,

第二标注模块1232也可以在无标点文本集合{BOS读者是一本好杂志EOS}中左书名号前一个空位补齐符号“BOS”处标注左书名号的起始位置标签“B-ope”,在左书名号后一个文字“读”处标注左书名号的结束位置标签“I-ope”。

在具体实施中,所述标点符号位置标签集合还可以包括:无标点符号对应的空白位置标签。如图1所示,所述标注子单元123还可以包括:第五标注模块1235,适于在一个分词单元前后均无标点符号时,在所述分词单元处标注所述空白位置标签。通过空白位置标签可以使文本语料中每个分词单元均有相应的标点符号位置标签,可以进一步提高标签分布的均衡性,便于后面的标点符号标注模型训练时候进行微调。

在具体实施中,如图1所示,所述标注子单元123还可以包括以下至少一种:

第三标注模块1233,适于在连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元时,除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签;

第四标注模块1234,适于在连续两个已去除的标点符号之间不存在分词单元时,在每个分词单元之后添加间隔符号,并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处,分别标注所述后一个标点符号对应的起始位置标签和结束位置标签。发明人在研究中发现,由于语言使用规则,可能会出现以下几种特殊情况:

第一种,连续多个已去除的标点符号为同一标点符号且标点符号之间仅有一个分词单元。例如,中文的标点符号“、”的使用,按照上述标签组合的标注方法,虽然顿号前后均有文字,但是在顿号之间仅有一个文字时,添加顿号的标签组合会出现重叠问题,为了能够避免这类问题,在研究过程中,发明人观察到其标点符号为同一种,具有同一性,因此,可以除最后一个所述标点符号外,在其他所述标点符号之前的分词单元处均仅标注对应的起始位置标签,这种标注方法对与分词单元间隔较短的相同标点符号是有效的。例如,第二训练语料为:{牛、羊、马都吃草。},连续多个顿号之间只有一个字,则第三标注模块1233可以在文字“牛”和“羊”处标注顿号的起始位置标签“B-cae”,在文字“马”处标注顿号的结束位置标签“I-cae”。

在本发明一实施例中,如图2所示,为本发明的获取第三训练语料的示意图,在本发明实施例中,获取的第二训练语料21为:

{日、月、天三方大对决,准备开始!咱们不可能赢了,对吗?}

然后,根据预设的标点符号集合P,识别子单元121可以识别并去除第二训练语料中的标点符号,并且去除子单元122去除所述第二训练语料中的标点符号,由于句尾问号后面缺少文字,因此,第二标注模块1232可以在问号后面添加用于句尾的空位补齐符号EOS,获得无标点文本集合221{日月天三方大对决准备开始咱们不可能赢了对吗EOS}。并且,第二标注模块1232可以根据预设的标点符号位置标签集合Q在已去除的各标点符号的前后文字处标注相应位置关系的标签组合。

由于在“日”、“月”和“天”中间出现连续的顿号,且顿号中间仅有一个文字,因此,第三标注模块1233可以在“日”、“月”处标注“B-cae”,在“天”处标注“B-cae”。第一标注模块1231可以在第一个逗号前后文字“决”和“准”处分别标注“B-com”和“I-com”,在感叹号前后文字“始”和“咱”处分别标注“B-exc”和“I-exc”,在第二个逗号前后文字“了”和“对”处分别标注“B-com”和“I-com”。第二标注模块1232可以在问号之前文字“吗”和之后空位补齐符号“EOS”处分别标注“B-que”和“I-que”。第五标注模块1235可以对于前后均无标点符号的文字,在所述文字处标注所述空白位置标签O,最终得到对应的标签序列集合222{B-cae B-cae I-cae O O O O B-com I-com O O B-exc I-exc O O O O O B-com I-com B-que I-que}。将获得的无标点文本集合221和标签序列集合222进行关联,由此获得第三训练语料22。

第二种,已去除的标点符号为两个连续的标点符号,且标点符号之间不存在分词单元。按照上述标签组合的标注方法,同样也会出现标点符号组合标签重叠问题,为了能够避免这类问题,在研究过程中,发明人观察到这类情况是由于标点符号使用规则导致的,具有普遍规律,因此,可以在每个分词单元后添加间隔符号SEP(separate),并在已去除的前一个标点符号之前的分词单元处标注所述前一个标点符号对应的起始位置标签,在已去除的后一个标点符号之前的间隔符号和之后的分词单元处分别标注所述后一个标点符号对应的起始位置标签和结束位置标签,将间隔符号可以视为分词单元,使得标签组合能够成对标注,这种标注方法对与连续两个标点符号是有效的。

例如,第二训练语料为:{我喜欢看《读者》。},其中,文中出现两个连续的符号“》。”,则第四标注模块1234可以在每个文字后添加间隔符号SEP,并且,由于句尾有标点符号句号,因此,还需要第二标注模块1232添加用于句尾的空位补齐符号EOS补齐缺少的文字,得到无标点文本集合{我SEP1喜SEP2欢SEP3看SEP4读SEP5者SEP6 EOS}。然后,第四标注模块1234就可以在“者”处标注右书名号的起始位置标签“B-clo”,在“SEP6”处标注句号的起始位置标签“B-per”,在“EOS”处标注句号的结束位置标签“I-per”,对于前后均无标点符号的分词单元,第五标注模块1235可以在所述分词单元处标注所述空白位置标签O;对于前后均无标点符号的间隔符号,在所述间隔符号处标注所述间隔标签S。

可以理解的是,此处的“SEP”后方加上数字序列仅用于描述时以作区分,在具体实施过程中可以不再“SEP”后方加上数字序列。

在本发明一实施例中,如图3所示,为本发明的获取第三训练语料的示意图,获取的第二训练语料31为:

{领导说:“实现盈利才是根本目标”。}

然后,根据预设的标点符号集合P,识别子单元121可以识别第二训练语料中的标点符号,去除子单元122可以去除第二训练语料中的标点符号,其中,冒号和上引号、句号和下引号均为两个标点符号连续出现的情况,第四标注模块可以在每个文字后添加间隔符号SEP,由于句尾句号后面缺少文字,因此,第二标注模块1232可以在句号后面添加用于句尾的空位补齐符号EOS。此外为了方便标点符号标注模型后续训练,第二标注模块1232还可以在句首添加空位补齐符号BOS,使得无标点文本集合中的符号齐全,得到无标点文本集合321{BOS领SEP1导SEP2说SEP3实SEP4现SEP5盈SEP6利SEP7才SEP8是SEP9根SEP10本SEP11目SEP12标SEP13 EOS}。

第四标注模块1234可以在文字“说”处标注冒号的起始位置标签“B-col”,在间隔符号“SEP3”处标注上引号的起始位置标签“B-upp”,在文字“实”处标注上引号的结束位置标签“I-upp”。同理可得对于句号和下引号的处理方式,在前后均没有标点符号的间隔符号处标注间隔标签S,最终得到对应的标签序列集合322{O O S O S B-col B-upp I-upp S OS O S O S O S O S O S O S O S B-low B-per I-per},将获得的无标点文本集合321和标签序列集合322进行关联,由此获得第三训练语料32。

采用上述方案,可以优化标签标注的方式,使之后模型训练时对于与分词单元间隔较短、容易连续出现的标点符号的预测更加准确。

可以理解的是,上述实施例仅为举例说明,并非对具体实施方式的限制,在具体实施过程中,由第二训练语料获得的无标点文本集合和标签序列集合往往是海量的。

为使本领域技术人员更好地理解和实现本发明实施例,以下给出一种通过迁移学习,得到训练好的标点符号标注模型的具体示例。

在本发明一实施例中,所述标点符号标注模型可以包括预训练的语言子模型和预设的条件随机场子模型,预训练的语言子模型可以与预设的条件随机场模型连接。如图1所示,所述迁移学习训练单元14可以包括:

提取子单元141,适于提取所述语料处理单元12得到的无标点文本集合的一段无标点文本,以及所述无标点文本在所述标签序列集合中相应的第一标签序列;

迁移训练子单元142,适于将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,由所述预训练的语言子模型获取所述无标点文本相应的句子特征信息,并将所述句子特征信息输入所述条件随机场子模型中,预测所述无标点文本对应的第二标签序列;

误差计算子单元143,适于确定所述第二标签序列与所述第一标签序列之间的误差;

微调子单元144,适于在确定所述误差大于预设的误差阈值时,对所述标点符号标注模型的参数进行微调,直至所述第二标签序列与所述第一标签序列之间的误差不大于所述误差阈值,得到训练好的标点符号标注模型。

在具体实施中,提取子单元141可以分批次提取语料处理单元12得到的第三训练语料,由此,迁移训练子单元142可以按每一批次进行迭代训练每一批次可以包含一段无标点文本,即一个句子列表,列表的大小由实际情况决定。其中,语料处理单元12获取的无标点文本可以根据上述第二训练语料去除标点符号并标注标签组合时采用的标注方法,无标点文本可以包括用于句尾的空位补齐符号EOS、用于句首的空位补齐符号BOS和间隔符号SEP中的至少一种。

在具体实施中,由于无标点文本集合与标签序列集合相关联,因此,可以根据每一批次包含的一段无标点文本获得相应的标签序列作为第一标签序列。

在具体实施中,迁移训练子单元142将所述无标点文本和所述第一标签序列输入所述标点符号标注模型,所述标点符号标注模型先将无标点文本中的每个分词单元转换为字节型格式的标记(token),用表示,xi是字典中的索引值。

根据字典的索引值对每个分词单元进行词向量嵌入(word embedding),一个分词单元对应一个词向量,用ei是k维的稠密向量。所述字典根据分词单元的语言种类进行调整,其中,词向量矩阵的获取方式是随机初始化或者使用预训练的词向量,并且作为学习参数存在于整个神经网络中,词向量ei的维度依照具体情况设定。

然后,向量化后的无标点文本通过所述标点符号标注模型的预训练的语言子模型,把静态词向量表示的转为动态的句子表征,记为 li是l维的稠密向量,l的大小依照具体情况设定,由此可以深层次加强句子的表征。

为所述标点符号标注模型的条件随机场(Conditional Random Field,CRF)子模型的输入,条件随机场子模型预设有一个状态转换矩阵[A]i,j和分数矩阵[A]i,j表示两个时间步长从第i个状态到第j个状态的状态转换转移概率,分数矩阵表示输入后第t个位置输出为[y]t的概率,其中θ包含了整个预训练的语言子模型的所有需要迁移学习的参数。此时可以用到条件随机场子模型中预设的特征函数: 其表示为输入预测输出的标签序列为的评分。这个特征函数可以避免不符合标注规则的标签序列的出现,为方便表述后续公式,将简化为s(l,y)。当s(l,y)的评分最大时,得到第二标签序列

在本发明的一实施例中,可以采用维特比(Viterbi)方法计算得出s(l,y)分数最大的路径,即y′=argmaxs(l,y)。

在具体实施中,假设第一标签序列为误差计算子单元143可以通过比较可以得到两者之间的误差。

在具体实施中,在经过第三训练语料的迭代训练后,误差计算子单元143可以获得所有第二标签序列和对应的第一标签序列之间的误差,当至少有一组之间的误差大于预设的误差阈值时,微调子单元144可以对标点符号标注模型的参数进行微调,然后,迁移训练子单元142再次进行标点符号标注模型的迁移学习训练,直至之间的误差均不大于预设的误差阈值,得到迁移学习训练好的标点符号标注模型。

在本发明一实施例中,微调子单元144可以先获得输入标点符号标注模型后对应所有可能的标注序列的得分∑s(l,y)和第一标签序列为对应的得分其次,对其进行归一化处理,得到第一标签序列的概率 然后,对第一标签序列的概率取log得到损失函数:当损失函数的值越小时,表示准确率越高,因此需要求得损失函数的最小值对应的符号标注模型的参数。微调子单元144可以利用梯度下降方法或反向传播方法对所述标点符号标注模型的参数进行微调,范围包括预训练语言子模型的参数和条件随机场子模型的参数,从而减小损失函数的值。采用梯度下降方法或反向传播方法,可以使标点符号标注模型可以快速收敛,缩短训练时间,提升标点符号标注模型模型的准确度。

在具体实施中,所述标点符号标注模型还包括预设的双向长短时记忆子模型,所述预设的双向长短时记忆(BiLstm)子模型位于所述预训练的语言子模型和条件随机场子模型之间。

在使用预训的语言子模型生成文本信息之后,再输入到双向长短时记忆(BiLstm)子模型进一步增强句子特征信息的表征能力。用了两层带有时间序列的神经网络去获取的句子特征信息输入所述条件随机场子模型后,会让最终预测结果变化幅度更小,达到更好的预测效果,此外,在数据量较大的情况下能增加模型的准确度与泛化能力。

在具体实施中,如图1所示,所述预训练单元13包括以下至少一种:

第一预训练子单元131,适于从所述第一训练语料中获取随机的第一训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测所述第一训练文本的下一个分词单元,当预测准确的概率达到预设的第一阈值时,确定已训练好,通过语言模型(Language Model,LM)训练方式获得预训练的语言子模型。

预训练的语言子模型可以在后续输入无标点文本时,估计所述无标点文本为句子可能性。假设后续输入的无标点文本为:{ω1ω2ω3...ωn},n为无标点文本中分词单元的数量,则预训练的语言子模型表述所述无标点文本为句子的概率为其中i=1,2…n。P(S)概率越大,说明无标点文本为句子的可能性越高。预训练的语言子模型可以增强预训练的语言子模型对文本语料中上下文句子特征的表征能力。

其中,分词单元对应于输入的第一训练语料的语言种类的最小语句组成单元,例如,中文的最小语句组成单元是“字”,英文的最小语句组成单元是“单词(word)”,因此,分词单元的具体表述由第一训练语料的语言种类所决定。

在具体实施中,当第一训练文本为空集时,所述神经网络模型进行首字预测,根据已知的先验概率,将作为首字概率最大的分词单元作为预测结果,例如“今”作为首字概率最大,则取“今”作为首字。

当已经存在前文内容,例如,已经存在上文“今”,根据“今”预测下一个字的概率P(ω21),当P(ω21)最大时,两个字表示的一个句子的可能性P(ω1ω2)=P(ω1)P(ω21)最大,假设“天”的概率最大,则获得“今天”。

又例如,已经存在上文“今天天气很”,根据“今天天气很”预测下一个字的概率P(ω61ω2ω3ω4ω5),当P(ω61ω2ω3ω4ω5)最大时,这6个字表示一个句子的可能性P(ω1ω2ω3ω4ω5ω6)=P(ω1)P(ω21)P(ω31ω2)P(ω41ω2ω3)P(ω51ω2ω3ω4)最大,假设“好”的概率最大,则获得“今天天气很好”。

第二预训练子单元132,适于从所述第一训练语料中获取随机掩盖预设比例部分的第二训练文本,并输入所述神经网络模型,所述神经网络模型在给定上下文的条件下预测被掩盖的预设比例部分,当预测准确的概率达到预设的第二阈值时,确定已训练好,通过屏蔽语言模型(Mask Language Model,MLM)训练方式得到所述预训练的语言子模型。在具体实施中,第二预训练子单元132可以先随机掩盖所述包含标点符号的第一训练语料一定百分比的内容,然后通过归一化指数函数(softmax)函数预测那些被掩盖的内容,因为随机掩盖的内容可以包括分词单元和标点符号,所以使用MLM方式预训练得到的语言子模型对句子上下文的句子特征信息表征更强。

在具体实施中,如图1所示,所述预训练单元13还包括以下子单元:

第三预训练子单元133,适于从所述第一训练语料中获取随机掩盖一条语句的第三训练文本,并输入所述神经网络模型,所述神经网络模型在给定上文的条件下预测被掩盖的一条语句,当预测准确的概率达到预设的第三阈值时,确定已训练好,通过下句预测(next sentence prediction,NSP)训练方式获得预训练的语言子模型。使用NSP方式预训练得到的语言子模型对于理解上下段落之间关系的能力更强。

在本发明一实施例中,NSP方式采用二分类方法,第三预训练子单元133可以从第一训练语料中获取一段文本A,随机掩盖文本A其中一条语句,然后再从第一训练语料中获取一段语句B,预测语句B是否为文本A中被掩盖的语句,如果预测语句B是文本A中被掩盖的语句,则输出“1”或者“TRUE”,否则输出“0”或者“FLASE”,根据输出结果判断预测是否准确并统计预测准确的概率,当预测准确的概率达到预设的第三阈值时,确定已训练好。其中,可以设定获取语句B是被掩盖的语句的时间所占一个训练周期的百分比,例如,在一个训练周期内,50%的时间,获取到的语句B是文本A的实际被掩盖的句子,其余50%的时间,获取到的语句B是随机从第一训练语料中抽取的语句。

在具体实施时,可以分别采用以上三种预训练子单元中任意一个训练获得预训练的语言子模型,也可以通过采用第一预训练子单元和第三预训练子单元结合、第二预训练子单元和第三预训练子单元的结合的方式训练获得预训练的语言子模型。

在具体实施中,可以通过多种方式获取第一训练语料,例如,可以采用如下一种或多种方式来获取所述第一训练语料:

1、在互联网中抓取包含标点符号的文本数据。

2、在互联网中抓取语言数据,并将所述语言数据经过语音识别和标注得到相应的文本数据。

3、人工录入包含标点符号的文本数据。

还可以通过多种方式获取第二训练语料,例如,可以采用如下一种或多种方式来获取所述第二训练语料:

1、抓取所述第一训练语料中的文本数据。

2、在互联网中抓取预设领域的包含标点符号的文本数据。

3、人工录入预设领域的包含标点符号的文本数据。

本发明实施例还提供了采用上述标点符号标注模型的训练系统获得的标点符号标注模型,为使本领域技术人员更好地理解和实现本发明实施例,以下参照附图,通过具体实施例进行详细介绍。

参照图4所示的标点符号标注模型的结构示意图,在本发明实施例中,如图4所示,标点符号标注模型40可以包括输入层41、编码层42、条件随机场网络层44和输出层45,其中:

输入层41,适于对待添加标点符号的文本提取相应的分词单元特征信息。

在具体实施中,根据字典对每个分词单元进行词向量嵌入,一个分词单元对应一个词向量(即图4中输入层41的一个方格),用ei是k维的稠密向量。所述字典根据分词单元的语言种类进行调整,其中的词向量矩阵的获取方式是随机初始化或者使用预训练的词向量,并且作为学习参数存在于整个神经网络中,词向量的维度依照具体情况设定。

其中,待添加标点符号的文本可以包括用于句尾的空位补齐符号EOS、用于句首的空位补齐符号BOS和间隔符号SEP中的至少一种,具体由标点符号标注模型训练时采用的第三训练语料的标注方式决定。

编码层42,适于通过预训练的语言子模型捕获所述分词单元特征信息相应的句子特征信息,其中,所述预训练的语言子模型为具有时间序列的神经网络模型,预训练的语言子模型的具体训练过程可参照前文关于LM、MLM和NSP训练方式的描述。

在具体实施中,向量化后的无标点文本通过预训练的语言子模型,把静态词向量表示的转为动态的句子表征,记为li是l维的稠密向量,l的大小依照具体情况设定,由此可以深层次加强句子的表征,为条件随机场(Conditional Random Field,CRF)网络层43的输入。

条件随机场网络层44,适于基于所述句子特征信息,预测所述无标点文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注。

在具体实施中,条件随机场网络层44预设有一个状态转换矩阵[A]i,j和分数矩阵[A]i,j表示两个时间步长从第i个状态到第j个状态的状态转换转移概率,分数矩阵表示输入后第t个位置输出为[y]t的概率,其中θ包含了整个预训练的语言子模型的所有需要迁移学习的参数。此时可以用到条件随机场子模型中预设的特征函数: 其表示为输入预测输出的标签序列为的评分。这个特征函数可以避免不符合标注规则的标签序列的出现,为方便表述后续公式,将简化为s(l,y)。当s(l,y)的评分最大时,输出标签序列其中,标签序列包含了标点符号待添加位置的信息及对应标点符号类型的信息。

输出层45,适于输出对应的标点符号标注结果。

在具体实施中,将标注标签序列作为待添加标点符号的文本相应的标点符号标注结果输出。

在本发明实施例中,可以采用维特比(Viterbi)方法计算得出s(l,y)分数最大的路径,即y*=argmaxs(l,y)。

在具体实施中,如图4所示,所述标点符号标注模型还可以包括双向长短时记忆网络层43,所述双向长短时记忆网络层43设置于所述编码层42和所述条件随机场网络层44之间,将中的li按顺序分别对应图4中双向长短时记忆网络层43中上下相邻的两个方框内,例如l1对应431和431。通过双向运算增强所述句子特征信息,并输出至所述条件随机场网络层。

在本发明一实施例中,假设词向量的维度设为100,输入待添加标点符号的文本为:{BOS你好世界EOS},标点符号标注模型40的输入层41得到初始化句子词向量的表征{123456},其与{BOS你好世界EOS}一一对应,具体为R6×100的矩阵表示。编码层42通过MLM+NSP方式获得的预训练的语言子模型捕获所述文本中上下文的句子特征信息。条件随机场网络层44,根据句子特征信息进行标签序列预测,假设预设的标点符号位置标签集合Q有15类,则条件随机场网络层44预测得到R6×15的矩阵值与标点符号位置标签集合Q的对应关系,如下所示:

1[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0] O

2[0 0 0 0 0 0 0 0 0 0 0 1 0 0 0] O

3[0 0 0 0 0 0 1 0 0 0 0 0 0 0 0] B-COM

4[0 0 0 0 0 0 0 0 0 1 0 0 0 0 0] 1-COM

5[0 0 0 0 0 0 0 0 0 0 0 0 0 0 1] B-EXC

6[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0] I-EXC

从而到得到如下预测的标注标签序列:

{O O B-COM I-COM B-EXC I-EXC}

然后,可以根据标点符号标注模型输出的标点符号标注结果,分别在待添加标点符号的文本对应待添加位置处添加标点符号类型对应的标点符号,从而得到添加标点符号的文本:{你好,世界!}。

采用本发明实施例的标点符号标注模型,通过预训练的语言子模型能够充分考虑到标点符号前后分词单元的信息,进而条件随机场网络层可以更加精确地预测标点符号类型,然后,采用标签组合进行标注使标注的标签分布更加均衡,可以避免标签分布不均衡的问题和标注的无效标签过多的情况,提高标点符号标注的准确率;并且,采用上述训练系统获得的标点符号标注模型可以用于对待加标点符号的文本进行标点符号添加,也可以对现有文本的标点符号进行校正,精确度高,通用性强,应用范围更加广泛。

可以理解的是,本文中的“第一”、“第二”、“第三”等名词前缀仅用于区分不同作用的名词,并不代表顺序、大小或重要性等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:增强自然语言分类器的多分类方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!