语言模型训练、视频字幕校验方法、装置、设备及介质

文档序号：702074 发布日期：2021-04-13 浏览：19次 >En<

阅读说明：本技术 语言模型训练、视频字幕校验方法、装置、设备及介质 (Language model training method, device, equipment and medium, and video subtitle checking method, device and medium ) 是由李恬静朱威于 2020-12-22 设计创作，主要内容包括：本发明涉及人工智能技术领域,提供一种语言模型训练、视频字幕校验方法、装置、设备及介质。该语言模型训练方法通过将文字样本集中仅包含中文字符的样本句子输入含有初始参数的初始拆字预训练模型中,对样本句子依次进行分词处理、部首拆分、粒度拆分以及解码识别,得到样本解码句子；根据样本解码句子与仅包含中文字符的样本句子,确定文本损失值；在文本损失值未达到预设的收敛条件时,更新迭代初始参数,直至文本损失值达到预设的收敛条件时,将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。本发明还涉及区块链技术,所述基于拆字的中文预训练语言模型存储于区块链中,本发明可以提高对文字或者文本进行预处理的准确率。(The invention relates to the technical field of artificial intelligence, and provides a method, a device, equipment and a medium for language model training and video subtitle verification. The language model training method includes inputting sample sentences only containing Chinese characters in a character sample set into an initial character-splitting pre-training model containing initial parameters, and sequentially performing word segmentation processing, radical splitting, granularity splitting and decoding identification on the sample sentences to obtain sample decoded sentences; determining a text loss value according to the sample decoded sentence and the sample sentence only containing Chinese characters; and when the text loss value does not reach the preset convergence condition, updating the iteration initial parameters until the text loss value reaches the preset convergence condition, and recording the converged initial character-splitting pre-training model as a Chinese pre-training language model based on the character splitting. The invention also relates to a block chain technology, wherein the Chinese pre-training language model based on the word splitting is stored in the block chain, and the accuracy of the word or text pre-processing can be improved.)

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语言模型训练、视频字幕校验方法、装置、设备及介质。

背景技术

随着科学技术的发展，人工智能领域也发展越来越快。在文字识别、文本校验等场景中，常常使用基于字词的预训练语言模型对文字或者文本进行预处理等。

现有技术中，在文字识别、文本校验等场景中使用到的基于字词的预训练语言模型，整体词汇表较大(通常超过两万)，该词汇表虽然包含了大规模的词语，但是会导致预训练语言模型体积大，推理速度慢，因而在训练较小的模型时并不适合。如在广告文字识别中，仅需要训练一个较小的模型，使得该模型可以识别出广告用语中的字词即可，若采用现有技术中的模型进行训练，会导致训练得到的模型参数过多，进而导致模型在识别过程中模型计算量大，从而导致识别速度慢。其次，在一些用词不严谨且错误词汇较多的特定应用场景下，现有的基于字词的预训练语言模型对于字词的敏感性较高，但鲁棒性较低，因此会导致对文字或者文本进行预处理的准确率较低。

发明内容

本发明实施例提供一种语言模型训练、视频字幕校验方法、装置、设备及介质，以提高语言模型识别的准确率。

一种语言模型训练方法，包括：

获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个所述样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型；

在所述样本句子中仅包含中文字符时，将所述样本句子输入所述初始拆字预训练模型中，通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词；

通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果；

通过所述字符编码模型对所有所述部首分解结果进行粒度拆分，得到拆分结果；

通过所述字符解码模型对所述拆分结果进行解码识别，得到样本解码句子；

根据所述样本解码句子与仅包含中文字符的所述样本句子，确定文本损失值；

在所述文本损失值未达到预设的收敛条件时，更新迭代所述初始拆字预训练模型的初始参数，直至所述文本损失值达到所述预设的收敛条件时，将收敛之后的所述初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

一种语言模型训练装置，包括：

数据获取模块，用于获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个所述样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型；

分词处理模块，用于在所述样本句子中仅包含中文字符时，将所述样本句子输入所述初始拆字预训练模型中，通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词；

部首拆分模块，用于通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果；

粒度拆分模块，用于通过所述字符编码模型对所有所述部首分解结果进行粒度拆分，得到拆分结果；

解码识别模块，用于通过所述字符解码模型对所述拆分结果进行解码识别，得到样本解码句子；

文本损失值确定模块，用于根据所述样本解码句子与仅包含中文字符的所述样本句子，确定文本损失值；

收敛判断模块，用于在所述文本损失值未达到预设的收敛条件时，更新迭代所述初始拆字预训练模型的初始参数，直至所述文本损失值达到所述预设的收敛条件时，将收敛之后的所述初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

一种视频字幕校验方法，包括：

获取视频字幕校验模型以及待校验视频；所述视频字幕校验模型中包括语音识别模型以及字幕识别模型；所述字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的；所述基于拆字的中文预训练语言模型根据上述语言模型训练方法得到的；

获取所述待校验视频中的语音数据，并通过所述语音识别模型对所述语音数据进行语音识别，得到与所述语音数据对应的语音句子；

获取所述待校验视频中与所述语音数据对应的字幕句子，并通过所述字幕识别模型对所述字幕句子进行拆分识别，得到拆分句子；

获取所述语音句子与所述拆分句子之间的相似度，得到句子相似度；

在所述句子相似度大于预设相似度阈值时，确认所述待校验视频校验合格。

一种视频字幕校验装置，包括：

模型获取模块，用于获取视频字幕校验模型以及待校验视频；所述视频字幕校验模型中包括语音识别模型以及字幕识别模型；所述字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的；所述基于拆字的中文预训练语言模型根据上述语言模型训练方法得到的；

语音识别模块，用于获取所述待校验视频中的语音数据，并通过所述语音识别模型对所述语音数据进行语音识别，得到与所述语音数据对应的语音句子；

拆分识别模块，用于获取所述待校验视频中与所述语音数据对应的字幕句子，并通过所述字幕识别模型对所述字幕句子进行拆分识别，得到拆分句子；

相似度获取模块，用于获取所述语音句子与所述拆分句子之间的相似度，得到句子相似度；

视频校验模块，用于在所述句子相似度大于预设相似度阈值时，确认所述待校验视频校验合格。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述雷同病例检测方法，或者所述处理器执行所述计算机程序时实现上述视频字幕校验方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述雷同病例检测方法，或者所述计算机程序被处理器执行时实现上述视频字幕校验方法。

上述语言模型训练、视频字幕校验方法、装置、设备及介质，通过获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个所述样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型；在所述样本句子中仅包含中文字符时，将所述样本句子输入所述初始拆字预训练模型中，通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词；通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果；通过所述字符编码模型对所有所述部首分解结果进行粒度拆分，得到拆分结果；通过所述字符解码模型对所述拆分结果进行解码识别，得到样本解码句子；根据所述样本解码句子与仅包含中文字符的所述样本句子，确定文本损失值；在所述文本损失值未达到预设的收敛条件时，更新迭代所述初始拆字预训练模型的初始参数，直至所述文本损失值达到所述预设的收敛条件时，将收敛之后的所述初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

本发明通过将中文字符拆分成部首结构的方式，训练得到基于拆字的中文预训练语言模型，使得该基于拆字的中文预训练语言模型能够接收到字的内部特征，使得其表示能力得到提升；并且该模型中字符编码模型中用于粒度拆分的词汇表可以更好的还原每一字符的结构类型，并且该词汇表的参数(500-2500)比现有技术中的词汇表的参数(通常超两万)小很多，使得模型识别速度快，进而利于快速训练其它模型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语言模型训练方法以及视频字幕校验方法的一应用环境示意图；

图2是本发明一实施例中语言模型训练方法的一流程图；

图3是本发明一实施例中语言模型训练方法中步骤S13的一流程图；

图4是本发明一实施例中语言模型训练方法的步骤S13的另一流程图；

图5是本发明一实施例中视频字幕校验方法的一流程图；

图6是本发明一实施例中语言模型训练装置的一原理框图；

图7是本发明一实施例中语言模型训练装置中部首拆分模块的一原理框图；

图8是本发明一实施例中语言模型训练装置中部首拆分模块的另一原理框图；

图9是本发明一实施例中视频字幕校验装置的一原理框图；

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的语言模型训练方法，该语言模型训练方法可应用如图1所示的应用环境中。具体地，该语言模型训练应用在语言模型训练系统中，该语言模型训练系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于提高语言模型识别的准确率。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语言模型训练方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S11：获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型。

其中，文字样本集为包含任意应用场景所出现的句子，该文本样本集包含至少一个样本句子，该样本句子可以为任意包含至少一个中文字符的句子。字符编码模型用于对样本句子中的中文字符进行编码，该字符编码模型中包括结巴分词模块、字符拆分模块以及预设的BPE词汇表。字符解码模型用于对字符编码模型输出的结果进行解码识别。

S12：在样本句子中仅包含中文字符时，将样本句子输入初始拆字预训练模型中，通过字符编码模型对样本句子进行分词处理，得到样本句子中每一中文样本字词。

其中，中文样本字词指的是经过分词处理之后，样本句子中以字词形式分词后得到的。

具体地，在获取文字样本集和含有初始参数的初始拆字预训练模型之后，若文字样本集中的样本句子仅包含中文字符(也即除中文字符外，不包含英文字母、阿拉伯数字等)，则将该样本句子输入至初始拆字预训练模型中，通过字符编码模型中的结巴分词模块对样本句子进行分词处理，得到样本句子中每一中文样本字词。其中，结巴分词模块是根据常规字词组合进行分词的，示例性地，如“我爱中国”，分词处理后得到“我”，“爱”，“中国”，该“中国”字词即是结巴分词模块根据常规字词组合进行分词得到的。

S13：通过字符编码模型对每一中文样本字词中所有中文字符进行部首拆分，得到每一中文字符的部首分解结果。

具体地，在将样本句子输入初始拆字预训练模型中，通过字符编码模型对样本句子进行分词处理，得到样本句子中每一中文样本字词之后，通过字符编码模型中的字符拆分模块，对每一中文样本字词中所有中文字符进行部首拆分，得到每一中文字符的部首分解结果。示例性地，如对“安全最重要”中的“安全”进行部首拆分后，得到的部首分解结果为“宀”“女”“人”“王”。

S14：通过字符编码模型对所有部首分解结果进行粒度拆分，得到拆分结果。

具体地，在通过字符编码模型对每一中文样本字词中所有中文字符进行部首拆分，得到每一中文字符的部首分解结果之后，虽然此时已经将每一中文字符进行部首拆分，达到了降低字符维度的效果，但是对于进行部首拆分后的部首分解结果，在后续步骤中字符解码模型是没有办法识别出该部首分解结果具体是如何对应原来的中文字符的，也即无法根据部首分解结果，组合还原至中文字符，而是随机组合生成字符，则会导致识别的准确率降低。

进一步地，在本实施例中，通过字符编码模型中的预设的BPE词汇表，对所有部首分解结果进行粒度拆分，得到拆分结果。以对每一字符的部首分解结果进行粒度划分，使得后续步骤S15中字符解码模型可以识别出拆分结果，并且可以明确如何进行组合还原至原中文字符，提高识别的准确率。其中，该预设的BPE词汇表是通过一个开源包(sentencepiece)生成得到的，该BPE词汇表可以覆盖现有语料中99.95％的文字，因此在通过BPE词汇表进行粒度拆分时，基本不会出现无法识别部首分解结果的现象，进而保证了识别的准确率以及效率。同时，该BPE词汇表的大小为500-2500，相较于现有技术中的中文词汇表(通常超过两万)，该BPE词汇表更小，使得模型参数量较小，从而在文字拆分识别过程中识别效率高，识别准确率高。

S15：通过字符解码模型对拆分结果进行解码识别，得到样本解码句子。

具体地，在通过字符编码模型对所有部首分解结果进行粒度拆分，得到拆分结果之后，通过初始拆字预训练模型中的字符解码模型对该拆分结果进行解码识别，也即对该拆分结果进行组合，以将拆分结果还原至与其对应的中文字符；在对所有拆分结果进行解码识别之后，也即还原至中文字符后，根据所有中文字符组合得到样本解码句子。

S16：根据样本解码句子与仅包含中文字符的样本句子，确定文本损失值。

其中，文本损失值指的是样本解码句子与仅包含中文字符的样本句子之间的差异值，也即样本解码句子与仅包含中文字符的样本句子之间的不同的字符数与字符总数之比。

具体地，在通过字符解码模型对拆分结果进行解码识别，得到样本解码句子之后，需要验证该样本解码句子和与其对应的仅包含中文字符的样本句子是否相同，因此，根据样本解码句子与仅包含中文字符的样本句子，确定每一中文字符是否一一对应，从而根据样本解码句子与仅包含中文字符的样本句子之间的不同的字符数与字符总数之比，确定文本损失值。

S17：在文本损失值未达到预设的收敛条件时，更新迭代初始拆字预训练模型的初始参数，直至文本损失值达到预设的收敛条件时，将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

可以理解地，该收敛条件可以为文本损失值小于设定阈值的条件，也即在文本损失值小于设定阈值时，停止训练；收敛条件还可以为文本损失值经过了10000次计算后值为很小且不会再下降的条件，也即文本损失值经过10000次计算后值很小且不会下降时，停止训练，并将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

进一步地，根据样本解码句子与仅包含中文字符的样本句子，确定文本损失值之后，在文本损失值未达到预设的收敛条件时，根据该文本损失值调整初始拆字预训练模型的初始参数，并将该样本句子重新输入至调整初始参数后的初始拆字预训练模型中，以在该样本句子对应的文本损失值达到预设的收敛条件时，选取文字样本集中另一仅包含中文字符的样本句子，并执行步骤S12-S16，得到与该样本句子对应的文本损失值，并在该文本损失值未达到预设的收敛条件时，根据该文本损失值再次调整初始拆字预训练模型的初始参数，使得该样本句子对应的文本损失值达到预设的收敛条件。

如此，在通过文字样本集中所有仅包含中文字符的样本句子对初始拆字预训练模型进行训练之后，使得初始拆字预训练模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有仅包含中文字符的样本句子对应的文本损失值均达到预设的收敛条件时，将收敛之后的初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

在本实施例中，通过将中文字符拆分成部首结构的方式，训练得到基于拆字的中文预训练语言模型，使得该基于拆字的中文预训练语言模型能够接收到字的内部特征，使得其表示能力得到提升；并且该模型中字符编码模型中用于粒度拆分的词汇表可以更好的还原每一字符的结构类型，并且该词汇表的参数(500-2500)比现有技术中的词汇表的参数(通常超两万)小很多，使得模型识别速度快，进而利于快速训练其它模型。

在另一具体实施例中，为了保证上述实施例中基于拆字的中文预训练语言模型的私密以及安全性，可以将基于拆字的中文预训练语言模型存储在区块链中。其中，区块链(Blockchain)，是由区块(Block)形成的加密的、链式的交易的存储结构。

例如，每个区块的头部既可以包括区块中所有交易的哈希值，同时也包含前一个区块中所有交易的哈希值，从而基于哈希值实现区块中交易的防篡改和防伪造；新产生的交易被填充到区块并经过区块链网络中节点的共识后，会被追加到区块链的尾部从而形成链式的增长。

在一实施例中，该语言模型训练方法还包括如下步骤：

在样本句子中包含非中文字符时，获取所有非中文字符在样本句子中的位置信息，并根据位置信息截取所有非中文字符，并将截取非中文字符后的样本句子输入初始拆字预训练模型中。

其中，位置信息指的是非中文字符在样本句子中的位置编码，示例性地，假设从样本句子中的第一个字符起，给每一字符的位置信息进行编码，第一个字符的位置信息为V1，第二个字符的位置信息为V2，若第三个字符为非中文字符，则该非中文字符的位置信息为V3。

具体地，在获取文字样本集之后，若样本句子中包含非中文字符，由于初始拆字预训练模型中不会对非中文字符进行拆分，因此需要对样本句子中的非中文字符进行截取。获取所有非中文字符在该样本句子中的位置信息，并根据位置信息截取所有非中文字符，并将截取非中文字符后的样本句子输入初始拆字预训练模型中，并执行上述实施例中的步骤S12-S16，以得到与其对应的文本损失值。

在一实施例中，如图3所示，步骤S13中，也即通过字符编码模型对每一中文样本字词中所有中文字符进行部首拆分，得到每一中文字符的部首分解结果，包括：

S131：在中文字符包含可拆分部首结构时，对每一中文字符进行初次部首拆分，得到第一分解字符。

其中，可拆分部首结构指的是中文字符中包含已知的偏旁部首(如：“口”，“日”等)，且该偏旁部首可以拆分出来(也即除了偏旁部首外，该中文字符还包含其它部分；如“如”字，将“女”拆出来，还有“口”)。第一分解字符中包含中文字符中偏旁部首结构(“如”字中的“女”)，以及非偏旁部首结构(“如”字中的“口”)。

具体地，在通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词之后，对每一中文样本字词中所有中文字符进行部首结构检测，在中文字符包含可拆分部首结构时，通过字符编码模型中的字符拆分模块对所有包含可拆分部首结构的中文字符进行初次部首拆分，得到与每一中文字符对应的第一分解字符。

示例性地，若中文样本字词为“新鲜”，该中文样本字词包含可拆分部首结构，则对该中文样本字词进行初次部首拆分，则可以得到与“新”对应的第一分解字符为“亲”和“斤”；与“鲜”对应的第一分解字符为“鱼”和“羊”。可以理解地，在对中文样本字词进行初次部首拆分时，可以根据如新华字典等字典中已有的部首结构进行拆分识别，也即可以将现有中的部首结构均导入至字符编码模型中的字符拆分模块中。

进一步地，在对包含可拆分部首结构的中文样本字词进行初次部首拆分时，同时会记录与其对应的结构，如：上下结构、左右结构、半包围结构等；示例性地，得到与“新”对应的第一分解字符为“亲”和“斤”的同时，还会对其进行标注，在字符编码模型中可以生成一个左右结构的分类块，以表征此次拆分是左右结构的拆分。

S132：检测第一分解字符是否为最小字符单位。

其中，最小字符单位为第一分解字符中不能再分解单位(例如“在”字中的“土”为最小字符单位)。

S133：若第一分解字符为最小字符单位，则将每一最小字符单位对应的第一分解字符记录为与其对应的中文字符的部首分解结果。

具体地，在中文字符包含可拆分部首结构时，对每一中文字符进行初次部首拆分，得到第一分解字符之后，检测每一中文字符对应的第一分解字符是否为最小字符单位，若存在第一分解字符为最小字符单位，则将每一最小字符单位对应的第一分解字符记录为与其对应的中文字符的部首分解结果。

示例性地，若中文样本字词为“新鲜”，对该中文样本字词进行初次部首拆分，则可以得到与“新”对应的第一分解字符为“亲”和“斤”；与“鲜”对应的第一分解字符为“鱼”和“羊”之后，检测每一第一分解字符是否为最小字符单位，对于“亲”字还可以拆分出来“立”，故“亲”不为最小字符单位；对于“斤”字不可以继续拆分，故“斤”为最小字符单位，故“斤”为“新”这一中文字符中的第一分解字符“斤”的部首分解结果，而“新”总体的部首分解结果，需要在“亲”字拆分完毕后，与“斤”共同组合成为“新”这一中文字符的部首分解结果。

在一实施例中，如图4所示，步骤S132之后，也即检测所述第一分解字符是否为最小字符单位之后，还包括：

S134：若第一分解字符不是最小字符单位，则对第一分解字符进行结构分析，得到第一分解字符的第一字符结构，并根据第一字符结构对第一分解字符进行二次部首拆分，得到第二分解字符。

其中，第一字符结构表征第一分解字符中的结构分类，该第一字符结构包括但不限于上下结构、左右结构、半包围结构等。

具体地，在检测第一分解字符是否为最小字符单位之后，若第一分解字符不是最小字符单位，也即表征该第一分解字符仍包含可拆分部首结构，则对该第一分解字符进行结构分析，得到第一分解字符的第一字符结构；根据该第一字符结构对与其对应的第一分解字符进行二次部首拆分，得到第二分解字符。

示例性地，假设其中一个中文字符为“萌”，在对其进行初次部首拆分后，得到的第一分解字符包括“艹”以及“明”，对“艹”以及“明”进行检测，以校验是否为最小字符单位，可以发现“艹”为最小字符单位，故“艹”作为“萌”的部首分解结果中的一部分，而“明”不为最小字符单位，可以继续拆分成“日”以及“月”两个第二分解字符，且在拆分的同时，记录与其对应的结构分类，此时即为左右结构。

S135：若第二分解字符均为最小字符单位，则将最小字符单位的第一分解字符以及第二分解字符，记录为部首分解结果。

具体地，在对第一分解字符进行结构分析，得到第一分解字符的第一字符结构，并根据第一字符结构对第一分解字符进行二次部首拆分，得到第二分解字符之后，检测所有第二分解字符是否为最小字符单位，若所有第二分解字符均为最小字符单位，则将最小字符单位的第一分解字符以及第二分解字符，记录为与其对应的中文字符的部首分解结果。

示例性地，如上述假设中文字符为“萌”，在经过二次部首拆分之后，得到的第二分解字符有“日”以及“月”，这两个第二分解字符均不可继续拆分，即为最小字符单位，故将最小字符单位的第一分解字符的“艹”，以及最小字符单位的第二分解字符的“日”和“月”，记录为“萌”的部首分解结果。

需要说明的是，不论是初次部首拆分还是二次部首拆分，亦或者是在第二分解字符仍可拆分时，其它部首拆分，在拆分的同时，均记录与其拆分对应的字符结构分类，也即上下结构、左右结构、半包围结构等。

在一实施例中，步骤S131之后，也即在所述中文字符包含可拆分部首结构时，对每一所述中文字符进行初次部首拆分，得到第一分解字符之后，还包括：

检测第一分解字符是否为现有字符；若第一分解字符不为现有字符，则对第一分解字符进行编码，得到与第一分解字符对应的编码字符。

其中，现有字符指的是现有技术中能够独立存在的字符(可供查询的字符)，如：“口”，“女”等。不为现有字符的如：对“在”进行初次部首拆分之后，拆分出来“土”后，剩余部分不是现有资料或者语料中独立存在且可供查询的字符。编码字符指的是对不为现有字符的第一分解字符进行特殊编码后得到的字符。

具体地，在中文字符包含可拆分部首结构时，对每一中文字符进行初次部首拆分，得到第一分解字符之后，检测每一第一分解字符是否为现有字符，若存在第一分解字符不为现有字符，则对该第一分解字符进行编码，得到与该第一分解字符对应的编码字符。

示例性地，对“在”进行初次部首拆分之后，拆分出来“土”后，剩余部分不是现有资料或者语料中独立存在且可供查询的字符，故对“在”字符中，除“土”字符以外的第一分解字符进行编码，可以将不为现有字符的部分编码成任意形式，如CDP8861等代表该部分，则CDP8861即为该不为现有字符的第一分解字符对应的编码字符。

其中，对第一分解字符进行编码的方式可以根据用户的喜好进行设定，但是在设定过程中需要注意的是，每一不为现有字符的第一分解字符与唯一一个编码字符关联，也即不可以出现采用同一编码字符，对不同的不为现有字符的第一分解字符进行编码处理，避免导致后续字符解码模块无法准确识别，从而导致识别准确率降低。

在一实施例中，步骤S13中，还包括：

在中文样本字词中的中文字符不包含可拆分部首结构时，则将中文字符直接记录为与其对应的部首分解结果。

具体地，在通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词之后，对每一中文样本字词中所有中文字符进行部首结构检测，在中文字符不包含可拆分部首结构时，将中文字符直接记录为与其对应的部首分解结果。示例性地，若中文样本字词为“口吃”，对于该中文样本字词中的“口”字不包含可拆分部首结构，也即不可继续拆分出更小的字符单位，则将“口”直接记录为“口吃”这一中文样本字词对应的部首分解结果中的一部分。

在一实施例中，如图5所示，提供一种视频字幕校验方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S31：获取视频字幕校验模型以及待校验视频；所述视频字幕校验模型中包括语音识别模型以及字幕识别模型；所述字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的；所述基于拆字的中文预训练语言模型根据上述实施例中的语言模型训练方法得到的。

其中，视频字幕校验模型指的是用于校验任意视频片段中语音与字幕是否匹配的模型，该视频字幕校验模型中包括语音识别模型以及字幕识别模型；需要强调的是，字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的，且基于拆字的中文预训练语言模型根据上述实施例中的语言模型训练方法得到的。由于在视频字幕校验场景下，字幕均是常用的语料中常规记载的，不需要使用参数大的模型进行校验，因此为了使用参数小的模型进行校验，采用上述实施例中的语言模型训练方法得到的基于拆字的中文预训练语言模型，训练得到的字幕识别模型既可以满足校验需求，且参数较小，识别速度快。待校验视频指的是需要校验字幕与语音是否匹配的视频。

S32：获取待校验视频中的语音数据，并通过语音识别模型对语音数据进行语音识别，得到与语音数据对应的语音句子。

其中，语音数据指的是待校验视频中的音频数据。语音句子指的是与语音数据对应的语音文本。

具体地，在获取视频字幕校验模型以及待校验视频之后，获取该待校验视频中的语音数据，通过视频字幕校验模型中的语音识别模型对语音数据进行语音识别，得到与语音数据对应的语音文本，即语音句子。

S33：获取待校验视频中与语音数据对应的字幕句子，并通过字幕识别模型对字幕句子进行拆分识别，得到拆分句子。

具体地，在获取视频字幕校验模型以及待校验视频之后，获取待校验视频中与语音数据对应的字幕句子，通过视频字幕校验模型中的字幕识别模型对字幕句子进行拆分识别，得到拆分句子。由于字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的，因此在通过字幕识别模型对字幕句子进行拆分识别时，可以更好的还原字幕句子中的字符。

S34：获取语音句子与拆分句子之间的相似度，得到句子相似度。

具体地，在得到语音句子和拆分句子之后，对语音句子和拆分句子进行相似度比较，得到句子相似度，也即确定语音句子中的字符与拆分句子中的字符是否一一对应，以确定语音数据与字幕句子是否匹配。

S35：在句子相似度大于或等于预设相似度阈值时，确认待校验视频校验合格。

其中，预设相似度阈值可以由用户根据匹配需求进行设定，示例性地，该预设相似度阈值可以为0.9,0.95等。

具体地，在获取语音句子与拆分句子之间的相似度，得到句子相似度之后，将句子相似度与预设相似度阈值进行比较，在句子相似度大于或等于预设相似度阈值时，确认该待校验视频校验合格。在句子相似度小于预设相似度阈值时，表征语音句子与拆分句子之间的相似度不符合标准，也即语音数据与字幕句子不匹配，需要重新调整字幕句子，以使得语音数据与字幕句子匹配，进而令该待校验视频校验合格。

示例性地，假若针对待校验视频的语音数据，识别出来的语音句子为“中午去哪里吃饭”；假设获取的与所述语音数据对应的字幕句子为“中午吃什么”，此时，若通过基于拆字的中文预训练语言模型训练得到的字幕识别模型识别之后得到的拆分句子即为“中午吃什么”，对语音句子和拆分句子进行相似度计算，假设得到的句子相似度为0.47，而预设相似阈值为0.9，则认为该语音句子和拆分句子不匹配，则对与语音数据对应的字幕句子进行调整，以对语音句子和调整之后的字幕句子进行相似度判定，直至该语音句子与字幕句子的句子相似度大于预设相似度阈值，则确认该待校验视频校验合格。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语言模型训练装置，该语言模型训练装置与上述实施例中语言模型训练方法一一对应。如图6所示，该语言模型训练装置包括数据获取模块11、第一分词处理模块12、第一部首拆分模块13、第一粒度拆分模块14、第一解码识别模块15、文本损失值确定模块16和第一收敛判断模块17。各功能模块详细说明如下：

数据获取模块11，用于获取文字样本集和含有初始参数的初始拆字预训练模型，所述文字样本集包含至少一个样本句子，一个所述样本句子包含至少一个中文字符；所述初始拆字预训练模型包括字符编码模型以及字符解码模型。

分词处理模块12，用于在所述样本句子中仅包含中文字符时，将所述样本句子输入所述初始拆字预训练模型中，通过所述字符编码模型对所述样本句子进行分词处理，得到所述样本句子中每一中文样本字词。

部首拆分模块13，用于通过所述字符编码模型对每一所述中文样本字词中所有所述中文字符进行部首拆分，得到每一所述中文字符的部首分解结果。

粒度拆分模块14，用于通过所述字符编码模型对所有所述部首分解结果进行粒度拆分，得到拆分结果。

解码识别模块15，用于通过所述字符解码模型对所述拆分结果进行解码识别，得到样本解码句子。

文本损失值确定模块16，用于根据所述样本解码句子与仅包含中文字符的所述样本句子，确定文本损失值。

收敛判断模块17，用于在所述文本损失值未达到预设的收敛条件时，更新迭代所述初始拆字预训练模型的初始参数，直至所述文本损失值达到所述预设的收敛条件时，将收敛之后的所述初始拆字预训练模型记录为基于拆字的中文预训练语言模型。

优选地，语言模型训练装置还包括如下模块：

位置信息获取模块21，用于在所述样本句子中包含非中文字符时，获取所有所述非中文字符在所述样本句子中的位置信息，并根据所述位置信息截取所有所述非中文字符，并将截取后的所述样本句子输入所述初始拆字预训练模型中。

优选地，如图7所示，第一部首拆分模块13包括如下单元：

初次部首拆分单元131，用于在所述中文字符包含可拆分部首结构时，对每一所述中文字符进行初次部首拆分，得到第一分解字符。

字符检测单元132，用于检测所述第一分解字符是否为最小字符单位。

第一记录单元133，用于在所述第一分解字符为最小字符单位时，将每一最小字符单位对应的第一分解字符记录为与其对应的所述中文字符的部首分解结果。

优选地，如图8所示，第一部首拆分模块13还包括如下单元：

二次部首拆分单元134，用于在所述第一分解字符不是最小字符单位时，对所述第一分解字符进行结构分析，得到所述第一分解字符的第一字符结构，并根据所述第一字符结构对所述第一分解字符进行二次部首拆分，得到第二分解字符。

第二记录单元135，用于在所述第二分解字符均为最小字符单位时，将最小字符单位的第一分解字符以及第二分解字符，记录为所述部首分解结果。

优选地，第一部首拆分模块13还包括如下单元：

现有字符检测单元，用于检测所述第一分解字符是否为现有字符；

字符编码单元，用于在所述第一分解字符不为现有字符时，对所述第一分解字符进行编码，得到与所述第一分解字符对应的编码字符。

关于语言模型训练装置的具体限定可以参见上文中对于语言模型训练方法的限定，在此不再赘述。上述语言模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一实施例中，提供一种视频字幕校验装置，该视频字幕校验装置与上述实施例中视频字幕校验方法一一对应。如图9所示，该视频字幕校验装置包括模型获取模块31、语音识别模块32、拆分识别模块33、相似度获取模块34以及视频校验模块35。各功能模块详细说明如下：

模型获取模块31，用于获取视频字幕校验模型以及待校验视频；所述视频字幕校验模型中包括语音识别模型以及字幕识别模型；所述字幕识别模型是基于拆字的中文预训练语言模型进行训练得到的；所述基于拆字的中文预训练语言模型根据上述语言模型训练方法得到的；

语音识别模块32，用于获取所述待校验视频中的语音数据，并通过所述语音识别模型对所述语音数据进行语音识别，得到与所述语音数据对应的语音句子；

拆分识别模块33，用于获取所述待校验视频中与所述语音数据对应的字幕句子，并通过所述字幕识别模型对所述字幕句子进行拆分识别，得到拆分句子；

相似度获取模块34，用于获取所述语音句子与所述拆分句子之间的相似度，得到句子相似度；

视频校验模块35，用于在所述句子相似度大于预设相似度阈值时，确认所述待校验视频校验合格。

关于视频字幕校验装置的具体限定可以参见上文中对于视频字幕校验方法的限定，在此不再赘述。上述视频字幕校验装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述雷同病例检测所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语言模型训练方法，或者一种视频字幕校验方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的语言模型训练方法，或者上述实施例中的视频字幕校验方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的语言模型训练方法，或者上述实施例中的视频字幕校验方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

24页详细技术资料下载

语言模型训练、视频字幕校验方法、装置、设备及介质

相关技术

网友询问留言