数据生成方法、装置及可读存储介质

文档序号：1861774 发布日期：2021-11-19 浏览：10次 >En<

阅读说明：本技术 数据生成方法、装置及可读存储介质 (Data generation method and device and readable storage medium ) 是由穆畅李响于 2021-09-07 设计创作，主要内容包括：本公开涉及一种数据生成方法、装置及可读存储介质,该方法包括：对初始第一语言文本进行加噪处理,得到加噪后的第一语言文本；根据预训练语言模型对所述加噪后的第一语言文本进行处理,得到目标第一语言文本；对所述目标第一语言文本进行反翻译处理,得到第二语言文本；基于所述目标第一语言文本和所述第二语言文本,得到用于训练翻译模型的训练数据。本公开的方法可以提升训练翻译模型的训练数据的多样性,解决训练数据短缺的问题。(The present disclosure relates to a data generation method, an apparatus and a readable storage medium, the method comprising: carrying out noise adding processing on the initial first language text to obtain a noise-added first language text; processing the first language text after noise addition according to a pre-training language model to obtain a target first language text; performing reverse translation processing on the target first language text to obtain a second language text; and obtaining training data for training a translation model based on the target first language text and the second language text. The method disclosed by the invention can improve the diversity of the training data for training the translation model and solve the problem of training data shortage.)

数据生成方法、装置及可读存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种数据生成方法、装置及可读存储介质。

背景技术

机器翻译指的是通过计算机将源语言转换为目标语言的过程。随着机器学习和深度学习技术的发展，机器翻译从统计机器翻译逐渐走向神经机器翻译时代。对于神经机器翻译模型而言，训练翻译模型所使用的训练数据对模型的预测有十分重要的影响，因此，如何更好地构建翻译模型的训练数据，以提高翻译模型的翻译准确度，是亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种数据生成方法、装置及可读存储介质。

根据本公开实施例的第一方面，提供一种数据生成方法，包括：

对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本；

根据预训练语言模型对所述加噪后的第一语言文本进行处理，得到目标第一语言文本；

对所述目标第一语言文本进行反翻译处理，得到第二语言文本；

基于所述目标第一语言文本和所述第二语言文本，得到用于训练翻译模型的训练数据。

在一些实施例中，所述第一语言文本为篇章级文本，所述对所述目标第一语言文本进行反翻译处理，得到第二语言文本，包括：

对所述目标第一语言文本进行拆分，得到多个目标第一语言子文本；其中，所述第一语言子文本为句子级文本；

根据反向翻译模型，对所述多个目标第一语言子文本进行所述反翻译处理，得到多个第二语言子文本；

对所述多个第二语言子文本进行融合处理，得到所述第二语言文本。

在一些实施例中，所述对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本，包括：

对所述初始第一语言文本进行删减替换加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本缺失预设数量或预设位置的词。

在一些实施例中，所述对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本，包括：

对所述初始第一语言文本进行乱序加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本句子顺序或词序不同。

在一些实施例中，所述预训练语言模型为双向自回归变压器模型。

在一些实施例中，所述反向翻译模型通过如下方式训练得到：

获取多个训练样本；其中，每个所述训练样本包括样本第一语言子文本和样本第二语言子文本；其中，所述样本第一语言子文本和所述样本第二语言子文本为所述句子级文本；

基于多个训练样本迭代更新初始反向翻译模型的参数以减小各训练样本对应的损失函数值，得到训练好的反向翻译模型；

其中，各训练样本对应的损失函数值通过以下过程确定：

通过反向翻译模型处理所述样本第一语言子文本，得到预测的第二语言子文本；

至少基于所述预测的第二语言子文本和所述样本第二语言子文本的差异，确定损失函数值。

在一些实施例中，所述反向翻译模型为Transformer模型。

根据本公开实施例的第二方面，提供一种数据生成装置，包括：

加噪模块，被配置为对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本；

处理模块，被配置为根据预训练语言模型对所述加噪后的第一语言文本进行处理，得到目标第一语言文本；

反翻译模块，被配置为对所述目标第一语言文本进行反翻译处理，得到第二语言文本；

训练数据确定模块，被配置基于所述目标第一语言文本和所述第二语言文本，得到用于训练翻译模型的训练数据。

在一些实施例中，所述第一语言文本为篇章级文本，所述反翻译模块进一步被配置为：

对所述目标第一语言文本进行拆分，得到多个目标第一语言子文本；其中，所述第一语言子文本为句子级文本；

根据反向翻译模型，对所述多个目标第一语言子文本进行所述反翻译处理，得到多个第二语言子文本；

对所述多个第二语言子文本进行融合处理，得到所述第二语言文本。

在一些实施例中，所述加噪模块进一步被配置为：对所述初始第一语言文本进行删减替换加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本缺失预设数量或预设位置的词。

在一些实施例中，所述加噪模块进一步被配置为：对所述初始第一语言文本进行乱序加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本句子顺序或词序不同。

在一些实施例中，所述预训练语言模型为双向自回归变压器模型。

在一些实施例中，所述装置进一步包括训练模块，所述训练模块被配置为：

基于多个训练样本迭代更新初始反向翻译模型的参数以减小各训练样本对应的损失函数值，得到训练好的反向翻译模型；

其中，各训练样本对应的损失函数值通过以下过程确定：

通过反向翻译模型处理所述样本第一语言文本，得到预测的第二语言子文本；

至少基于所述预测的第二语言子文本和所述样本第二语言子文本的差异，确定损失函数值。

在一些实施例中，所述反向翻译模型为Transformer模型。

根据本公开实施例的第三方面，提供一种数据生成装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述存储器中的所述计算机程序，以实现本公开第一方面中任一项所述方法的步骤。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面任一项所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：通过预训练语言模型对加噪后的第一语言文本进行处理，可以生成与初始第一语言文本不同的目标第一语言文本，进而，基于目标第一语言文本的反翻译结果和目标第一语言文本构建训练数据，可以得到反映不同得分的训练数据，实现训练数据的多样化，提高翻译模型的训练效果；且无需额外训练预训练模型，极大的提高了生成训练数据的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种数据生成方法的流程图；

图2是根据本公开一示例性实施例示出的训练反向翻译模型的流程图；

图3是根据本公开一示例性实施例示出的一种数据生成装置的框图；

图4是根据本公开一示例性实施例示出的一种数据生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的一种数据生成方法之前，首先对本公开中各个实施例所涉及的应用场景进行说明，本公开可以应用于训练翻译模型的过程中，其中，训练好的翻译模型可以用于翻译篇章级文本。

在一些实施例中，在篇章翻译的场景下，可以对原始篇章级文本进行拆分，得到多个句子级文本，以根据多个句子级文本对应的翻译结果，与原始篇章级文本，构造训练篇章级翻译模型的训练数据。然而，该方式存在以下特点：篇章中的句子之间存在复杂的依赖关系，篇章级文本简单拆分后，得到的多个句子级文本各自并未反映该依赖关系，造成最终生成的翻译结果上下文不一致、及连贯性不强。进而，使得通过此方式构造的训练数据，降低了模型的训练效果。除此之外，篇章翻译场景下，训练翻译模型所需的训练数据十分短缺，限制了篇章级翻译模型的广泛使用。

为此，本公开提出一种数据生成方法、装置及可读存储介质，通过预训练语言模型对加噪后的第一语言文本进行处理，可以生成与初始第一语言文本不同的目标第一语言文本，即生成存在翻译错误的目标第一语言文本，进而，基于目标第一语言文本的反翻译结果和目标第一语言文本构建训练数据，可以得到反映不同得分的训练数据，实现训练数据的多样化，提高翻译模型的训练效果；且无需额外训练预训练模型，极大的提高了生成训练数据的效率。

图1是根据一示例性实施例示出的一种数据生成方法的流程图，如图1所示，该方法可以包括以下步骤。

在步骤S11中，对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本。

在一些实施例中，初始第一语言文本是未进行任何处理的第一语言文本。第一语言文本可以是对需要进行翻译的文本，即源语言文本，进行翻译后得到的文本。第一语言文本可以是任何语言的文本。例如，英文、中文、德文等。在一些实施例中，初始第一语言文本可以是篇章级文本。篇章可以是由一系列连续的词、短语、子句、句子或段落构成的语言整体单位，篇章级文本可以是由该语言整体单位形成的文本。例如，论文、书籍、期刊等。可以理解的，篇章级文本可以包括大量(例如，四千、一万等)字符。

在一些实施例中，加噪后的第一语言文本可以是对初始第一语言文本进行加噪处理后，得到的文本。在一些实施例中，加噪处理可以包括以下的至少一种：替换初始第一语言文本中的至少一个词语、删除初始第一语言文本中的至少一个词语、删除初始第一语言文本中的至少一个词语片段、改变初始第一语言文本中的至少两个句子的顺序、以及对初始第一语言文本进行旋转。

在一些实施例中，对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本，可以包括：对初始第一语言文本进行删减替换加噪处理，得到加噪后的第一语言文本，加噪后的第一语言文本相对于初始第一语言文本缺失预设数量或预设位置的词。

可以理解的，删减替换加噪处理可以用于得到相对于初始第一语言文本缺失预设数量或预设位置的词的加噪后的第一语言文本。预设数量和预设位置可以根据实际情况进行具体设置。在一些实施例中，删减替换加噪处理可以包括以下至少一种：删除初始第一语言文本中的至少一个词语、删除初始第一语言文本中的至少一个词语片段。

在一些实施例中，当加噪处理为替换处理时，可以采用预设标记符替换初始第一语言文本中的至少一个词语。例如，预设标记符为MASK。其中，替换可以是随机替换。示例地，以初始第一语言文本包括的句子A，及句子A的词语序列为{a₁,a₂,a₃,a₄,a₅}为例，若替换句子A中的词语a₃，则加噪后的第一语言文本中句子A的词语序列变化为{a₁,a₂,MASK,a₄,a₅}。关于替换其他词语的方法与前述替换过程类似，在此不再赘述。

在一些实施例中，替换初始第一语言文本中的至少一个词语，可以包括：替换初始第一语言文本中除连接词和实体词以外的至少一个词语。连接词可以是指用于衔接句子的词语。例如，与因果、对照、总结、推断等相关的词语。实体可以是任意可以被描述的对象，例如，服务、人名和地名等。实体词可以是与实体对应的词语。通过对连接词和实体词以外的词语进行替换，可以尽可能保证加噪后的初始第一语言文本的整体结构不发生变化，使得后续生成的训练数据与真实的文本数据的领域更加匹配，进而使得翻译模型的训练效果更好。

在一些实施例中，可以随机删除初始第一语言文本中的至少一个词语。例如，以初始第一语言文本包括的句子A，及句子A的词语序列为{a₁,a₂,a₃,a₄,a₅}为例，若删除词语a₄和a₅，则加噪后的第一语言文本中句子A的词语序列变化为{a₁,a₂,a₃}。

在一些实施例中，词语片段可以是由连续的多个词语组成的片段。在一些实施例中，词语片段可以是初始第一语言文本包括的句子中的连续多个词语。值得说明的是，多个词语片段可以是初始第一语言文本中相同句子或不同句子包括的多个词语片段。例如，仍以上述句子A的词语序列为{a₁,a₂,a₃,a₄,a₅}为例，则多个词语片段可以包括：a₁-a₂、a₁-a₂-a₃,、a₂-a₃-a₄-a₅等。

在一些实施例中，可以随机删除第一语言文本中的至少一个词语片段。例如，仍以前述示例为例，则可以删除词语片段a₁-a₂或a₁-a₂-a₃,，则加噪后的第一语言文本中句子A的词语序列变化为{a₃,a₄,a₅}或{a₄,a₅}。在一些实施例中，至少一个词语片段中的每个词语片段的长度服从λ＝3的泊松分布。

在一些实施例中，对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本，可以包括：对初始第一语言文本进行乱序加噪处理，得到加噪后的第一语言文本，加噪后的第一语言文本相对于初始第一语言文本句子顺序或词序不同。

可以理解的，乱序加噪处理可以用于得到相对于初始第一语言文本句子顺序或词序不同的加噪后的第一语言文本。在一些实施例中，乱序加噪处理可以包括以下的至少一种：替换初始第一语言文本中的至少一个词语、改变初始第一语言文本中的至少两个句子的顺序、以及对初始第一语言文本进行旋转。

在一些实施例中，可以采用预设标记符替换初始第一语言文本中的至少一个词语。例如，预设标记符为MASK。其中，替换可以是随机替换。示例地，仍以初始第一语言文本包括的句子A的词语序列{a₁,a₂,a₃,a₄,a₅}为例，若替换句子A中的词语a₃，则加噪后的第一语言文本中句子A的词语序列变化为{a₁,a₂,MASK,a₄,a₅}。关于替换其他词语的方法与前述替换过程类似，在此不再赘述。

在一些实施例中，可以随机改变初始第一语言文本中的至少两个句子的顺序。在一些实施例中，可以以句号作为分隔符，将初始第一语言文本分为多个句子，并随机改变多个句子的顺序。例如，以初始第一语言文本的句子序列为{A,B,C,D,E}为例，则可以任意改变句子A至E的顺序，得到加噪处理后的第一语言文本的句子序列{D,E,A,B,C}。

在一些实施例中，对初始第一语言文本进行旋转可以是指随机选择一个句子，以这个句子为中心，并以选择的句子作为新的开头旋转初始第一语言文本。例如，仍以初始第一语言文本的句子序列为{A,B,C,D,E}为例，若以句子D为中心，对初始第一语言文本进行旋转，则加噪处理后的第一语言文本的句子序列为{D,E,A,B,C}。

在一些实施例中，可以对初始第一语言文本进行多种加噪处理，得到加噪后的第一语言文本。在一些实施例中，多种加噪处理可以包括删减替换加噪处理和乱序加噪处理。多种加噪处理的执行顺序可以根据实际情况具体设置，本公开并不对此做任何限制。例如，仍以初始第一语言文本的句子序列{A,B,C,D,E}，句子A的词语序列为{a₁,a₂,a₃,a₄,a₅}为例，若加噪处理包括：改变句子A和B的顺序→以句子D为中心，对初始第一语言文本进行旋转→删除句子A中的词语片段a₁-a₂→删除句子A中的词语a₄→替换句子A中的词语a₃，则加噪处理后的第一语言文本的句子序列为{D,E,B,A,C}，且其中句子A的词语序列为{MASK,a₅}。值得说明的是，为简化本公开的示例，初始第一语言文本包括的句子，及句子包括的词语并未进行穷举，本公开并不对句子数量和词语数量做任何限制。

在步骤S12中，根据预训练语言模型对所述加噪后的第一语言文本进行处理，得到目标第一语言文本。

在一些实施例中，目标第一语言文本可以是预训练语言模型对加噪后的第一语言文本进行重构，得到的文本。由于预训练语言模型对加噪的数据进行处理，因此，在一些实施例中，目标第一语言文本和初始第一语言文本的不同，即重构出的文本和真实的文本不同，存在还原错误的内容。

在一些实施例中，预训练语言模型可以是预先训练好的用于文本生成的神经网络模型。在一些实施例中，预训练语言模型可以是双向自回归变压器(BidirectionalandAuto-Regressive Transformers，BART)模型，BART模型是使用Transformer模型整体结构的预训练语言模型。BART模型在预训练时，首先使用多种噪声对输入文本进行破坏，然后通过序列到序列模型重建输入文本，得到输出样本。

在一些实施例中，BART模型可以包括编码器和解码器，其中，编码器使用BERT(Bidirectional Encoder Representations from Transformers,来自变换器的双向编码器)模型的编码器组件，该组件可以从两个方向对输入文本进行编码，以获得更多上下文信息。解码器使用了来自GPT(Generative Pre-Training，生成式的预训练)的解码器组件，该解码器组件用于重构输入文本。

在一些实施例中，BART模型可以处理包括预设数量的字符的加噪后的第一语言文本，因此，初始第一语言文本可以是包括预设数量的字符的语言文本。例如，两千字符。在一些实施例中，初始第一语言文本可以是对大篇章语言文本(例如，一万字符的语言文本)进行拆分后，得到的小篇章语言文本(例如，2千字符的语言文本)。在一些实施例中，可以通过对多个包括预设数量字符的初始第一语言文本执行本公开的数据生成方法，构造大量的训练数据，提高翻译模型训练的准确性。

由于BART模型在预训练的编码过程中使用了文本的上下文信息，即双向语义信息，使得BART模型重构出的目标第一语言文本更符合真实语言文本(即初始第一语言文本)的语义，其流畅度和连贯性更强。进而，使得目标第一语言文本的反翻译出的第二语言文本的流畅度和连贯性更强，利于后续生成训练数据。

在步骤S13中，对所述目标第一语言文本进行反翻译处理，得到第二语言文本。

在步骤S14中，基于所述目标第一语言文本和所述第二语言文本，得到用于训练翻译模型的训练数据。

在一些实施例中，反翻译处理可以是指由翻译得到的语言文本，反翻译为源语言文本的过程。在一些实施例中，第二语言文本可以是源语言文本。例如，目标第一语言文本为英文文本，则第二语言文本可以是中文文本。又例如，目标第一语言文本为德文文本，则第二语言文本可以是英文文本。第一语言文本和第二语言文本对应的语种不同。值得说明的是，第一语言文本和第二语言文本可以是任何语言互译所对应的文本，本公开并不对此做任何限制。

在一些实施例中，可以根据模型进行反翻译处理。如前所述，第一语言文本为篇章级文本，在一些实施例中，可以对篇章级文本进行拆分，得到句子级文本，以基于句子级文本进行反翻译处理。

在一些实施例中，对目标第一语言文本进行反翻译处理，得到第二语言文本，可以包括：对目标第一语言文本进行拆分，得到多个目标第一语言子文本；其中，第一语言子文本为句子级文本；根据反向翻译模型，对多个目标第一语言子文本进行反翻译处理，得到多个第二语言子文本；对多个第二语言子文本进行融合处理，得到所述第二语言文本。

在一些实施例中，多个目标第一语言子文本可以是对篇章级的目标第一语言文本进行句子拆分，得到的多个句子级文本。在一些实施例中，反向翻译模型可以是预先训练好的机器学习模型，训练好的反向翻译模型可以根据输入的第一语言子文本，输出第二语言子文本。第二语言子文本可以是第一语言子文本的源语言文本，可以理解的，第二语言子文本可以是句子级的文本。关于反向翻译模型的训练过程可以参见图2及其相关描述，在此不再赘述。

在一些实施例中，可以对多个第二语言子文本进行融合处理，得到第二语言文本。在一些实施例中，融合处理可以包括拼接。在一些实施例中，可以根据目标第一语言文本的句子结构，对多个第二语言子文本进行拼接。例如，仍以目标第一语言文本的句子序列为{A,B,C,D,E}为例，若多个第二语言子文本为A′、B′、C′、D′和E′，则对多个第二语言子文本A′、B′、C′、D′和E′的拼接顺序为A′→B′→C′→D′→E′。

在一些实施例中，可以基于目标第一语言文本和第二语言文本可以得到训练数据。其中，目标第一语言文本为翻译得到的语言文本，第二语言文本为源语言文本，通过目标第一语言文本和第二语言文本可以构建平行数据集，该平行数据集可以用于训练翻译模型。在一些实施例中，翻译模型可以是用于篇章级文本翻译的模型。

通过将篇章级的目标第一语言文本拆分为句子级的多个目标第一语言子文本；根据反向翻译模型，对多个目标第一语言子文本进行反翻译处理，得到的多个第二语言子文本；对多个第二语言子文本进行融合处理，得到第二语言文本。由于反翻译模型用于句子级文本翻译，训练方式简单，易于应用，可以提高得到翻译模型的训练数据的效率。且，由于目标第一语言文本更符合真实语言文本的语义，其流畅度和连贯性强，因此，基于目标第一语言文本拆分为的多个句子级的目标第一语言子文本，其虽然是句子级文本，但仍然考虑了上下文的语义信息，使得基于多个句子级的目标第一语言子文本得到的篇章级的第二语言文本的流畅度和连贯性更强。

除此之外，本公开采用在海量语料上预训练的BART模型，无需重新训练额外模型。同时，通过BART模型得到的加噪后的第一语言文本，不仅保留了初始第一语言文本的整体结构风格，还通过加噪增加了生成的语言文本的多样性，进而增加了最终生成的篇章级的第二语言文本的多样性，有效解决了篇章翻译场景下翻译模型的训练数据短缺的问题，有助于后续翻译模型的训练。

图2是根据一示例性实施例示出的训练反向翻译模型的流程图。如图2所示，该流程包括：

在步骤S21中，获取多个训练样本；其中，每个所述训练样本包括样本第一语言子文本和样本第二语言子文本；其中，所述样本第一语言子文本和所述样本第二语言子文本为所述句子级文本。

在一些实施例中，训练样本可以是输入至初始反向翻译模型中用于训练反向翻译模型的数据。在一些实施例中，样本第一语言子文本可以是句子级的翻译得到的目标语言文本，样本第二语言子文本可以是句子级的源语言文本。关于样本第一语言子文本和样本第二语言子文本的更多细节可以参见上述步骤S14及其相关描述，在此不再赘述。

在一些实施例中，可以通过数据库或调用相关接口获取多个训练样本。

在步骤S22中，基于多个训练样本迭代更新初始反向翻译模型的参数以减小各训练样本对应的损失函数值，得到训练好的反向翻译模型。

在一些实施例中，反向翻译模型可以是Transformer模型。在反向翻译模型的训练过程中，可以基于多个训练样本迭代更新初始反向翻译模型的参数。具体的，可以不断地调整初始反向翻译模型的参数，以减小各训练样本对应的损失函数值，使得损失函数值满足预设条件。例如，损失函数值收敛，或损失函数值小于预设值。当损失函数满足预设条件时，模型训练完成，得到训练好的反向翻译模型。训练好的反向翻译模型可以对目标第一语言子文本进行反翻译处理，得到第二语言子文本。

在一些实施例中，各训练样本对应的损失函数值通过以下过程确定：通过反向翻译模型处理样本第一语言子文本，得到预测的第二语言子文本；至少基于预测的第二语言子文本和样本第二语言子文本的差异，确定损失函数值。

图3是根据一示例性实施例示出的一种数据生成装置300的框图。参照图3，该装置包括加噪模块310，处理模块320、反翻译模块330、和训练数据确定模块340。

该加噪模块310被配置为对初始第一语言文本进行加噪处理，得到加噪后的第一语言文本。

该处理模块320被配置为根据预训练语言模型对所述加噪后的第一语言文本进行处理，得到目标第一语言文本。

该反翻译模块330被配置为对所述目标第一语言文本进行反翻译处理，得到第二语言文本。

该训练数据确定模块340被配置为基于所述目标第一语言文本和所述第二语言文本，得到用于训练翻译模型的训练数据。

在一些实施例中，所述第一语言文本为篇章级文本，所述反翻译模块330进一步被配置为：

对所述目标第一语言文本进行拆分，得到多个目标第一语言子文本；其中，所述第一语言子文本为句子级文本；

根据反向翻译模型，对所述多个目标第一语言子文本进行所述反翻译处理，得到多个第二语言子文本；

对所述多个第二语言子文本进行融合处理，得到所述第二语言文本。

在一些实施例中，所述加噪模块310进一步被配置为：对所述初始第一语言文本进行删减替换加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本缺失预设数量或预设位置的词。

在一些实施例中，所述加噪模块310进一步被配置为：对所述初始第一语言文本进行乱序加噪处理，得到加噪后的第一语言文本，所述加噪后的第一语言文本相对于所述初始第一语言文本句子顺序或词序不同。

在一些实施例中，所述预训练语言模型为双向自回归变压器模型。

在一些实施例中，所述装置进一步包括训练模块，所述训练模块被配置为：

基于多个训练样本迭代更新初始反向翻译模型的参数以减小各训练样本对应的损失函数值，得到训练好的反向翻译模型；

其中，各训练样本对应的损失函数值通过以下过程确定：

通过反向翻译模型处理所述样本第一语言文本，得到预测的第二语言子文本；

至少基于所述预测的第二语言子文本和所述样本第二语言子文本的差异，确定损失函数值。

在一些实施例中，所述反向翻译模型为Transformer模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种数据生成装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电力组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的数据生成方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述数据生成方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述数据生成方法。例如，非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的数据生成方法的代码部分。

本领域技术人员在考虑说明书及实践本公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：使用统计流数据进行不同语言之间的机器翻译

数据生成方法、装置及可读存储介质

相关技术

网友询问留言