语音处理模型的生成方法、装置、设备以及存储介质

文档序号：1939866 发布日期：2021-12-07 浏览：29次 >En<

阅读说明：本技术 语音处理模型的生成方法、装置、设备以及存储介质 (Method, device and equipment for generating voice processing model and storage medium ) 是由赵情恩于 2021-10-27 设计创作，主要内容包括：本公开提供了一种语音处理模型的生成方法,涉及人工智能领域,进一步涉及深度学习、语音识别、机器翻译技术领域。具体实现方案为：利用非源语种数据和第一源语种数据对第一初始网络进行训练,得到语音编码模块,语音编码模块用于根据输入的源语种音频,输出对应的源语种词向量；利用第二源语种数据对第二初始网络进行训练,得到文本预测模块,文本预测模块用于根据输入的源语种词向量,输出对应的关联词向量；根据语音编码模块、文本预测模块以及文本翻译模块,生成语音处理模型,语音处理模型用于根据输入的源语种音频,输出对应的目标语种文本。根据本公开的技术,可以有效降低模型的训练成本并提高模型的训练效率。(The disclosure provides a generation method of a voice processing model, relates to the field of artificial intelligence, and further relates to the technical field of deep learning, voice recognition and machine translation. The specific implementation scheme is as follows: training the first initial network by using the non-source language data and the first source language data to obtain a voice coding module, wherein the voice coding module is used for outputting a corresponding source language word vector according to the input source language audio; training the second initial network by using second source language data to obtain a text prediction module, wherein the text prediction module is used for outputting a corresponding associated word vector according to an input source language word vector; and generating a voice processing model according to the voice coding module, the text prediction module and the text translation module, wherein the voice processing model is used for outputting a corresponding target language text according to the input source language audio. According to the technology disclosed by the invention, the training cost of the model can be effectively reduced, and the training efficiency of the model can be improved.)

技术领域

本公开涉及人工智能领域，进一步涉及深度学习、语音识别、机器翻译技术领域，尤其涉及语音处理模型的生成方法、装置、设备以及存储介质。

背景技术

相关技术中，端到端语音翻译技术存在的最主要的技术问题是训练数据的限制。根据语音翻译的任务需求，其训练输入是源语种语言的语音，训练目标是输出对应的目标语种的文本，这样的“源语音-目标文本”数据对的获取成本很高，已有的训练数据难以形成规模。而端到端语音翻译模型往往参数量巨大，需要大规模的训练数据。

发明内容

本公开提供了一种语音处理模型的生成方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种语音处理模型的生成方法，包括：

利用非源语种数据和第一源语种数据对第一初始网络进行训练，得到语音编码模块，语音编码模块用于根据输入的源语种音频，输出对应的源语种词向量；

利用第二源语种数据对第二初始网络进行训练，得到文本预测模块，文本预测模块用于根据输入的源语种词向量，输出对应的关联词向量；

根据语音编码模块、文本预测模块以及文本翻译模块，生成语音处理模型，语音处理模型用于根据输入的源语种音频，输出对应的目标语种文本。

根据本公开的另一方面，提供了一种语音处理方法，包括：

将待处理源语种音频输入语音处理模型，得到待处理音频对应的目标语种文本；其中，语音处理模型采用根据本公开上述实施例的语音处理模型的生成方法得到。

根据本公开的另一方面，提供了一种语音处理模型的生成装置，包括：

语音编码模块生成模块，用于利用非源语种数据和第一源语种数据对第一初始网络进行训练，得到语音编码模块，语音编码模块用于根据输入的源语种音频，输出对应的源语种词向量；

文本预测模块生成模块，用于利用第二源语种数据对第二初始网络进行训练，得到文本预测模块，文本预测模块用于根据输入的源语种词向量，输出对应的关联词向量；

语音处理模型生成模块，用于根据语音编码模块、文本预测模块以及文本翻译模块，生成语音处理模型，语音处理模型用于根据输入的源语种音频，输出对应的目标语种文本。

根据本公开的另一方面，提供了一种语音处理装置，包括：

输入模块，用于将待处理源语种音频输入语音处理模型；

接收模块，用于从语音处理模型接收待处理音频对应的目标语种文本；其中，语音处理模型采用根据本公开上述实施例的语音处理模型的生成装置得到。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行本公开任一实施例中的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现本公开任一实施例中的方法。

根据本公开的技术，打破了训练数据量对端到端语音翻译模型的限制，可以有效地利用现有的存量训练数据，充分挖掘非源语种数据、第一源语种数据以及第二源语种数据的训练价值，降低了获取训练数据的时间和经济成本，从而降低了模型的训练成本并提高了模型的训练效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示出根据本公开实施例的语音处理模型的生成方法的流程图；

图2示出根据本公开实施例的语音处理模型的生成方法的生成语音处理模型的具体流程图；

图3示出根据本公开实施例的语音处理模型的生成方法的对语音编码模块、文本预测模块以及连接层进行联合训练的具体流程图；

图4示出根据本公开实施例的语音处理模型的生成方法的训练第三初始网络的具体流程图；

图5示出根据本公开实施例的语音处理模型的生成方法的训练第一初始网络的具体流程图；

图6示出根据本公开实施例的语音处理模型的生成方法的将非源语种音频样本输入第一初始网络的具体流程图；

图7示出根据本公开实施例的语音处理模型的生成方法的训练第二初始网络的具体流程图；

图8示出根据本公开实施例的语音处理模型的生成方法的对源语种词向量序列进行预处理的具体流程图；

图9示出根据本公开实施例的语音处理模型的生成方法的生成文本翻译模块的具体流程图；

图10示出根据本公开实施例的语音处理模型的生成方法的对源语种文本样本进行预处理的具体流程图；

图11示出根据本公开实施例的语音处理模型的生成方法的应用示例图；

图12示出根据本公开实施例的语音处理方法的流程图；

图13示出根据本公开实施例的语音处理模型的生成装置的框图；

图14示出根据本公开实施例的语音处理装置的框图；

图15是用来实现本公开实施例的语音处理模型的生成方法和/或语音处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参照图1至图11描述根据本公开实施例的语音处理模型的生成方法。

如图1所示，本公开实施例的语音处理模型的生成方法具体包括以下步骤：

S101：利用非源语种数据和第一源语种数据对第一初始网络进行训练，得到语音编码模块，语音编码模块用于根据输入的源语种音频，输出对应的源语种词向量；

S102：利用第二源语种数据对第二初始网络进行训练，得到文本预测模块，文本预测模块用于根据输入的源语种词向量，输出对应的关联词向量；

S103：根据语音编码模块、文本预测模块以及文本翻译模块，生成语音处理模型，语音处理模型用于根据输入的源语种音频，输出对应的目标语种文本。

在本公开的下列描述中，第一预设条件至第五预设条件可以为根据实际情况预设的各种收敛条件，本公开对此不作具体限定。

示例性地，在步骤S101中，非源语种数据可以包括非源语种音频样本和对应的非源语种标注词向量，第一源语种数据可以包括源语种音频样本和对应的源语种词向量。其中，非源语种可以是除源语种和目标语种以外的其他语种，优选地，非源语种可以选用预先建立的标注数据量较大的数据集的语种。例如，非源语种可以为英语，非源语种数据可以采用LibriSpeech(一种公开的大规模英文语音数据库)；在源语种为汉语的情况下，源语种可以采用AiShell(一种公开的大规模中文语音数据库)。

在一个示例中，步骤S101可以基于迁移学习的策略对第一初始网络进行预训练。可以理解的是，语音编码模块所进行的语音识别针对的是人声，由于人体的相同的生理构造，因此针对不同语种的音频识别，语音编码器具备一定的通用特性。

具体而言，先利用数据量较大的非源语种数据对第一初始网络进行训练。将非源语种音频样本输出第一初始网络，根据第一初始网络输出的非源语种预测词向量和非源语种标注词向量之间的差异，反向更新第一初始网络的参数，经过多轮迭代，得到符合第一预设条件的待选语音编码模块。其中，待选语音编码模块可以根据输入的非源语种音频，输出与非源语种音频对应的非源语种词向量。其中，第一初始网络可以为初始的语音编码模块。

然后，对待选语音编码模块的输出层进行调整以使待选语音编码模块可以输出源语种词向量，并利用数据量较小的源语种数据对待选语音编码模块继续训练调优。具体地，将源语种音频样本输入待选语音编码模块，根据待选语音编码模块输出的源语种预测词向量和源语种标注词向量之间的差异，反向更新待选语音编码模块的参数，经过多轮迭代，得到符合第二预设条件的语音编码模块。可以理解的是，语音编码模块可以用于根据输入的源语种音频，输出与源语种音频对应的源语种词向量。

示例性地，在步骤S102中，第二源语种数据可以包括源语种文本样本和对应的源语种标注关联词向量。具体地，利用词向量编码表对源语种文本样本进行预处理，得到源语种文本样本对应的词向量序列样本，然后将词向量序列样本输入第二初始网络，根据第二初始网络输出的源语种预测关联词向量和源语种标注关联词向量之间的差异，对第二初始网络的参数进行调整，直至得到符合第四预设条件的文本预测模块。

示例性地，在步骤S103中，可以先将语音编码模块的输出和文本预测模块的输出通过连接层进行联合，得到语音识别模型。可以理解的是，语音识别模型根据输入的源语种音频，并利用连接层对语音编码模块输出的词向量和文本预测模块输出的关联侧向量进行联合，最终输出源语种音频对应的源语种文本。然后，将语音识别模型的输出及连接层的输出连接至预先训练的文本翻译模块，并利用源语种音频样本和目标语种标注文本进行联合训练，最终得到语音处理模型。

其中，文本翻译模型用于根据输入的源语种文本，输出与源语种文本对应的目标语种文本。

下面以一个应用示例描述根据本公开实施例的语音处理模型的生成方法。其中，生成的语音处理模型用于根据输入的源语种为汉语的音频，输出目标语种为西班牙语的文本，非源语种可以为英文。

具体而言，首先，获取非源语种数据和第一非源语种数据。非源语种数据可以根据LibriSpeech获取得到英文音频样本和对应的标注词向量；第一非源语种数据可以根据AiShell获取得到中文音频样本和对应的标注词向量。根据迁移学习的策略，利用非源语种数据对第一初始网络进行训练，得到待选语音编码模块。其中，待选语音编码模块用于根据输入的英文音频，输出对应的英文词向量。然后，对待选语音编码模块的输出层进行调整，以使待选语音编码模块的输出层可以输出中文词向量，利用第一源语种数据对待选语音编码模块进行训练，得到符合收敛条件的语音编码模块。其中，语音编码模块可以根据输入的中文音频，输出对应的中文文本。

其次，获取第二源语种数据。其中，第二源语种数据同样可以根据AiShell获取得到中文文本样本和对应的中文标注关联词向量。利用第二源语种数据对第二初始网络进行训练，直至得到符合收敛条件的文本预测模块。

再次，利用连接层对语音编码模块的输出和文本预测模块的输出进行联合，得到语音识别模型。

最后，将语音识别模型的输出连接至预先训练的文本翻译模块的输入，并利用中文音频样本和对应的西班牙与标注文本对语音识别模型和文本翻译模块进行联合训练，得到语音识别模型。

根据本公开实施例的语音处理模型的生成方法，通过利用非源语种数据和第一源语种数据对第一初始网络进行单独训练并得到语音编码模块，以及利用第二源语种数据对第二初始网络进行单独训练并得到文本预测模块，最终根据语音编码模块、文本预测模块以及预先训练的文本翻译模块，生成语音处理模型，相比于相关技术中用于将源语种音频翻译为目标语种文本的端到端语音翻译模型需要大量的“源语种音频样本-目标语种标注文本”训练数据对，本公开实施例的方法通过对音频处理模型的各个模块进行预训练并将得到的各个模块进行联合的生成方式，降低了对“源语种音频样本-目标语种标注文本”训练数据对的大规模数据量的需求，从而打破了训练数据量对端到端语音翻译模型的限制，实现了在训练数据稀疏场景下对端到端语音翻译模型的训练，可以有效地利用现有的存量训练数据，充分挖掘非源语种数据、第一源语种数据以及第二源语种数据的训练价值，降低了获取训练数据的时间和经济成本，从而降低了模型的训练成本并提高了模型的训练效率。

如图2所示，在一种实施方式中，步骤S103包括：

S201：将语音编码模块的输出和文本预测模块的输出均连接至连接层的输入，将连接层的输出连接至文本翻译模块的输入，得到第三初始网络，其中，第三初始网络的输入包括语音编码模块的输入，第三初始网络的输出包括文本翻译模块的输出；

S202：训练第三初始网络，得到语音处理模型。

示例性地，在步骤S201中，连接层可以采用连接变换层Joint，连接层用于根据语音编码模块输出的源语种词向量以及文本预测模块输出的源语种关联词向量，输出源语种词向量序列，即源语种文本。

其中，语音编码模块、文本预测模块和连接层共同构成语音识别模型。语音识别模型的输入包括语音编码模块的输入，语音识别模型的输出包括连接层的输出，即语音识别模型可以根据输入的源语种音频，输出对应的源语种文本。然后，通过将语音识别模型的输出连接至预先训练的文本翻译模块的输入，得到第三初始网络。

可以理解的是，虽然语音编码模块、文本预测模块以及文本翻译模块在联合之前已经分别进行了预训练，但为了确保各个模块的输入和输出之间的适配性，还需对第三初始网络进一步训练，以对第三初始网络中各个模块的参数进行微调，进而得到符合收敛条件的语音处理模型。

根据上述实施方式，通过设置连接层可以对预先训练的语音编码模块输出和文本预测模块的输出进行联合，并通过连接层输出源语种文本，从而得到语音识别模型。并且，通过将各个模块联合得到的第三初始网络进行训练，可以进一步调整第三初始网络中各个模块的参数，以使最终得到的语音处理模型的输出符合收敛条件。

如图3所示，在一种实施方式中，步骤S201中的在将连接层的输出连接至文本翻译模块的输入之前，还包括：

S301：将连接层的输出连接至文本预测模块的输入；

S302：利用源语种音频样本和对应的源语种标注文本，对语音编码模块、文本预测模块以及连接层进行联合训练，直至连接层的输出符合第三预设条件。

可以理解的是，在将连接层的输出连接至文本预测模块的输入之后，文本预测模块根据连接层输出的源语种词向量序列，输出对词向量序列预测的下一个关联词向量，连接层根据语音编码模块输出的源语种词向量以及文本预测模块输出的源语种关联词向量进行联合映射后，输出源语种词向量序列，即源语种文本。

示例性地，在步骤S302中，首先，将源语种音频样本输入语音编码模块，语音编码模块输出相应的源语种预测词向量；连接层根据语音编码模块输出的源语种预测词向量以及文本预测模块输出的零向量或随机词向量进行联合映射，输出第一源语种词向量序列；文本预测模块根据连接层输出的第一源语种词向量序列，输出对应的源语种关联词向量至连接层，连接层再次根据文本预测模块输出的源语种关联词向量和语音编码模块输出的源语种词向量进行联合映射，并输出第二源语种词向量序列。

根据第二源语种词向量序列和源语种标注文本对应的词向量序列的差异，对连接层的权重参数以及语音编码模块和文本预测模块的参数进行调整，直至二者的差异符合阈值条件。其中，在二者的差异不符合阈值条件的情况下，则将连接层的输出再次输入至文本预测模块再次进行迭代，以不断对连接层的权重参数以及模块的参数进行调整。值得说明的是，在前几次迭代的过程中，仅对连接层的权重参数进行调整，而不对语音编码模块和文本预测模块的参数进行调整。

进一步地，第二源语种词向量序列和源语种标注文本对应的词向量序列的差异，可以利用CTC(Connectionist Temporal Classification，一种用于对应输入序列和输出序列的算法)或RNN-T(Recurrent Neural Network Transducer，一种在CTC算法基础上进行改进的算法)确定，并根据计算出的损失值，利用随机梯度下降法反向更新连接层的权重参数。

通过上述实施方式，可以实现对语音编码模块、文本预测模块以及连接层的参数进行联合调整，以提高语音识别模型的语音识别精度。

如图4所示，在一种实施方式中，步骤S202包括：

S401：利用源语种音频样本和对应的目标语种文本，对第三初始网络进行训练，得到语音处理模型。

示例性地，源语种音频样本可以是第一源语种数据中包含的源语种音频样本，目标语种文本可以通过对源语种音频样本进行机器标注或人工标注得到。

更为具体地，将源语种音频样本输入第三初始网络的语音编码模块，然后通过第三初始网络的文本翻译模块输出目标语种预测文本，利用损失函数计算目标语种预测文本和目标语种文本之间的差异，并根据差异利用随机梯度下降的方式调整第三初始网络中各个模块的参数，直至差异符合阈值条件，得到语音处理模型。

通过上述实施方式，可以在将各个模块进行联合并得到第三初始网络的基础上，进一步对第三初始网络中各个模块的参数进行调整，以使得到的语音处理模型的输出符合收敛条件。

如图5所示，在一种实施方式中，非源语种数据包括非源语种音频样本和对应的非源语种标注词向量，第一源语种数据包括源语种音频样本和对应的源语种标注词向量，步骤S101包括：

S501：将非源语种音频样本输入第一初始网络，根据第一初始网络输出的非源语种预测词向量和非源语种标注词向量，对第一初始网络的参数进行调整，直至得到符合第一预设条件的待选语音编码模块；

S502：对待选语音编码模块的输出层参数进行调整，并将源语种音频样本输入待选语音编码模块，根据待选语音编码模块输出的源语种预测词向量和源语种标注词向量，对待选语音编码模块的参数进行调整，直至得到符合第二预设条件的语音编码模块。

示例性地，第一初始网络可以包括多个BLSTM层(Bi-directional Long ShortTerm Mermory network，双向长短时记忆网络)，例如可以由8个BLSTM层构成。

在步骤S501中，将非源语种音频样本输入第一初始网络并得到第一初始网络输出的非源语种预测词向量，根据非源语种预测词向量和非源语种标注词向量之间的差异，调整第一初始网络的参数。

其中，非源语种预测词向量和非源语种标注词向量之间的差异可以利用CTC或RNN-T计算得到。根据计算得到的损失值，利用梯度随机下降法对第一初始网络的参数进行调整更新，经过多轮迭代，得到符合第一预设条件的待选语音编码模块。

在步骤S502中，可以对待选语音编码模块的输出层进行调整，以使待选语音编码模块可以输出源语种词向量。

可以理解的是，待选语音编码模块可以包括输入层、多个隐含层以及输出层。针对非源语种是英语的待选语音编码模块针对26个英文字母以及数字或符号等，输出层包括与上述输出对象一一对应的多个输出节点，其中，输出层相连的隐含层与输出层之间具有一个变换矩阵，例如128*26的变换矩阵。针对源语种是汉语的语音编码模块，通过将待选语音编码模块的输出层的多个输出节点替换为与汉语相对应的多个输出节点，并替换输出层相连的隐含层与输出层之间的变换矩阵，即可使调整后的待选语音编码模块具备输出汉语词向量的能力。

进一步地，将源语种音频样本输入调整后的待选语音编码模块并得到待选语音编码模块输出的源语种预测词向量，根据源语种预测词向量和源语种标注词向量之间的差异，调整第一初始网络的参数。

其中，源语种预测词向量和源语种标注词向量之间的差异同样可以利用CTC或RNN-T计算得到。根据计算得到的损失值，利用梯度随机下降法对待选语音编码模块的参数进行调整更新，经过多轮迭代，得到符合第二预设条件的语音编码模块。

根据上述实施方式，基于迁移学习的策略，通过利用非源语种数据对第一初始网络进行训练并得到待选语音编码模块，然后利用源语种数据对待选语音编码模块继续训练并得到语音编码模块，可以充分利用现有的数据量规模较大的非源语种数据对第一初始网络进行初步训练得到具有一定语音编码能力的待选语音编码模块，从而充分挖掘非源语种数据的价值，并且降低了对源语种数据的需求量，降低了语音编码模块的训练成本。

如图6所示，在一种实施方式中，步骤S501中的将非源语种音频样本输入第一初始网络，包括：

S601：对非源语种音频样本进行分帧处理，得到帧音频数据；

S602：对帧音频数据进行特征提取处理，得到音频特征；

S603：对音频特征进行归一化处理，并将归一化处理后的音频特征输入第一初始网络。

示例性地，在步骤S601中，具体可以按照每帧25ms时长、且帧移为10ms时长的方式对非源语种音频样本进行分帧处理。

在步骤S602中，可以对每个帧音频数据分别提取梅尔倒谱系数，得到每个帧音频数据对应的音频特征。在本公开的其他示例中，也可以对每个帧音频数据提取频域特征(Filter Bank，FBank)得到帧音频数据对应的音频特征，或者对帧音频数据提取感知线性预测特征(Perceptual Linear Predictive，PLP)。

在步骤S603中，可以对音频特征进行减均值除标准差的方式进行归一化处理。

可以理解的是，在对非源语种音频样本进行分帧处理并得到多个帧音频数据，以及对各帧音频数据依次进行特征提取和归一化处理后，得到非源语种音频数据对应的音频特征序列。第一初始网络根据输入的音频特征，输出每个音频特征对应的词向量。

需要说明的是，在步骤S502中的将源语种音频样本输入第一初始网络，可以对源语种音频样本采用与步骤S601至S602相似或相同的处理方法得到源语种音频样本对应的音频特征序列，并输入至第一初始网络。

通过上述实施方式，在将非源语种音频样本输入第一初始网络之前通过对非源语种音频样本进行预处理，可以使第一初始网络的输入对象的序列化，相应的输出对象也进行了序列化，从而使最终训练得到的语音编码模块的输出结果更加精准。

如图7所示，在一种实施方式中，第二源语种数据包括源语种词向量序列和对应的源语种标注关联词向量，步骤S102包括：

S701：对源语种词向量序列进行预处理，得到词向量序列样本；

S702：将词向量序列样本输入第二初始网络，根据第二初始网络输出的源语种预测关联词向量和源语种标注关联词向量，对第二初始网络的参数进行调整，直至得到符合第四预设条件的文本预测模块。

其中，第二初始网络可以包括多个BLSTM层，例如，第二初始网络可以由两个BLSTM层构成。

示例性地，可以预先收集一定量(例如10万条以上的)的源语种文本语料构建源语种文本语料库，并对源语种文本进行清洗符号作归一化处理，包括去除特殊符号(例如“@”、“*”、“％”等)、规整数字单位符号(例如“2010年”、“kg”等)、以及进行分词处理，以得到统一格式的干净文本语料，然后通过词向量训练工具训练得到各个源语种词语对应的词向量。其中，词向量训练工具可以采用Word2Vec(Word to Vector，一种用来产生词向量的相关模型)等。

在步骤S701中，源语种词向量序列可以从源语种文本语料库中获取，并对源语种词向量序列进行随机的模拟采样处理，生成词向量序列样本。其中，词向量序列样本可以包含重复的词向量或者零向量等与语义无关的向量。

在步骤S702中，可以根据第二初始网络输出的源语种预测关联词向量和源语种标注关联词向量的差异，对第二初始网络的参数进行调整。

其中，第二初始网络输出的源语种预测关联词向量和源语种标注关联词向量的差异可以利用交叉熵损失函数计算得到。

通过上述实施方式，可以实现对第二初始网络的训练，并且通过对源语种词向量序列进行预处理，得到的词向量序列样本与实际的语音音频更加贴近，例如包含重复词向量或零向量等，从而使文本预测模块可以更精准的预测语音识别场景下的关联词向量。

如图8所示，在一种实施方式中，步骤S701包括：

S801：对源语种词向量序列随机插入重复词向量和/或空白标记。

需要说明的是，针对语音编码模块的训练过程，通常利用CTC或RNN-T计算输出结果的损失，该算法会将噪声或静音等没有语义意义的音频映射到空白标记上。通过对源语种词向量序列进行上述操作得到词向量序列样本，可以使文本预测模块的输出与语音编码模块的输出更好地匹配，从而使语音识别模型的输出与文本翻译模块的输入更好地匹配。

因此，通过上述实施方式，可以提高文本预测模块的输出与其他模块的适配性。

如图9所示，在一种实施方式中，文本翻译模块的生成方法包括：

S901：获取源语种文本样本和对应的目标语种标注文本；

S902：对源语种文本样本进行预处理，得到源语种词向量序列样本；

S903：将源语种词向量序列样本输入初始文本翻译模块，根据初始文本翻译模块输出的目标语种预测文本和目标语种标注文本，对初始文本翻译模块的参数进行调整，直至得到满足第五预设条件的文本翻译模块。

示例性地，初始文本翻译模块可以包括文本编码器和文本解码器，其中，文本编码器可以由5个BLSTM层构成，文本解码器可以由2个LSTM(Long Short-Term Memory，长短时记忆网络)层以及一个注意力层构成。

源语种文本样本可以从预先建立的源语种文本语料库中获取，源语种文本样本对应的目标语种文本可以通过机器标注或人工标注的方式得到。

在将源语种词向量序列样本输入初始文本翻译模块并得到初始文本翻译模块输出的目标语种预测文本后，可以利用交叉熵损失函数计算二者之间的差异，并根据差异反向更新初始文本翻译模块的参数，经过多轮迭代直至二者之间的差异满足收敛条件，得到满足第五预设条件的文本翻译模块。

通过上述实施方式，在针对初始文本翻译模块的训练过程中，可以充分利用第二源语种数据对初始文本翻译模块进行训练，从而提高对源语种数据的利用率。

如图10所示，在一种实施方式中，步骤S902包括：

S1001：获取源语种文本样本对应的词向量序列；

S1002：对词向量序列随机插入重复词向量和/或空白标记。

示例性地，在步骤S1001中，可以利用预先建立的词向量编码表对源语种文本样本进行处理，以得到源语种文本样本对应的词向量序列。

在步骤S1002中，可以采用与步骤S801相同或相似的方法对词向量序列进行模拟采用处理，此处不再赘述。

根据上述实施方式，通过对源语种文本样本对应的词向量序列进行随机处理，可以使训练得到的文本翻译模块的输入与语音识别模型的输出相匹配，从而提高语音识别模型和文本翻译模块的联合效果。

下面参照图11以一个具体应用示例，描述根据本公开实施例的语音处理模型的生成方法。

如图11所示，该语音处理模型的生成方法具体包括如下步骤：

步骤1：生成源语种词向量，预先收集一定量(例如10万条以上的)的源语种文本语料构建源语种文本语料库，并对源语种文本进行清洗符号作归一化处理，包括去除特殊符号(例如“@”、“*”、“％”等)、规整数字单位符号(例如“2010年”、“kg”等)、以及进行分词处理，以得到统一格式的干净文本语料，然后通过词向量训练工具训练得到各个源语种词语对应的词向量。其中，词向量训练工具可以采用Word2Vec(Word to Vector，一种用来产生词向量的相关模型)等。

步骤2：预训练语音预测器(enc_s)，干净的源语种文本语料通过词向量表示后，利用模拟采样方法插入重复和空白，训练语音识别模块的预测器(pred)，输入当前的词向量预测下一个词向量，预测结果和标注之间的损失值采用交叉熵损失函数计算得到，根据损失值对预测器的参数进行调整，直至得到符合收敛条件的语音预测器。

步骤3：预训练语音编码器，收集一定量的非源语种的音频数据(例如英文开源数据集LibriSpeech)，对音频进行分帧并提取特征，通过减均值除标准差做归一化处理，然后将得到的音频特征输入到语音编码器中，根据预测结果与标注在CTC(或RNN-T)准则下的损失值，根据随机梯度下降算法反向更新语音编码器的参数，直至得到符合收敛条件的语音编码器。

步骤4：微调语音编码器，收集一定量的源语种音频与对应文本标注，在上一步得到的英语语音编码器的基础上训练得到源语种语音编码器。

步骤5：联合训练语音编码器与预测器，将步骤2得到的语音预测器和步骤4得到的语音编码器，通过连接层(joint)连接起来，利用步骤4中的训练数据进行联合训练。其中，在最初的几次训练中，仅有连接层的权重参数被调整。

步骤6：收集一定量(10万以上)的源文本-目标文本的翻译数据对，训练机器翻译模型，其中，对输入对象做模拟采样插入重复和空白标记。

步骤7：移除上一步训练得到的机器翻译模型的输入，将步骤5得到的语音识别模型的输出连接到机器翻译模型，使用源语种音频-源文本-目标文本数据集训练语音翻译模型。

步骤8：测试推理，训练过程中利用文本预测器输入的标注对应的向量；测试推理过程中输入的是计算得到的历史向量。

根据本公开实施例的另一方面，还提供了一种语音处理方法。

如图12所示，该语音处理方法包括：

S1201：将待处理源语种音频输入语音处理模型，得到待处理音频对应的目标语种文本；其中，语音处理模型采用根据本公开上述实施例的语音处理模型的生成方法得到。

根据本公开实施例的语音处理方法，通过利用根据本公开上述实施例的语音处理模型的生成方法得到的语音处理模型，可以实现将待处理源语种音频翻译成目标语种文本，且翻译结果较为精准。

根据本公开实施例的另一方面，还提供了一种语音处理模型的生成装置。

如图13所示，该语音处理模型的生成装置包括：

语音编码模块生成模块1301，用于利用非源语种数据和第一源语种数据对第一初始网络进行训练，得到语音编码模块，语音编码模块用于根据输入的源语种音频，输出对应的源语种词向量；

文本预测模块生成模块1302，用于利用第二源语种数据对第二初始网络进行训练，得到文本预测模块，文本预测模块用于根据输入的源语种词向量，输出对应的关联词向量；

语音处理模型生成模块1303，用于根据语音编码模块、文本预测模块以及文本翻译模块，生成语音处理模型，语音处理模型用于根据输入的源语种音频，输出对应的目标语种文本。

在一种实施方式中，语音处理模型生成模块1303包括：

第三初始网络生成子模块，用于将语音编码模块的输出和文本预测模块的输出均连接至连接层的输入，将连接层的输出连接至文本翻译模块的输入，得到第三初始网络，其中，第三初始网络的输入包括语音编码模块的输入，第三初始网络的输出包括文本翻译模块的输出；

第三初始网络训练子模块，用于训练第三初始网络，得到语音处理模型。

在一种实施方式中，第三初始网络生成子模块在将连接层的输出连接至文本翻译模块的输入之前，还用于：

将连接层的输出连接至文本预测模块的输入；

利用源语种音频样本和对应的源语种标注文本，对语音编码模块、文本预测模块以及连接层进行联合训练，直至连接层的输出符合第三预设条件。

在一种实施方式中，第三初始网络训练子模块还用于：

利用源语种音频样本和对应的目标语种文本，对第三初始网络进行训练，得到语音处理模型。

在一种实施方式中，非源语种数据包括非源语种音频样本和对应的非源语种标注词向量，第一源语种数据包括源语种音频样本和对应的源语种标注词向量，语音编码模块生成模块1301包括：

待选语音编码模块生成单元，用于将非源语种音频样本输入第一初始网络，根据第一初始网络输出的非源语种预测词向量和非源语种标注词向量，对第一初始网络的参数进行调整，直至得到符合第一预设条件的待选语音编码模块；

语音编码模块生成单元，用于对待选语音编码模块的输出层参数进行调整，并将源语种音频样本输入待选语音编码模块，根据待选语音编码模块输出的源语种预测词向量和源语种标注词向量，对待选语音编码模块的参数进行调整，直至得到符合第二预设条件的语音编码模块。

在一种实施方式中，待选语音编码模块生成单元还用于：

对非源语种音频样本进行分帧处理，得到帧音频数据；

对帧音频数据进行特征提取处理，得到音频特征；

对音频特征进行归一化处理，并将归一化处理后的音频特征输入第一初始网络。

在一种实施方式中，第二源语种数据包括源语种词向量序列和对应的源语种标注关联词向量，文本预测模块生成模块1302包括：

词向量序列样本生成子模块，用于对源语种词向量序列进行预处理，得到词向量序列样本；

文本预测模块生成子模块，用于将词向量序列样本输入第二初始网络，根据第二初始网络输出的源语种预测关联词向量和源语种标注关联词向量，对第二初始网络的参数进行调整，直至得到符合第四预设条件的文本预测模块。

在一种实施方式中，词向量序列样本生成子模块还用于：

对源语种词向量序列随机插入重复词向量和/或空白标记。

在一种实施方式中，用于生成文本翻译模块的生成模块包括：

获取子模块，获取源语种文本样本和对应的目标语种标注文本；

预处理子模块，用于对源语种文本样本进行预处理，得到源语种词向量序列样本；

文本翻译模块生成子模块，用于将源语种词向量序列样本输入初始文本翻译模块，根据初始文本翻译模块输出的目标语种预测文本和目标语种标注文本，对初始文本翻译模块的参数进行调整，直至得到满足第五预设条件的文本翻译模块。

在一种实施方式中，预处理子模块还用于：

获取源语种文本样本对应的词向量序列；

对词向量序列随机插入重复词向量和/或空白标记。

根据本公开实施例的另一方面，还提供了一种语音处理装置.

如图14所示，该语音处理装置包括：

输入模块1401，用于将待处理源语种音频输入语音处理模型；

接收模块1402，用于从语音处理模型接收待处理音频对应的目标语种文本；其中，语音处理模型采用根据本公开上述实施例的语音处理模型的生成装置得到。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图15示出了可以用来实施本公开的实施例的示例电子设备1500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器(ROM)1502中的计算机程序或者从存储单元1508加载到随机访问存储器(RAM)1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出(I/O)接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506，例如键盘、鼠标等；输出单元1507，例如各种类型的显示器、扬声器等；存储单元1508，例如磁盘、光盘等；以及通信单元1509，例如网卡、调制解调器、无线通信收发机等。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如语音处理模型的生成方法和/或语音处理方法。例如，在一些实施例中，语音处理模型的生成方法和/或语音处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的语音处理模型的生成方法和/或语音处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音处理模型的生成方法和/或语音处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

25页详细技术资料下载

语音处理模型的生成方法、装置、设备以及存储介质

相关技术

网友询问留言