一种语音合成方法、装置、电子设备和存储介质

文档序号：600198 发布日期：2021-05-04 浏览：16次 >En<

阅读说明：本技术 一种语音合成方法、装置、电子设备和存储介质 (Voice synthesis method and device, electronic equipment and storage medium ) 是由宋飞豹宋锐侯秋侠孟亚洲江源于 2020-12-31 设计创作，主要内容包括：本发明提供一种语音合成方法、装置、电子设备和存储介质,其中方法包括：确定待合成文本；将待合成文本输入至语音合成模型中,得到合成结果；语音合成模型是在用于提取文本特征的语言模型的基础上,通过样本文本及其对应的样本语音,联合基于文本特征的说话人识别模型对抗训练得到的。本发明提供的方法、装置、电子设备和存储介质,依赖于语言模型强大的文本理解能力,保证语音合成过程中对于韵律、音素层面信息预测的合理性,从而保证语音合成结果的可靠性和准确性,无需前端模块的加入,节省了大量的人力时间,尤其是在多语种的语音合成场景下,无需另外获取各语种的前端模块,极大降低了语音合成任务的实现难度,有助于语音合成应用的推广。(The invention provides a voice synthesis method, a voice synthesis device, electronic equipment and a storage medium, wherein the method comprises the following steps: determining a text to be synthesized; inputting a text to be synthesized into a voice synthesis model to obtain a synthesis result; the speech synthesis model is obtained by combining a speaker recognition model based on text features with a sample text and corresponding sample speech on the basis of a language model for extracting text features. The method, the device, the electronic equipment and the storage medium provided by the invention rely on the strong text understanding capability of the language model to ensure the rationality of rhythm and phoneme level information prediction in the speech synthesis process, thereby ensuring the reliability and the accuracy of a speech synthesis result, avoiding the addition of a front-end module, saving a large amount of labor time, particularly avoiding the need of additionally acquiring front-end modules of various languages in a multilingual speech synthesis scene, greatly reducing the realization difficulty of a speech synthesis task, and being beneficial to the popularization of speech synthesis application.)

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术

语音合成是指将输入的文本转换成语音输出的过程。多语种的语音合成可以实现不同多个语种的语音合成，其输入的文本可以是不同语种的文字。

目前的语音合成系统通常包含前端模块和语音合成模型两个部分，其中前端模块用于文本分析、韵律预测、文本音素转换等，这需要对语言知识进行详细了解，其构建过程需要耗费大量人力和时间投入。而在多语种的语音合成任务中，大量语种的前端模块极难获得，这对于多语种语音合成任务带来极大困难。

发明内容

本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中前端模块构建难度大导致语音合成实现困难的缺陷。

本发明提供一种语音合成方法，包括：

确定待合成文本；

将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于所述文本特征的说话人识别模型对抗训练得到的。

根据本发明提供的一种语音合成方法，所述将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果，包括：

将所述待合成文本输入至所述语音合成模型的文本编码层，得到所述文本编码层输出的文本特征；所述文本编码层是基于所述语言模型建立的；

将所述文本特征，或者将所述文本特征，以及目标声纹特征和/或目标语种特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果。

根据本发明提供的一种语音合成方法，所述文本编码层是与说话人识别模型对抗训练得到的，所述说话人识别模型用于对对抗文本特征进行说话人识别，所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。

根据本发明提供的一种语音合成方法，所述文本编码层包括多层卷积结构及与之串联的语言编码层，所述语言编码层的结构与所述语言模型的结构一致。

根据本发明提供的一种语音合成方法，所述将所述文本特征，或者将所述文本特征，以及目标声纹特征和/或目标语种特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果，包括：

将所述文本特征，或者将所述文本特征，以及所述目标声纹特征和/或目标语种特征输入至所述解码层的融合解码层，得到所述融合解码层输出的多个融合声学特征，每个融合声学特征对应预设数量个语音帧，所述预设数量为大于1的整数；

将所述文本特征和所述多个融合声学特征，或者将所述文本特征和所述多个融合声学特征，以及所述目标声纹特征和/或目标语种特征输入至所述解码层的通用解码层，得到所述通用解码层输出的所述合成结果。

根据本发明提供的一种语音合成方法，所述语音合成模型的损失函数是基于合成结果的损失值和融合声学特征的损失值，或者基于所述合成结果的损失值、所述融合声学特征的损失值以及目标声纹特征的损失值确定的。

根据本发明提供的一种语音合成方法，所述目标声纹特征是基于如下步骤确定的：

将目标说话人语音输入至声纹模型，得到所述声纹模型输出的所述目标声纹特征；

所述声纹模型是与语种识别模型对抗训练得到的，所述语种识别模型用于对对抗声纹特征进行语种识别，所述对抗声纹特征是对所述声纹模型的输出进行梯度反转得到的。

根据本发明提供的一种语音合成方法，所述声纹模型包括串联的残差网络和全连接层。

本发明还提供一种语音合成装置，包括：

文本确定单元，用于确定待合成文本；

语音合成单元，用于将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音,联合基于所述文本特征的说话人识别模型对抗训练得到的。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述语音合成方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法的步骤。

本发明提供的语音合成方法、装置、电子设备和存储介质，应用基于语言模型构建的端到端的语音合成模型实现待合成文本的语音合成，依赖于语言模型强大的文本理解能力保证语音合成过程中对于韵律、音素层面信息预测的合理性，从而保证语音合成结果的可靠性和准确性，在此过程中无需前端模块的加入，因此节省了大量的人力时间，尤其是在多语种的语音合成场景下，无需另外获取各语种的前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

此外，在语音合成模型的训练过程中，联合基于文本特征的说话人识别模型进行对抗训练，从而保证语音合成模型所提取的文本特征与说话人信息去相关，提高多语种的语音合成时，尤其是针对小语种的语音合成时合成结果的音色与目标音色的贴合程度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音合成方法的流程示意图；

图2是本发明提供的语音合成方法中步骤120的实施方式的流程示意图；

图3是本发明提供的文本编码层的训练结构示意图；

图4是本发明提供的语音合成方法中步骤122的实施方式的流程示意图；

图5是本发明提供的声纹模型的训练结构示意图；

图6是本发明提供的语音合成模型的结构示意图；

图7是本发明提供的语音合成装置的结构示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在多语种统一建模的语音合成任务中，需要花费大量人力物力对各个语种进行前端处理，尤其是部分小语种，类似于印地语、阿拉伯语，其前端模块极难获取，多语种语音合成任务的实现难度很大。对此，本发明实施例提供了一种端到端的语音合成模型，无需前端模块即可实现从文本到语音声学特征的转换输出。图1是本发明提供的语音合成方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待合成文本。

具体地，待合成文本即需要进行语音合成的文本，待合成文本可以是用户直接输入的文本，也可以是人机交互过程中计算机自动生成的文本，还可以是通过扫描仪、手机、相机等图像采集设备采集得到图像，并对图像进行OCR(Optical Character Recognition，光学字符识别)得到的，本发明实施例对此不作具体限定。

步骤120，将待合成文本输入至语音合成模型中，得到语音合成模型输出的合成结果；语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于文本特征的说话人识别模型对抗训练得到的。

此处的语音合成模型的输入为待合成文本，输出为合成结果，即待合成文本对应的语音声学特征或者语音音频，从待合成文本到合成结果的转换可以通过端到端的语音合成模型实现，在此过程中，无需经过前端模块执行文本分析、韵律预测、文本音素转换，而是将对待合成文本进行分析编码的操作转移到端到端的语音合成模型内部，在对待合成文本进行文本编码的过程中提取待合成文本所对应的音律和音素层面的信息。

考虑到在缺少前端模块的情况，通用的特征提取方式难以保证对于文本的理解能力，由此提取所得的文本特征很难实现合理、可靠的韵律、音素层面的预测，对应生成的合成结果的合理性也难以保证。针对这一问题，本发明实施例在语言模型的基础上构建语音合成模型，此处的语言模型可以是BERT(Bidirectional Encoder Representation fromTransformers)或者m-BRT等在文本合成、语义理解等任务上具有突出表现的自然语言处理的预训练模型。依赖于语言模型本身对于文本理解的突出能力，基于语言模型构建语音合成模型能够加深语音合成模型对于输入的待合成文本的理解，从而保证语音合成模型在韵律、音素层面上的预测合理性。

在执行步骤120之前，还可以预先训练得到语音合成模型，语音合成模型的训练方法包括如下步骤：首先，基于预训练的语言模型的结构构建初始的语音合成模型结构，并基于语言模型的参数对初始的语音合成模型中用于文本编码部分的参数进行初始化；同时，收集大量样本文本及其对应的样本语音。随即，基于样本文本及其对应的样本语音，对初始化后的语音合成模型进行训练，从而得到训练完成的语音合成模型。

在此基础上，考虑到多语种的语音合成场景下，语音合成模型的训练样本中针对单一语种的样本语音，尤其是小语种的样本语音，极有可能是来自少数几个说话人的。而单个语种的样本语音对应说话人的数量少，会直接导致训练所得的语音合成模型中提取的文本特征与对应说话人相关联，由此合成的语音无论如何设置目标说话人，合成语音均会包含训练时该语种对应说话人的音色。

针对这一问题，本发明实施例在对语音合成模型进行训练时，联合了基于文本特征的说话人识别模型，与初始模型中基于语言模型构建的用于提取文本特征的部分进行对抗训练。此处，基于文本特征的说话人识别模型可以通过对输入的文本特征包含的说话人信息进行捕捉，从而识别文本特征所对应说话人，基于文本特征的说话人识别模型可以是基于样本文本的文本特征及其对应的说话人训练得到的。

具体在对抗训练时，初始模型中基于语言模型构建的部分提取所得的文本特征可以作为说话人识别模型的输入，针对于基于语言模型构建的部分，将提取的文本特征尽量与说话人信息去相关作为训练目标，针对于说话人识别模型的部分，将准确识别文本特征对应的说话人作为训练目标。由此使得对抗训练所得的基于语言模型构建的部分，在提取文本特征时，能够与说话人信息去相关，从而避免后续部分合成的语音中携带训练时该语种对应说话人的音色。

本发明实施例提供的方法，应用基于语言模型构建的端到端的语音合成模型实现待合成文本的语音合成，依赖于语言模型强大的文本理解能力保证语音合成过程中对于韵律、音素层面信息预测的合理性，从而保证语音合成结果的可靠性和准确性，在此过程中无需前端模块的加入，因此节省了大量的人力时间，尤其是在多语种的语音合成场景下，无需另外获取各语种的前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

基于上述实施例，语音合成模型包括文本编码层和解码层；图2是本发明提供的语音合成方法中步骤120的实施方式的流程示意图，如图2所示，步骤120包括：

步骤121，将待合成文本输入至语音合成模型的文本编码层，得到文本编码层输出的文本特征；文本编码层是基于语言模型建立的。

具体地，文本编码层用于对输入的待合成文本进行特征编码，从而输出待合成文本的文本特征。为了保证文本编码层具备优良的文本理解能力，提高所提取的文本特征的准确性，对应在语音合成模型的构建阶段，可以基于语言模型构建语音合成模型内部的文本编码层，由此将语言模型强大的文本理解能力迁移到文本编码层。

步骤122，将文本特征，或者将文本特征，以及目标声纹特征和/或待合成文本的语种特征输入至语音合成模型的解码层，得到解码层输出的合成结果。

具体地，解码层可以输入可以是待合成文本的文本特征，也可以在文本特征的基础上结合目标声纹特征和/或目标语种特征：

其中，目标声纹特征反映的是期望合成结果所具备的声纹特征，假设期望合成结果模拟的是说话人A的语音，则可以将说话人A的声纹特征作为目标声纹特征，在语音合成过程中指导合成结果的音色；目标语种特征即期望合成结果所应用语种的编码向量。目标语种特征通常应用于多语种的语音合成场景，在多语种的语音合成过程中指导合成结果的语种。

解码层可以对文本特征，或者对文本特征以及目标声纹特征和/或目标语种特征进行融合后的特征进行解码，从而预测待合成文本相对应的合成语音中各帧的声学特征，得到并输出合成结果。

基于上述任一实施例，图3是本发明提供的文本编码层的训练结构示意图，如图3所示，文本编码层是与说话人识别模型对抗训练得到的，说话人识别模型用于对对抗文本特征进行说话人识别，对抗文本特征是对文本编码层的输出进行梯度反转得到的。

具体地，文本编码层可以视为一个独立的模型与说话人识别模型进行对抗训练，对抗训练过程中，文本编码层的训练目标是对文本编码得到的文本特征与说话人信息去相关，尽量使得文本特征中不包含说话人信息，说话人识别模型的训练目标是尽量从文本特征中捕捉说话人信息以识别文本特征对应的说话人。

在文本编码层和说话人识别模型的对抗训练过程中，文本编码层和说话人识别模型相互博弈学习，从而在消除文本编码层输出的文本特征中与说话人相关的信息的同时，提高说话人识别模型对于文本特征中与说话人相关的信息的捕捉能力和辨别能力。具体可以将样本文本输入至文本编码层中，由文本编码层输出样本文本的文本特征，再将样本文本的文本编码进行梯度反转(Gradient Reversal Layer，GRL)，将梯度反转后的文本特征输入说话人识别模型进行说话人识别，此处的梯度反转可以起到使其前后连接的文本编码层和说话人识别模型训练目标相反的目的，最终使得说话人识别模型无法识别文本编码层提取的文本特征对应的说话人，以达到对抗的效果。对抗训练所得的文本编码层所提取的文本特征能够与说话人信息去相关，从而避免后续部分合成的语音中携带训练时该语种对应说话人的音色。

基于上述任一实施例，文本编码层包括多层卷积结构及与之串联的语言编码层，语言编码层的结构与语言模型的结构一致。

具体地，为了提高文本编码层的特征提取能力，可以在语言模型的结构基础上作进一步的改进，具体可以在与语言模型同结构的语言编码层之前，添加多层卷积结构。此处所指的多层卷积结构可以由多个卷积层构成，输入文本编码层的待合成文本在经过多层卷积结构进行特征提取后，提取所得的特征再输入到语言编码层中作进一步的特征提取和编码，从而保证文本编码层具备强大的文本特征提取能力，以提高语音合成的可靠性和准确性。

基于上述任一实施例，解码层包括融合解码层和通用解码层；图4是本发明提供的语音合成方法中步骤122的实施方式的流程示意图，如图4所示，步骤122包括：

步骤1221，将文本特征，或者将文本特征，以及目标声纹特征和/或目标语种特征输入至解码层的融合解码层，得到融合解码层输出的多个融合声学特征，每个融合声学特征对应预设数量个语音帧，预设数量为大于1的整数。

步骤1222，将文本特征和多个融合声学特征，或者将文本特征和多个融合声学特征，以及目标声纹特征和/或目标语种特征输入至解码层的通用解码层，得到通用解码层输出的合成结果。

具体地，目前通用的解码方式是直接应用输入的特征，预测待合成文本对应语音中每个语音帧的声学特征。但是上述解码方式在模型训练阶段，对于解码层而言，其学习难度很高。考虑到这种情况，本发明实施例在通用的解码方式的基础上，增加了融合解码层，以实现较粗粒度的声学特征的预测解码，并将融合解码层输出的较粗粒度的声学特征也作为较细粒度即通用的解码方式执行时的参考，指导应用通用的解码方式进行语音合成的通用解码层能够更容易地完成语音合成。对应在解码层中，融合解码层用于实现针对于多个语音帧的较粗粒度的语音解码，通用解码层用于实现针对于单个语音帧的较细粒度的语音解码。

其中，融合解码层可以基于输入的文本特征，或者基于输入的文本特征，以及目标声纹特征和/或目标语种特征进行融合后的特征进行解码，从而预测待合成文本相对应的合成语音中每预设数量个语音帧的融合声学特征。不同于通常的声学特征与语音帧之间存在一一对应的关系，此处的一个融合声学特征对应合成语音中的预设数量个连续语音帧，预设数量是预先设置好的，例如预设数量为8时，融合解码器可以每8个语音帧预测一个融合声学特征。

通用解码层可以基于输入的文本特征和各融合声学特征，或者基于输入的文本特征、各融合声学特征，以及目标声纹特征和/或目标语种特征进行融合后的特征进行解码，从而预测待合成文本相对应的合成语音中每个语音帧的声学特征，得到并输出合成结果。在此过程中，融合声学特征可以对对应多个语音帧的声学特征的预测起到参考和辅助的作用，从而降低各语音帧对应声学特征的预测难度。

本发明实施例提供的方法，通过参考每预设数量个语音帧对应的一个融合声学特征，预测各语音帧对应的声学特征，降低了语音合成过程的解码难度，有助于提高语音合成效率。

基于上述任一实施例，语音合成模型的损失函数是基于合成结果的损失值和融合声学特征的损失值，或者基于合成结果的损失值、融合声学特征的损失值以及目标声纹特征的损失值确定的。

具体地，合成结果的损失值表征训练过程中语音合成模型针对样本文本输出的预测合成结果与样本语音对应的声学特征之间的差距。

融合声学特征的损失值表征训练过程中语音合成模型针对样本文本得到的多个预测融合声学特征和样本融合声学特征之间的差距，此处所指的样本融合声学特征可以是对样本语音中各语音帧的声学特征按照每预设数量个语音帧为一组进行分组融合得到的，此处的融合可以是将一组内的预设数量个语音帧的声学特征取平均，作为该组的样本融合声学特征。

目标声纹特征的损失值可以是训练过程中语音合成模型针对样本文本输出的预测合成结果的声纹特征与目标声纹特征之间的差距。

针对于语音合成模型中融合解码层的设置，可以将语音合成模型的训练过程中融合声学特征的损失值也计入损失函数，从而加速语音合成模型中解码层的收敛速度，进一步降低语音合成模型中解码层的学习难度。

此外，在损失函数中加设目标声纹特征的损失值，可以保证语音合成模型所合成语音的音色与目标声纹特征所表征的音色尽量一致。此处，目标声纹特征的损失值可以表示为预测合成结果的声纹特征与目标声纹特征之间的相似度，相似度的衡量方式可以是余弦相似度、欧氏距离相似度等。

例如，针对于基于合成结果的损失值、融合声学特征的损失值以及目标声纹特征的损失值确定的损失函数Loss，可以表示为如下形式：

Loss＝t+avgloss+cosi(e_i,s_i)；

avgloss＝MSE(PAM,AM)；

式中，t表示合成结果的损失值，avgloss表示融合声学特征的损失值，cosi(e_i,s_i)表示目标声纹特征的损失值。其中，avgloss是基于均方误差(Mean Square Error，MSE)损失函数计算得到的，PAM表示的是语音合成模型针对样本文本得到的预测融合声学特征，AM表示的是样本语音的样本融合声学特征；cosi(e_i,s_i)表示e_i和s_i之间的余弦相似度，e_i表示预测合成结果的声纹特征，s_i为目标声纹特征。

传统的声纹模型，例如ivector、xvector和dvector对单语种的声纹提取均有不错的效果，但是对跨语种的效果往往不是很好，例如中国人说中文和中国人说英语，在音色上往往会出现较大的差别。而传统的声纹模型并没有考虑过到一点，导致提取所得的声纹特征与语种之间存在强相关性，如果直接应用这样的声纹特征进行语音合成，会直接影响合成语音的音色，例如利用说话人A说中文时的语音提取说话人A的声纹特征，并作为目标声纹特征指导英语的语音合成，会导致合成语音的音色实际上仍是说话人A说中文时的音色，与说话人实际上说英语时的音色存在较大差别。

针对这一问题，基于上述任一实施例，目标声纹特征是基于如下步骤确定的：

将目标说话人语音输入至声纹模型，得到声纹模型输出的目标声纹特征；声纹模型是与语种识别模型对抗训练得到的，语种识别模型用于对对抗声纹特征进行语种识别，对抗声纹特征是对声纹模型的输出进行梯度反转得到的。

具体地，图5是本发明提供的声纹模型的训练结构示意图，如图5所示，声纹模型可以与语种识别模型进行对抗训练。在对抗训练过程中，声纹模型的训练目标是对提取的声纹特征与语种信息去相关，尽量使得声纹特征中不包含语种信息，语种识别模型的训练目标是尽量从声纹特征中捕捉语种信息以识别声纹特征对应的语种。

在声纹模型和语种识别模型的对抗训练过程中，声纹模型和语种识别模型相互博弈学习，从而在消除声纹模型输出的声纹特征中与语种相关的信息的同时，提高语种识别模型对于声纹特征中与语种相关的信息的捕捉能力和辨别能力。具体可以将样本语音输入至声纹模型中，由声纹模型输出样本语音的声纹特征，再将样本语音的声纹特征进行梯度反转，将梯度反转后的声纹特征输入语种识别模型进行语种识别，此处的梯度反转可以起到使其前后连接的声纹模型和语种识别模型训练目标相反的目的，最终使得语种识别模型无法识别声纹模型提取的声纹特征对应的语种，以达到对抗的效果。对抗训练所得的声纹特征所提取的声纹特征能够与语音信息去相关。

基于如此训练所得的声纹模型进行声纹提取，可以保证输入语音合成模型的目标声纹特征与语种无关，目标声纹特征在跨语种的语音合成过程中不会带来语种层面上的干扰，从而保证合成结果的音色。

此外，通用的声纹模型，例如dvector模型GE2E(GENERALIZED END-TO-END)，采用LSTM(Long Short-Term Memory，长短期记忆网络)作为模型结构，但是由于LSTM的结构特征，新一帧的执行必须要等到上一帧执行结束之后才能开始，导致运行LSTM的GPU(Graphics Processing Unit，图形处理器)的并行计算优势无法发挥。

对此，基于上述任一实施例，声纹模型包括串联的残差网络和全连接层。

具体地，为了充分利用GPU的并行计算优势，本发明实施例对于声纹模型的模型结构进行了改进，将声纹模型中通用的LSTM结构替换成为了残差网络Resnet和全连接层fuseconnect的组合形式，由此搭建的声纹模型，不再需要逐帧执行特征编码，可以直接实现输入语音中各语音帧的并行编码，能够有效提高声纹特征的提取效率。

基于上述任一实施例，图6是本发明提供的语音合成模型的结构示意图，图6中实线示出的是语音合成模型预测过程中应用的模块，包括文本编码层、融合解码层和通用解码层。虚线示出的是仅在训练过程中应用的模块，包括梯度反转和说话人识别模型。

语音合成模型具体可以划分为编码部分和解码部分：

其中编码部分即文本编码层，是在语言模型BERT的基础上额外增加多层卷积结构实现的。此处的多层卷积结构具体可以是3层卷积。针对文本编码层，其初始的参数可以是BERT的与训练参数，且在语音合成模型的训练过程中，可以不固定文本编码层的初始的参数，而是以较低的学习率进行参数更新，例如可以以1e-6左右的学习率进行此部分的参数更新，以使得文本编码层相较于BERT本身更适应多语种的语音合成环境。

此外，考虑到多语种的语音合成场景下，训练样本中单个语种的样本语音对应说话人的数量少，会直接导致训练所得的语音合成模型中文本编码层提取的文本特征与对应说话人相关联，在文本编码层的训练阶段，引入梯度反转和说话人识别模型，实现文本编码层和说话人识别模型的对抗训练，使得对抗训练所得的文本编码层所提取的文本特征能够与说话人信息去相关，从而避免后续部分合成的语音中携带训练时该语种对应说话人的音色。

解码部分可以基于tacotron模型中的解码器构建，解码部分具体包括融合解码层和通用解码层，其中融合解码层可以结合文本特征、目标声纹特征和目标语种特征，预测合成语音中每预设数量个语音帧对应的一个融合声学特征，通用解码层可以结合文本特征、目标声纹特征、目标语种特征以及各个融合声学特征，预测合成语音中每个语音帧对应的声学特征，从而得到合成结果。此处的声学特征可以是mel特征。融合解码层的设置，降低了语音合成过程的解码难度，有助于提高语音合成效率。

下面对本发明提供的语音合成装置进行描述，下文描述的语音合成装置与上文描述的语音合成方法可相互对应参照。

图7是本发明提供的语音合成装置的结构示意图，如图7所示，该装置包括：

文本确定单元710，用于确定待合成文本；

语音合成单元720，用于将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于文本特征的说话人识别模型对抗训练得到的。

本发明实施例提供的装置，应用基于语言模型构建的端到端的语音合成模型实现待合成文本的语音合成，依赖于语言模型强大的文本理解能力保证语音合成过程中对于韵律、音素层面信息预测的合理性，从而保证语音合成结果的可靠性和准确性，在此过程中无需前端模块的加入，因此节省了大量的人力时间，尤其是在多语种的语音合成场景下，无需另外获取各语种的前端模块，极大降低了语音合成任务的实现难度，有助于语音合成应用的推广。

基于上述任一实施例，语音合成单元720包括：

编码子单元，用于将所述待合成文本输入至所述语音合成模型的文本编码层，得到所述文本编码层输出的文本特征；所述文本编码层是基于所述语言模型建立的；

解码子单元，用于将所述文本特征，或者将所述文本特征，以及目标声纹特征和/或目标语种特征输入至所述语音合成模型的解码层，得到所述解码层输出的合成结果。

基于上述任一实施例，所述文本编码层是与说话人识别模型对抗训练得到的，所述说话人识别模型用于对对抗文本特征进行说话人识别，所述对抗文本特征是对所述文本编码层的输出进行梯度反转得到的。

基于上述任一实施例，所述文本编码层包括多层卷积结构及与之串联的语言编码层，所述语言编码层的结构与所述语言模型的结构一致。

基于上述任一实施例，解码子单元用于：

基于上述任一实施例，所述语音合成模型的损失函数是基于合成结果的损失值和融合声学特征的损失值，或者基于所述合成结果的损失值、所述融合声学特征的损失值以及目标声纹特征的损失值确定的。

基于上述任一实施例，该装置还包括声纹提取单元，声纹提取单元用于：

将目标说话人语音输入至声纹模型，得到所述声纹模型输出的所述目标声纹特征；

基于上述任一实施例，所述声纹模型包括串联的残差网络和全连接层。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行语音合成方法，该方法包括：确定待合成文本；将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于所述文本特征的说话人识别模型对抗训练得到的。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的语音合成方法，该方法包括：确定待合成文本；将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于所述文本特征的说话人识别模型对抗训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的语音合成方法，该方法包括：确定待合成文本；将所述待合成文本输入至语音合成模型中，得到所述语音合成模型输出的合成结果；所述语音合成模型是在用于提取文本特征的语言模型的基础上，通过样本文本及其对应的样本语音，联合基于所述文本特征的说话人识别模型对抗训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

18页详细技术资料下载

一种语音合成方法、装置、电子设备和存储介质

相关技术

网友询问留言