端到端语音合成模型的优化方法及装置，电子设备

文档序号：513259 发布日期：2021-05-28 浏览：17次 >En<

阅读说明：本技术 端到端语音合成模型的优化方法及装置，电子设备 (Method and device for optimizing end-to-end speech synthesis model and electronic equipment ) 是由李睿端李健陈明武卫东于 2020-12-22 设计创作，主要内容包括：本发明提供了一种端到端语音合成模型的优化方法及装置,电子设备及存储介质,其中,方法包括：按照第一预设规则,对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡,生成第二文本；依次采用音素编码器对所述第二文本进行编码,采用可变信息预测器对编码后的所述第二文本进行预测处理后,得到第一输出；按照第二预设规则,对所述第一输出进行第二软遮挡；将经过所述第二软遮挡处理的所述第一输出,输入至预设解码器中解码得到梅尔谱。本发明提供的端到端语音合成模型的优化方法,对端到端语音合成模型的输入和解码器输入分别添加软遮挡,从而增加数据扰动,能够提升对端到端语音合成模型的鲁棒性。(The invention provides an optimization method and device of an end-to-end speech synthesis model, electronic equipment and a storage medium, wherein the method comprises the following steps: according to a first preset rule, performing first soft occlusion on phonemes contained in a text input into the end-to-end speech synthesis model to generate a second text; sequentially coding the second text by adopting a phoneme coder, and predicting the coded second text by adopting a variable information predictor to obtain a first output; performing second soft shielding on the first output according to a second preset rule; and inputting the first output subjected to the second soft occlusion processing into a preset decoder for decoding to obtain a Mel spectrum. According to the optimization method of the end-to-end speech synthesis model, soft shielding is added to the input of the end-to-end speech synthesis model and the input of a decoder respectively, so that data disturbance is increased, and the robustness of the end-to-end speech synthesis model can be improved.)

技术领域

本发明涉及语音合成技术领域，特别是涉及一种端到端语音合成模型的优化方法及装置，电子设备。

背景技术

一般而言如图1所示，TTS(text-to-speech，语音合成)分为文本分析(例如，文本正则化、多音字消歧等)模块、韵律预测模块、时长模型、声学模型和声码器等几个部分。处理过的文本经过韵律预测模块，输出带有韵律符号的文本，再进行字音转换等环节。目前主流的端到端模型，将时长模型和声学模型融合到一个模型中，文本通过前端生成音素信息，而端到端模型以音素信息作为输入，生成梅尔谱，再外接一个声码器，把声学特征信息转化为音频。在语音合成领域，常用的端到端模型分为两类：自回归模型和全并行模型。

TTS技术可以实现根据文本生成音频。语音合成技术经历了三个主要发展阶段，分别为拼接、参数合成、端到端合成方式。目前，业界主流的合成技术为端到端，因为利用端到端的方法合成的声音，能很大程度上脱离机器感，自然度高，同时对录音数据量要求较低。但是端到端合成也存在一定问题，这与端到端模型纯黑盒的结构有关。比如，对于含有显式时长模块的模型而言，其解码器容易对错误信息产生过拟合，从而影响最终合成的语音质量。可见，目前的端到端模型鲁棒性差，迫切需要本领域技术人员提供一种提升端到端模型鲁棒性的解决方式。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种端到端语音合成模型的优化方法及装置，电子设备。

第一方面，本发明实施例公开了一种端到端语音合成模型的优化方法，包括：按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；

依次采用音素编码器对所述第二文本进行编码，采用可变信息预测器对编码后的所述第二文本进行预测处理后，得到第一输出；

按照第二预设规则，对所述第一输出进行第二软遮挡；

将经过所述第二软遮挡处理的所述第一输出，输入至预设解码器中解码得到梅尔谱。

可选地，所述按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本的步骤，包括：

按照所述端到端语音合成模型中的第一预设权重，对输入所述端到端语音合成模型中的文本所包含的音素进行遮挡；

通过检测网络预测出音素在所述文本中各位置上出现错误的第一概率；

依据所述第一概率和所述第一预设权重，确定第一校正权重，其中，所述第一校正权重作为下一次软遮挡时的第一预设权重；

针对所述文本中的每个位置，依据所述第一校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

可选地，所述依据所述第一概率和所述第一预设权重，确定第一校正权重的步骤，包括：

将所述第一概率和所述第一预设权重的乘积，确定为所述第一校正权重。

可选地，所述按照第二预设规则，对所述第一输出进行第二软遮挡的步骤，包括：

按照所述端到端语音合成模型中的第二预设权重，对所述第一输出进行遮挡；

通过检测网络预测出音素在所述第一输出中各位置上出现错误的第二概率；

依据所述第二概率和所述第二预设权重，确定第二校正权重，其中，所述校正权重作为下一次软遮挡时的第二预设权重；

针对所述第一输出中的每个位置，依据所述第二校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

可选地，所述可变信息预测器包括：时长预测器、音高预测器以及能量预测器中的至少之一。

第二方面，本发明实施例公开了一种端到端语音合成模型的优化装置，所述装置包括：端到端语音合成模型的优化装置，应用于端到端语音合成模型，其中，所述装置包括：

第一遮挡模块，用于按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；

第一处理模块，用于依次采用音素编码器对所述第二文本进行编码，采用可变信息预测器对编码后的所述第二文本进行预测处理后，得到第一输出；

第二遮挡模块，用于按照第二预设规则，对所述第一输出进行第二软遮挡；

第二处理模块，用于将经过所述第二软遮挡处理的所述第一输出，输入至预设解码器中解码得到梅尔谱。

可选地，所述第一遮挡模型包括：

第一子模块，用于按照所述端到端语音合成模型中的第一预设权重，对输入所述端到端语音合成模型中的文本所包含的音素进行遮挡；

第二子模块，用于通过检测网络预测出音素在所述文本中各位置上出现错误的第一概率；

第三子模块，用于依据所述第一概率和所述第一预设权重，确定第一校正权重，其中，所述第一校正权重作为下一次软遮挡时的第一预设权重；

第四子模块，用于针对所述文本中的每个位置，依据所述第一校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

可选地，所述第三子模块具体用于：

将所述第一概率和所述第一预设权重的乘积，确定为所述第一校正权重。

可选地，所述第二遮挡模块包括：

第一子模块，用于按照所述端到端语音合成模型中的第二预设权重，对所述第一输出进行遮挡；

第二子模块，用于通过检测网络预测出音素在所述第一输出中各位置上出现错误的第二概率；

第三子模块，用于依据所述第二概率和所述第二预设权重，确定第二校正权重，其中，所述校正权重作为下一次软遮挡时的第二预设权重；

第四子模块，用于针对所述第一输出中的每个位置，依据所述第二校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

第三方面，本发明实施例公开了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的端到端语音合成模型的优化方法。

第四方面，本发明实施例公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项所述的端到端语音合成模型的优化方法。

本发明实施例中，按照第一预设规则，对输入端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；依次采用音素编码器对第二文本进行编码，采用可变信息预测器对编码后的第二文本进行预测处理后，得到第一输出；按照第二预设规则，对第一输出进行第二软遮挡；将经过第二软遮挡处理的第一输出，输入至预设解码器中解码得到梅尔谱，本申请实施例对端到端语音合成模型的输入和解码器输入分别添加软遮挡，从而增加数据扰动，能够提升对端到端语音合成模型的鲁棒性。

附图说明

图1是TTS模型的结构示意图；

图2是本发明实施例的一种对端到端语音合成模型优化方法的步骤流程图；

图3是本发明实施例的fast speech模型结构示意图；

图4是本发明实施例的一种端到端语音合成模型优化装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了本发明实施例的一种端到端语音合成模型优化方法的步骤流程图。

本发明实施例的端到端语音合成模型优化方法可以包括以下步骤：

步骤101：按照第一预设规则，对输入端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本。

输入端到端语音合成模型包括训练时长模块，由于训练时长模块通常需要其他模型或者强制对齐工具生成监督信息，若这部分信息有误，则这些错误信息就会一直向后传导，再加上解码器易发生过拟合，那么错误信息过拟合对后续的训练影响会更大。因此，需要对输入文本添加第一软遮挡，遮挡一部分信息，从而提高端到端语音合成模型的鲁棒性。

时长模块训练数据中最关键的对齐信息，通常由其他强制对齐工具生成。由于是工具直接生成，而非人工标注，因此其准确度存在问题。所以需要额外增加某些机制来降低这些错误信息对模型鲁棒性的影响。一种示例性地添加软遮挡的方式为：随机遮蔽15％的输入信息，然后训练模型去正确预测那些被屏蔽的输入(具体来讲，就是其中的80％会用[mask]即掩码来替代原始输入，其中10％会随机替换成其他输入，剩下10％保持原输入不变)，这样训练出来的信息则同时兼顾了上下文，且只有一定概率的输入被遮挡了，只要控制合适的概率，就基本不会损害模型的表达能力，还使得模型具有较强的鲁棒性。本申请实施例中添加soft-mask即软遮挡也是类似的原理。soft-mask最初是NLP(Natural LanguageProcessing，自然语言处理)中用来完成拼写纠正任务的，包括一个检测网络和一个基于bert校正网络。首先通过检测网络预测出字符在每个位置上出现错误的概率，然后利用这个刚刚预测出来的概率进行soft-mask。所谓soft-mask，其实是输入和掩码的加权，检测网络输出的概率则作为加权时的权重，把掩码特征和输入加到一起。接着，这个soft-mask信息会被输入到校正网络中，从而完成误差校正。本发明实施例中，把soft-mask应用于TTS模型输入中，尤其是时长模块的结果，因为时长信息作为解码器的输入，直接影响解码器的过拟合。

步骤102：依次采用音素编码器对第二文本进行编码，采用可变信息预测器对编码后的第二文本进行预测处理后，得到第一输出。

本申请实施例中，参照图3以端到端语音合成模型为Fast Speech模型为例进行说明。其中，Fast speech这类模型与自回归模型的差别，在于后者需要逐帧生成梅尔频谱，无法充分利用文本与语音之间的对齐信息。这也是自回归模型合成语音缺乏可控性的原因。fast speech采用基于transformer和attention的前馈神经网络，考虑到了文本和语音的对齐信息，可更好地控制文本的合成。对文本和语音的对齐信息起到最大影响的是模型中的时长模块，时长模块又是需要对其信息来训练的，若这部分信息不够准确，则会很大程度上影响后续解码器的训练效果，甚至会由于错误信息过拟合而影响最终的合成语音质量。因此，引入soft-mask，相当于对模型的输入和解码器输入加入一定比例的噪音，从而增加模型鲁棒性。

端到端模型中的时长模块(duration prediction)，可以完成某个音素对应几帧的时长预测。其训练数据包括对齐信息。对齐信息，可以简单理解为，根据标注文本，为一个音频序列中的每个音素分配某几帧的音频，例如，’你好(sil n i h ao sil)’这个序列中的’i’可以被对齐到音频的第5到第10帧。以图2的fast speech为例，时长预测发生在时长预测器这个模块中。时长预测器的目的是，将编码器的输出填充到与梅尔谱一致的长度。编码器的输出先进入时长预测，而时长模型则会返回出每个向量对应需要复制的次数。在Fast Speech模型输入和解码器输入分别添加soft-mask，使其不再仅仅依赖单帧数据，而尽可能多地参考前后帧信息。可参考bert中soft-mask的做法，全局预测出概率，然后利用此概率完成对输入的加权。其中，此概率可类似于转移概率，即对当前位置而言，当前帧出现的概率。

步骤103：按照第二预设规则，对第一输出进行第二软遮挡。

第一预设规则与第二预设规则可以相同，也可以不同，只要能实现对第一输出进行软遮挡即可。

步骤104：将经过第二软遮挡处理的第一输出，输入至预设解码器中解码得到梅尔谱。

预设解码器可以为梅尔谱解码器。

需要说明的是，本申请实施例提供的端到端语音合成模型优化方法，不仅仅适用于上述举例中所提及的fast speech模型，还可以适用于端到端语音合成的其他模型，如transformer_tts，也可以加入soft-mask机制。和fast speech模型不同的是，soft-mask应用于transformer_tts的编码器上。这与模型本身的结构有关。

本发明实施例中提供的端到端语音合成模型优化方法，按照第一预设规则，对输入端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；依次采用音素编码器对第二文本进行编码，采用可变信息预测器对编码后的第二文本进行预测处理后，得到第一输出；按照第二预设规则，对第一输出进行第二软遮挡；将经过第二软遮挡处理的第一输出，输入至预设解码器中解码得到梅尔谱，本申请实施例对端到端语音合成模型的输入和解码器输入分别添加软遮挡，从而增加数据扰动，能够提升对端到端语音合成模型的鲁棒性。

在一种可选地实施例中，所述按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本的步骤，包括：

首先，按照端到端语音合成模型中的第一预设权重，对输入端到端语音合成模型中的文本所包含的音素进行遮挡；

其次，通过检测网络预测出音素在文本中各位置上出现错误的第一概率；

再次，依据第一概率和第一预设权重，确定第一校正权重，其中，第一校正权重作为下一次软遮挡时的第一预设权重；

最后，针对文本中的每个位置，依据第一校正权重、预设的掩码特征对该位置对应的音素进行遮挡。

本可选地实施例中，每次文本输入均会调整模型中的预设权重，从而在训练过程中逐步提升端到端语音合成模型的鲁棒性。

在一种可选地实施例中，依据第一概率和所述第一预设权重，确定第一校正权重时，将第一概率和第一预设权重的乘积，确定为第一校正权重。

在一种可选地实施例中，按照第二预设规则，对第一输出进行第二软遮挡的方式可以如下：

按照端到端语音合成模型中的第二预设权重，对第一输出进行遮挡；通过检测网络预测出音素在第一输出中各位置上出现错误的第二概率；

依据第二概率和第二预设权重，确定第二校正权重，其中，校正权重作为下一次软遮挡时的第二预设权重；

针对第一输出中的每个位置，依据第二校正权重、预设的掩码特征对该位置对应的音素进行遮挡。

本可选地实施例中，通过对输入解码器的第一输出进行软遮挡，可在训练过程中逐步提升解码器的鲁棒性。

在一种可选地实施例中，可变信息预测器包括：时长预测器、音高预测器以及能量预测器中的至少之一。

参照图4，示出了本发明实施例的一种端到端语音合成模型优化装置的结构框图。

本发明实施例的端到端语音合成模型优化装置可以包括以下模块：

第一遮挡模块401，用于按照第一预设规则，对输入所述端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；

第一处理模块402，用于依次采用音素编码器对所述第二文本进行编码，采用可变信息预测器对编码后的所述第二文本进行预测处理后，得到第一输出；

第二遮挡模块403，用于按照第二预设规则，对所述第一输出进行第二软遮挡；

第二处理模块404，用于将经过所述第二软遮挡处理的所述第一输出，输入至预设解码器中解码得到梅尔谱。

可选地，所述第一遮挡模型包括：

第一子模块，用于按照所述端到端语音合成模型中的第一预设权重，对输入所述端到端语音合成模型中的文本所包含的音素进行遮挡；

第二子模块，用于通过检测网络预测出音素在所述文本中各位置上出现错误的第一概率；

第三子模块，用于依据所述第一概率和所述第一预设权重，确定第一校正权重，其中，所述第一校正权重作为下一次软遮挡时的第一预设权重；

第四子模块，用于针对所述文本中的每个位置，依据所述第一校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

可选地，所述第三子模块具体用于：

将所述第一概率和所述第一预设权重的乘积，确定为所述第一校正权重。

可选地，所述第二遮挡模块包括：

第一子模块，用于按照所述端到端语音合成模型中的第二预设权重，对所述第一输出进行遮挡；

第二子模块，用于通过检测网络预测出音素在所述第一输出中各位置上出现错误的第二概率；

第三子模块，用于依据所述第二概率和所述第二预设权重，确定第二校正权重，其中，所述校正权重作为下一次软遮挡时的第二预设权重；

第四子模块，用于针对所述第一输出中的每个位置，依据所述第二校正权重、预设的掩码特征对所述位置对应的音素进行遮挡。

可选地，所述可变信息预测器包括：时长预测器、音高预测器以及能量预测器中的至少之一。

本发明实施例中提供的端到端语音合成模型优化装置，按照第一预设规则，对输入端到端语音合成模型中的文本所包含的音素进行第一软遮挡，生成第二文本；依次采用音素编码器对第二文本进行编码，采用可变信息预测器对编码后的第二文本进行预测处理后，得到第一输出；按照第二预设规则，对第一输出进行第二软遮挡；将经过第二软遮挡处理的第一输出，输入至预设解码器中解码得到梅尔谱，本申请实施例对端到端语音合成模型的输入和解码器输入分别添加软遮挡，从而增加数据扰动，能够提升对端到端语音合成模型的鲁棒性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本发明的实施例中，还提供了一种电子设备。该电子设备可以包括一个或多个处理器，以及其上存储有指令的一个或多个机器可读介质，指令例如应用程序。当所述指令由所述一个或多个处理器执行时，使得所述处理器执行上述的查询语句生成方法。

在本发明的实施例中，还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序可由电子设备的处理器执行，以完成上述的查询语句生成方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种端到端语音合成模型优化方法及装置，电子设备及存储介质，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

13页详细技术资料下载

端到端语音合成模型的优化方法及装置，电子设备

相关技术

网友询问留言