支持多说话人风格、语言切换且韵律可控的语音合成装置

文档序号:513262 发布日期:2021-05-28 浏览:8次 >En<

阅读说明:本技术 支持多说话人风格、语言切换且韵律可控的语音合成装置 (Voice synthesizer supporting multi-speaker style and language switching and controllable rhythm ) 是由 盛乐园 于 2021-01-05 设计创作,主要内容包括:本发明公开了一种支持多说话人风格、语言切换且韵律可控的语音合成装置,属于语音合成领域。包括:文本获取单元和文本预处理单元,其用于获取不同的文本数据并进行预处理;语言切换单元,其用于存储并展示不同语言类型的训练数据对应的说话人标签,并且自动识别待合成文本的语言类型;风格切换单元,其用于根据语言类型指定语音合成风格;说话人切换单元,其用于指定说话人;编码-解码单元,其用于获得预测梅尔频谱;训练单元,其用于对编码-解码单元进行训练;语音合成单元,其用于根据生成预测梅尔频谱,并转化为声音信号进行语音播放。本发明能够在产生韵律变化更加丰富的语音的同时可以对说话人和说话人风格的进行分别控制。(The invention discloses a voice synthesis device supporting multi-speaker style and language switching and controllable rhythm, belonging to the field of voice synthesis. The method comprises the following steps: the text preprocessing unit is used for preprocessing the acquired text data; the language switching unit is used for storing and displaying speaker labels corresponding to training data of different language types and automatically identifying the language type of the text to be synthesized; a style switching unit for specifying a speech synthesis style according to a language type; a speaker switching unit for designating a speaker; an encoding-decoding unit for obtaining a predicted Mel spectrum; a training unit for training the encoding-decoding unit; and the voice synthesis unit is used for generating the predicted Mel frequency spectrum according to the generated predicted Mel frequency spectrum and converting the predicted Mel frequency spectrum into a sound signal for voice playing. The invention can generate voice with richer prosodic change and simultaneously can respectively control the speaker and the style of the speaker.)

支持多说话人风格、语言切换且韵律可控的语音合成装置

技术领域

本发明属于语音合成领域,尤其涉及一种支持多说话人风格、语言切换且韵律可控的语音合成装置。

背景技术

近年来随着深度学习的发展,语音合成技术也得到了很大程度上的提高。语音合成从传统的参数法和拼接法走向了端到端的方式。它们通常是先由文本特征生成梅尔频谱,然后将梅尔频谱利用声码器像来合成语音。这些端到端的方法按照结构可以分为自回归的模型和非自回归的模型。自回归的模型通常采用编码器-注意力-解码器(Encoder-Attention-Decoder)机制进行自回归生成:要生成当前数据点,必须生成时间序列里前面的所有数据点作为模型输入,像Taoctron,Taoctron 2,Deep voice 3,Clarinet,Tansformer TTS。尽管自回归的模型能够生成令人满意的结果,但是如果Attention产生的注意力不够好,则可能会导致合成的语音中有重复或者漏字的现象。非自回归的模型能够并行化的由文本特征生成梅尔频谱,生成的速度要比自回归的模型快很多,像ParaNet,Fastspeech,Aligntts,Fastspeech 2。

现有的语音合成方法对合成语音的控制单一,无法针对多种语言的混合语音进行合成,更无法对多说话人的风格进行解耦分离,应用到其他说话人上。

因此,如何能够在既保证韵律可控的基础上,使得语音合成系统支持多说话人,并且可以对说话人的风格进行解耦分离应用到其他说话人之上,仍是计算机智能语音合成领域内尚未解决的问题。

发明内容

本发明的目的在于解决现有技术中的问题,一方面在韵律标注的文本、时长、能量和音高,四个特征对合成语音的韵律进行控制。另外一方面,可以支持数据集中只说一种语言的具有说两种语言的能力,进行语言的迁移,也可以将多说话人的风格从说话人的特征解耦出来,应用到其他说话人中,进行说话人风格的迁移。本发明通过对语音合成模型的优化,克服了语言和说话人风格对其他说话人的限制,实现了多说话人多语言风格可分离的、韵律可全面控制语音合成系统。

为了实现上述目的,本发明所采用的具体技术方案是:

一种支持多说话人风格、语言切换且韵律可控的语音合成装置,包括:

文本获取单元,其用于根据语音合成装置所处的模式获取不同的文本数据,包括在训练模式时获取带韵律标签的混合训练文本及对应的标准语音音频,并标记每一条标准语音音频的说话人标签;在预测模式时获取待合成文本;

文本预处理单元,其用于将文本转化为带韵律标签的音素序列,并且在训练模式时,还要根据文本对应的标准语音音频输出真实的梅尔频谱、真实的能量、真实的音高、真实的时长和对应的说话人标签;

语言切换单元,其用于存储并展示不同语言类型的训练数据对应的说话人标签,并且自动识别待合成文本的语言类型;

风格切换单元,其用于读取语言切换单元展示的文本的语言类型,根据语言类型设定第一说话人标签作为语音合成风格;

说话人切换单元,其用于设定第二说话人标签作为指定说话人;

在训练模式时,所述的第一说话人标签和第二说话人标签均为混合训练样本中标记的说话人标签;在预测模式时,所述的第一说话人标签和第二说话人标签由用户分别通过风格切换单元和说话人切换单元进行指定;

编码-解码单元,其包括编码器、韵律控制单元和解码器,所述的编码器用于对带韵律标签的音素序列、第一说话人标签和第二说话人标签进行编码;韵律控制单元用于预测并调节语音合成的时长、音高和能量;解码器用于对第一说话人编码信息、第二说话人编码信息、以及经韵律控制单元调节后的音高和能量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱;

训练单元,其用于对编码-解码单元进行训练,训练结束后保存为模型文件;

语音合成单元,其用于加载训练单元生成的模型文件,并读取文本获取单元中的待合成文本、风格切换单元设定的第一说话人标签、说话人切换单元设定的第二说话人标签作为模型的输入,生成预测梅尔频谱,并转化为声音信号进行语音播放。

进一步的,所述的韵律标签包含韵律词、韵律短语、语调短语、句末、字符边界。韵律标签的添加采用预训练的韵律短语边界预测模型实现,将待合成的文本输入至预训练的韵律短语边界预测模型中,输出带韵律标签的待合成的文本。

进一步的,所述多说话人标签指区分每个说话人的自然数序列。

进一步的,所述解码器由一个双向的LSTM和一个线性仿射变换组成。

进一步的,所述时长控制单元、音高控制单元、能量控制单元均由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。

本发明能够利用编码-解码单元、时长/能量/音高控制单元和神经网络解码器来实现对合成语音中的韵律进行控制的同时,进一步实现对多说话人和多说话人风格分离的支持。与现有技术相比,本发明具备的有益效果是:

(1)本发明的编码-解码单元包含了编码器、韵律控制单元和解码器,其中编码器用于对带韵律标签的音素序列、第一说话人标签和第二说话人标签进行编码;韵律控制单元用于预测并调节语音合成的时长、音高和能量;解码器用于对第一说话人编码信息、第二说话人编码信息、以及经韵律控制单元调节后的音高和能量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱。通过这种方式,实现了支持多说话人多语言的语音合成系统,使模型功能更加丰富,不仅能够支持语音合成的音高、能量、时长、韵律的控制,还能够在语音合成中指定说话人标签和说话风格标签,支持说话人进行语言和说话人风格的迁移,例如可以使得只会中文的朗读风格的说话人,迁移为会说英文的客服型风格的同一说话人。

(2)相比于传统的将多种模型分开构造的方法,本发明采用直接从文本到声学特征的方式,避免了单个模型预测错误对整体模型效果的影响,从而提高了模型的容错能力,降低了模型的部署成本;并且采用CBHG模块对当前以及上下文信息有效建模,提取更高级别的特征并提取序列的上下文特征,这种方式能够通过数据学习到更多人们难以定义的文本发音特征,从而有效地改善语音的发音效果。

(3)本发明的文本在输入到语音合成模型之前还包括了预处理的过程,即通过韵律短语边界预测的方式为文本添加韵律标签的过程,保证了文本韵律可控,解决了传统语音合成方法中由于合成语音的韵律停顿不自然,造成的长句合成自然度下降的缺陷;通过有监督的方式,对带韵律标注的文本、时长、能量和音高进行精细的控制,实现了更加全面的控制合成语音的韵律,合成出韵律变化更加丰富自然的语音;

(4)本发明通过引入时长控制单元控制单元,简化了语音合成模型训练的复杂度,由于传统的端到端语音合成模型采用注意力模块动态对齐文本和音频的过程需要大量的计算资源消耗以及时间消耗,而本发明避免了通过自回归注意力的形式进行文本和音频的对齐过程,从而降低了对计算资源的要求,节约了模型的计算成本。例如,可以将由一个中英文混合的模型替代传统的中文和英文两个独立的模型的目标,不仅对于中英混合的语音合成可以利用本发明的方法,对于其他混合语言也可以利用本发明进行解决。

附图说明

图1是本发明语音合成装置的整体示意图;

图2是本发明所用的音高/能量/时长控制单元的示意图;

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明针对于带韵律标注的多种语言类型的文本,从音频中提取的音素发音时长、能量、音高和梅尔频谱和音频对应的说话人标签作为训练集,相比于传统方案,本发明利用跳跃神经网络编码器更好地控制了合成语音中的韵律停顿信息,同时利用预测出的时长、能量和音高精细的控制了合成语音中每一帧的韵律发音信息,则能够更精确的控制合成语音的特性,并产生韵律变化更加丰富的语音。另一方面实现了对多说话人的支持,整个解决方案完全由一个模型完成,不需要先对文本进行语言的区分,降低了模型的复杂度。

如图1所示,本发明的一种支持多说话人风格、语言切换且韵律可控的语音合成装置,由以下单元构成:

文本获取单元,其用于根据语音合成装置所处的模式获取不同的文本数据,包括在训练模式时获取带韵律标签的混合训练文本及对应的标准语音音频,并标记每一条标准语音音频的说话人标签;在预测模式时获取待合成文本;

文本预处理单元,其用于将文本转化为带韵律标签的音素序列,并且在训练模式时,还要根据文本对应的标准语音音频输出真实的梅尔频谱、真实的能量、真实的音高、真实的时长和对应的说话人标签;

语言切换单元,其用于存储并展示不同语言类型的训练数据对应的说话人标签,并且自动识别待合成文本的语言类型;

风格切换单元,其用于读取语言切换单元展示的文本的语言类型,根据语言类型设定第一说话人标签作为语音合成风格;

说话人切换单元,其用于设定第二说话人标签作为指定说话人;

在训练模式时,所述的第一说话人标签和第二说话人标签均为混合训练样本中标记的说话人标签;在预测模式时,所述的第一说话人标签和第二说话人标签由用户分别通过风格切换单元和说话人切换单元进行指定;

编码-解码单元,其包括编码器、韵律控制单元和解码器,所述的编码器用于对带韵律标签的音素序列、第一说话人标签和第二说话人标签进行编码;韵律控制单元用于预测并调节语音合成的时长、音高和能量;解码器用于对第一说话人编码信息、第二说话人编码信息、以及经韵律控制单元调节后的音高和能量进行组合,并对组合后的编码信息进行解码,获得预测梅尔频谱;

训练单元,其用于对编码-解码单元进行训练,训练结束后保存为模型文件;

语音合成单元,其用于加载训练单元生成的模型文件,并读取文本获取单元中的待合成文本、风格切换单元设定的第一说话人标签、说话人切换单元设定的第二说话人标签作为模型的输入,生成预测梅尔频谱,并转化为声音信号进行语音播放。

在本发明的一项具体实施中,所述的文本预处理单元将文本转化为带韵律标签的音素序列,具体为:

针对文本中的不同语言类型,分别转成对应的发音音素,构建混合的音素字典;采用混合的音素字典将带有韵律标注的音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度。

在本发明的一项具体实施中,对所述的韵律控制单元进行了介绍。

所述的韵律控制单元包括:

时长控制单元,其用于对CBHG模块输出的文本编码信息和第一说话人编码信息进行时长的预测,输出预测的时长,并对预测的时长进行时长调节;

对齐单元,其用于根据时长控制单元输出的时长信息,将编码器输出的不含韵律标签的文本编码信息进行对齐,在训练模式时,需要达到和真实的梅尔频谱长度一致,在预测模式时,根据训练好的时长控制单元输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充,扩充后输出经过时长调节后的文本编码信息;

能量控制单元,其用于读取对齐单元输出的时长调节后的文本编码信息、以及第一说话人编码信息,生成预测的能量,并对预测的能量进行能量调节;

高音控制单元,其用于读取对齐单元输出的时长调节后的文本编码信息、以及第二说话人编码信息,生成预测的音高,并对预测的音高进行音高调节。

在本发明的一项具体实施中,对所述的对齐单元进行了介绍。

对齐单元的运算步骤为:将跳跃编码后不含韵律标签位置的文本编码信息t1,t2,…,tU′结合时长控制单元输出的时长信息进行长度扩充,长度扩充的标准为:在训练阶段,需要达到和真实的梅尔频谱的长度一致;在预测阶段,根据训练好的时长控制单元输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。

在本实施例中,所述的编码器中设有音素Embedding嵌入层、说话人Embedding嵌入层、CBHG模块、跳跃模块;

对于带韵律标签的音素序列w1,w2,…,wU,经过音素Embedding嵌入层转化为音素向量序列x1,x2,…,xU

对于输入的说话人标签si,i=1,2,3,...,经过说话人Embedding嵌入层转化为说话人向量序列Si

将转化的音素向量序列作为CBHG模块的输入,生成文本编码信息t1,t2,…,tU

根据文本编码信息t1,t2,…,tU和说话人向量序列Si预测时长;

将文本编码信息t1,t2,…,tU经过跳跃模块生成跳跃编码后不含韵律标签位置的文本编码信息t1,t2,…,tU′,其中U′<U,其中U′为去除韵律标签后的文本长度。

在本实施例中,通过训练单元对所述的编码-解码单元进行训练,具体为:

将带韵律标签的音素序列依次经过音素Embedding嵌入层和CBHG模块处理后得到文本编码信息,所述文本编码信息经过跳跃模块去除韵律标签;将第一说话人标签和第二说话人标签分别经过说话人Embedding嵌入层处理,得到第一说话人编码信息和第二说话人编码信息;

文本编码信息和第一说话人编码信息经时长控制单元获得带有说话人特性的预测的时长,并对预测的时长乘以时长调节因子,所述时长调节因子为1;

根据时长调节后的预测时长,对去除韵律标签后的文本编码信息进行对齐,获得时长调节后的文本编码信息;

将时长调节后的文本编码信息和第二说话人编码信息作为音高控制单元的输入,得到带有说话人特性的预测的音高,并对预测的音高乘以音高调节因子,所述音高调节因子为1;

将时长调节后的文本编码信息和第一说话人编码信息作为能量控制单元的输入,得到带有说话人特性的预测的能量,并对预测的能量乘以能量调节因子,所述能量调节因子为1;

将预测的音高、预测的能量、经过时长调节后的文本编码信息以及第一说话人编码信息进行组合后作为解码器的输入,得到预测的梅尔频谱;

根据预测的时长和真实的时长计算时长损失,根据预测的音高和真实的音高计算音高损失,根据预测的能量和真实的能量计算能量损失,根据预测的梅尔频谱和真实的梅尔频谱计算梅尔频谱损失;结合多种损失值对编码器、韵律控制单元和解码器进行端到端训练。

在本实施例中,所述的韵律标签包含韵律词、韵律短语、语调短语、句末、字符边界。

在本实施例中,所述的语音合成单元读取文本获取单元中的待合成文本后,需要对待合成文本添加韵律标签,韵律标签的添加采用预训练的韵律短语边界预测模型实现,将待合成的文本输入至预训练的韵律短语边界预测模型中,输出带韵律标签的待合成的文本。

所述的语音合成系统在使用之前需要先完成训练,训练过程需要根据预测时长和真实时长计算时长损失,根据预测音高和真实音高计算音高损失,根据预测能量和真实能量计算能量损失,根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失;结合多种损失值对混合语音合成模型进行端到端训练。

在本发明的一项具体的中英文实施过程中,文本预处理模块(前端)主要功能是接收文本数据,并对文本进行规范化,解析XML标签,将规范文本利用中英文混合的音素字典将带有韵律标注的中英文音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度。韵律标注过程具体为:韵律标签包含韵律词、韵律短语、语调短语、句末、字符边界,韵律标签的添加采用预训练的韵律短语边界预测模型实现,将待合成的文本输入至预训练的韵律短语边界预测模型中,输出带韵律标签的待合成的文本。训练阶段采用的训练样本可以为开源数据库中自带韵律标签的数据。

具体的,编码器的主要功能是训练学习出当前样本的音素序列的文本特征和说话人信息,从而能够将音素序列转化为能够代表文本和说话人特征的固定维度向量。相比于传统的参数法语音合成算法,编码器的功能与参数法中人工提取特征的步骤相似,编码器能够通过数据学习出具有代表性的特征向量,而人工提取特征的过程会消耗大量的人力来进行统计标准,大大增加了人力成本。另一方面,相比于人工提取特征可能造成的特征信息的不完全,通过学习的特征向量在数据覆盖全面的情况下能够学习到足够的特征信息。所述的解码器相比于传统的解码器结构简单,仅由一个双向的LSTM和一个线性仿射变换组成,大大提高了解码速度。

具体的,所述的时长控制单元和对齐单元用于将编码器输出的编码信息进行长度扩充,时长控制单元的引入简化了语音合成模型训练的复杂度,由于传统的端到端语音合成模型采用注意力模块动态对齐文本和音频的过程需要大量的计算资源消耗以及时间消耗,而本发明避免了通过自回归注意力的形式进行文本和音频的对齐过程,从而降低了对计算资源的要求,节约了模型的计算成本,实现了由一个中英文混合的模型替代传统的中文和英文两个独立的模型的目标。

此外,时长控制单元、音高控制单元、能量控制单元的引入使得韵律可以在时长、音高和能量三个方面实现调节,具体调节方式可以为在各个模块的输出值后添加一个可调的参数,为输出结果乘以一个系数即可实现。

在本发明的一项具体实施中,多说话人标签指区分每个说话人的自然数序列,其中第一说话人标签作为语音合成风格,第二说话人标签作为指定说话人。在训练模式时,第一说话人标签和第二说话人标签均为混合训练样本中标记的说话人标签;在预测模式时,所述的第一说话人标签和第二说话人标签由用户分别通过风格切换单元和说话人切换单元进行指定;例如,系统训练结束后,指定第二说话人采用第一说话人的风格进行语音合成,只需要通过风格切换单元设定第一说话人标签作为语音合成风格,通过说话人切换单元设定第二说话人标签作为指定说话人。按照这种方式,还可以实现只会中文的朗读风格的说话人,迁移为会说英文的客服型风格的同一说话人。

下面对本发明的语音合成装置的具体实现方法进行介绍。

步骤一、对于输入的带韵律标注的中英文文本数据序列进行预处理,作为跳跃神经网络编码器的输入;所述的跳跃神经网络编码器由音素Embedding嵌入层、CBHG模块、跳跃模块构成;

步骤二、对于跳跃神经网络编码器的输出,结合CBHG模块的输出和说话人Embedding嵌入层的输出,经过时长的调节得到时长调节后的文本编码信息;

步骤三、将时长调节后的文本编码信息和说话人Embedding嵌入层的输出一起作为音高控制单元和能量控制单元的输入,得到预测的音高和预测的能量;将预测的音高、预测的能量以及经过时长调节后的文本编码信息进行组合后和说话人Embedding嵌入层的输出一起作为解码器的输入,得到预测梅尔频谱;声码器输出合成的语音。

在本发明的一项具体实施中(以中英文为例),输入的文本在语音合成装置中的传输和处理过程为:

1)针对文本中的中文和英文分别转成对应的发音音素,构建中英文混合的音素字典;采用中英混合的音素字典将带有韵律标注的中英文音素映射到序列化数据,得到音素序列w1,w2,…,wU,其中U为文本的长度,wi表示文本中的第i个单词对应的音素信息。

2)针对多说话人构建多说话人字典;得到多说话人标签s1,s2,…,sk,其中k为说话人的个数。多说话人标签经过说话人Embedding嵌入层转化为说话人向量序列Si

3)对于序列化的文本数据(音素序列w1,w2,…,wU)经过音素Embedding嵌入层转化为音素向量序列x1,x2,…,xU,其中韵律标签包含韵律词(#1)、韵律短语(#2)、语调短语(#3)、句末(#4)、字符边界(#S)。

x1,x2,…,xU=Embedding(w1,w2,…,wU);

xi表示文本中的第i个单词对应的音素向量,Embedding(·)表示嵌入处理;例如,将一句文本“她把鞋子拎在手上光着脚丫故意踩在水洼里。”通过韵律标签标注后转化为“她把#1鞋子#1拎在#1手上#3光着#1脚丫#2故意#1踩在#1水洼里#4。”

4)对于转化的音素向量序列x1,x2,…,xU输入到CBHG模块,产生的结果和说话人向量序列Si,一起经过时长控制单元生成预测的时长,再单独经过跳跃模块生成跳跃编码后不含韵律标签位置的文本编码信息;本实施例采用的CBHG模块包含一个一维卷积滤波器组,这些卷积核对当前以及上下文信息有效建模。后接一个多层高速公路网络,用以提取更高级别的特征。最后通过一个双向门控循环单元GRU循环神经网络RNN,用于提取序列的上下文特征。

通过公式表示为:

t1,t2,…,tU=CBHG(x1,x2,…,xU)

其中,ti为文本中第i个单词的编码信息;

5)由于输入的序列化文本数据添加了韵律标签,但是这些标签并没有明显的发音时长,因此需要跳跃编码把这些韵律标签进行去除,生成t1,t2,…,tU′,(U′<U),其中U′为去除韵律标签后的文本长度。

对去除的文本编码信息t1,t2,…,tU′

t1,t2,…,tU′=Skip_state(t1,t2,…,tU)

6)将跳跃编码后不含韵律标签位置的文本编码信息t1,t2,…,tU′结合时长控制单元进行长度扩充,长度扩充的标准为:在训练阶段,需要达到和真实梅尔频谱的长度一致;在预测阶段,根据训练好的时长控制单元输出每一个音素的预测时长,根据预测时长对每一个音素进行长度扩充;扩充后得到经过时长调节后的文本编码信息t1,t2,…,tT,T为提取的真实梅尔频谱的帧数。

时长控制单元与能量和音高控制单元具有相同的网络结构:三个一维卷积层和正则化层用于特征分离;一个双向的GRU学习前后音素特征之间的关系;最后经过一个线性仿射变换对时长/能量/音高进行预测。

t1,t2,…,tT=State_Expand(t1,t2,…,tU′)

7)预测音高和能量;针对去除韵律标签后的文本编码信息及预测时长信息,先经过时长调节后和说话人向量序列Si一起作为音高控制单元和能量控制单元的输入,得到预测的音高和预测的能量,用来针对于生成音频的能量和音高的控制。

8)对预测的音高和能量与文本编码信息t1,t2,…,tT进行组合文本编码特征E1,E2,…,ET;针对文本编码信息t1,t2,…,tT分别再经过能量和音高的控制单元得到:

e1,e2,…,eT=Energy_Predictor(t1,t2,…,tT;Si)

p1,p2,…,pT=Pitch_Predictor(t1,t2,…,tT;;Si)

E1,E2,…,ET=(e1,e2,…,eT+p1,p2,…,pT)*t1,t2,…,tT+Si

其中,E1,E2,…,ET为组合后的文本编码信息,e1,e2,…,eT为能量控制单元的输出,p1,p2,…,pT为音高控制单元的输出,t1,t2,…,tT为经过时长调节后的文本编码信息,Si为说话人向量序列,此处表示第二说话人向量序列。

9)针对文本编码特征E1,E2,…,ET进行解码,生成预测的梅尔频谱;

在本发明的一项具体实施中,所述的解码器具体由一个双向的LSTM和一个线性仿射变换组成,具体可表示为:

通过BLSTM进行编码:

将双向的最后隐藏状态结合得到h*表示:

针对得到的h*经过线性仿射变换处理,便可以生成预测的梅尔频谱:

M1,M2,…,MT=Linear(h*)

最后生成的梅尔频谱经过一般的声码器合成出韵律可控的语音。

在本发明的一项具体实施中,如图2所示,所述时长控制单元、音高控制单元、能量控制单元均由三个一维卷积层和正则化层、一个双向门控循环单元GRU和一个线性仿射变换构成。

对待合成的文本添加韵律标签,韵律标签的添加采用预训练的韵律短语边界预测模型实现,将待合成的文本输入至预训练的韵律短语边界预测模型中,输出带韵律标签的待合成的文本。所述的预训练的韵律短语边界预测模型采用决策树或blstm-crf,用于预测短语的边界并插入韵律标签,将待合成的文本输入至预训练的韵律短语边界预测模型中,输出带韵律标签的待合成的文本。

在合成时可分别指定说话人和任意说话人的风格,用于模型输入。

相比于传统的将多种模型分开构造的方法,本发明采用直接从文本到声学特征的方式,采用端到端的训练方式,根据根据预测时长和真实时长计算时长损失,根据预测音高和真实音高计算音高损失,根据预测能量和真实能量计算能量损失,根据预测梅尔频谱和真实梅尔频谱计算梅尔频谱损失;结合多种损失值对混合语音合成模型进行端到端训练;避免了单个模型预测错误对整体模型效果的影响,从而提高了模型的容错能力。

下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。

实施例

本发明在包含了6个说话人32500条音频和相应的韵律标注的文本数据集上进行测试,其中中文30000条,英文2000条,中英混合500条。本发明对于数据集进行如下预处理:

1)提取中文和英文的音素文件与相应的音频,利用开源工具Montreal-forced-aligner对音素的发音时长进行提取。

2)对于每一个音频提取梅尔频谱,其中窗口大小为50毫秒,帧移的大小为12.5毫秒,维度为80维。

3)对于每一个音频,利用World声码器对音频的音高进行提取。

4)对于从音频中提取出的梅尔频谱进行在维度上的求和得到梅尔频谱的能量。

本发明的混合语音合成系统实现了语音合成过程的文本韵律、能量、时长、音高四个维度的可控操作,实现了多种语言的支持;实现了多个说话人的支持;实现了说话人风格迁移的支持,有利于语音合成系统在工业场景的广泛应用。

以上实施例的各种技术特征可以任意组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行详细的描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:韵律短语边界预测模型训练方法和韵律短语边界预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!