跨语言语音转换方法、装置、计算机设备和存储介质

文档序号:617691 发布日期:2021-05-07 浏览:2次 >En<

阅读说明:本技术 跨语言语音转换方法、装置、计算机设备和存储介质 (Cross-language voice conversion method and device, computer equipment and storage medium ) 是由 赵之源 王若童 黄东延 于 2020-12-28 设计创作,主要内容包括:本发明实施例公开了一种跨语言语音转换方法、装置、计算机设备和存储介质。该方法包括:获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。本发明实施例实现了跨语言的合成目标用户语音。(The embodiment of the invention discloses a cross-language voice conversion method, a cross-language voice conversion device, computer equipment and a storage medium. The method comprises the following steps: acquiring a voice to be converted and an example voice of a target user, wherein the language used by the voice content of the voice to be converted is different from the language used by the voice content of the example voice; preprocessing the voice to be converted to obtain voice characteristics to be converted, and preprocessing the example voice to obtain example voice characteristics; taking the voice feature to be converted and the example voice feature as input, and obtaining a target voice feature by using a pre-trained voice conversion model; and converting the target voice characteristics into target voice simulating the example voice, wherein the voice content of the target voice is the same as that of the voice to be converted. The embodiment of the invention realizes the cross-language synthesis of the target user voice.)

跨语言语音转换方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种跨语言语音转换方法、装置、计算机设备和存储介质。

背景技术

机器学习与深度学习依靠海量数据和计算机强大的处理能力,在图像、语音、文本等领域取得了重大突破。由于同类型框架在不同领域都能取得很好的效果,曾被用于解决文本和图像问题的神经网络算法模型都被应用于语音领域。

现有的应用于语音领域的神经网络算法模型可以根据目标说话人的声音捕捉其特征,从而稳定合成目标说话人的其他语音,并且在音色相似度和语言自然度方面都接近真人的水平,但是合成的语音只能是与目标说话人的语言相同的语音,无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音,如果目标说话人只会说中文,则只能合成出中文的语音,无法合成其他国家语言的语音。

发明内容

基于此,有必要针对上述问题,提出了一种跨语言语音转换方法、装置、计算机设备和存储介质。

第一方面,本发明实施例提供一种跨语言语音转换方法,所述方法包括:

获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;

对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;

将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;

将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

第二方面,本发明实施例提供一种跨语言语音转换装置,所述装置包括:

语音获取模块,用于获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;

语音处理模块,用于对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;

特征转换模块,用于将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;

语音模拟模块,用于将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

第三方面,本发明实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:

获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;

对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;

将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;

将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

第四方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:

获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;

对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;

将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;

将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

本发明实施例通过获取语音内容使用的语言不相同的待转换语音和示例语音,将两者输入至用预先训练好的语音转换模型得到语音内容和待转换语音的语音内容相同、模拟示例语音的目标语音,解决了无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音的问题,获得了跨语言的合成目标用户语音的有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

其中:

图1为一个实施例中跨语言语音转换方法的应用环境图;

图2为一个实施例中跨语言语音转换方法的流程图;

图3为一个实施例中跨语言语音转换方法中步骤S130的流程图;

图4为一个实施例中跨语言语音转换方法中步骤S110的流程图;

图5为一个实施例中跨语言语音转换方法中步骤S120的流程图;

图6为一个实施例中跨语言语音转换方法中步骤S410的流程图;

图7为一个实施例中语音转换模型训练方法的流程图;

图8为一个实施例中跨语言语音转换装置的结构框图;

图9为一个实施例中计算机设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为一个实施例中跨语言语音转换方法的应用环境图。参照图1,该跨语言语音转换方法应用于跨语言语音转换系统。该跨语言语音转换系统包括终端110和服务器120。终端110和服务器120通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于待转换语音和目标用户的示例语音并上传到服务器120,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同,服务器120用于接收待转换语音和目标用户的示例语音;对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

在另一个实施例中,上述跨语言语音转换方法也可以直接应用于终端110,终端110用于获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

如图2所示,在一个实施例中,提供了一种跨语言语音转换方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该跨语言语音转换方法具体包括如下步骤:

S110、获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同。

本实施例中,在执行跨语言语音转换方法时,用户可以在移动设备,例如手机上执行,首先用户需要输入待转换语音和目标用户的示例语音,其中待转换语音的语音内容是用户最后希望获得的语音内容,目标用户的示例语音是用户最后希望获得的语音声音的声音特征。此外,待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同,即待转换语音可以是中文,那么示例语音可以是英文,待转换语音还可以是英文加中文,示例语音可以是英文,需要说明的是,只要待转换语音的语音内容使用的语言和示例语音的语音内容使用的语言存在部分不相同,或不完全相同,即视为不相同。示例性的,用户想要获取只会说中文的甲,说出“Yes”的目标语音,只需要自行说出“Yes”作为待转换语音,并获取甲的示例语音,该示例语音可以为甲说的任意一段中文语音。

S120、对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征。

S130、将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征。

S140、将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

本实施例中,得到待转换语音和示例语音后,还需要对待转换语音进行预处理得到待转换语音特征,并对示例语音进行预处理得到示例语音特征,以方便输入至语音转换模型,其中语音转换模型为神经网络模型,预先经过大量训练用户的语音进行训练,训练过程中的输入和输出也都为语音特征,该语音转换模型可以提取出待转换语音特征中的语音内容和示例语音特征中的声音特征并进行结合,因此将待转换语音特征和示例语音特征输入至预先训练好的语音转换模型后可以得到目标语音特征。最后还需要将所述目标语音特征经过其他的预设神经网络模型转换为目标语音,经过语音转换模型得到的目标语音特征转换得到的目标语音,模拟了示例语音的声音特征,发出的语音内容为待转换语音的语音内容,由于待转换语音的语音内容使用的语言和示例语音的语音内容使用的语言不相同,由此完成了跨语言的语音转换。其中,其他的预设神经网络模型可以为WaveNet神经网络模型,也可以为WaveRNN神经网络模型等等。

本发明实施例通过获取语音内容使用的语言不相同的待转换语音和示例语音,将两者输入至用预先训练好的语音转换模型得到语音内容和待转换语音的语音内容相同、模拟示例语音的目标语音,解决了无法将目标说话人的声音合成为该目标说话人使用其他国家语言发出的语音的问题,获得了跨语言的合成目标用户语音的有益效果。

在一个实施例中,如图3所示,步骤S130具体包括:

S210、将所述梅尔倒频谱输入至所述第一编码器以得到第一向量。

S220、将部分示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分示例梅尔倒频谱为在所述示例梅尔倒频谱中随机截取得到的。

本实施例中,待转换语音特征为待转换梅尔倒频谱,示例语音特征为示例梅尔倒频谱,获得待转换语音特征和示例语音特征后,就可以将待转换语音特征和示例语音特征输入至预先训练好的语音转换模型,其中语音转换模型包括第一编码器、第二编码器、长度调节器和解码器。其中第一编码器基于FastSpeech框架搭建,第一编码器包括FFT Block(Feed-Forward Transformer Block,FFT块),FFT Block基于非自回归的自注意力机制(self-attention)和一维卷积神经网络生成,使得第一编码器不会依赖于上一帧的输出,可以进行并行运算,从而大大加快了目标语音特征的生成速度。具体的,第一编码器包括CNN(卷积神经网络)模型、Positional Enecoding(基于位置的词嵌入)模型和FFT Block,第二编码器包括LSTM(Long Short-Term Memory,长短期记忆网络)模型、Linear(线性回归算法)模型,以及池化层和标准化层,长度调节器包括CNN模型和Linear模型,解码器包括FFT Block、Linear模型、Post-Net和输出层。

具体的,将待转换梅尔倒频谱输入至第一编码器,第一编码器中的CNN模型用于将待转换梅尔倒频谱进行压缩,得到Bottle-neck特征,从而更好的提取出语音内容,然后基于FFT Block的并行运算,快速输出第一向量,第一向量的向量长度取批处理(Btach)中输入序列长度的最大数值,其余不够长的序列在后面补0,由此得到的第一向量作为提取出的语音内容。然后将部分示例梅尔倒频谱输入至第二编码器,第二编码器会输出第二向量,其中部分示例梅尔倒频谱为从示例语音特征,即示例梅尔倒频谱中随机截取得到的。具体的,将示例语音转换为示例梅尔倒频谱后,随机选取该目标用户的示例梅尔倒频谱的预设个数的截取片段,将这些截取片段拼接后作为部分示例梅尔倒频谱,由此得到的第二向量作为提取出的声音特征。

S230、将所述第一向量和第二向量进行拼接后得到第三向量。

S240、将所述第三向量输入至所述长度调节器以得到第四向量。

S250、将所述第四向量输入至所述解码器以得到预测梅尔倒频谱,作为目标语音特征。

本实施例中,得到第一向量和第二向量后,还需要将第一向量和第二向量进行拼接,得到第三向量,然后将第三向量输入至所述长度调节器,由于得到的第一向量经过第一编码器的压缩。因此长度调节器还可以通过自身的两层卷积层根据第三向量获得第三向量中每一帧的预测扩展长度,相当于预测梅尔倒频谱中每一帧的长度,并根据预测扩展长度将第三向量扩展为第四向量。示例性的,第三向量对应的语音内容为“你好吗”,其特征长度为3,长度调节器根据第三向量得到的预测扩展长度对应为【4,2,3】,那么最后得到的第四向量中,“你”的特征长度为4,“好”的特征长度为2,“吗”的特征长度为3。最后将第四向量输入至解码器就可以得到预测梅尔倒频谱,将预测梅尔倒频谱作为目标语音特征。

本发明实施例通过基于非自回归的自注意力机制和一维卷积神经网络生成的FFTBlock,使得第一编码器不会依赖于上一帧的输出,可以进行并行运算,从而大大加快了目标语音特征的生成速度。

在一个实施例中,如图4所示,步骤S110具体包括:

S310、获取待转换文本和目标用户的示例语音。

S320、将所述待转换文本转换为合成语音,作为待转换语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同。

本实施例中,若直接获取让用户朗读的待转换语音作为后续语音转换模型的输入语音特征,因用户自身的原因可能对输入语音特征产生的干扰,例如咳嗽、吐字不清等,为了避免上述问题,本实施例中获取待转换文本,其中待转换文本的文本内容和待转换语音的语音内容相同,然后采用TTS(TextToSpeech,从文本到语音)技术将待转换文本转换为合成语音,作为待转换语音。由此通过将内容相同的待转换文本转换为清晰准确的合成语音,排除了因用户自身的原因产生的干扰。

进一步的,为了说明采用合成语音作为语音转换模型的输入可以排除因用户自身的原因产生的干扰,在使用该语音转换模型的过程中,假设输入的待转换语音特征的特征序列为x=(x1,x2,…,xn),这里的n代表待转换梅尔倒频谱的时间序列上的第n帧,语音转换模型预测的目标语音特征的特征序列为y=(y1,y2,…,ym),同样,这里的m也代表预测梅尔倒频谱的时间序列上的第m帧。我们希望语音转换模型预测的特征序列能尽量接近实际语音特征的目标特征序列这里我们假设输入特征序列的每一帧中都包含两个隐含变量,一个隐含变量是输入语音的语音内容c=(c1,c2,...,cn),另一个隐含变量是输入语音的声音特征s=(s1,s2,...,si),而在目标序列中同样包含目标用户的声音特征其中i表示输入语音,t表示目标用户,i∈{1,2,...,j},t∈{1,2,...,k},其中的j表示整个输入数据集中输入语音的数量,k表示整个输入数据集中目标用户的数量。

语音转换模型中的第一编码器的作用是将输入语音的语音特征si从输入序列中剔除,只保留语音内容c,则输入序列可以表示为如下形式:

由于我们使用了TTS合成语音转真人语音的方法,来达到分离用户的声音特征和语音内容的目的,因为在输入语音的声音特征只有一个,即该合成语音的声音特征,我们设其为s0,可认为s0是一个常量。根据贝叶斯定理,公式(1)可变为:

对于预测序列y,用同样的方法可以表示为:

其中,是第二编码器的输出,而c是第一编码器的输出,二者组合在一起经过长度调节器的调节后作为解码器的输入,最后由解码器输出预测的序列y。由于c和是来自于两个序列,可以认为这两者相互独立。因此结合公式(2)和(3),可以得到:

从公式(4)中可知,当输入语音为固定的合成语音时,预测序列y只和输入序列x、训练用户以及语音内容c有关。从而解除了直接获取用户朗读的待转换语音作为输入语音,对语音转换模型中提取语音内容的干扰。

在一个实施例中,如图5所示,步骤S120具体包括:

S410、对所述待转换语音进行短时傅里叶变换得到幅度谱。

S420、对所述幅度谱进行滤波得到梅尔频谱。

S430、对所述梅尔频谱进行倒谱分析得到待转换梅尔倒频谱,作为待转换语音特征。

本实施例中,在将待转换语音进行预处理得到待转换语音特征时,具体的,首先需要对待转换语音进行短时傅里叶变换,待转换语音经过短时傅里叶变换得到幅度谱和相位谱,将待转换语音的波形从时域转换到频域,方便语音特征的提取,只取其中的幅度谱进行滤波就可以得到梅尔频谱,其中进行滤波时采用的滤波器可以为Filter Bank(滤波器组),Filter Bank基于人对高频声音更敏感的原则,在低频处滤波器更密集,门限值大,而高频处滤波器更稀疏,门限值小,滤波结果更适符合人声。为了获得更接近人类发声机制的特征,更接近人类非线性的听觉系统,最后还需要对梅尔频谱进行倒谱分析,得到梅尔倒频谱(MFC,Mel-Frequency Spectrum),将该梅尔倒频谱作为待转换语音特征。需要说明的是,对目标语音需要进行与待转换语音相同的处理,本发明实施例在此不再赘述。

本发明实施例通过将待转换语音转换为梅尔倒频谱,不仅更接近人类发声机制的特征和非线性的听觉系统,还有利于神经网络模型的训练和输入输出。

在一个实施例中,如图6所示,步骤S410具体包括:

S510、减去所述待转换语音中的首尾空白部分得到第一修正待转换语音。

S520、对所述第一修正待转换语音进行预加重、分帧和加窗得到第二修正待转换语音。

S530、对所述第二修正待转换语音进行短时傅里叶变换得到幅度谱。

本实施例中,因待转换语音中首尾部分会存在空白部分,为了让语音转换模型更好的对齐学习和转换,在对待转换语音进行短时傅里叶变换得到幅度谱时,在此之前还需要减去待转换语音中的首尾空白部分得到第一修正待转换语音,此外,为了更好的适应短时傅里叶变换,得到第一修正待转换语音后,还需要对第一修正待转换语音进行预加重、分帧和加窗得到第二修正待转换语音,经过预加重,可以使待转换语音添加高频信息,并过滤掉一部分噪音,经过分帧和加窗,可以使待转换语音更平稳和连续,最后对第二修正待转换语音进行短时傅里叶变换得到幅度谱。其中,本发明实施例中的步骤S510和S520可以根据用户需求选择性的执行。

如图7所示,在一个实施例中,提供了一种语音转换模型训练方法。该方法既可以应用于终端,也可以应用于服务器,本实施例以应用于终端举例说明。该语音转换模型训练具体包括如下步骤:

S610、获取训练语音、训练用户的第一训练示例语音和第二训练示例语音。

S620、对所述训练语音进行预处理得到训练语音特征,并对所述第一训练示例语音进行预处理得到第一训练示例语音特征,对所述第二训练示例语音进行预处理得到第二训练示例语音特征。

S630、将所述训练梅尔倒频谱输入至所述第一编码器以得到第一向量。

S640、将部分第二训练示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分第二训练示例梅尔倒频谱为在所述第二训练示例梅尔倒频谱中随机截取得到的。

S650、将所述第一向量和第二向量进行拼接后得到第三向量。

S660、将所述第三向量输入至所述长度调节器以得到第四向量。

S670、将所述第四向量输入至所述解码器以得到训练预测梅尔倒频谱。

S680、计算所述训练预测梅尔倒频谱和第一训练示例梅尔倒频谱的训练损失。

S690、根据所述训练损失进行反向传播以更新所述语音转换模型的训练权重,直至所述语音转换模型收敛。

本实施例中,在训练该语音转换模型时,首先需要获取训练语音和训练用户的训练示例语音,训练示例语音包括第一训练示例语音和第二训练示例语音,其中,第一训练示例语音的语音内容和训练语音的语音内容相同,训练语音的语音内容使用的语言和第二训练示例语音的语音内容使用的语言不相同,第一训练示例语音是我们最后需要得到的预测语音,第二训练示例语音则是作为输入模型的语音特征。然后需要对训练语音进行预处理得到训练语音特征,并对第一训练示例语音进行预处理得到第一训练示例语音特征,对第二训练示例语音进行预处理得到第二训练示例语音特征,其中,训练语音特征为训练梅尔倒频谱,第一训练示例语音特征为第一训练示例梅尔倒频谱,第二训练示例语音特征为第二训练示例梅尔倒频谱。后续操作和本发明实施例S210-S250相同,本发明实施例不再赘述。在得到训练预测梅尔倒频谱后,还需要计算训练预测梅尔倒频谱和第一训练示例梅尔倒频谱的训练损失,即预测值和实际值之间的损失,最后根据训练损失进行反向传播以更新语音转换模型的训练权重,直至语音转换模型收敛。

其中,因需要获取两种训练示例语音,但是当训练集数据足够多时,则不会造成额外的数据收集。示例性的,训练语音包括“YES”,则同时需要获取到语音内容的第一训练示例语音,即训练用户发出的“YES”,此外,还需要获取到语音内容使用的语言不相同的第二训练示例语音,即训练用户发出的其他语言的语音,例如“好”,当训练集数据足够多时,训练用户发出的“好”作为训练语音包括“好”时的第一训练示例语音,此时则不需要额外获取到第二训练示例语音。

作为优选的,训练语音的语音内容使用的语言包括了实际使用时的待转换语音的语音内容使用的语言,即使用了待转换语音的语音内容使用的语音参与了语音转换模型的训练,训练用户也包括目标用户,即目标用户作为训练用户参与了语音转换模型的训练,如此就能更准确的实现跨语言的转换。此外,因第一编码器不会依赖于上一帧的输出,从而大大加快了语音转换模型的训练速度。

如图8所示,在一个实施例中,提供了一种跨语言语音转换装置,该实施例提供的跨语言语音转换装置可执行本发明任意实施例所提供的跨语言语音转换方法,具备执行方法相应的功能模块和有益效果。该跨语言语音转换装置包括语音获取模块100、语音处理模块200、特征转换模块300和语音模拟模块400。

具体的,语音获取模块100用于获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;语音处理模块200用于对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;特征转换模块300用于将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;语音模拟模块400用于将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

在一个实施例中,所述待转换语音特征为待转换梅尔倒频谱,所述示例语音特征为示例梅尔倒频谱,所述语音转换模型包括第一编码器、第二编码器、长度调节器和解码器,特征转换模块300具体用于将所述梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分示例梅尔倒频谱为在所述示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到预测梅尔倒频谱,作为目标语音特征。

在一个实施例中,所述第一编码器用于将所述梅尔倒频谱进行压缩以得到第一向量,所述长度调节器用于根据所述第三向量获得所述第三向量中每一帧的预测扩展长度,并根据所述预测扩展长度将所述第三向量扩展为第四向量。

在一个实施例中,该跨语言语音转换装置还包括模型训练模块500,该模型训练模块500用于获取训练语音、训练用户的第一训练示例语音和第二训练示例语音,所述第一训练示例语音的语音内容和所述训练语音的语音内容相同,所述训练语音的语音内容使用的语言和所述第二训练示例语音的语音内容使用的语言不相同;对所述训练语音进行预处理得到训练语音特征,并对所述第一训练示例语音进行预处理得到第一训练示例语音特征,对所述第二训练示例语音进行预处理得到第二训练示例语音特征,所述训练语音特征为训练梅尔倒频谱,所述第一训练示例语音特征为第一训练示例梅尔倒频谱,所述第二训练示例语音特征为第二训练示例梅尔倒频谱;将所述训练梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分第二训练示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分第二训练示例梅尔倒频谱为在所述第二训练示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和第一训练示例梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述语音转换模型的训练权重,直至所述语音转换模型收敛。

在一个实施例中,语音获取模块100具体用于获取待转换文本;将所述待转换文本转换为合成语音,作为待转换语音。

在一个实施例中,语音处理模块200具体用于对所述待转换语音进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到待转换梅尔倒频谱,作为待转换语音特征。

在一个实施例中,语音处理模块200具体还用于减去所述待转换语音中的首尾空白部分得到第一修正待转换语音;对所述第一修正待转换语音进行预加重、分帧和加窗得到第二修正待转换语音;对所述第二修正待转换语音进行短时傅里叶变换得到幅度谱

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现跨语言语音转换方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行跨语言语音转换方法。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:

获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

在一个实施例中,所述待转换语音特征为待转换梅尔倒频谱,所述示例语音特征为示例梅尔倒频谱,所述语音转换模型包括第一编码器、第二编码器、长度调节器和解码器,所述第一编码器包括FFT Block,所述将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征包括:将所述梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分示例梅尔倒频谱为在所述示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到预测梅尔倒频谱,作为目标语音特征。

在一个实施例中,所述第一编码器用于将所述梅尔倒频谱进行压缩以得到第一向量,所述长度调节器用于根据所述第三向量获得所述第三向量中每一帧的预测扩展长度,并根据所述预测扩展长度将所述第三向量扩展为第四向量。

在一个实施例中,所述语音转换模型的训练包括:获取训练语音、训练用户的第一训练示例语音和第二训练示例语音,所述第一训练示例语音的语音内容和所述训练语音的语音内容相同,所述训练语音的语音内容使用的语言和所述第二训练示例语音的语音内容使用的语言不相同;对所述训练语音进行预处理得到训练语音特征,并对所述第一训练示例语音进行预处理得到第一训练示例语音特征,对所述第二训练示例语音进行预处理得到第二训练示例语音特征,所述训练语音特征为训练梅尔倒频谱,所述第一训练示例语音特征为第一训练示例梅尔倒频谱,所述第二训练示例语音特征为第二训练示例梅尔倒频谱;将所述训练梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分第二训练示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分第二训练示例梅尔倒频谱为在所述第二训练示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和第一训练示例梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述语音转换模型的训练权重,直至所述语音转换模型收敛。

在一个实施例中,所述获取待转换语音包括:获取待转换文本;将所述待转换文本转换为合成语音,作为待转换语音。

在一个实施例中,所述对所述待转换语音进行预处理得到待转换语音特征包括:对所述待转换语音进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到待转换梅尔倒频谱,作为待转换语音特征。

在一个实施例中,所述对所述待转换语音进行短时傅里叶变换得到幅度谱包括:减去所述待转换语音中的首尾空白部分得到第一修正待转换语音;对所述第一修正待转换语音进行预加重、分帧和加窗得到第二修正待转换语音;对所述第二修正待转换语音进行短时傅里叶变换得到幅度谱。

在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:

获取待转换语音和目标用户的示例语音,所述待转换语音的语音内容使用的语言和所述示例语音的语音内容使用的语言不相同;对所述待转换语音进行预处理得到待转换语音特征,并对所述示例语音进行预处理得到示例语音特征;将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征;将所述目标语音特征转换为模拟所述示例语音的目标语音,所述目标语音的语音内容和所述待转换语音的语音内容相同。

在一个实施例中,所述待转换语音特征为待转换梅尔倒频谱,所述示例语音特征为示例梅尔倒频谱,所述语音转换模型包括第一编码器、第二编码器、长度调节器和解码器,所述第一编码器包括FFT Block,所述将所述待转换语音特征和示例语音特征作为输入,使用预先训练好的语音转换模型得到目标语音特征包括:将所述梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分示例梅尔倒频谱为在所述示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到预测梅尔倒频谱,作为目标语音特征。

在一个实施例中,所述第一编码器用于将所述梅尔倒频谱进行压缩以得到第一向量,所述长度调节器用于根据所述第三向量获得所述第三向量中每一帧的预测扩展长度,并根据所述预测扩展长度将所述第三向量扩展为第四向量。

在一个实施例中,所述语音转换模型的训练包括:获取训练语音、训练用户的第一训练示例语音和第二训练示例语音,所述第一训练示例语音的语音内容和所述训练语音的语音内容相同,所述训练语音的语音内容使用的语言和所述第二训练示例语音的语音内容使用的语言不相同;对所述训练语音进行预处理得到训练语音特征,并对所述第一训练示例语音进行预处理得到第一训练示例语音特征,对所述第二训练示例语音进行预处理得到第二训练示例语音特征,所述训练语音特征为训练梅尔倒频谱,所述第一训练示例语音特征为第一训练示例梅尔倒频谱,所述第二训练示例语音特征为第二训练示例梅尔倒频谱;将所述训练梅尔倒频谱输入至所述第一编码器以得到第一向量;将部分第二训练示例梅尔倒频谱输入至所述第二编码器以得到第二向量,所述部分第二训练示例梅尔倒频谱为在所述第二训练示例梅尔倒频谱中随机截取得到的;将所述第一向量和第二向量进行拼接后得到第三向量;将所述第三向量输入至所述长度调节器以得到第四向量;将所述第四向量输入至所述解码器以得到训练预测梅尔倒频谱;计算所述训练预测梅尔倒频谱和第一训练示例梅尔倒频谱的训练损失;根据所述训练损失进行反向传播以更新所述语音转换模型的训练权重,直至所述语音转换模型收敛。

在一个实施例中,所述获取待转换语音包括:获取待转换文本;将所述待转换文本转换为合成语音,作为待转换语音。

在一个实施例中,所述对所述待转换语音进行预处理得到待转换语音特征包括:对所述待转换语音进行短时傅里叶变换得到幅度谱;对所述幅度谱进行滤波得到梅尔频谱;对所述梅尔频谱进行倒谱分析得到待转换梅尔倒频谱,作为待转换语音特征。

在一个实施例中,所述对所述待转换语音进行短时傅里叶变换得到幅度谱包括:减去所述待转换语音中的首尾空白部分得到第一修正待转换语音;对所述第一修正待转换语音进行预加重、分帧和加窗得到第二修正待转换语音;对所述第二修正待转换语音进行短时傅里叶变换得到幅度谱。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:支持听不见的水印的文本到语音框架

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!