一种音色转换方法、装置、电子设备及存储介质

文档序号：1955205 发布日期：2021-12-10 浏览：15次 >En<

阅读说明：本技术 一种音色转换方法、装置、电子设备及存储介质 (Tone conversion method, device, electronic equipment and storage medium ) 是由万同堂邓菁郑榕于 2021-11-15 设计创作，主要内容包括：本公开提供了一种音色转换方法、装置、电子设备及存储介质,通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音,确定待转换语音对应的语音后验概率特征；根据目标语音,确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中,确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征,确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度,有助于听众理解说画画人的真实语义,提升听众体验感。(The present disclosure provides a tone conversion method, device, electronic device and storage medium, by obtaining a voice to be converted and a target voice to which the voice to be converted needs to be converted; determining the posterior probability characteristic of the voice corresponding to the voice to be converted according to the voice to be converted; determining a target tone characteristic and a target emotion characteristic corresponding to the target voice according to the target voice; inputting the voice posterior probability characteristic, the target tone characteristic and the target emotion characteristic into an emotion voice conversion model trained in advance, and determining a target Mel cepstrum characteristic corresponding to the converted voice to be converted; and determining the conversion target voice with the target tone characteristic and the target emotional characteristic according to the target Mel cepstrum characteristic. The method can improve the reduction degree of the real semantics of the speaker while the tone is converted, is beneficial to listening to the real semantics of the person who explains the painters, and improves the experience feeling of audiences.)

技术领域

本公开涉及语音识别技术领域，具体而言，涉及一种音色转换方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的迅速发展，计算机正在深入影响着我们生活与工作的方方面面，人们与计算机的联系越来越密切，在通过网络与他人进行沟通或者与计算机进行人机交互的过程中，逐渐不满于使用死板的键盘鼠标交互方式，越来越多的人希望使用更方便的语音交互方式，并且考虑到隐私保护与个性化需求，人们希望自己的交互语音音色具有个性化的特征。因此音色转换 (Voice Conversion，VC) 技术应运而生，音色转换技术是一项改变说话人声音特征的技术，即转换说话人的音色个性特征而保持说话内容不变，在语音即时聊天，电影、广播、电视中配音，语音合成的语料库收集以及情报部门等正在被广泛的应用。

在目前的音色转换技术中，现有的语音转换算法仅能满足将说话人的音色从一个人转换为另一个人，但是，在例如电影、广播、电视中配音等应用场合中，某些特定话语若仅将说话人的音色从一个人转换为另一个人无法完整还原说话人的真实语义，可能会导致听众对说话人语义的误解，听众体验感较差。

发明内容

本公开实施例至少提供一种音色转换方法、装置、电子设备及存储介质，可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。

本公开实施例提供了一种音色转换方法，所述方法包括：

获取待转换语音以及目标语音；

根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征；

根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征；

将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征；

根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

一种可选的实施方式中，基于以下方法确定所述目标语音对应的目标音色特征：

确定所述目标语音对应的梅尔倒谱特征；

将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中，确定所述目标语音对应的目标音色特征，其中，所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。

一种可选的实施方式中，基于以下方法确定所述目标语音对应的目标情感特征：

确定所述目标语音对应的梅尔倒谱特征；

将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中，确定所述目标语音对应的目标情感特征，其中，所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。

一种可选的实施方式中，在所述获取待转换语音以及目标语音之后，所述方法还包括：

针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。

一种可选的实施方式中，基于以下方法训练所述情感语音转换模型：

构建情感语音训练数据集，其中，所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据；

确定所述目标训练语音数据对应的实际梅尔倒谱特征；

针对所述情感语音训练数据集中的每一条所述待转换训练语音数据，确定该待转换训练语音数据对应的语音后验概率特征；针对所述情感语音训练数据集中的每一条所述目标训练语音数据，确定该目标训练语音数据对应的音色特征以及情感特征；

将所述语音后验概率特征、音色特征以及情感特征作为特征数据，所述实际梅尔倒谱特征作为数据标签，输入至待训练的情感语音转换模型，确定经过转换后的所述待转换训练语音数据对应的预测梅尔倒谱特征；

根据所述预测梅尔倒谱特征以及所述实际梅尔倒谱特征，更新所述情感语音转换模型，直至所述预测梅尔倒谱特征与所述实际梅尔倒谱特征之间的交叉熵减小至预设交叉熵阈值。

一种可选的实施方式中，所述根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音，具体包括：

将所述目标梅尔倒谱特征输入至声码器中，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

一种可选的实施方式中，所述音色特征提取模型与所述情感特征提取模型为时延神经网络模型。

本公开实施例还提供一种情感语音的转换装置，所述装置包括：

获取模块，用于获取待转换语音以及目标语音；

确定模块，用于根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征；

特征提取模块，用于根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征；

转换模块，用于将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征；

生成模块，用于根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

一种可选的实施方式中，所述特征提取模块包括第一特征提取单元，所述第一特征提取单元用于：

确定所述目标语音对应的梅尔倒谱特征；

一种可选的实施方式中，所述特征提取模块包括第二特征提取单元，所述第二特征提取单元用于：

确定所述目标语音对应的梅尔倒谱特征；

一种可选的实施方式中，所述装置还包括预处理模块，所述预处理模块用于：

针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。

一种可选的实施方式中，所述转换模块还用于：

基于以下方法训练所述情感语音转换模型：

构建情感语音训练数据集，其中，所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据；

确定所述目标训练语音数据对应的实际梅尔倒谱特征；

一种可选的实施方式中，所述生成模块还用于：

将所述目标梅尔倒谱特征输入至声码器中，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述音色转换方法，或上述音色转换方法中任一种可能的实施方式中的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述音色转换方法，或上述音色转换方法中任一种可能的实施方式中的步骤。

本公开实施例提供的一种音色转换方法、装置、电子设备及存储介质，通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音，确定待转换语音对应的语音后验概率特征；根据目标语音，确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征，确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种音色转换方法的流程图；

图2示出了本公开实施例所提供的另一种音色转换方法的流程图；

图3示出了本公开实施例所提供的一种音色转换装置的示意图之一；

图4示出了本公开实施例所提供的一种音色转换装置的示意图之二；

图5示出了本公开实施例所提供的一种音色转换装置的示意图之三；

图6示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，在目前的音色转换技术中，现有的语音转换算法仅能满足将说话人的音色从一个人转换为另一个人，但是，在例如电影、广播、电视中配音等应用场合中，某些特定话语若仅将说话人的音色从一个人转换为另一个人无法完整还原说话人的真实语义，可能会导致听众对说话人语义的误解，听众体验感较差。

基于上述研究，本公开提供了一种音色转换方法、装置、电子设备及存储介质，通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音，确定待转换语音对应的语音后验概率特征；根据目标语音，确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征，确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种音色转换方法进行详细介绍，本公开实施例所提供的音色转换方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备（User Equipment，UE）、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理（Personal Digital Assistant，PDA）、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该音色转换方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的一种音色转换方法的流程图，所述方法包括步骤S101~S105，其中：

S101、获取待转换语音以及目标语音。

该步骤中，获取需要进行情感音色转换的语音信息作为待转换语音，同时，获取用于替换待转换语音的音色特征以及情感特征的语音信息，作为目标语音。

这里，所述目标语音为带有说话人情绪的语音音频，其中，说话人情绪可以为：高兴、愤怒、伤心等情绪。

作为一种可能的实施方式，所述待转换语音可以为直接录制的音频文件，也可以为视频文件中的包含的音频文件。

S102、根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征。

该步骤中，根据步骤S101中获取到的待转换语音，确定该语音对应的语音后验概率（Phonetic Posteriorgrams，PPGs）特征。

这里，所述PPGs特征对应于所述待转换语音的说话人的发音，并且对应于所述待转换语音中，独立说话人的说话内容，可以用于映射不同的说话者之间的关系。

具体的，基于以下方法确定所述待转换语音对应的PPGs特征：针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括预加重、分帧、加窗、傅里叶变换等步骤后，确定所述待转换语音对应的梅尔倒谱（Mel-Frequency Cepstral Coefficients，MFCC）特征。将所述待转换语音对应的MFCC特征输入至预设的与说话者无关的自动语音识别（Speaker-Independent Automatic Speech Recognition，SI-ASR）系统中，确定所述待转换语音对应的PPGs特征。

其中，所述PPGs特征可以为PPGs特征图，在所述PPGs特征图中，横坐标表示时间，纵坐标表示音素类别，每个坐标表示在给定时间点出现该类别音素的后验概率大小，在每个坐标点处的颜色越深，概率越大。

S103、根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征。

该步骤中，根据步骤S101获取到的所述目标语音，确定该目标语音对应的目标音色特征以及目标情感特征。

这里，所述目标音色特征取决于说话人本身的音色特征，不同的说话人说话时发出的声音不一样，也就是对于不同的说话人之间的音色特征不同。根据所述音色特征可以判断出语音的来源，也就是判断出该语音对应的说话人。

具体的，可以基于以下方法确定所述目标语音对应的目标音色特征：确定所述目标语音对应的梅尔倒谱特征；将所述目标语音对应的梅尔倒谱特征输入至预先训练好的音色特征提取模型中，确定所述目标语音对应的目标音色特征，其中，所述音色特征提取模型是基于训练语音以及所述训练语音对应的说话人音色特征标签训练得到的。

这里，所述音色特征提取模型在训练过程中不断调整音色特征提取模型的网络参数，直至最小化所述音色特征提取模型输出的说话人音色特征标签与训练语音对应的真实说话人音色特征标签之间交叉熵。

可选的，可以采用梯度下降法寻找最小化所述音色特征提取模型输出的说话人音色特征标签与训练语音对应的真实说话人音色特征标签之间交叉熵的网络参数。

优选的，所述音色特征提取模型可以为时延神经网络（Time Delay NueralNetwork，TDNN）模型。

作为一种可能的实施方式，音色特征提取模型的网络结构设置可以参见如下表1所示，表1为所述音色特征提取模型的一种可能的网络结构参数。

表1

Name	Layer	Layer context	Total context	Input/Output
					TDNN0	FRAME1	{t-2,t-1,t,t+1,t+2}	11	128/128
TDNN1	FRAME2	{t-2,t,t+2}	5	128/256
					TDNN2	FRAME3	{t-3,t,t+3}	15	256/256
TDNN3	FRAME4	{t}	15	256/256
					STATS	STATS POLLING	{0,T}	T	256T/256
TDNN5	SEGMENTS5	{0}	T	256/256
					OUTPUT	SOFTMAX	{0}	T	256/N

如表1所示，本实施例提供的音色特征提取模型以6层网络组成，分别为TDNN0-TDNN3层、用于统计池化的统计（STATS）层、TDNN5层以及输出层OUTPUT。

这里，由于音色特征提取模型采用了TDNN模型，该音色特征提取模型可以表达语音在时间上的上下文关系，例如表1中所示上下文（Layer context）列参数，在当前时刻t处的前移3帧以及后移3帧的上下文关联情况均会被音色特征提取模型考虑，其中，1帧为10毫秒。

这里，由于语音数据的音色特征往往取决于说话人的不同，不同的说话人具有不同的音色，因此，在音色特征提取模型的训练过程中，训练数据可以按照说话人的不同，设置相应的说话人音色特征标签，也就是说，音色特征提取模型实质上可以为输出说话人的分类结果，因此，可以提取倒数第2层TDNN5层输出的嵌入特征作为目标语音对应的目标音色特征。

优选的，TDNN5层输出的嵌入特征的维度为256维。

具体的，可以基于以下方法确定所述目标语音对应的目标情感特征：确定所述目标语音对应的梅尔倒谱特征；将所述目标语音对应的梅尔倒谱特征输入至预先训练好的情感特征提取模型中，确定所述目标语音对应的目标情感特征，其中，所述情感特征提取模型是基于训练语音以及所述训练语音对应的情感标签训练得到的。

其中，所述训练语音对应的情感标签可以为高兴、愤怒、伤心等情绪。

优选的，所述情感特征提取模型可以为时延神经网络（Time Delay NueralNetwork，TDNN）模型。

作为一种可能的实施方式，情感特征提取模型的网络结构设置可以参见如下表2所示，表2为所述情感特征提取模型的一种可能的网络结构参数。

表2

Name	Layer	Layer context	Total context	Input/Output
					TDNN0	FRAME1	{t-2,t-1,t,t+1,t+2}	11	128/128
TDNN1	FRAME2	{t-2,t,t+2}	5	128/256
					TDNN2	FRAME3	{t-3,t,t+3}	15	256/256
TDNN5	SEGMENTS5	{0}	T	256/256
					OUTPUT	SOFTMAX	{0}	T	256/N

如表2所示，本实施例提供的情感特征提取模型以5层网络组成，分别为TDNN0-TDNN2层、TDNN5层以及输出层OUTPUT。相比较于表1所示的音色特征提取模型，情感特征提取模型的网络结构更加简单，网络规模较小。

其中，可以提取TDNN5层输出的256维嵌入特征作为目标语音对应的目标情感特征。

S104、将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征。

该步骤中，将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征作为情感语音转换模型的输入，输入至预先训练好的情感语音转换模型中，由情感语音转换模型进行编码与解码操作，将待转换语音的音色特征转换为目标音色特征，同时将目标情感特征迁移至待转换语音，由情感语音转换模型输出经过转换后的所述待转换语音对应的目标梅尔倒谱特征。

这里，所述情感语音转换模型可以由双向长短期记忆编码器（BiLSTM Encoder）以及注意力解码器（Attention Decoder）组成。

作为一种可能的实施方式，基于以下方法训练所述情感语音转换模型：构建情感语音训练数据集，其中，所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及分别对应的目标训练语音数据；确定所述目标训练语音数据对应的实际梅尔倒谱特征；针对所述情感语音训练数据集中的每一条所述待转换训练语音数据，确定该待转换训练语音数据对应的语音后验概率特征；针对所述情感语音训练数据集中的每一条所述目标训练语音数据，确定该目标训练语音数据对应的音色特征以及情感特征；将所述语音后验概率特征、音色特征以及情感特征作为特征数据，所述实际梅尔倒谱特征作为数据标签，输入至待训练的情感语音转换模型，确定经过转换后的所述待转换训练语音数据对应的预测梅尔倒谱特征；根据所述预测梅尔倒谱特征以及所述实际梅尔倒谱特征，更新所述情感语音转换模型，直至所述预测梅尔倒谱特征与所述实际梅尔倒谱特征之间的交叉熵减小至预设交叉熵阈值。

这里，将所述预测梅尔倒谱特征与所述实际梅尔倒谱特征之间的交叉熵达到最小化，则认为情感语音转换模型训练完成。其中，所述预设交叉熵阈值可以根据实际情况进行设置，在此不做具体限制。

S105、根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

该步骤中，根据情感语音转换模型输出的所述目标梅尔倒谱特征确定出具有目标音色特征以及所述目标情感特征的转换目标语音。

具体的，可以将所述目标梅尔倒谱特征输入至声码器中，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

其中，所述转换目标语音为待转换语音经过目标音色特征以及目标情感特征的转换后，形成的音频样点。

本公开实施例提供的一种音色转换方法，通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音，确定待转换语音对应的语音后验概率特征；根据目标语音，确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征，确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。

参见图2所示，为本公开实施例提供的另一种音色转换方法的流程图，所述方法包括步骤S201~S206，其中：

S201、获取待转换语音以及目标语音。

S202、针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。

该步骤中，针对步骤S201获取到的待转换语音以及目标语音进行包括预加重、分帧、加窗以及傅里叶变换等操作的预处理，以便于提取待转换语音对应的语音后验概率特征以及目标语音对应的目标音色特征以及目标情感特征。

S203、根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征。

S204、根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征。

S205、将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征。

S206、根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

其中，步骤S201、S203-S206与步骤S101-S105的处理过程以及实施方式均相同，并且可以达到相同的技术效果，对此不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与音色转换方法对应的音色转换装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述音色转换方法相似，因此音色转换装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图3、图4和图5，图3为本公开实施例提供的一种音色转换装置的示意图之一，图4为本公开实施例提供的一种音色转换装置的示意图之二，图5为本公开实施例提供的一种音色转换装置的示意图之三。如图3中所示，本公开实施例提供的音色转换装置300包括：获取模块310、确定模块320、特征提取模块330、转换模块340以及生成模块350。

获取模块310，用于获取待转换语音以及目标语音；

确定模块320，用于根据所述待转换语音，确定所述待转换语音对应的语音后验概率特征；

特征提取模块330，用于根据所述目标语音，确定所述目标语音对应的目标音色特征以及目标情感特征；

转换模块340，用于将所述语音后验概率特征、所述目标音色特征以及所述目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的所述待转换语音对应的目标梅尔倒谱特征；

生成模块350，用于根据所述目标梅尔倒谱特征，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

可选的，如图4中所示，所述特征提取模块330还包括第一特征提取单元331以及第二特征提取单元332；

所述第一特征提取单元331用于：确定所述目标语音对应的梅尔倒谱特征；

所述第二特征提取单元332用于：确定所述目标语音对应的梅尔倒谱特征；

可选的，如图5中所示，所述音色转换装置300还包括预处理模块360；

所述预处理模块360用于：针对所述待转换语音以及所述目标语音进行预处理，其中，所述预处理包括针对所述待转换语音进行预加重、分帧、加窗以及傅里叶变换。

可选的，所述转换模块340还用于：

基于以下方法训练所述情感语音转换模型：

构建情感语音训练数据集，其中，所述情感语音训练数据集中包括带有不同情感的待转换训练语音数据以及目标训练语音数据；

根据所述待转换训练语音数据以及所述目标训练语音数据，确定经过转换后的所述待转换训练语音数据对应的实际梅尔倒谱特征；

将所述语音后验概率特征、音色特征以及情感特征输入至待训练的情感语音转换模型，确定经过转换后的所述待转换训练语音数据对应的预测梅尔倒谱特征；

一种可选的实施方式中，所述生成模块350还用于：

将所述目标梅尔倒谱特征输入至声码器中，确定具有所述目标音色特征以及所述目标情感特征的转换目标语音。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例提供的一种音色转换装置，通过获取待转换语音以及待转换语音需要转换至的目标语音；根据待转换语音，确定待转换语音对应的语音后验概率特征；根据目标语音，确定目标语音对应的目标音色特征以及目标情感特征；将语音后验概率特征、目标音色特征以及目标情感特征输入至预先训练好的情感语音转换模型中，确定经过转换后的待转换语音对应的目标梅尔倒谱特征；根据目标梅尔倒谱特征，确定具有目标音色特征以及目标情感特征的转换目标语音。可以在音色转换的同时提升对说话人真实语义的还原度，有助于听众理解说画画人的真实语义，提升听众体验感。

对应于图1与图2中的音色转换方法，本公开实施例还提供了一种电子设备600，如图6所示，为本公开实施例提供的电子设备600结构示意图，包括：

处理器61、存储器62、和总线63；存储器62用于存储执行指令，包括内存621和外部存储器622；这里的内存621也称内存储器，用于暂时存放处理器61中的运算数据，以及与硬盘等外部存储器622交换的数据，处理器61通过内存621与外部存储器622进行数据交换，当所述电子设备600运行时，所述处理器61与所述存储器62之间通过总线63通信，使得所述处理器61执行图1与图2中的音色转换方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的音色转换方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包（Software Development Kit，SDK）等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

20页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：值得保护的城市声景观品质自动监测方法

一种音色转换方法、装置、电子设备及存储介质

相关技术

网友询问留言