基于说话人风格特征建模的多对多语音转换方法及系统

文档序号：1005935 发布日期：2020-10-23 浏览：23次 >En<

阅读说明：本技术 基于说话人风格特征建模的多对多语音转换方法及系统 (Many-to-many voice conversion method and system based on speaker style feature modeling ) 是由李燕萍张成飞于 2020-06-02 设计创作，主要内容包括：本发明公开了一种基于说话人风格特征建模的多对多语音转换方法及系统,首先提出在StarGAN神经网络中添加多层感知器和风格编码器,实现对说话人风格特征的有效提取和约束,克服了传统模型中one-hot向量携带说话人信息有限的缺点；接着采用自适应实例归一化方法实现语义特征和说话人个性特征的充分融合,使得网络可以学习到更多的语义信息与说话人个性信息；进一步在生成器残差网络中引入一种轻量级的网络模块SKNet,使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小,并通过注意力机制调节每个特征通道的权重,增强对频谱特征的学习能力,细化频谱特征细节。(The invention discloses a many-to-many voice conversion method and a system based on speaker style feature modeling, which firstly put forward to add a multilayer perceptron and a style encoder in a StarGAN neural network to realize effective extraction and constraint of speaker style features and overcome the defect that one-hot vectors in a traditional model carry speaker information to be limited; then, a self-adaptive example normalization method is adopted to realize the full fusion of the semantic features and the speaker personality features, so that the network can learn more semantic information and speaker personality information; and further introducing a lightweight network module SKNet into a generator residual error network, so that the network can adaptively adjust the size of a receptive field according to a plurality of scales of input information, adjust the weight of each characteristic channel through an attention mechanism, enhance the learning capacity of the frequency spectrum characteristics and refine the details of the frequency spectrum characteristics.)

技术领域

本发明涉及语音转换技术领域，具体涉及一种基于说话人风格特征建模的多对多语音转换方法。

背景技术

语音转换是语音信号处理领域的研究分支，是在语音分析、合成和说话人识别的研究基础上发展与延伸。语音转换的目标是改变源说话人的语音个性特征，使之具有目标说话人的个性特征，同时保留语义信息不变，也就是使源说话人的语音经过转换后听起来像是目标说话人的语音。

语音转换技术经过多年的研究，已经涌现了很多经典的转换方法，按训练语料分类，可以分为平行文本条件下的转换方法和非平行文本条件下的转换方法。预先采集大量平行训练文本，不仅耗时耗力，而且在跨语种转换和医疗辅助系统中往往无法采集到平行文本，因此，非平行文本条件下的语音转换研究具有更大的应用背景和现实意义。

现有的非平行文本条件下的语音转换方法有基于循环一致对抗网络 (Cycle-Consistent Adversarial Networks，Cycle-GAN)的方法、基于条件变分自编码器(Conditional Variational Auto-Encoder，C-VAE)的方法等。基于C-VAE模型的语音转换方法，直接利用说话人的身份标签建立语音转换系统，其中编码器对语音实现语义和个性信息的解耦，解码器通过语义和说话人身份标签来实现语音的重构，从而可以解除对平行文本的依赖。但是由于C-VAE基于理想假设，认为观察到的数据通常遵循高斯分布，导致解码器的输出语音过度平滑，转换后的语音质量不高。基于Cycle-GAN模型的语音转换方法利用对抗性损失和循环一致损失，同时学***滑问题，改善转换语音质量，但是Cycle-GAN目前只能实现一对一的语音转换。

基于星型生成对抗网络(Star Generative Adversarial Network，StarGAN)模型的语音转换方法同时具有C-VAE和Cycle-GAN的优点，该方法的生成器具有编解码结构，可以同时学***行文本条件下多对多的语音转换，但仍然存在三个方面的问题，首先说话人身份标签只是一个one-hot向量，虽然具有指示作用，但却无法提供更多的说话人身份信息，说话人身份信息的匮乏，导致生成器很难重构出高个性相似度的转换语音；其次生成器的解码网络中说话人身份标签只是通过简单的拼接控制输出属性，无法较好地实现语义特征与说话人个性特征的充分融合，导致传输中容易丢失频谱中深层的语义特征与说话人个性特征；此外生成器中的编码网络与解码网络之间相互独立，这种简单的网络结构使得生成器缺乏对深层特征的提取能力，极易造成信息的损失与噪声的生成。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于说话人风格特征建模的多对多语音转换方法，该方法解决了现有的方法中说话人标签个性信息不足、语义特征和说话人特征拼接方式简单、残差网络中感受野和通道权重固定三个层次的问题，另一方面，本发明还提供一种基于说话人风格特征建模的多对多语音转换系统。

技术方案：根据本发明的第一方面，提出基于说话人风格特征建模的多对多语音转换方法，包括训练阶段和转换阶段，所述训练阶段包括以下步骤：

(1.1)获取训练语料，训练语料由多名说话人的语料组成，所述说话人包含源说话人和目标说话人；

(1.2)提取所述的训练语料中各说话人语音的频谱特征x；

(1.3)将各说话人语音的频谱特征x、源说话人标签c_s、目标说话人标签c_t以及服从正态分布的随机噪声z，输入到SKNet StarGAN网络中进行训练，所述SKNet StarGAN 网络包括生成器G、鉴别器D和分类器C、风格编码器S以及多层感知器M，所述生成器G包括编码网络、解码网络以及至少一层SKNet层，所述SKNet层搭建于所述编码网络与解码网络之间的残差网络中；

(1.4)训练过程使生成器G的损失函数、鉴别器D的损失函数尽量小，直至设置的迭代次数，从而得到训练好的SKNet StarGAN网络；

(1.5)构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括以下步骤：

(2.1)将待转换语料中源说话人的语音提取出频谱特征x_s'、非周期性特征以及基频特征；

(2.2)将所述源说话人频谱特征x_s'、目标说话人标签特征c_t'以及服从正态分布的随机噪声z'，输入步骤(1.4)中训练好的SKNet StarGAN网络中，得到目标说话人频谱特征x_st'；

(2.3)通过步骤(1.5)得到的基频转换函数，将步骤(2.1)中提取出的源说话人的所述基频特征转换为目标说话人的基频特征；

(2.4)将步骤(2.2)中生成的目标说话人频谱特征x_st'、步骤(2.3)中得到的目标说话人的基频特征和步骤(2.1)中提取的非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

进一步的，包括：

搭建于所述编码网络与解码网络之间的SKNet为6层。

进一步的，包括：

所述风格编码器S包括6个一维卷积，过滤器大小分别为1、1、1、1、1、16，步长均为1，过滤器深度分别为32、64、128、256、512、512，中间层包括5个一维平均池化层和5个残差网络，每个一维平均池化层的过滤器大小均为2，步长均为2，每个残差网络层包括2个一维卷积，每个一维卷积的过滤器的大小均为2，步长均为2，深度均为上一层过滤器深度的2倍。

进一步的，包括：

所述多层感知器M包括7个线性层，输入层的输入神经元为16，输出神经元为512，中间层5个线性层的输入神经元与输出神经元均为512，输出层的输入神经元为512，输出神经元为64*语音转换的人数。

进一步的，包括：

所述步骤(1.3)和(1.4)的训练过程包括以下步骤：

(1)将服从正态分布的随机噪声z、目标说话人标签特征c_t，输入到多层感知器M中，得到目标说话人的风格特征s_t；

(2)将源说话人的频谱特征x_s输入生成器G的编码网络，得到说话人无关的语义特征G(x)；

(3)将上述生成的语义特征G(x)与目标说话人的风格特征s_t，输入到生成器G的解码网络进行训练，在训练过程中最小化生成器G的损失函数，从而得到目标说话人的频谱特征x_st；

(4)将源说话人的频谱特征x_s、源说话人标签特征c_s，输入到风格编码器S，得到说话人的风格指示特征

(5)将上述生成的目标说话人的频谱特征x_st，再次输入到生成器G的编码网络，得到说话人无关的语义特征G(x_st)；

(6)将上述生成的语义特征G(x_st)与说话人的风格指示特征

输入到生成器G 的解码网络进行训练，在训练过程中最小化生成器G的损失函数，得到重构的说话人的频谱特征

(7)将步骤(3)中生成的目标说话人的频谱特征x_st，输入到鉴别器D与分类器C 中进行训练，最小化鉴别器D的损失函数和分类器C的损失函数；

(8)将步骤(3)中生成的目标说话人的频谱特征x_st、目标说话人标签特征c_t，输入风格编码器S进行训练，最小化风格编码器S的风格重构损失函数；

(9)回到步骤(1)重复上述步骤，直至达到设置的迭代次数，从而得到训练好的SKNet StarGAN网络。

进一步的，包括：

所述风格编码器S的风格重构损失函数表示为：

其中，

表示生成器生成的概率分布的期望，S(·)为风格编码器，s_t表示从多层感知器M生成的目标说话人的风格特征，G(x_s,s_t)表示生成器生成目标说话人频谱特征，x_s为源说话人的频谱特征。

进一步的，包括：

所述步骤(2.2)的输入过程包括以下步骤：

(1)将服从正态分布的随机噪声z'、目标说话人标签特征c_t'，输入到多层感知器M，得到目标说话人的风格特征s_t'；

(2)将源说话人的频谱特征x_s'输入生成器G的编码网络，得到说话人无关的语义特征G(x_s')；

(3)将所述生成的语义特征G(x_s')、目标说话人的风格特征s_t'，输入到生成器G 的解码网络得到目标说话人的频谱特征x_st'。

进一步的，包括：

所述SKNet StarGAN网络的目标函数表示为：

L_SKNetSTARGAN＝L_G+L_D

其中，L_G为生成器的损失函数，L_D为鉴别器的损失函数；

生成器的损失函数L_G表示为：

其中，λ_cyc、λ_ds、λ_sty和λ_cls是一组正则化超参数，分别表示循环一致性损失、风格多样性损失、风格重构损失和分类损失的权重，

和

分别表示生成器的对抗损失、循环一致性损失、风格多样性损失、风格编码器的风格重构损失和分类器的分类损失；

鉴别器的损失函数L_D为：

其中，λ_cls是分类损失的权重，

分别是鉴别器的对抗损失、分类器分类损失。

另一方面，本发明还提出一种基于说话人风格特征建模的多对多语音转换系统，包括训练阶段和转换阶段，所述训练阶段包括：

语料获取模块，用于获取训练语料，训练语料由多名说话人的语料组成，所述说话人包含源说话人和目标说话人；

预处理模块，用于提取所述的训练语料中各说话人语音的频谱特征x；

网络训练模块，用于将各说话人语音的频谱特征x、源说话人标签c_s、目标说话人标签c_t以及服从正态分布的随机噪声z，输入到SKNet StarGAN网络中进行训练，所述SKNet StarGAN网络包括生成器G、鉴别器D和分类器C、风格编码器S以及多层感知器M，所述生成器G包括编码网络、解码网络以及至少一层SKNet层，所述SKNet层搭建于所述编码网络与解码网络之间的残差网络中；

训练过程使生成器G的损失函数、鉴别器D的损失函数尽量小，直至设置的迭代次数，从而得到训练好的SKNet StarGAN网络；

函数构建模块，用于构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括：

源语音处理模块，用于将待转换语料中源说话人的语音提取出频谱特征x_s'、非周期性特征以及基频特征；

转换模块，用于将所述源说话人频谱特征x_s'、目标说话人标签特征c_t'以及服从正态分布的随机噪声z'，输入步骤(1.4)中训练好的SKNet StarGAN网络中，得到目标说话人频谱特征x_st'；

目标特征获取模块，用于将得到的基频转换函数，将提取出的源说话人的所述基频特征转换为目标说话人的基频特征；

说话人语音获取模块，用于将生成的目标说话人频谱特征x_st'、目标说话人的基频特征和非周期性特征通过WORLD语音分析/合成模型，合成得到转换后的说话人语音。

此外，本发明还提供一种计算机存储介质，其上存储有计算机程序，其特征在于：所述计算机程序在被计算机处理器执行时实现上述所述的方法。

有益效果：(1)本发明通过添加多层感知器和风格编码器，以获得更加丰富的说话人个性特征，使用说话人风格特征代替说话人标签，弥补one-hot向量携带说话人信息有限的缺点，有利于解码网络学***行文本条件下实现了一种高音质、高个性相似度的多对多语音转换方法，在跨语种语音转换、电影配音、语音翻译等领域有较好的应用前景。

附图说明

图1是本方法SKNet StarGAN的原理示意图；

图2是本方法的模型SKNet StarGAN的生成器的网络结构图；

图3是本方法的模型SKNet StarGAN中SKNet原理示意图；

图4是本方法的模型SKNet StarGAN的鉴别器的网络结构图；

图5是本方法的模型SKNet StarGAN的感知器的网络结构图；

图6是本方法的模型SKNet StarGAN的风格编码器的网络结构图；

图7是同性转换情形下本方法的SKNet StarGAN模型与基准StarGAN模型合成语音的语谱对比图；

图8是异性转换情形下本方法的SKNet StarGAN模型与基准StarGAN模型合成语音的语谱对比图；

图9是本方法的SKNet StarGAN模型与基准StarGAN模型的生成器重构函数的收敛速度对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，并不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于说话人风格特征建模的多对多语音转换方法，其是在传统StarGAN神经网络上添加多层感知器和风格编码器，实现对说话人风格特征的有效提取和约束，使用说话人风格特征代替说话人标签特征，克服了传统模型中one-hot向量携带说话人信息有限的缺点；其次在生成器网络中采用自适应实例归一化的方式将语义特征和说话人个性特征进行充分融合，加强生成器网络的学习能力和表达能力；进一步在生成器编码网络和解码网络之间添加SKNet模块，使得网络可以根据输入信息的多个尺度自适应地调节感受野的大小，并通过注意力机制调节每个特征通道的权重，细化频谱特征细节；基于说话人风格特征建模的SKNet StarGAN网络可以实现高质量和高个性相似度的转换语音。本发明将改进的StarGAN称为SKNet StarGAN。

如图1所示，本例实施的方法分为两个部分：训练部分用于得到语音转换所需的参数和转换函数，而转换部分用于实现源说话人语音转换为目标说话人语音。

训练阶段实施步骤为：

1.1)获取非平行文本的训练语料，训练语料是多名说话人的语料，包含源说话人和目标说话人。训练语料取自VCC2018语音语料库，该语料库中有6个男性和6个女性说话人，每个说话人有81句训练语料，35句测试语料。本实验选取其中4名女性说话人和4名男性说话人，即VCC2SF3、VCC2SF4、VCC2TF1、VCC2TF2、VCC2SM3、 VCC2SM4、VCC2TM1、VCC2TM2。

1.2)训练语料通过WORLD语音分析/合成模型提取出各说话人语句的频谱包络特征x、非周期性特征、对数基频log f₀，其中，由于快速傅氏变换(Fast FourierTransformation,FFT)长度设置为1024，因此，得到的频谱包络特征x和非周期性特征均为1024/2+1＝513维。每一个语音块有512帧，每一帧提取36维的梅尔倒谱系数 (Mel-Cepstral Coefficients,MCEP)特征作为SKNet StarGAN模型的频谱特征，一次训练取8个语音块。因此，训练语料的维度为8*36*512。

1.3)本实施例中的SKNet StarGAN网络以StarGAN模型为基础，一方面提出通过添加风格编码器与多层感知器，实现说话人风格特征的有效建模和提取，其次提出自适应实例归一化方法实现语义特征和说话人风格特征的充分融合，进一步引入一种新型的轻量级网络模块SKNet，实现对频谱特征的细化处理。SKNet StarGAN由四部分组成：一个产生频谱的生成器G，一个判断频谱来源的鉴别器D，一个判别生成频谱的标签属性的分类器C，一个产生说话人风格特征的多层感知器M，以及一个约束说话人风格特征的风格编码器S。

SKNet StarGAN网络的目标函数为：

L_SKNetSTARGAN＝L_G+L_D

其中，L_G为生成器的损失函数：

其中，λ_cyc、λ_ds、λ_sty和λ_cls是一组正则化超参数，分别表示循环一致性损失、风格多样性损失、风格重构损失和分类损失的权重，

和分别表示生成器的对抗损失、循环一致性损失、风格多样性损失、风格编码器的风格重构损失和分类器的分类损失。

鉴别器的损失函数为：

其中，λ_cls是分类损失的权重，

分别是鉴别器的对抗损失、分类器分类损失。

1.4)将服从正态分布的随机噪声z与目标说话人标签特征c_t，作为联合特征(z,c_t)输入多层感知器中得到说话人风格特征s_t。

1.5)将提取的源说话人频谱特征x_s与1.4)中得到的风格特征s_t，作为联合特征(x_s,s_t)输入生成器进行训练，使生成器的损失函数L_G尽量小，得到生成目标说话人频谱特征x_st。

如图2所示，生成器(Generator)采用二维卷积神经网络，由编码网络、解码网络以及若干SKNet层构成。编码网络包括3个二维卷积层，3个二维卷积层的过滤器(k) 大小分别为3*9、4*8、4*8，步长(s)分别为1*1、2*2、2*2，过滤器深度(c)分别为64、 128、256；解码网络包括2个二维反卷积层(ConvT2)，2个二维反卷积层的过滤器大小均为4*4，步长均为2*2，过滤器深度分别为128、64；输出层包含1个二维卷积，其过滤器大小为3*9，步长为1*1，过滤器深度为1；在编码网络与解码网络之间残差网络中搭建若干层SKNet层，残差网络每层中间的输出经过一个SKNet，将经过SKNet重标定的输出进行拼接输入到下一层，其中，SKNet为Selective Kernel Networks的缩写，其是一个轻量级嵌入式的模块，其灵感来源是，在看不同尺寸不同远近的物体时，视觉皮层神经元接受域大小会根据刺激来进行调节。

本实施例中，SKNet层优选为6层。SKNet的原理如图3所示，首先经过Split操作将网络拆分成两支路分别进行卷积；再经过Fuse操作将两支路输出结果进行累加并经过全局平均池化，将每个二维的特征通道变成一个具有全局感受野的实数，接着通过两层卷积实现先降维再升维以获得两组通道信息，进一步通过Softmax函数以获得两组通道的权重；最后经过Select操作将两组通道权重分别加权到上述两支路卷积输出的每个通道特征上，从而完成在通道维度上的重标定，最后将两组经过重标定的输出进行累加并输出到下一层。

前三层SKNet所在的块结构相同，均为：依次为卷积层(Conv2)、归一化层(Instance Norm)、修正线性单元(ReLU)、SKNet层、卷积层以及归一化层，过滤器大小为3*3，深度为256，步长为1*1。后三层SKNet所在的块结构与前三层SKNet所在的块结构略有不同，均将归一化层替换为自适应实例归一化方法(AdaIN)，自适应实例归一化方法可以实现语义特征和说话人个性特征的充分融合，过滤器大小为3*3，深度为256，步长为1*1。

生成器G的编码网络的3个二维卷积层的过滤器大小分别为3*9、4*8、4*8，步长分别为1*1、2*2、2*2，过滤器深度分别为64、128、256；解码网络的2个二维反卷积层的过滤器大小均为4*4，步长均为2*2，过滤器深度分别为128、64；输出层的1个二维卷积的过滤器大小为3*9，步长为1*1，过滤器深度为1。所述的鉴别器D与分类器C 共用的5个二维卷积层的过滤器大小均为4*4，步长均为2*2，过滤器深度分别为64、 128、256、512、1024；鉴别器D输出层的二维卷积的过滤器大小为1*16，步长为1*1，过滤器深度为1；分类器C输出层的二维卷积的过滤器大小为1*8，步长为1*1，过滤器深度为转换人数。

具体的，如图6所示，风格编码器(Style Encoder)S的6个一维卷积的过滤器大小分别为1、1、1、1、1、16，步长均为1，过滤器深度分别为32、64、128、256、512、 512，中间层包括5个一维平均池化层和5个残差网络，每个一维平均池化层的过滤器大小均为2，步长均为2，每个残差网络层包括2个一维卷积，每个一维卷积的过滤器的大小均为2，步长均为2，深度均为上一层过滤器深度的2倍。

如图5所示，多层感知器(Multilayer Perceptron)M包括7个线性层，输入层的输入神经元为16，输出神经元为512；中间层5个线性层的输入神经元与输出神经元均为 512；输出层的输入神经元为512，输出神经元为64*语音转换的人数。

1.6)将1.5)得到的生成目标说话人频谱特征x_st和1.2)得到的训练语料的目标说话人频谱特征x_t，一同作为鉴别器的输入，训练鉴别器，使鉴别器的对抗损失函数尽可能小。

如图4所示，鉴别器(Discriminator)采用二维卷积神经网络，包括6个二维卷积层，前5个二维卷积层的过滤器大小均为4*4，步长均为2*2，过滤器深度分别为64、 128、256、512、1024，输出层二维卷积层的过滤器大小为1*16，步长为1*1，过滤器深度为1。

鉴别器的损失函数为：

其中，λ_cls是分类损失的权重，分别是鉴别器的对抗损失、分类器分类损失。

其中，D_s(x_s)表示鉴别器D判别真实频谱特征，C_t(c_t|G(x_s,s_t))表示分类器C判别生成频谱标签的归属，s_t表示多层感知器M生成的目标说话人的风格特征，即 M(z,c_t)＝s_t，G(x_s,s_t)表示生成器G生成的目标说话人频谱特征，即x_ts，D_t(G(x_s,s_t)) 表示鉴别器判别生成的频谱特征，表示生成器G生成的概率分布的期望，表示真实概率分布的期望。

优化目标为：

1.7)将上述得到的目标说话人的频谱特征x_st，再次输入到生成器G的编码网络，得到说话人无关的语义特征G(x_st)，将源说话人的频谱特征x_s、源说话人标签特征c_s，输入风格编码器S，得到源说话人的风格指示特征将得到的语义特征G(x_st)与源说话人的风格指示特征作为联合特征

一同输入到生成器G的解码网络进行训练，在训练过程中最小化生成器G的损失函数，得到重构源说话人的频谱特征

在训练过程中最小化生成器的损失函数，包括生成器的对抗损失、循环一致性损失、风格编码器的风格重构损失、风格多样性损失和分类器分类损失。其中，训练循环一致损失是为了使源说话人频谱特征x_s在经过生成器G后，所重构的源说话人频谱特征可以和x_s尽可能保持一致，训练风格重构损失是为了约束多层感知器生成更加符合目标说话人的风格特征s_t，训练风格多样性损失是为了保***实现多说话人转换，分类损失指分类器判别生成器所生成的目标说话人频谱x_st属于标签c_t的概率损失。

生成器的损失函数为：

优化目标为：

其中，λ_cyc、λ_ds、λ_sty和λ_cls是一组正则化超参数，分别表示循环一致性损失、风格多样性损失、风格重构损失和分类损失的权重。

表示GAN中生成器的对抗损失：

其中，

表示生成器生成的概率分布的期望，s_t表示多层感知器M生成的目标说话人的风格特征，即M(z,c_t)＝s_t，G(x_s,s_t)表示生成器生成频谱特征，

和鉴别器的损失

共同构成GAN中常见的对抗损失，用来判别输入鉴别器的频谱是真实频谱还是生成频谱。在训练过程中

尽可能小，生成器不断优化，直至生成能够以假乱真的频谱特征G(x_s,c_s)，使得鉴别器难以判别真假。

为生成器G中循环一致损失：

其中，表示源说话人的风格指示特征，即

为重构的源说话人频谱特征，为重构源说话人频谱和真实源说话人频谱的损失期望。在训练生成器的损失中，尽可能小，使生成目标频谱G(x_s,s_t)、源说话人的风格指示特征再次输入到生成器后，得到的重构源说话人语音频谱尽可能和x_s相似。通过训练可以有效保证说话人语音的语义特征，在经过生成器的编码以后不被损失。

为风格多样性损失，用来保***实现多说话人转换：

其中，z₁,z₂均为服从正态分布的随机噪声，s_t1,s_t2为多层感知器M生成的目标说话人的风格特征，即M(z₁,c_t)＝s_t1，M(z₂,c_t)＝s_t2，在训练过程中，

尽可能小，实现多说话人到多说话人的转换。

为风格编码器S的风格重构损失，用来优化风格特征s_t：

其中，s_t表示多层感知器M生成的目标说话人的风格特征，G(x_s,s_t)表示生成器生成目标说话人频谱特征。

将目标说话人频谱特征G(x_s,s_t)输入到风格编码器S中得到重构的风格特征，与多层感知器M生成的目标说话人的风格特征s_t求绝对值，在训练过程中，

尽可能小，使得多层感知器M生成的目标说话人的风格特征s_t能够充分表达目标说话人的个性特征。

为分类器C的分类损失：

其中，C_t(c_t|G(x_s,s_t))为分类器判别生成频谱标签的归属，尽可能小，最小化分类器的损失函数。

1.8)重复步骤1.4-1.7步骤，直至达到设置的迭代次数，从而得到训练好的SKNetStarGAN网络，其中，生成器参数φ、鉴别器参数θ、分类器参数ψ、多层感知器参数

和风格编码器参数δ为训练好的参数。由于神经网络具体设置不同以及实验设备性能不同，选择的迭代次数也各不相同。本实验中选择迭代次数为200000次。

1.9)使用对数基频log f₀的均值和均方差建立基音频率转换关系，统计出每个说话人的对数基频的均值和均方差，利用对数域线性变换将源说话人对数基频log f_0s转换得到目标说话人对数基频log f_0t'。

基频转换函数为：

其中，μ_s和σ_s分别为源说话人的基频在对数域的均值和均方差，μ_t和σ_t分别为目标说话人的基频在对数域的均值和均方差。

转换阶段实施步骤为：

2.1)将源说话人语音通过WORLD语音分析/合成模型，提取源说话人的不同语句的频谱特征x_s'、非周期性特征、基频。

2.2)将服从正态分布的随机噪声z'、目标说话人标签特征c_t'，输入到多层感知器M，得到目标说话人的风格特征s_t'。

2.3)将2.1)提取的源说话人语音的频谱特征x_s'与2.2)提取的目标说话人的风格特征s_t'，作为联合特征(x_s',s_t')输入1.8)训练的SKNet StarGAN网络中，从而重构出目标说话人频谱特征x_st'。

2.4)通过1.9)得到的基音频率转换函数，将2.1)中提取出的源说话人基频转换为目标说话人的基频。

2.5)将2.3)中生成的目标说话人频谱特征x_st'、2.4)中得到的目标说话人的基频和2.1)提取的非周期性特征通过WORLD语音分析/合成模型合成转换后的说话人语音。

本发明的SKNet StarGAN模型与基准StarGAN模型所合成的语音效果进行了对比，如图7a和7b分别为性别相同情形下的一组源说话人语音与目标说话人语音的语谱图，图7d和7c分别是本发明所述的模型与基准StarGAN模型合成语音的语谱对比图，为了详细说明本发明采用的方法的优势，本文选取三处对比框图内的频谱特征细节进行比较，从图中可知，本发明所述的转换语音的频谱特征细节与目标语音的相似度更高。

图8a和8b分别为不同性别情形下的一组源语音与目标语音的语谱图，图8d和8c是本发明所述的模型与基准StarGAN模型合成语音的语谱对比图，为了详细说明本发明采用的方法的优势，选取三处对比框图内的频谱特征细节进行比较，从图中可知，本发明所述的转换语音的频谱特征细节与目标语音的相似度更高。如图9所示，本发明使用的方法随着迭代次数的增加，收敛速度更快，重构损失更小。

另一方面，本发明还提供一种基于说话人风格特征建模的SKNet StarGAN多对多语音转换系统，其特征在于，包括训练阶段和转换阶段，所述训练阶段包括：

语料获取模块，用于获取训练语料，训练语料由多名说话人的语料组成，所述说话人包含源说话人和目标说话人；

预处理模块，用于提取所述的训练语料中各说话人语音的频谱特征x；

网络训练模块，用于将各说话人语音的频谱特征x、源说话人标签c_s、目标说话人标签c_t以及服从正态分布的随机噪声z，输入到SKNet StarGAN网络中进行训练，所述SKNet StarGAN网络包括生成器G、鉴别器D、分类器C、风格编码器S以及多层感知器M组成，所述生成器G包括编码网络、解码网络以及至少一层SKNet层，所述SKNet 层搭建于所述编码网络与解码网络之间的残差网络中；

训练过程使生成器G的损失函数、鉴别器D的损失函数尽量小，直至设置的迭代次数，从而得到训练好的SKNet StarGAN网络；

函数构建模块，用于构建从源说话人的语音基频到目标说话人的语音基频的基频转换函数；

所述转换阶段包括：

源语音处理模块，用于将待转换语料中源说话人的语音提取出频谱特征x_s'、非周期性特征以及基频特征；

转换模块，用于将所述源说话人频谱特征x_s'、目标说话人标签特征c_t'以及服从正态分布的随机噪声z'，输入训练好的SKNet StarGAN网络中，得到目标说话人频谱特征x_st'；

目标特征获取模块，用于将得到的基频转换函数，将提取出的源说话人的所述基频特征转换为目标说话人的基频特征；

本发明实施例如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实例不限制于任何特定的硬件和软件结合。

相应的，本发明的实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述基于说话人风格特征建模的SKNetStarGAN的多对多说话人转换方法。例如，该计算机存储介质为计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于语音合成的乐谱智能视唱方法和系统

基于说话人风格特征建模的多对多语音转换方法及系统

相关技术

网友询问留言