基于跨被试多模态的语音合成方法及相关设备

文档序号：21548 发布日期：2021-09-21 浏览：35次 >En<

阅读说明：本技术 基于跨被试多模态的语音合成方法及相关设备 (Cross-tested multi-mode based speech synthesis method and related equipment ) 是由张旭龙王健宗于 2021-06-30 设计创作，主要内容包括：本发明涉及人工智能领域,公开了一种基于跨被试多模态的语音合成方法及相关设备,该方法包括：获取源域和目标域内的原始语音数据和原始脑电数据,并对原始语音数据和原始脑电数据进行预处理,得到各自领域内的语音数据和脑电数；将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码,得到各自领域内的隐含表征；将源域的隐含表征映射到预设的特征空间中,并根据预设的分类器,对源域的隐含表征进行分类学习,得到情感信息；根据情感信息,对各自领域内的隐含表征进行对抗学习,得到情感语音。本发明实现了对情感语音合成的迁移学习,提高了情感语音的合成效率。(The invention relates to the field of artificial intelligence, and discloses a speech synthesis method based on a cross-tested multi-mode and related equipment, wherein the method comprises the following steps: acquiring original voice data and original electroencephalogram data in a source domain and a target domain, and preprocessing the original voice data and the original electroencephalogram data to obtain voice data and electroencephalogram data in respective fields; inputting the voice data and the electroencephalogram data into a preset self-encoder to carry out multi-view variational self-encoding to obtain implicit representations in respective fields; mapping the implicit representation of the source domain into a preset feature space, and performing classification learning on the implicit representation of the source domain according to a preset classifier to obtain emotional information; and according to the emotional information, performing countermeasure learning on the implicit representations in the respective fields to obtain emotional voice. The invention realizes the transfer learning of the emotion voice synthesis and improves the synthesis efficiency of the emotion voice.)

技术领域

本发明涉及人工智能领域，尤其涉及一种基于跨被试多模态的语音合成方法及相关设备。

背景技术

带有情感特征的语音合成是人工智能未来的发展趋势，通过赋予计算机识别、理解、表达和适应人类情感的能力来建立和谐人机环境。情感计算的基本问题包括通过表情、动作、脑电等生理信号进行情绪识别。

目前的情感语音合成技术大部分是监督学习，然而，现有技术中，当获取新的被试者的语音数据进行语音合成时，不能对情感语音合成进行多源的迁移学习，即难以根据新的被试者的语音数据进行情感语音合成，导致情感语音合成效率低。因此，如何通过迁移学习进行情感语音的合成是一个亟需解决的问题。

发明内容

本发明的主要目的在于解决现有技术中不能通过迁移学习合成情感语音，导致情感语音的合成效率低的技术问题。

本发明第一方面提供了一种基于跨被试多模态的语音合成方法，所述基于跨被试多模态的语音合成方法包括：获取源域和目标域内的原始语音数据和原始脑电数据，并对所述原始语音数据和所述原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；将所述语音数据和所述脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；将所述源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对所述源域的隐含表征进行分类学习，得到情感信息；根据所述情感信息，对各自领域内的所述隐含表征进行对抗学习，得到情感语音。

可选的，在本发明的第一方面的第一种实现方式中，所述将所述语音数据和所述脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征包括：提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；将所述源域和所述目标域内的所述语音数据和所述脑电数据输入至预设的自编码器中，调用所述自编码器，对所述语音数据中的音素进行多视图变分自编码，并对所述脑电特征进行多视图变分自编码，得到各自领域内的隐含表征。

可选的，在本发明的第一方面的第二种实现方式中，在所述将所述源域和所述目标域内的所述语音数据和所述脑电数据输入至预设的自编码器中，调用所述自编码器，对所述语音数据中的音素进行多视图变分自编码，并对所述脑电特征进行多视图变分自编码，得到各自领域内的隐含表征之后，还包括：计算所述源域和所述目标域内的所述隐含表征的先验分布，并对所述隐含表征进行似然估计处理，得到似然函数；根据预设的贝叶斯公式，对所述先验分布和似然函数进行概率计算，得到后验分布；根据预设的期望-最大值算法和预设的概率密度函数，对所述隐含表征进行参数计算，得到协方差矩阵和混合系数；根据所述协方差矩阵和混合系数，对所述后验分布进行混合高斯处理，生成高斯混合模型。

可选的，在本发明的第一方面的第三种实现方式中，所述将所述源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对所述源域的隐含表征进行分类学习，得到情感信息包括：将所述源域内的隐含表征输入至预设的特征提取器中；根据所述特征提取器中的损失函数，计算所述隐含表征的情感特征参数，并根据所述情感特征参数，将所述隐含表征映射到预设的特征空间中；根据预设的分类器，计算所述情感特征参数与预设的情感特征类别的线性相关值，并根据所述线性相关值确定所述情感特征参数的类别；根据所述情感特征参数的类别，对所述源域的隐含表征进行分类学习，得到情感信息。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述情感信息，对各自领域内的所述隐含表征进行对抗学习，得到情感语音包括：将各自领域内的所述隐含表征输入至预设的域判别器中，识别所述隐含表征对应的领域类别，并根据所述隐含表征对应的领域类别，提取所述源域中隐含表征的标签；将各自领域内的所述隐含表征输入至预设的卷积神经网络模型中，并根据所述源域中隐含表征的标签，对各自领域内的所述隐含表征进行卷积计算，得到特征参数；基于所述特征参数和所述情感信息，对各自领域内的所述隐含表征按照所述域判别器中的域对抗学习算法进行对抗学习，并将所述目标域内的隐含表征映射到特征空间中，得到情感语音。

可选的，在本发明第一方面的第五种实现方式中，所述获取源域和目标域内的原始语音数据和原始脑电数据，并对所述原始语音数据和所述原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据包括：采集源域和目标域内的原始语音数据和原始脑电数据；提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到源域和目标域内的语音数据；调用预设的独立成分分析及带通滤波工具对原始脑电数据进行过滤处理；根据预设的功率谱密度方法对过滤后的所述脑电数据进行脑电特征提取，得到二维特征样本集；对所述二维特征样本集进行划分，得到源域和目标域内的脑电数据。

本发明第二方面提出一种基于跨被试多模态的语音合成装置，所述基于跨被试多模态的语音合成装置包括：预处理模块，用于获取源域和目标域内的原始语音数据和原始脑电数据，并对所述原始语音数据和所述原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；编码模块，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；分类模块，用于将所述源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对所述源域的隐含表征进行分类学习，得到情感信息；学习模块，用于根据所述情感信息，对各自领域内的所述隐含表征进行对抗学习，得到情感语音。

可选的，在本发明第二方面的第一种实现方式中，所述编码模块包括：提取单元，用于提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；分析单元，用于根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；编码单元，用于将所述源域和所述目标域内的所述语音数据和所述脑电数据输入至预设的自编码器中，调用所述自编码器，对所述语音数据中的音素进行多视图变分自编码，并对所述脑电特征进行多视图变分自编码，得到各自领域内的隐含表征。

可选的，在本发明第二方面的第二种实现方式中，所述基于跨被试多模态的语音合成装置还包括计算模块，所述计算模块包括：似然估计单元，用于计算所述源域和所述目标域内的所述隐含表征的先验分布，并对所述隐含表征进行似然估计处理，得到似然函数；概率计算单元，用于根据预设的贝叶斯公式，对所述先验分布和似然函数进行概率计算，得到后验分布；参数计算单元，用于根据预设的期望-最大值算法和预设的概率密度函数，对所述隐含表征进行参数计算，得到协方差矩阵和混合系数；生成单元，用于根据所述协方差矩阵和混合系数，对所述后验分布进行混合高斯处理，生成高斯混合模型。

可选的，在本发明第二方面的第三种实现方式中，所述分类模块具体用于：将所述源域内的隐含表征输入至预设的特征提取器中；根据所述特征提取器中的损失函数，计算所述隐含表征的情感特征参数，并根据所述情感特征参数，将所述隐含表征映射到预设的特征空间中；根据预设的分类器，计算所述情感特征参数与预设的情感特征类别的线性相关值，并根据所述线性相关值确定所述情感特征参数的类别；根据所述情感特征参数的类别，对所述源域的隐含表征进行分类学习，得到情感信息。

可选的，在本发明第二方面的第四种实现方式中，所述学习模块具体用于：将各自领域内的所述隐含表征输入至预设的域判别器中，识别所述隐含表征对应的领域类别，并根据所述隐含表征对应的领域类别，提取所述源域中隐含表征的标签；将各自领域内的所述隐含表征输入至预设的卷积神经网络模型中，并根据所述源域中隐含表征的标签，对各自领域内的所述隐含表征进行卷积计算，得到特征参数；基于所述特征参数和所述情感信息，对各自领域内的所述隐含表征按照所述域判别器中的域对抗学习算法进行对抗学习，并将所述目标域内的隐含表征映射到特征空间中，得到情感语音。

可选的，在本发明第二方面的第五种实现方式中，所述预处理模块具体用于：采集源域和目标域内的原始语音数据和原始脑电数据；提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到源域和目标域内的语音数据；调用预设的独立成分分析及带通滤波工具对原始脑电数据进行过滤处理；根据预设的功率谱密度方法对过滤后的所述脑电数据进行脑电特征提取，得到二维特征样本集；对所述二维特征样本集进行划分，得到源域和目标域内的脑电数据。

本发明第三方面提供了一种基于跨被试多模态的语音合成设备，所述基于跨被试多模态的语音合成设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于跨被试多模态的语音合成设备执行上述的基于跨被试多模态的语音合成方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当其在计算机上运行时，使得计算机执行上述的基于跨被试多模态的语音合成方法的步骤。

在本发明提供的技术方案中，通过获取源域和目标域内的原始语音数据和原始脑电数据，并对原始语音数据和原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数；将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；将源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对源域的隐含表征进行分类学习，得到情感信息；根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。本发明实现了对情感语音合成的迁移学习，能够跨被试者进行情感语音的合成，提高了情感语音的合成效率。

附图说明

图1为本发明实施例中基于跨被试多模态的语音合成方法的第一个实施例示意图；

图2为本发明实施例中基于跨被试多模态的语音合成方法的第二个实施例示意图；

图3为本发明实施例中基于跨被试多模态的语音合成方法的第三个实施例示意图；

图4为本发明实施例中基于跨被试多模态的语音合成装置的一个实施例示意图；

图5为本发明实施例中基于跨被试多模态的语音合成装置的另一个实施例示意图；

图6为本发明实施例中基于跨被试多模态的语音合成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于跨被试多模态的语音合成方法及相关设备，通过获取源域和目标域内的原始语音数据和原始脑电数据，并对原始语音数据和原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数；将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；将源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对源域的隐含表征进行分类学习，得到情感信息；根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。本发明实施例实现了对情感语音合成的迁移学习，能够跨被试者进行情感语音的合成，提高了情感语音的合成效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体内容进行描述，请参阅图1，本发明实施例中基于跨被试多模态的语音合成方法的第一个实施例包括：

101，获取源域和目标域内的原始语音数据和原始脑电数据，并对原始语音数据和原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；

选择被试者，采集语音数据，并给被试者戴一个电极帽，对被试者施加一些刺激，然后采集大脑的信号即采集脑电数据。采集的脑电数据数据包括空间和时间，相当于四维的时空数据，每一个电极相当于一个时间序列。其中，以往的被试者所对应的语音数据和脑电数据为源域的原始语音数据和脑电数据，新的被试者所对应的语音数据和脑电数据为目标域的原始语音数据和脑电数据，且源域的数据携带有标签。

进一步的，采集源域和目标域内的原始语音数据和原始脑电数据，并提取原始语音数据中的语音能量，并根据预设的语音能量阈值和语音能量，对原始语音数据进行静音移除处理，得到源域和目标域内的语音数据，然后调用预设的独立成分分析及带通滤波工具对原始脑电数据进行带通过滤处理，去除伪迹；并根据预设的功率谱密度方法对过滤后的脑电数据进行脑电特征提取，得到二维特征样本集。调用预设的分类器，对二维特征样本集进行划分，得到源域和目标域内的脑电数据。

另外，对原始语音数据进行静音移除处理的过程包括静音移除和语音增强两个步骤，其中，静音移除步骤是将语音能量作为阈值，比较原始语音数据的语音能量和阈值的大小，如果原始语音数据在一段时间内的语音能量小于所设定的阈值时，则将当前该段时间内的音频作为噪音，并丢弃；然后保存丢弃噪音后的原始语音数据作为预处理后的语音数据。语音增强步骤是比较当前语音数据与预设的最小音频片段数据的长短，如果原始语音数据短于最小音频片段数据，则将原始语音数据中间开始截取一定长度，将该长度复制到原始语音数据的中间位置，以保证预处理后的语音数据满足最短音频时长要求。

102，将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；

将语音数据和脑电数据输入至预设的自编码器中，根据该自编码器分别对语音数据和脑电数据进行变分自编码，通过变分自编码用自编码器分别学习到语音数据和脑电数据的隐含表征，即情感信息的表示。

具体的，提取语音数据中的音素及其音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别；根据音素及各音素对应的音素类别，对脑电数据进行分析，确定各音素对应的脑电特征；将源域和目标域内的语音数据和脑电数据输入至预设的自编码器中，调用自编码器，对语音数据中的音素进行多视图变分自编码，并对脑电特征进行多视图变分自编码，得到各自领域内的隐含表征。

103，将源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对源域的隐含表征进行分类学习，得到情感信息；

把具有不同分布的源域(Source Domain)和目标域(Target Domain)中的数据，映射到同一个特征空间，寻找某一种度量准则，使其在这个空间上的“距离”尽可能近。源域和目标域具有共同的特征空间和标签空间。其中，特征空间是预先存在的隐含的情感信息。并将源域内的隐含表征输入至预设的特征提取器中；根据特征提取器中的损失函数，计算隐含表征的情感特征参数，并根据情感特征参数，将隐含表征映射到预设的特征空间中；根据预设的分类器，计算情感特征参数与预设的情感特征类别的线性相关值，并根据线性相关值确定情感特征参数的类别；根据情感特征参数的类别，对源域的隐含表征进行分类学习，得到情感信息。

104，根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。

将各自领域内的隐含表征输入至预设的域判别器中，识别隐含表征对应的领域类别，并根据隐含表征对应的领域类别，提取源域中隐含表征的标签；将各自领域内的隐含表征输入至预设的卷积神经网络模型中，并根据源域中隐含表征的标签，对各自领域内的隐含表征进行卷积计算，得到特征参数；基于特征参数和情感信息，对各自领域内的隐含表征按照域判别器中的域对抗学习算法进行对抗学习，并将目标域内的隐含表征映射到特征空间中，得到情感语音。

在本实施例中，对抗学习是一种很新的机器学习方法，对抗学习实现的方法，是让两个网络相互竞争对抗，“玩一个游戏”。其中一个是生成器网络，它不断捕捉训练库里真实数据的概率分布，将输入的随机噪声转变成新的样本(也就是假数据)。另一个是判别器网络，它可以同时观察真实和假造的数据，判断这个数据到底是不是真的。通过反复对抗，生成器和判别器的能力都会不断增强，直到达成一个平衡，最后生成器可生成高质量的、以假乱真的数据。

在本发明实施例中，通过将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；并根据预设的分类器，对源域的隐含表征进行分类学习，得到情感信息；根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。本发明实施例实现了对情感语音合成的迁移学习，能够跨被试者进行情感语音的合成，提高了情感语音的合成效率。

请参阅图2，本发明实施例中基于跨被试多模态的语音合成方法的第二个实施例包括：

201，获取源域和目标域内的原始语音数据和原始脑电数据，并对原始语音数据和原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；

202，提取语音数据中的音素及其音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别；

203，根据音素及各音素对应的音素类别，对脑电数据进行分析，确定各音素对应的脑电特征；

音素是语音的基本元素，提取预处理后的语音数据中的音素，并通过分析不同音素诱发的听觉脑电，提取隐含在音素中的有关音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别。具体的，计算音素特征与音素类别之间的线性相关值，当线性相关值不小于预设的相关阈值时，则说明该音素特征与音素类别存在线性相关关系，即该音素特征与该音素类别存在对应关系。

根据所确定的音素及各音素对应的音素类别，调用预设的生成对抗网络对脑电数据进行分析，提取脑电数据中的脑电特征，并结合音素特征，确定的该各音素对应的脑电特征。

204，将源域和目标域内的语音数据和脑电数据输入至预设的自编码器中，调用自编码器，对语音数据中的音素进行多视图变分自编码，并对脑电特征进行多视图变分自编码，得到各自领域内的隐含表征；

将源域和目标域的语音数据和脑电数据输入至预设的自编码器中，根据该自编码器分别对语音数据中的音素特征和脑电数据中的脑电特征进行变分自编码，通过变分编码找到源域和目标域之间的隐含表征。其中，该步骤内有两个模态，一个模态是脑电，另一个模态是语音，对这两个模态进行混合高斯处理，可以通过脑电自己生成脑电，脑电可以生成语音，在这种框架下二者可以互相生成。该步骤内的变分自编码是一个多视图表示学习，利用了贝叶斯推断，最后得到各自领域内的隐含表征。

源域内的变分自编码和目标域内的变分自编码是同时进行的，且二者在隐含层是共享的，使二者的隐含表征的距离更小，相当于加了约束。其中，预设的自编码器为堆叠自编码(Stacked AutoEncoder，SAE)，堆叠自编码器可以通过无监督的预训练和有监督的微调来确定参数、提高特征的可区分性。SAE是以自编码器(AutoEncoder，AE)为基本单元堆叠而成的一种深度网络，包括编码器和解码器两部分，输入信号通过编码器得到编码，再通过一个解码器得到输入信号的重构，重构与输入信号对比得到重构误差。编码器的输出编码即为抽象化的特征，并作为下一层AE的输入，逐层最小化重构误差，确定编码和解码参数，即可以实现SAE的无监督预训练，在最顶层添加一个分类器，运用有标签样本，通过有监督学习可以实现对参数微调。但是对于SAE的层数以及每层神经元的个数一般需要使用者根据自己的经验确定，以生理数据驱动的方法确定SAE的结构，并使用SAE获取了各种传统生理信号特征的抽象表示，进而实现维度情感分类。

205，将源域内的隐含表征输入至预设的特征提取器中；

206，根据特征提取器中的损失函数，计算隐含表征的情感特征参数，并根据情感特征参数，将隐含表征映射到预设的特征空间中；

对源域内的隐含表征输入至预设的特征提取器中，其中，特征提取器调用域对抗迁移网络和损失函数，计算隐含表征的情感特征参数，并根据该情感特征参数，将隐含表征映射到特征空间中。具体的，把具有不同分布的源域(Source Domain)和目标域(TargetDomain)中的数据，映射到同一个特征空间，寻找某一种度量准则，使其在这个空间上的“距离”尽可能近。源域和目标域具有共同的特征空间和标签空间。

进一步的，域对抗迁移网络包括特征提取器、标签预测器和域判别器。其中，特征提取器(feature extractor)用来将数据映射到特定的特征空间，使标签预测器能够分辨出来自源域数据的类别的同时，域判别器无法区分数据来自哪个域。标签预测器(labelpredictor)对来自源域的数据进行分类，尽可能分出正确的标签。域判别器(domainclassifier)对特征空间的数据进行分类，尽可能分出数据来自哪个域。并且，特征提取器和标签分类器构成了一个前馈神经网络。然后，在特征提取器后面加上一个域判别器，中间通过一个梯度反转层(gradient reversal layer，GRL)连接。在本实施例中，对来自源域的带标签数据，网络不断最小化标签预测器的损失(loss)，对来自源域和目标域的全部数据，网络不断最小化域判别器的损失。

207，根据预设的分类器，计算情感特征参数与预设的情感特征类别的线性相关值，并根据线性相关值确定情感特征参数的类别；

根据预设的分类器，计算情感特征参数与预设的情感特征类别的线性相关值，并比较线性相关值与预设的线性相关阈值，当线性相关值不小于线性相关阈值时，说明该情感特征参数与情感特征类别之间存在线性相关性，即可确定情感特征参数对应的情感特征类别。

208，根据情感特征参数的类别，对源域的隐含表征进行分类学习，得到情感信息；

根据情感特征参数的类别，对源域的隐含表征进行分类学习，得到情感信息。具体的，

其中，公式中的M和C分别代表映射和分类器。s和t代表源域和目标域。L是loss，E是期望，y是x对应的标签。

209，将各自领域内的隐含表征输入至预设的域判别器中，识别隐含表征对应的领域类别，并根据隐含表征对应的领域类别，提取源域中隐含表征的标签；

210，将各自领域内的隐含表征输入至预设的卷积神经网络模型中，并根据源域中隐含表征的标签，对各自领域内的隐含表征进行卷积计算，得到特征参数；

将源域和目标域内的隐含表征输入至预设的域判别器中，其中，域判别器是一个卷积神经网络模型(LeNet模型)，包括3个完全相连的层，两层包含500个隐藏单元，最后是鉴别器输出。每500个单位的层都使用ReLU激活功能。根据域判别器识别隐含表征对应的领域类别，并根据隐含表征对应的领域类别，提取源域中隐含表征的标签。将各自领域内的隐含表征输入至该卷积神经网络模型中，并根据源域中隐含表征的标签，对各自领域内的隐含表征进行卷积计算，得到特征参数。

211，基于特征参数和情感信息，对各自领域内的隐含表征按照域判别器中的域对抗学习算法进行对抗学习，并将目标域内的隐含表征映射到特征空间中，得到情感语音。

源领域内做分类学习，领域间要对抗，使得两个领域隐含表征分布接近，同时使得隐含表征在源领域内有很好的性能。根据特征参数和情感信息，对各自领域内的隐含表征按照域判别器中的域对抗学习算法进行对抗学习，具体的，

其中，公式中的D表示域判别器。s和t代表源域和目标域。L是loss，E是期望，y是x对应的标签。

经过对抗学习之后，将目标域内的隐含表征映射到特征空间中，在特征空间中进行情绪识别并合成情感语音。

在本发明实施例中，对各自领域内的隐含表征进行卷积计算，得到特征参数，然后根据特征参数和情感信息进行对抗学习，生成情感语音。对抗学习使得两个领域间的隐含特征分布接近，确保多源迁移学习下情感语音合成的质量，提高了情感语音合成的效率。

请参阅图3，本发明实施例中基于跨被试多模态的语音合成方法的第三个实施例包括：

301，获取源域和目标域内的原始语音数据和原始脑电数据，并对原始语音数据和原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；

302，提取语音数据中的音素及其音素特征，并根据预设的音素类别，对音素的音素特征进行分析，确定各音素对应的音素类别；

303，根据音素及各音素对应的音素类别，对脑电数据进行分析，确定各音素对应的脑电特征；

304，将源域和目标域内的语音数据和脑电数据输入至预设的自编码器中，调用自编码器，对语音数据中的音素进行多视图变分自编码，并对脑电特征进行多视图变分自编码，得到各自领域内的隐含表征；

305，计算源域和目标域内的隐含表征的先验分布，并对隐含表征进行似然估计处理，得到似然函数；

分别以源域和目标域的隐含表征作为变量，根据预先获取的信息或者依据，对隐含表征的不确定性进行猜测，计算源域和目标域的隐含表征的先验分布，即先验概率。其中，先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断。

根据计算得到的先验概率，对源域和目标域内的隐含表征进行似然估计处理，得到似然函数。其中，似然估计是根据原因推测该原因导致结果发生的概率。在本实施例中，计算变量的先验分布和似然函数是现有技术，在此不做赘述。

306，根据预设的贝叶斯公式，对先验分布和似然函数进行概率计算，得到后验分布；

根据预设的贝叶斯公式，即调用贝叶斯理论，对先验分布和似然函数进行概率计算，得到后验分布。具体的，调用贝叶斯理论，将先验分布乘以似然函数(likelihoodfunction)再归一化后，得到后验分布，即后验概率。其中，后验概率是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。后验分布就是未知量作为随机变量的概率分布，并且是在基于实验或者调查所获得的信息上的条件分布。“后验”在这里意思是，考虑相关事件已经被检视并且能够得到一些信息。

307，根据预设的期望-最大值算法和概率密度函数，对隐含表征进行参数计算，得到协方差矩阵和混合系数；

308，根据协方差矩阵和混合系数，对后验分布进行混合高斯处理，生成高斯混合模型；

将源域的目标域的数据分别进行归一化，并按照预设的期望-最大值算法(EM算法)和概率密度函数分别计算源域和目标域的协方差矩阵，协方差矩阵累加并取平均，得到源域和目标域数据的混合空间协方差矩阵；根据协方差矩阵和混合系数对后验分布进行混合高斯处理，得到高斯混合模型。其中，高斯混合模型可以看作是由K个单高斯模型组合而成的模型，这K个子模型是混合模型的隐变量(Hidden variable)。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

309，将源域内的隐含表征输入至预设的特征提取器中；

310，根据特征提取器中的损失函数，计算隐含表征的情感特征参数，并根据情感特征参数，将隐含表征映射到预设的特征空间中；

311，根据预设的分类器，计算情感特征参数与预设的情感特征类别的线性相关值，并根据线性相关值确定情感特征参数的类别；

312，根据情感特征参数的类别，对源域的隐含表征进行分类学习，得到情感信息；

313，根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。

将各自领域内的隐含表征输入至预设的域判别器中，根据处理后的先验分布和后验分布，识别隐含表征对应的领域类别，并根据隐含表征对应的领域类别，提取源域中隐含表征的标签；将各自领域内的隐含表征输入至预设的卷积神经网络模型中，并根据源域中隐含表征的标签，对各自领域内的隐含表征进行卷积计算，得到特征参数；基于特征参数和情感信息，对各自领域内的隐含表征按照域判别器中的域对抗学习算法进行对抗学习，并将目标域内的隐含表征映射到特征空间中，得到情感语音。

在本发明实施例中，步骤310-304和步骤309-312与上述的基于跨被试多模态的语音合成方法的第二个发明实施例中的步骤201-204和步骤205-208一致，在此不做赘述。

在本发明实施例中，对源域和目标域内的隐含表征进行概率计算，得到后验分布，并对后验分布进行混合高斯处理，方便后续对隐含表征的分类学习和对抗学习，以提高情感语音的合成效率。

上面对本发明实施例中的基于跨被试多模态的语音合成方法进行了描述，下面对本发明实施例中的基于跨被试多模态的语音合成装置进行描述，请参照图4，本发明实施例中的基于跨被试多模态的语音合成装置的一个实施例包括：

预处理模块401，用于获取源域和目标域内的原始语音数据和原始脑电数据，并对所述原始语音数据和所述原始脑电数据进行预处理，得到各自领域内的语音数据和脑电数据；

编码模块402，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；

分类模块403，用于将所述源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对所述源域的隐含表征进行分类学习，得到情感信息；

学习模块404，用于根据所述情感信息，对各自领域内的所述隐含表征进行对抗学习，得到情感语音。

在本发明实施例中，基于跨被试多模态的语音合成装置通过将语音数据和脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；并根据预设的分类器，对源域的隐含表征进行分类学习，得到情感信息；根据情感信息，对各自领域内的隐含表征进行对抗学习，得到情感语音。本发明实施例实现了对情感语音合成的迁移学习，能够跨被试者进行情感语音的合成，提高了情感语音的合成效率。

请参阅图5，本发明实施例中的基于跨被试多模态的语音合成装置的另一个实施例包括：

编码模块402，用于将所述语音数据和所述脑电数据输入至预设的自编码器进行多视图变分自编码，得到各自领域内的隐含表征；

分类模块403，用于将所述源域的隐含表征映射到预设的特征空间中，并根据预设的分类器，对所述源域的隐含表征进行分类学习，得到情感信息；

学习模块404，用于根据所述情感信息，对各自领域内的所述隐含表征进行对抗学习，得到情感语音。

其中，所述编码模块402包括：

提取单元4021，用于提取所述语音数据中的音素及其音素特征，并根据预设的音素类别，对所述音素的音素特征进行分析，确定各所述音素对应的音素类别；

分析单元4022，用于根据所述音素及各所述音素对应的音素类别，对所述脑电数据进行分析，确定各音素对应的脑电特征；

编码单元4023，用于将所述源域和所述目标域内的所述语音数据和所述脑电数据输入至预设的自编码器中，调用所述自编码器，对所述语音数据中的音素进行多视图变分自编码，并对所述脑电特征进行多视图变分自编码，得到各自领域内的隐含表征。

其中，所述基于跨被试多模态的语音合成装置还包括计算模块405，所述计算模块405包括：

似然估计单元4051，用于计算所述源域和所述目标域内的所述隐含表征的先验分布，并对所述隐含表征进行似然估计处理，得到似然函数；

概率计算单元4052，用于根据预设的贝叶斯公式，对所述先验分布和似然函数进行概率计算，得到后验分布；

参数计算单元4053，用于根据预设的期望-最大值算法和预设的概率密度函数，对所述隐含表征进行参数计算，得到协方差矩阵和混合系数；

生成单元4054，用于根据所述协方差矩阵和混合系数，对所述后验分布进行混合高斯处理，生成高斯混合模型。

其中，所述分类模块403具体用于：

将所述源域内的隐含表征输入至预设的特征提取器中；

根据所述特征提取器中的损失函数，计算所述隐含表征的情感特征参数，并根据所述情感特征参数，将所述隐含表征映射到预设的特征空间中；

根据预设的分类器，计算所述情感特征参数与预设的情感特征类别的线性相关值，并根据所述线性相关值确定所述情感特征参数的类别；

根据所述情感特征参数的类别，对所述源域的隐含表征进行分类学习，得到情感信息。

其中，所述学习模块404具体用于：

将各自领域内的所述隐含表征输入至预设的域判别器中，识别所述隐含表征对应的领域类别，并根据所述隐含表征对应的领域类别，提取所述源域中隐含表征的标签；

将各自领域内的所述隐含表征输入至预设的卷积神经网络模型中，并根据所述源域中隐含表征的标签，对各自领域内的所述隐含表征进行卷积计算，得到特征参数；

基于所述特征参数和所述情感信息，对各自领域内的所述隐含表征按照所述域判别器中的域对抗学习算法进行对抗学习，并将所述目标域内的隐含表征映射到特征空间中，得到情感语音。

其中，所述预处理模块401具体用于：

采集源域和目标域内的原始语音数据和原始脑电数据；

提取所述原始语音数据中的语音能量，并根据预设的语音能量阈值和所述语音能量，对所述原始语音数据进行静音移除处理，得到源域和目标域内的语音数据；

调用预设的独立成分分析及带通滤波工具对原始脑电数据进行过滤处理；

根据预设的功率谱密度方法对过滤后的所述脑电数据进行脑电特征提取，得到二维特征样本集；

对所述二维特征样本集进行划分，得到源域和目标域内的脑电数据。

在本发明实施例中，通过对源域和目标域内的隐含表征进行概率计算，得到后验分布，并对后验分布进行混合高斯处理，方便后续对隐含表征的分类学习和对抗学习，以提高情感语音的合成效率。

请参阅图6，下面从硬件处理的角度对本发明实施例中的基于跨被试多模态的语音合成设备的一个实施例进行详细描述。

图6是本发明实施例提供的一种基于跨被试多模态的语音合成设备的结构示意图，该基于跨被试多模态的语音合成设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)610(例如，一个或一个以上处理器)和存储器620，一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中，存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于跨被试多模态的语音合成设备600中的一系列指令操作。更进一步地，处理器610可以设置为与存储介质630通信，在基于跨被试多模态的语音合成设备600上执行存储介质630中的一系列指令操作。

基于跨被试多模态的语音合成设备600还可以包括一个或一个以上电源640，一个或一个以上有线或无线网络接口650，一个或一个以上输入输出接口660，和或或，一个或一个以上操作系统631，例如Windows Serve，Mac OSX，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图6示出的基于跨被试多模态的语音合成设备结构并不构成对基于跨被试多模态的语音合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于跨被试多模态的语音合成方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

22页详细技术资料下载

基于跨被试多模态的语音合成方法及相关设备

相关技术

网友询问留言