语音转换方法、系统、电子设备及可读存储介质

文档序号：170828 发布日期：2021-10-29 浏览：35次 >En<

阅读说明：本技术 语音转换方法、系统、电子设备及可读存储介质 (Voice conversion method, system, electronic equipment and readable storage medium ) 是由陈怿翔王俊超康永国于 2021-08-09 设计创作，主要内容包括：本公开公开了语音转换方法、系统、电子设备及可读存储介质,涉及语音、深度学习等人工智能技术领域,尤其涉及语音转换领域。具体实现方案为：语音转换方法,包括：获取目标说话人第一语音；获取原说话人语音；提取目标说话人第一语音的第一特征参数；提取原说话人语音的第二特征参数；将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息；将所述梅尔谱信息进行转换,输出同目标说话人第一语音的音色相同,并且同原说话人语音的内容相同的目标说话人第二语音。本公开的语音转换方法及系统保留了目标说话人的语音情感、腔调等音色特征,并且见减小了运算成本。(The disclosure discloses a voice conversion method, a voice conversion system, electronic equipment and a readable storage medium, and relates to the technical field of artificial intelligence such as voice and deep learning, in particular to the field of voice conversion. The specific implementation scheme is as follows: the voice conversion method comprises the following steps: acquiring a first voice of a target speaker; acquiring the voice of an original speaker; extracting a first characteristic parameter of a first voice of a target speaker; extracting a second characteristic parameter of the original speaker voice; processing the first characteristic parameter and the second characteristic parameter to obtain Mel spectrum information; and converting the Mel-spectrum information to output a second voice of the target speaker, which has the same tone as the first voice of the target speaker and the same content as the voice of the original speaker. The voice conversion method and the voice conversion system disclosed by the invention keep the voice emotion, the cavity tone and other tone characteristics of the target speaker, and reduce the operation cost.)

技术领域

本公开涉及语音、深度学习等人工智能技术领域，尤其涉及语音转换技术。

背景技术

语音转换，指的是在保留原有的语义信息不变的前提下，通过改变原说话人的语音个性特征使之具备目标说话人的语音个性特征，使一个人的语音经过转换后听起来像另一个人的语音。语音转换的研究具有很重要的应用价值和理论价值。每一个声学特征参数都无法代表人的全部的个性特征信息，所以我们通过选取最能代表不同人的语音个性特征参数进行语音的转换。

发明内容

本公开提供了一种用于提升语音转换效果，保留原语音音色的语音转换方法、系统、电子设备以及可读存储介质。

根据本公开的一方面，提供了一种在音色方面更接近目标说话人的语音转换方法，包括：

获取目标说话人第一语音；

获取原说话人语音；

提取目标说话人第一语音的第一特征参数；

提取原说话人语音的第二特征参数；

将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息；

将所述梅尔谱信息进行转换，输出同目标说话人第一语音的音色相同，并且同原说话人语音的内容相同的目标说话人第二语音。

根据本公开的另一方面，提供了一种语音转换系统，包括：

第一获取模块：用于获取目标说话人第一语音；

第二获取模块：用于获取原说话人语音；

第一提取模块：用于提取目标说话人第一语音的第一特征参数；

第二提取模块：用于提取原说话人语音的第二特征参数；

处理模块：用于将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息；

转换模块：用于将所述梅尔谱信息进行转换，输出同目标说话人第一语音的音色相同，并且同原说话人语音的内容相同的目标说话人第二语音。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开第一方面中任一项所述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开第一方面中任一项所述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开第一方面中任一项所述的方法。

本公开提供的技术方案带来的有益效果包括：

在现有语音转换技术的基础上，加上对原说话人的语音的基频的提取和处理，使得该语音转换方法和系统保留语音情感，腔调等特质。

由于采用上述方法和系统，使得在处理语音转换时，运算成本更小，硬件要求更低。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开语音转换方法的示意图；

图2是根据本公开提取目标说话人第一语音的第一特征参数的示意图；

图3是根据本公开提取原说话人语音的第二特征参数的示意图；

图4是根据本公开将所述类文本特征经过处理得到第一基频和第一基频表征的示意图；

图5是根据本公开语音转换系统的示意图；

图5-1是根据本公开第一提取模块的示意图；

图5-2是根据本公开第二提取模块的示意图；

图5-3是根据本公开处理模块的示意图；

图6是用来实现本公开实施例的语音转换系统的电子设备的框图；附图标记说明：

5语音转换系统

501第一获取模块 502第二获取模块

503第一提取模块 504第二提取模块

5031声纹特征提取模块 5032声纹特征处理模块

5041类文本特征提取模块 5042文本编码模块

5043基频预测模块

505处理模块 506转换模块

5051整合模块 5052解码器模块

600电子设备 601计算单元

602只读存储器 603随机访问存储器

604总线 605I/O接口

606输入单元 607输出单元

608存储单元 609通信单元

术语解释：

基频：也就是发音中频率最低的正弦波，基频可以代表这个音的音高，在歌唱中基频就是这个音的音高。

声纹特征：是保存说话人音色的特征向量，在理想情况下，每个说话人有唯一且确定的声纹特征向量，这个声纹特征向量可以完全的代表这个说话人，可以用指纹来类比。

梅尔谱：频率的单位是赫兹，人耳能听到的频率范围是20-20000赫兹，但是人耳对赫兹单位不是线性敏感，而是对低赫兹敏感，对高赫兹不敏感，将赫兹频率转化为梅尔频率，则人耳对频率的感知度就变为线性。

长短期记忆网络：长短期记忆网络(LSTM，Long Short-Term Memory)是一种时间循环神经网络。

声码器：用于将梅尔谱(mel谱)信息合成为语音波形信号。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

语音转换系统1指的是将源说话人语音转换为目标说话人相同音色的语音的一种类似变声器的系统。与较为原始的变声器的不同是：语音转换后的语音更为真实动听，也同时在音色层面上更加接近目标说话人。同时语音转换系统也能充分保留文本和情感信息，以达到目标说话人的极大程度上的可替代性。

如图1所示，根据本公开的第一方面，提供一种语音转换方法，包括：

S101：获取目标说话人第一语音；目标说话人指的是准备语音转换的目标对象。此处获取的也可以是文本信息，然后转换成音频后的目标说话人第一语音。指定了特定的目标说话人，整个计算方法不用考虑泛化性，计算的可压缩空间变大，导致了计算的成本会更小。

S102：获取原说话人语音；即被转换的对象的语音。也可以是获取的文本信息，然后转换成音频后的原说话人的语音。

S103：提取目标说话人第一语音的第一特征参数；人的语音信息特征参数包含了多种特征，各个特征在语音表述中起的作用不一样。表征音色特征的声学参数大致包括：声纹特征、共振峰的带宽、梅尔倒谱系数、共振峰的位置、语音的能量、基音周期等。基音周期的倒数就是基频。将目标说话人的第一语音提取出来的可能是上述参数中的任一个或多个。

S104：提取原说话人语音的第二特征参数；同上述第一特征参数一样，第二特征参数也大致包括如上的种类。另外，将原说话人的语音包含的信息提取出来的还包括如下特征参数：文本编码、第一基频、以及第一基频表征。

S105：将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息；

S106：将所述梅尔谱信息进行转换，输出同目标说话人第一语音的音色相同，并且同原说话人语音的内容相同的目标说话人第二语音。将原说话人的语音转换为目标说话人的语音可以应用于多个领域，例如：语音合成，多媒体领域，医学领域，语音翻译领域等。

所述获取的目标说话人第一语音和获取的原说话人语音都为音频信息。直接将音频信息用于语音转换更为直接，也使得转换后语音更清楚。并且，音频信息包含了说话人的说话内容和情绪，腔调等音素。

所述第一特征参数包括：具有时间维度信息的声纹特征。

如图2所示，所述提取目标说话人第一语音的第一特征参数，包括：

S201：提取目标说话人第一语音的声纹特征；声纹特征是一个说话人只有一个的唯一且确定的特征，类似于人的指纹。

S202：对所述目标说话人第一语音的声纹特征加上时间维度获得第一特征参数。从上述解释中，确认了声纹特征是和时间没有关联的参数。此处使得声纹特征和时间相关，是为了后面的将第一特征参数和第二特征参数一起处理的方便。此处不仅有卷积层进行声纹特征处理，还有长短期记忆网络。

所述第二特征参数包括：和时间相关的文本编码、第一基频、以及第一基频表征。此处强调了与时间相关的“文本编码”，是因为最后在语音转换的过程中，语音是连续的，且和时间相关的，即一句话的每个词语是有先有后的。另外，如果仅仅依靠每个字来划分一句话或一段话，而不是根据时间来划分一句话或一段话，则后面可能出现将单字组合并变换为目标说话人的语音，而这样的话，就会出现没有原说话人的语音情感、腔调，音色信息的一句话或一段话，非常生硬。如果是基于时间来划分一句话或一段话，则后面就会将具有语音腔调、音色信息的一句话或一段话组合并变换为目标说话人的语音。显然，根据时间相关的文本编码更利于语音转换后的语音效果。

如图3所示，所述提取原说话人语音的第二特征参数，包括：

S301：提取原说话人语音的类文本特征；所谓类文本特征是与时间相关的文本特征。例如，将原说话人说的一句话提取出来，该类文本特征即包含了语义，还包含了时间信息，即一句话中的每个字的出现有时间先后，或者一段话中的每个词语的出现有时间先后。

S302：对所述类文本特征降维处理，获得和时间相关的文本编码；类文本特征和与时间相关的文本编码都是每一帧语音都有的一个向量。类文本特征进行降维处理，是为了减小运算量。此处仅用卷积层进行降维处理。

S303：将所述类文本特征经过处理得到第一基频和第一基频表征。所述类文本特征和时间相关，所以，经过处理得到的第一基频和第一基频表征也是和时间相关的。即，第一基频和第一基频表征也是和每一帧语音对应的。

如图4所示，所述将所述类文本特征经过处理得到第一基频和第一基频表征，包括：

S401：利用所述原说话人语音和所述类文本特征通过神经网络训练，获取所述类文本特征到基频的映射模型；

在训练神经网络的过程中，将原说话人的语音中的基频提取出来，并且将原说话人说的话中的与基频对应的类文本特征提取出来，会获得类文本特征到基频的映射模型。在训练过程中，会使用原说话人的语音中的基频用于训练校准。训练过程中会用到两个损失函数，一个是基频的损失函数；另一个是原说话人的语音的自重构损失函数。

S402：利用所述类文本特征到基频的映射模型对所述类文本特征进行处理获得第一基频和第一基频表征。在实际应用阶段，采用了训练阶段获取的类文本特征到基频的映射模型，来通过类文本信息预测出第一基频。并且，该映射模型的输出的隐藏层输出了第一基频表征。另外，类文本特征到基频的映射模型中还要加上长短时间记忆网络。该所述长短时间记忆网络的原因是，基频不只是和时间相关，还和上下文相关。所以，长短时间记忆网络就是给类文本特征到基频的映射模型加上时间信息。同样，在此处，也是基于一句话或一段话的基频来处理的，而不是根据一个字的基频来处理。即，根据与时间相关的、上下文相关的基频来进行后面的语音转换。这样的好处是转换后，保留了原说话人的语音情感、腔调等音色要素。

所述通过神经网络训练包括：利用卷积层和长短期记忆网络进行训练。卷积层主要用于降维，长短期记忆网络主要用于给类文本特征到基频的映射模型加上时间信息。

至此，上述的声纹特征经过处理获得了与时间相关的声纹特征；类文本特征经过卷积层的降维获得了文本编码，该所述文本编码和时间相关；第一基频也是与时间相关的。第一基频是和时间相关的，也就是每一帧有一个基频，类文本特征也是和时间相关的，每一帧有一个，但基频是个数字，而类文本特征是一个向量，所以，就是将类文本特征映射到一个基频。也就是说，一方面要将类文本特征降维为文本编码，另一方面建立类文本特征到频域的映射。这里，用卷积层达到降维的目的，同时，卷积层也起到转换数据空间，将类文本特征映射到基频的目的。

所述将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息，包括：

将所述第一特征参数和所述第二特征参数进行整合编码获得语音的每一帧的编码特征；所述第一特征参数在此处即指的是和时间相关的声纹特征编码，所述第二特征参数在此处指的是与时间相关的文本编码和第一基频。与时间相关的文本编码和第一基频的整合方式是直接拼接到一起，而声纹特征编码的加入方式是计算一个权重矩阵和偏置向量，也就是把声纹特征编码转变成一个全链接层网络，然后和文本编码计算，这样就加入了声纹特征信息。

将所述每一帧的编码特征经过解码器，获得梅尔谱信息。

之后，将获取的梅尔谱信息输入声码器，由声码器将梅尔谱信息转换为语音音频。此时的语音音频即是保留了目标说话人的音色，但是，内容是原说话人语音内容的语音。达到了语音转换的目的。声码器属于现有技术，就不在此处赘述。

如图5所示，根据本公开的第二方面，还提供一种语音转换系统5，包括：

第一获取模块501：用于获取目标说话人第一语音；

第二获取模块502：用于获取原说话人语音；

第一提取模块503：用于提取目标说话人第一语音的第一特征参数；

第二提取模块504：用于提取原说话人语音的第二特征参数；

处理模块505：用于将所述第一特征参数和所述第二特征参数进行处理得到梅尔谱信息；

转换模块506：用于将所述梅尔谱信息进行转换，输出同目标说话人第一语音的音色相同，并且同原说话人语音的内容相同的目标说话人第二语音。

如图5-1所示，所述第一提取模503包括：声纹特征提取模块5031：用于提取目标说话人第一语音的声纹特征；

声纹特征处理模块5032：用于对所述目标说话人第一语音的声纹特征加上时间维度获得第一特征参数。

如图5-2所示，所述第二提取模块504包括：类文本特征提取模块5041：用于提取原说话人语音的类文本特征；

文本编码模块5042：用于对所述类文本特征降维处理，获得和时间相关的文本编码；

基频预测模块5043：用于将所述类文本特征经过处理得到第一基频和第一基频表征。基频预测模块5043，输入是类文本特征，输出是基频和基频预测模块中的隐藏层特征，目的是通过类文本特征预测基频。在训练阶段，使用真实基频作为目标，计算损失函数，在应用阶段，通过类文本特征预测基频。基频预测模块5043本质上是一个神经网络。

如图5-3所示，所述处理模块505包括：

整合模块5051：用于将所述第一特征参数和所述第二特征参数进行整合编码获得语音的每一帧的编码特征；

解码器模块5052：用于将所述每一帧的编码特征经过解码器，获得梅尔谱信息。

如图6所示，根据本公开的第三方面，还提供电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面中任一项所述的方法。

根据本公开的第四方面，还提供一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据本公开第一方面中任一项所述的方法。

根据本公开的第五方面，还提供一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开第一方面中任一项所述的方法。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音转换方法。例如，在一些实施例中，语音转换方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语音转换方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音转换方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

16页详细技术资料下载

语音转换方法、系统、电子设备及可读存储介质

相关技术

网友询问留言