语音合成方法、电子设备及存储介质

文档序号：139037 发布日期：2021-10-22 浏览：21次 >En<

阅读说明：本技术 语音合成方法、电子设备及存储介质 (Speech synthesis method, electronic device, and storage medium ) 是由于鹏伟于 2021-07-15 设计创作，主要内容包括：本发明公开一种语音合成方法,应用于服务器,该方法包括：获取待合成文本；获取目标说话人特征参数；将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。本发明的语音合成方法在服务器执行,在合成具有目标说话人音色的合成音频时,无需配置目标说话人专属的语音合成模型,只需要将待合成文本和目标说话人特征参数输入至通用语音合成模型即可。由此本发明的语音合成方法只需要预先准备目标说话人特征参数即可基于通用语音合成模型合成对应于待合成文本的合成音频。(The invention discloses a voice synthesis method, which is applied to a server and comprises the following steps: acquiring a text to be synthesized; acquiring characteristic parameters of a target speaker; and inputting the text to be synthesized and the characteristic parameters of the target speaker into a universal speech synthesis model to obtain a synthesized audio with the tone of the target speaker. The voice synthesis method is executed in the server, when synthesizing the synthesized audio with the tone of the target speaker, the exclusive voice synthesis model of the target speaker does not need to be configured, and only the text to be synthesized and the characteristic parameters of the target speaker need to be input into the universal voice synthesis model. Therefore, the voice synthesis method of the invention can synthesize the synthetic audio corresponding to the text to be synthesized based on the universal voice synthesis model only by preparing the characteristic parameters of the target speaker in advance.)

语音合成方法、电子设备及存储介质

技术领域

本发明涉及语音合成技术领域，尤其涉及一种语音合成方法、电子设备及存储介质。

背景技术

随着语音人机对话技术的在智能终端的不断推广应用，为了提升用户体验出现了由用户定制智能终端音色的功能。例如，对于智能音箱，用户可以根据自己的需求将智能音箱的音色设置成自己熟悉的人(例如，自己的妻子)的音色。要实现该音色定制功能，通常情况下是用户在智能音箱录制目标说话人的音频并提交至服务器端，然后在服务器端利用该目标说话人的录制音频训练得到可以合成具有目标说话人音色的语音的目标语音合成模型。

然而发明人在实现本发明的过程中发现，随着智能音箱用户的不断增多，越来越多的用户定制智能音箱的音色，这样就需要在服务器端训练并存储越来越多的目标语音合成模型。即，每个人的个性化音色定制，在服务器端都要提供相应的语音合成模型。如果有几百万、甚至上千万台智能终端的话，就可能会有相应数量的语音合成模型。如果要保证语音合成服务质量的话就需要增设巨大数量的服务器，这极大的增加了服务成本。

发明内容

本发明实施例提供一种语音合成方法、电子设备及存储介质，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语音合成方法，应用于服务器，所述方法包括：

获取待合成文本；

获取目标说话人特征参数；

将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。

在一些实施例中，所述获取目标说话人特征参数，包括：从预设说话人特征参数库中获取目标说话人特征参数。

在一些实施例中，所述预设说话人特征参数库中包括多个说话人特征参数和相应的多个说话人身份信息。

在一些实施例中，从预设说话人特征参数库中获取目标说话人特征参数，包括：根据目标说话人身份信息从预设说话人特征参数库中获取目标说话人特征参数。

在一些实施例中，所述预设说话人特征参数库中的说话人特征参数通过以下步骤得到：

接收说话人的录制音频；

根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数。

在一些实施例中，根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数，包括：

根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到说话人语音合成模型；

从所述说话人语音合成模型中提取对应于所述说话人的说话人特征参数。

在一些实施例中，该语音合成方法还包括：

在接收到说话人的录制音频之后，确定所述说话人的录制音频质量是否符合预设条件；

如果否，则发送重新录制说话人音频的提醒信息；

如果是，则执行后续步骤。

在一些实施例中，所述说话人的录制音频由说话人通过终端设备录制得到，并上传至所述服务器。

第二方面，本发明实施例提供一种存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明上述任一项语音合成方法。

第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

本发明实施例的语音合成方法在服务器执行，在合成具有目标说话人音色的合成音频时，无需配置目标说话人专属的语音合成模型，只需要将待合成文本和目标说话人特征参数输入至通用语音合成模型即可。由此本发明实施例的语音合成方法只需要预先准备目标说话人特征参数即可基于通用语音合成模型合成对应于待合成文本的合成音频。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的语音合成方法的一实施例的流程图；

图2为本发明的语音合成方法的另一实施例的流程图；

图3为本发明的语音合成方法的另一实施例的流程图；

图4为本发明的电子设备的一实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例的语音合成方法实现为一种在线语音合成方法。例如用户通过配置有语音交互功能的智能终端(例如，智能手机、智能音箱、智能机器人、智能电视等)进行语音人机对话，智能终端与服务器之间进行通信。例如，在服务器合成音频数据并发回智能终端。

如图1所示，本发明的实施例提供一种语音合成方法，应用于服务器，所述方法包括：

S10、获取待合成文本。

示例性地，该待合成文本可以是用户通过终端设备所输入的文本内容。该待合成文本还可以是终端设备根据用户输入的语音内容所识别得到的文本内容。该待合成文本还可以是服务器对终端设备发来音频数据进行语音识别得到的文本内容。该待合成文本还可以是服务器所确定的对应于用户问题的答案或者所确定的推广内容。

S20、获取目标说话人特征参数。

示例性地，目标说话人特征参数为将要复刻的目标说话人的特征参数。例如，用户将智能音箱的语音播报声音设置为其妻子声音，则该目标说话人特征参数就是妻子的声音特征参数。其中，声音特征参数可以是音色特征参数。

S30、将所述待合成文本和所述目标说话人特征参数输入至通用语音合成模型得到具有目标说话人音色的合成音频。

本实施例的语音合成方法在服务器执行，在合成具有目标说话人音色的合成音频时，无需配置目标说话人专属的语音合成模型，只需要将待合成文本和目标说话人特征参数输入至通用语音合成模型即可。由此本实施例的语音合成方法只需要预先准备目标说话人特征参数即可基于通用语音合成模型合成对应于待合成文本的合成音频。

在一些实施例中，所述获取目标说话人特征参数，包括：从预设说话人特征参数库中获取目标说话人特征参数。

本实施例中预设说话人特征参数库中包括多个说话人特征参数和相应的多个说话人身份信息。其中，说话人特征参数(即，说话人声音特征参数)与说话人身份信息一一对应。说话人身份信息可以是用户进行登录的账户信息。这样无论用户所使用的是否为同一个智能终端，只要是登录了同一个账户，就能够得到相同音色的合成音频。说话人身份信息还可以是用户可以是用户所使用的智能终端的ID信息。

本实施例中通过构建预设说话人特征参数库可以存储多个说话人的声音特征参数，所有这些说话人中的多个可复用同一个通用语音合成模型即可合成具有不同说话人音色的合成音频。提升了语音合成模型的利用率，降低了服务器部署语音合成模型的负担。

示例性地，目标说话人身份信息可以是用户进行登录的账户信息。这样无论用户所使用的是否为同一个智能终端，只要是登录了同一个账户，就能够得到相同音色的合成音频。目标说话人身份信息还可以是用户可以是用户所使用的智能终端的ID信息。

用户在通过终端设备与服务器之间通信的过程中，通信数据中包含有目标说话人身份信息。服务器只需对通信数据进行解析即可得到相应的目标说话人身份信息。从而根据该目标说话人身份信从预设设说话人特征参数库中获取相应的目标说话人特征参数。

如图2所示为本发明的语音合成方法的另一实施例的流程图，在该实施例中，预设说话人特征参数库中的说话人特征参数通过以下步骤得到：

S01、接收说话人的录制音频。

示例性地，说话人的录制音频由说话人通过终端设备录制得到，并上传至所述服务器。

S02、根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数。

示例性地，以配置有语音助理的智能手机为例，本实施例中对说话人录制音频的步骤如下：

步骤1：首先进入智能手机的设置界面，会有在安静情况下进行声音录音的提示。

步骤2：智能手机会进行周围噪声的检测，环境要求在正常家居噪声情况下55dB，信噪比10dB，能高要求地真实还原家居场景。主要是希望收集到的音频充分干净，有助于提升声音复制的相似度，如果噪声检测通过继续向下操作；如果噪声检测不通过，提示用户寻找安静的环境。

步骤3：设置界面显示带拼音的文本，文本需要三音子覆盖度尽可能广，并且和实际产品使用相匹配；带拼音主要是解决多音字问题。所以用户所读的文本需要经过精心设计。

步骤4：设置界面同时会显示领读功能，可供播放显示文本音频，供小孩、老人、口音严重等用户参考。

步骤5：如不需要领读，则可点击开始录音，进行音频的录制；录制过程需要录制10句已经设定的话术。

步骤6：音频录制完之后，智能手机会检测录制的音频是否达到要求；包含音频的数量、信噪比、清晰度等。如果检测失败，需要重新反回步骤3并且提示用户需要重新录制。

步骤7：检测合格后点击上传音频文件，并且设置界面会显示上传进度，完成后会提示上传成功。

如图3所示为本发明的语音合成方法的另一实施例的流程图，在该实施例中，根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数，包括：

S021、根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到说话人语音合成模型。

示例性地，基于base模型(即，通用语音合成模型)提取少量目标人音频进行自适应训练，有效在传统合成上，减少目标人的数据量，从而快速的生成需要的模型。

S022、从所述说话人语音合成模型中提取对应于所述说话人的说话人特征参数。

示例性地，用户上传的录制音频经过一定处理，作为基础模型(即，通用语音合成模型)的训练语料，训练只涉及基础模型的部分参数，训练完成后，“调整”后的参数保存成指定格式。

使用阶段：用户发起合成个性化声音的请求，复刻服务提取请求中的关键信息，发送给底层合成引擎，合成引擎将客户对应的发音人特征参数和文本特征等信息传入基础模型，合成声音，最终发送给用户。

本发明实施例中的说话人特征参数占用空间小于基础模型，为每个用户保存发音人特征参数，而不是保存发音人模型，可以缩小存储空间需求。此外，复刻服务仅使用一个基础模型便可以响应所有用户的合成请求，节省服务器资源(一台服务器可以部署的模型数量是有限的)。还减少了冷启动新发音人耗时，加载发音人特征参数的耗时远远小于加载新模型。

本实施例在服务器端进行模型训练和合成技术可以有效降低端上对于芯片的负载，如果将合成模型放到本地，合成到本地播放的时间缩减300ms，但是内存的要求需要A53600Mhz和内存30M的要求。

在一些实施例中，该语音合成方法还包括：

在接收到说话人的录制音频之后，确定所述说话人的录制音频质量是否符合预设条件；

如果否，则发送重新录制说话人音频的提醒信息；

如果是，则执行后续步骤：根据所述说话人的录制音频对通用语音合成模型进行自适应训练得到对应于所述说话人的说话人特征参数。

本实施例中确定说话人的录制音频质量是否符合预设条件包括：确定说话人的录制音频的信噪比是否符合信噪比预设条件。

在录制音频质量不符合预设条件时，服务器向智能终端发送重新录制说话人音频的提醒信息，以提醒用户重新进行录制。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作合并，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在一些实施例中，本发明实施例提供一种非易失性计算机可读存储介质，所述存储介质中存储有一个或多个包括执行指令的程序，所述执行指令能够被电子设备(包括但不限于计算机，服务器，或者网络设备等)读取并执行，以用于执行本发明上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任一项语音合成方法。

在一些实施例中，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行语音合成方法。

图4是本申请另一实施例提供的执行语音合成方法的电子设备的硬件结构示意图，如图4所示，该设备包括：

一个或多个处理器410以及存储器420，图4中以一个处理器410为例。

执行语音合成方法的设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图4中以通过总线连接为例。

存储器420作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本申请实施例中的语音合成方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例语音合成方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据语音合成装置的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至语音合成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息，以及产生与语音合成装置的用户设置以及功能控制有关的信号。输出装置440可包括显示屏等显示设备。

所述一个或者多个模块存储在所述存储器420中，当被所述一个或者多个处理器410执行时，执行上述任意方法实施例中的语音合成方法。

上述产品可执行本申请实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请实施例所提供的方法。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

10页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于空洞卷积神经网络的端到端语种识别分类方法

语音合成方法、电子设备及存储介质

相关技术

网友询问留言