一种歌声合成方法、装置及设备

文档序号：600201 发布日期：2021-05-04 浏览：16次 >En<

阅读说明：本技术 一种歌声合成方法、装置及设备 (Singing voice synthesis method, device and equipment ) 是由杨喜鹏张旭殷昊江明奇陈云琳于 2020-12-23 设计创作，主要内容包括：本发明公开了一种歌声合成方法、装置及设备,该方法包括：获取目标歌曲的第一歌词文本,确定第一歌词文本的第一音素,将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理,输出对应的第一声学特征,第一声学特征包括第一基频、第一谱包络,根据预设目标歌曲的第二基频对第一基频进行调整,对调整后的第一基频和第一谱包络进行合成,得到合成歌声。由于训练声学模型的数据远小于现有的歌声合成所需要的数据,从而无需收集大量的数据就可以实现歌声合成,可以降低歌声合成的成本；并且,本发明的合成歌声具有目标歌曲原歌手歌唱时的韵律,曲调,且曲调连续,不会因音调的突然转换而产生不自然的听感。(The invention discloses a singing voice synthesis method, a singing voice synthesis device and singing voice synthesis equipment, wherein the method comprises the following steps: the method comprises the steps of obtaining a first lyric text of a target song, determining a first phoneme of the first lyric text, inputting the first phoneme and a singing duration of a preset first phoneme into a preset acoustic model for processing, outputting a corresponding first acoustic feature, wherein the first acoustic feature comprises a first fundamental frequency and a first spectrum envelope, adjusting the first fundamental frequency according to a second fundamental frequency of the preset target song, and synthesizing the adjusted first fundamental frequency and the first spectrum envelope to obtain a synthesized singing voice. Because the data of the training acoustic model is far smaller than the data required by the existing singing voice synthesis, the singing voice synthesis can be realized without collecting a large amount of data, and the cost of the singing voice synthesis can be reduced; moreover, the synthesized singing voice of the invention has rhythm and melody when the original singer sings the target song, and the melody is continuous, thus the unnatural listening feeling can not be generated due to the sudden change of the tone.)

具体实施方式

。

附图说明

图1为本发明实施例中一种歌声合成方法的流程示意图；

图2为本发明实施例中一种歌声合成装置的结构示意图；

图3为本发明实施例中一种歌声合成设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种歌声合成方法，如图1所述，包括：

S101.获取目标歌曲的第一歌词文本；具体地，本发明的执行主体可以为歌声合成设备，还可以是终端或者服务器，在此不做具体地限定，本发明实施例中以歌声合成设备为执行主体为例进行说明。歌声合成设备可以通过有线连接方式或者无线连接方式接收用户的歌唱请求，然后根据用户的歌词请求获取目标歌曲的歌词文本。目标歌曲可以是用户指定的歌曲，也可以是歌声合成设备在接收到上述歌唱请求时，从预置的曲库中随机选取的歌曲，还可以是歌声合成设备根据用户的行为和使用习惯从预置的曲库中选取的歌曲。

S102.确定第一歌词文本的第一音素；具体地，根据第一歌词文本中的歌词对应的声母和韵母可以确定第一歌词文本的第一音素。

S103.将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；具体地，第一音素的歌唱时长可以在歌声合成设备中提前设置，在计算目标歌曲中第一音素的歌唱时长时，如果目标歌曲是混合背景音乐的歌曲，则可以使用spleeter开源工具分离背景音乐，得到干音和背景音乐。然后使用语音识别模型中的时长对齐方法(alignment)，标记出歌词的第一音素在干音中对应的时长和位置，预标注出时长文件。时长文件包括：歌曲id、干音相对于背景音乐的位置，歌词中第一音素的歌唱时长。然后将时长文件转成TextGrid格式的文件，使用praat语音分析工具微调预标注的第一音素的歌唱时长，生成准确的第一音素的歌唱时长。

预设的声学模型可以通过采用多个训练样本对循环神经网络进行训练得到。训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音。朗读语音可以是用户朗读第二歌词文本时产生，也可以是采用语音播报模型播报第二歌词文本时产生。将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，可以输出对应的第一声学特征。第一谱包络包括快速傅里叶变换特征、非周期成分特征、梅尔谱特征、线性预测编码(LPC)特征、Fbank特征。由于基于第一音素及第一音素的歌唱时长，得到第一声学特征，因此，第一声学特征具有目标歌曲的韵律，且可以符合人在唱歌时的习惯，因为人在唱歌曲中的长音时，字符中每个音素的拉伸时长是不一样的。因此，基于第一音素及第一音素的歌唱时长得到第一声学特征，这样能够使得合成歌曲更加准确。

S104.根据预设目标歌曲的第二基频对第一基频进行调整；具体地，预设目标歌曲的第一基频可以在歌声合成设备中提取预置。在确定目标歌曲的第一基频时，可以通过基频提取工具提取目标歌曲的第二基频。根据预设目标歌曲的第二基频对第一基频进行调整，从而可以使第一基频具有目标歌曲的曲调。

S105.对调整后的第一基频和第一谱包络进行合成，得到合成歌声。具体地，对调整后的第一基频和第一谱包络进行合成，得到了根据目标歌曲的歌词文本合成的歌声。可以理解的是，本实施例中得到的合成歌声，是清唱的歌声，没有伴奏。

本发明实施例提供的一种歌声合成方法，是提前对目标歌曲进行处理，得到第一音素的歌唱时长和第二基频，并提前训练好声学模型，从而在歌声合成时，通过获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声，由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，从而第一声学特征具有目标歌曲原歌手歌唱时的韵律，然后采用目标歌曲的第二基频对第一基频进行调整，从而第一基频与目标歌曲的第二基频一致，从而合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，并且基于调整后的第一基频合成歌声，合成歌声曲调连续，不会因音调的突然转换而产生不自然的听感。

在可选的实施例中，步骤S102，确定第一歌词文本的音素，包括：将第一歌词文本转成拼音文本，拼音文本包括声母和韵母；根据声母和韵母确定第一歌词文本的第一音素。

具体地，可以利用pypinyin工具或语音合成工具将第一歌词文本中的歌词转成拼音，得到拼音文本。然后根据拼音文本中的声母和韵母确定第一歌词文本的第一音素。声母对应一个第一音素，韵母可以对应一个第一音素。

由于人在歌唱时，对于声母的拉伸时长和对于韵母的拉伸时长是不一致的，因此，通过将第一歌词文本转成拼音文本，然后根据声母和韵母确定第一歌词文本的第一音素，从而根据第一音素及预设第一音素的歌唱时长确定的第一声学特征更加符合人在歌唱时的规律，从而可以使得合成歌声更加自然。

在可选的实施例中，在步骤S101，获取目标歌曲的第一歌词文本之前，歌声合成方法还包括：获取多个训练样本，训练样本包括：第二歌词文本、第二歌词文本对应的朗读语音；从各训练样本中提取第二歌词文本的第二音素和朗读语音的第二声学特征，第二声学特征包括第三基频、第二谱包络；根据第二音素和朗读语音确定第二音素的朗读时长；向循环神经网络输入第二音素、第二音素的朗读时长，训练时长模型；向循环神经网络输入第二音素、第二音素的朗读时长及第二声学特征，训练特征模型；根据时长模型和特征模型得到预设的声学模型。

具体地，预设的声学模型可以包括时长模型和特征模型。在对时长模型进行训练时，可以向循环神经网络输入第二音素、第二音素的朗读时长，以训练时长模型。第二音素的朗读时长可以通过第二歌词文本和语音识别模型对朗读语音中的第二音素进行时长标注得到。在对特征模型进行训练时，可以向循环神经网络输入第一音素、第二音素的朗读时长及第二声学特征，以训练特征模型。根据训练好的时长模型和特征模型就可以得到声学模型。

通过对时长模型训练和对特征模型进行训练，得到声学模型，从而可以采用远小于现有的歌声合成所需要的数据，来得到声学模型，从而得到合成歌声，从而可以无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本。

在可选的实施例中，步骤S103，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，包括：将第一音素输入时长模型，得到第一音素的朗读时长；根据第一音素的歌唱时长对第一音素的朗读时长进行调整；将第一音素、调整后的第一音素的朗读时长输入特征模型，得到第一声学特征，第一声学特征包括第一基频、第一谱包络。

具体地，由于时长模型是根据第二音素及第二音素的朗读时长训练得到的，因此，将第一音素输入时长模型，可以输出第一音素的朗读时长。然后根据第一音素的歌唱时长可以调整第一音素的朗读时长，使得第一音素的朗读时长与第一音素的歌唱时长对应。由于特征模型是根据第二音素、第二音素的朗读时长及第二声学特征进行训练得到的，因此，将调整后的第一音素的朗读时长及第一音素输入特征模型，可以输出与目标歌曲对应的第一声学特征。

通过根据第一音素的歌唱时长对第一音素的朗读时长进行调整，将第一音素、调整后的第一音素的朗读时长输入特征模型，得到第一声学特征，由于基于第一音素的歌唱时长，得到第一声学特征，从而第一声学特征具有目标歌曲的韵律。

在可选的实施例中，步骤S104，根据预设目标歌曲的第二基频对第一基频进行调整，包括：根据预设目标歌曲的第二基频，将第一基频调整为第二基频。

具体地，将第一基频调整为第二基频，从而可以使第一基频具有目标歌曲一样的曲调。

在可选的实施例中，在根据预设目标歌曲的第二基频对第一基频进行调整之前，歌声合成方法还包括：将预设目标歌曲的第二基频中的零值插值为非零值；确定第一基频中的零值；根据第一基频中的零值调整第二基频中对应位置处的基频值。

具体地，将第二基频中的零值插值为非零值，主要是保证歌词文本中每句歌词的句首和句末的第二基频不会渐进到零。由于有些第一音素是没有基频信息的，如b、sh，对于没有基频信息的第一音素，其对应的第一基频为零，相应地，在合成歌声时，根据第二基频调整第一基频前，应该将第二基频中对应位置处的基频值致为零，因此，可以根据第一基频中的零值调整第二基频对应位置处的基频值。

通过对第二基频进行调整，可以减少由于第二基频提取不准导致的噪声问题。

在可选的实施例中，在对调整后的第一基频和第一谱包络进行合成，得到合成歌声之后，歌声合成方法还包括：对合成歌声进行变声处理；对变声处理后的合成歌声进行滤波处理。

具体地，可以采用sound touch开源工具对合成歌声做变声处理，采用低通滤波消除合成歌声的嘶嘶声。还可以对合成歌声添加背景音乐。在对采样率的歌声合成中，可对背景音乐进行上采样或下采样(支持但不限于16k、22.05k、24k、44.1k、48k等)。还可以对合成歌曲进行加混响操作。对合成歌声进行变声处理，对变声处理后的合成歌声进行滤波处理，可以提高合成歌声的歌唱效果。

本发明实施例还提供了一种歌声合成装置，如图2所示，包括：获取单元201，用于获取目标歌曲的第一歌词文本；具体的实施方式详见上述实施例步骤S101的描述，在此不再赘述。确定单元202，用于确定第一歌词文本的第一音素；具体的实施方式详见上述实施例步骤S102的描述，在此不再赘述。处理单元203，用于将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；具体的实施方式详见上述实施例步骤S103的描述，在此不再赘述。调整单元204，用于根据预设目标歌曲的第二基频对第一基频进行调整；具体的实施方式详见上述实施例步骤S104的描述，在此不再赘述。合成单元205，用于对调整后的第一基频和第一谱包络进行合成，得到合成歌声。具体的实施方式详见上述实施例步骤S105的描述，在此不再赘述。

本发明实施例提供的一种歌声合成装置，是提前对目标歌曲进行处理，得到第一音素的歌唱时长和第二基频，并提前训练好声学模型，从而在歌声合成时，通过获取目标歌曲的第一歌词文本，确定第一歌词文本的第一音素，将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络，根据预设目标歌曲的第二基频对第一基频进行调整，对调整后的第一基频和第一谱包络进行合成，得到合成歌声，由于训练声学模型的数据远小于现有的歌声合成所需要的数据，从而无需收集大量的数据就可以实现歌声合成，可以降低歌声合成的成本；并且，本发明将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，从而第一声学特征具有目标歌曲原歌手歌唱时的韵律，然后采用目标歌曲的第二基频对第一基频进行调整，从而第一基频与目标歌曲的第二基频一致，从而合成歌声具有目标歌曲原歌手歌唱时的韵律，曲调，并且基于调整后的第一基频合成歌声，合成歌声曲调连续，不会因音调的突然转换而产生不自然的听感。

基于与前述实施例中一种歌声合成同样的发明构思，本发明还提供一种歌声合成设备，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种歌声合成的任一方法的步骤。

其中，在图3中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

基于与前述实施例中一种歌声合成方法同样的发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

获取目标歌曲的第一歌词文本；确定第一歌词文本的第一音素；将第一音素和预设第一音素的歌唱时长输入预设的声学模型进行处理，输出对应的第一声学特征，第一声学特征包括第一基频、第一谱包络；根据预设目标歌曲的第二基频对第一基频进行调整；对调整后的第一基频和第一谱包络进行合成，得到合成歌声。

在具体实施过程中，该程序被处理器执行时，还可以实现实施例一中的任一方法步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器，使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

12页详细技术资料下载

一种歌声合成方法、装置及设备

相关技术

网友询问留言