一种歌声合成方法、装置及设备

文档序号:600199 发布日期:2021-05-04 浏览:16次 >En<

阅读说明:本技术 一种歌声合成方法、装置及设备 (Singing voice synthesis method, device and equipment ) 是由 杨喜鹏 江明奇 殷昊 张旭 陈云琳 于 2020-12-23 设计创作,主要内容包括:本发明公开了一种歌声合成方法、装置及设备,该方法,包括:获取目标歌曲、目标歌曲的乐谱及目标歌曲歌词的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;确定目标歌曲的第一基频和播报语音的第一谱特征;根据字符对应的声母和韵母确定字符对应的第一音素;根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;根据播报语音和歌词确定第一音素的第三时长;根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;对第二谱特征、第一基频进行合成,得到合成歌声。本发明无需收集大量的录音数据就可以实现歌曲合成,可以降低歌曲合成的成本。(The invention discloses a singing voice synthesis method, a singing voice synthesis device and singing voice synthesis equipment, wherein the singing voice synthesis method comprises the following steps: acquiring a target song, a music score of the target song and broadcasting voice of lyrics of the target song, wherein the music score comprises the lyrics and first time length corresponding to characters in the lyrics; determining a first fundamental frequency of a target song and a first spectrum characteristic of broadcast voice; determining a first phoneme corresponding to the character according to the initial consonant and the final sound corresponding to the character; determining a second duration of the first phoneme according to the first phoneme corresponding to the character, a first preset duration proportion threshold of each first phoneme and a first duration corresponding to the character; determining a third duration of the first phoneme according to the broadcast voice and the lyrics; scaling the first spectral feature according to the second duration of the first phoneme and the third duration of the first phoneme to obtain a second spectral feature; and synthesizing the second spectral feature and the first fundamental frequency to obtain the synthesized singing voice. The invention can realize song synthesis without collecting a large amount of recording data, and can reduce the cost of song synthesis.)

具体实施方式

附图说明

图1为本发明实施例中一种歌声合成方法的流程示意图;

图2为本发明实施例中一种歌声合成装置的结构示意图;

图3为本发明实施例中一种歌声合成设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供了一种歌声合成方法,如图1所示,包括:

S101.获取目标歌曲、目标歌曲的乐谱及目标歌曲歌词的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;具体地,本发明的执行主体可以为歌声合成设备,还可以是终端或者服务器,在此不做具体地限定,本发明实施例中以歌声合成设备为执行主体为例进行说明。

歌声合成设备可以通过有线连接方式或者无线连接方式接收用户的歌唱请求,然后歌声合成设备会获取目标歌曲,以及目标歌曲的乐谱,并对乐谱进行解析,得到歌词,将歌词导入预设的语音播报模型,得到目标歌曲歌词的播报语音。通过将歌词导入预设的语音播报模型,得到目标歌曲的播报语音,从而在合成歌声时,不需要人工的参与,实现歌声合成的全自动化。语音播报模型可以由多个设置参数供调节,例如可以包括男声、女声、语速、音调、音量和音频码率等参数。歌声合成设备可以根据用户的需求来调节上述参数,使合成歌声的音色与用户喜爱的音色相似。在接收用户的歌唱请求时,本发明还支持按照歌词中的字符的位置索引作为输入,在歌声合成设备上输入歌词的起始字符和终止字符的索引,然后根据该起始字符和终止字符的索引获取目标歌曲、目标歌曲的乐谱。并根据起始字符和终止字符之间的歌词生成播报语音,从而合成起始字符和终止字符之间的歌词对应的歌曲。

上述目标歌曲可以是用户指定的歌曲,也可以是歌声合成设备在接收到上述歌唱请求时,从预置的曲库中随机选取的歌曲,还可以是歌声合成设备根据用户的行为和使用习惯从预置的曲库中选取的歌曲。乐谱可以是目标歌曲的musicxml文件或任意带有歌词、歌词中的字符对应的第一时长的文件,在此不做具体地限定。第一时长包括字符的歌唱时长和字符之间的停顿时长。在计算字符之间的停顿时长时,可以通过设置预设阈值来减少字符之间的非必要停顿。例如,对于小于预设阈值的停顿时长,将其停顿时长设置为零。

S102.确定目标歌曲的第一基频和播报语音的第一谱特征;具体地,可以采用基频提取工具对目标歌曲的第一基频进行提取,得到目标歌曲的第一基频。基频提取工具包括但不限于yin、world声码器。可以采用world声码器对播报语音中的第一谱特征进行提取,得到播报语音的第一谱特征。第一谱特征可以包括梅尔谱特征和非周期成分特征。

S103.根据字符对应的声母和韵母确定字符对应的第一音素;具体地,可以利用pypinyin工具或语音合成工具将歌词中的字符转成声母和韵母,字符的声母对应一个第一音素,字符的韵母可以对应至少一个第一音素,韵母对应第一音素的个数根据韵母的组成确定。例如,对于组合韵母,韵母组成为iang,则韵母对应两个第一音素,分别为i和ang。对于非组合韵母,韵母组成为ei,则韵母对应一个第一音素。

S104.根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;具体地,在确定第一音素的第二时长时,可以根据声母和韵母分别进行处理。例如,对于声母部分:爆破音等短音节,可按照固定比例和声母最长限定帧数来确定声母与韵母的时长比例;对于z,c,s,z,h,ch,sh,x,f,q,p,h,j这些声母,可以按照声母长度来确定声母与韵母的时长比例;对于y,r,m,w,l,n,可按照固定比例来确定声母与韵母的时长比例。根据声母与韵母的时长比例以及字符对应的第一时长可以得到声母对应的第一音素的第二时长,韵母对应的至少一个第一音素对应的至少一个第二时长。对于韵母部分,例如对于组合韵母,韵母组成为iang,则可以根据i和ang之间的预设时长比例,来确定i和ang分别对应的第二时长。

S105.根据播报语音和歌词确定第一音素的第三时长;具体地,可采用语音识别的强制对齐方法将歌词和播报语音对齐,确定歌词中每个字符的播报时长,然后分析每个字符的第一音素,确定每个第一音素的第三时长。

S106.根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;具体地,可根据第一音素的第二时长与第一音素的第三时长的比值对第一谱特征进行缩放处理,得到第二谱特征。根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,可以使得第一谱特征按照音素对应进行缩放,从而第二谱特征具有目标歌曲的韵律,且可以符合人在唱歌时的习惯,因为人在唱歌曲中的长音时,字符中每个音素的拉伸时长是不一样的。使第一谱特征按照音素对应进行缩放,这样能够使得合成歌曲更加准确。

S107.对第二谱特征、第一基频进行合成,得到合成歌声。具体地,在合成歌声之后,还可以对合成歌声进行后处理。例如,采用sound touch开源工具对合成歌声做变声处理,采用低通滤波消除合成歌声的嘶嘶声。还可以对合成歌声添加背景音乐。在对采样率的歌声合成中,可对背景音乐进行上采样或下采样(支持但不限于16k、22.05k、24k、44.1k、48k等)。还可以对合成歌曲进行加混响操作,提高合成歌声的歌唱效果。

本发明实施例提供的一种歌声合成方法,通过获取目标歌曲、目标歌曲的乐谱及目标歌曲的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;确定目标歌曲的第一基频和播报语音的第一谱特征;根据字符对应的声母和韵母确定字符对应的第一音素;根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;根据播报语音和歌词确定第一音素的第三时长;根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;对第二谱特征、第一基频进行合成,得到合成歌声,从而可以从播报语音中获得第一谱特征,并根据目标歌曲中的第一音素的第二时长和播报语音中的第一音素的第三时长对第一谱特征进行缩放,从而可以使得到的第二谱特征具有目标歌曲的韵律,且可以符合人在唱歌时的习惯,从而再将第二谱特征与目标歌曲的第一基频合成,就可以得到歌声,从而无需收集大量的录音数据就可以实现歌曲合成,可以降低歌曲合成的成本;并且,本发明通过采用目标歌曲的第一基频合成歌声,歌声将更加自然。

在可选的实施例中,步骤S102中,确定目标歌曲的第一基频,包括:对目标歌曲进行音轨分离,得到干音;提取干音的第三基频,得到目标歌曲的第一基频。

具体地,如果目标歌曲混合了背景音乐,则在确定目标歌曲的第一基频时,可以采用音轨分离工具,例如spleeter,对目标歌曲进行音轨分离,得到干音和背景音乐。然后提取干音的第三基频,得到目标歌曲的第一基频。

通过对目标歌曲进行音轨分离,得到干音,提取干音的第三基频,得到目标歌曲的第一基频,从而可以提取到与歌词对应的第一基频,从而可以在后续合成歌曲时消除背景音乐的干扰。

在可选的实施例中,步骤S105,根据播报语音和歌词确定第一音素的第三时长,可以包括:对乐谱进行解析,得到歌词;将播报语音和歌词输入到预设的语音识别模型中;通过语音识别模型对播报语音按照歌词中的字符对应的第一音素进行标注,得到第一音素的第三时长。

具体地,歌声合成设备对乐谱进行解析,得到歌词,预设语音识别模型可以对播报语音进行语音解析,并按照歌词中的字符对应的第一音素对播报语音进行标注,即对播报语音按照音素进行时长标注,从而得到第一音素的时间戳和持续时长,根据第一音素的时间戳和持续时长可以确定第一音素的第三时长。

通过采用语音识别模型对播报语音进行时长标注,得到第一音素的第三时长,快速、准确。

在可选的实施例中,步骤S106,根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征,具体包括:根据第一音素的第三时长对第一谱特征进行标注,得到第一音素的第三谱特征;根据第一音素的第二时长、第一音素的第三时长计算缩放比值;根据缩放比值对第三谱特征进行缩放处理,得到第二谱特征。

具体地,可按照音素、音节等对第一谱特征进行缩放处理。本实施例中以音素对第一谱特征进行缩放处理为例进行说明。由于第一谱特征是按照帧为单位进行提取的,因此,在将第一谱特征按照音素进行缩放时,需要将第一谱特征按照第一音素的第三时长进行标注,从而可以将第一谱特征按照音素进行划分,从而可以得到第一音素的第三谱特征。根据第一音素的第二时长与第一音素的第三时长的比值可以确定缩放比值。根据缩放比值对第一音素的第三谱特征进行缩放处理,就可以得到第二谱特征。进一步地,当所述字符对应的韵母包括一个第一音素,根据缩放比值对第一音素的第三谱特征进行缩放处理,就可以得到第二谱特征。当所述字符对应的韵母包括多个第一音素,根据缩放比值对韵母的对应的最后一个第一音素的第三谱特征进行缩放处理,并根据缩放比值对声母对应的第一音素的第三谱特征进行缩放处理,得到第二谱特征。而韵母的其他第一音素的第三谱特征不进行缩放处理。

在缩放处理时,可以采用线性插值方法,按照缩放比例,将第三谱特征进行线性插值。

通过根据第一音素的第三时长对第一谱特征进行标注,得到第一音素的第三谱特征;根据第一音素的第二时长、第一音素的第三时长计算缩放比值;根据缩放比值对第三谱特征进行缩放处理,得到第二谱特征,可以使得第一谱特征按照音素对应进行缩放,从而第二谱特征具有目标歌曲的韵律,且可以符合人在唱歌时的习惯,因为人在唱歌曲中的长音时,字符中每个音素的拉伸时长是不一样的。使第一谱特征按照音素对应进行缩放,这样能够使得合成歌曲更加准确。

在可选的实施例中,在确定目标歌曲的第一基频和播报语音的第一谱特征之后,还可以对第一基频进行调整,因此,歌声合成方法还包括:根据第一音素的第二时长对第一基频进行标注,得到第一音素的第二基频;根据第一音素的发音规则确定第一音素中不包含基频信息的第二音素;将第二音素对应的第二基频调整为零;根据调整后的第二基频重新确定目标歌曲的第一基频。

具体地,在对第一基频进行调整时,可以根据音节或音素对第一基频进行调整,本实施例中以根据音素对第一基频进行调整为例进行说明。由于第一基频是基于帧为单位进行提取的,因此,需要将第一基频按照第一音素进行划分。可以根据第一音素的第二时长对第一基频进行标注,得到第一音素的第二基频。由于部分声母如b、sh是没有基频信息的,因此,可以从第一音素中确定不包含基频信息的第二音素,然后将第二音素对应的第二基频进行线性插值,插值为零值,从而对第一基频进行调整。

通过将第一音素中不包含基频信息的第二音素对应的第二基频调整为零,可以消除潜在的对基频提取不转的问题。

在可选的实施例中,乐谱还包括歌词中的字符对应的音高,在确定目标歌曲的第一基频和播报语音的第一谱特征之后,还可以对第一基频进行调整,因此,歌声合成方法还包括:根据字符对应的第一音素、第一音素的第二基频确定字符的基频均值和基频方差;根据字符的基频均值和字符对应的音高计算字符的基频比值;当基频比值和/或基频方差不在预设阈值范围内,对第一音素的第二基频进行平滑处理;根据平滑处理后的第一音素的第二基频重新确定目标歌曲的第一基频。

具体地,可以通过数值统计的方法计算字符的基频均值和基频方差。当基频均值和/或基频方差不在预设阈值范围内,说明在第二基频中可能存在边界不准确的问题和/或倍半频问题。因此,可以对第一音素的第二基频进行平滑处理。

通过对第一音素的第二基频进行平滑处理,可以对第二基频中存在的边界不准确的问题和/或倍半频问题进行修复,从而根据平滑处理后的第一音素的第二基频重新确定的目标歌曲的第一基频,不存在边界不准确的问题和/或倍半频问题,从而可以使得合成歌曲更加自然。

在可选的实施例中,在对第二谱特征、第一基频进行合成,得到合成歌声之前,歌声合成方法还包括:确定播报语音的第三基频;确定第三基频中的零值;将第一基频中的零值插值为非零值;根据第三基频中的零值调整第一基频中的非零值。

具体地,将第一基频中的零值插值为非零值,主要是保证歌词中每句歌词的句首和句末的第一基频不会渐进到零。而根据第三基频中的零值调整第一基频中的非零值,可以减少由于第一基频提取不准导致的噪声问题。

本发明实施例还提供了一种歌声合成装置,如图2所示,包括:获取单元201,用于获取目标歌曲、目标歌曲的乐谱及目标歌曲的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。第一确定单元202,用于确定目标歌曲的第一基频和播报语音的第一谱特征;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。第二确定单元203,用于根据字符对应的声母和韵母确定字符对应的第一音素;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。第三确定单元204,用于根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。第四确定单元205,用于根据播报语音和歌词确定第一音素的第三时长;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。处理单元206,用于根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。合成单元207,用于对第二谱特征、第一基频进行合成,得到合成歌声。具体的实施方式详见上述实施例步骤S101的描述,在此不再赘述。

本发明实施例提供的一种歌声合成装置,通过获取目标歌曲、目标歌曲的乐谱及目标歌曲的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;确定目标歌曲的第一基频和播报语音的第一谱特征;根据字符对应的声母和韵母确定字符对应的第一音素;根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;根据播报语音和歌词确定第一音素的第三时长;根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;对第二谱特征、第一基频进行合成,得到合成歌声,从而可以从播报语音中获得第一谱特征,并根据目标歌曲中的第一音素的第二时长和播报语音中的第一音素的第三时长对第一谱特征进行缩放,从而可以使得到的第二谱特征具有目标歌曲的韵律,且可以符合人在唱歌时的习惯,从而再将第二谱特征与目标歌曲的第一基频合成,就可以得到歌声,从而无需收集大量的录音数据就可以实现歌曲合成,可以降低歌曲合成的成本;并且,本发明通过采用目标歌曲的第一基频合成歌声,歌声将更加自然。

基于与前述实施例中一种歌声合成方法同样的发明构思,本发明还提供一种歌声合成设备,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种歌声合成方法的任一方法的步骤。

其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

基于与前述实施例中一种歌声合成方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:

获取目标歌曲、目标歌曲的乐谱及目标歌曲的播报语音,乐谱包括歌词、歌词中的字符对应的第一时长;确定目标歌曲的第一基频和播报语音的第一谱特征;根据字符对应的声母和韵母确定字符对应的第一音素;根据字符对应的第一音素、各第一音素的第一预设时长比例阈值及字符对应的第一时长确定第一音素的第二时长;根据播报语音和歌词确定第一音素的第三时长;根据第一音素的第二时长、第一音素的第三时长对第一谱特征进行缩放处理,得到第二谱特征;对第二谱特征、第一基频进行合成,得到合成歌声。

在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种歌声合成方法、装置及可读存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!