歌声合成模型的训练方法、系统及歌声合成方法

文档序号:1578600 发布日期:2020-01-31 浏览:21次 >En<

阅读说明:本技术 歌声合成模型的训练方法、系统及歌声合成方法 (Singing voice synthesis model training method and system and singing voice synthesis method ) 是由 王健宗 于 2019-09-16 设计创作,主要内容包括:本发明实施例提供了一种歌声合成模型的训练方法,所述方法包括获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征;及根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。本实施例通过少量语料即可高效且灵活地训练得到对应于某一或某类歌手的歌声合成模型。(The embodiment of the invention provides a training method of singing voice synthesis models, which comprises the steps of obtaining a plurality of singing voice data of a plurality of songs, constructing a training database based on the plurality of singing voice data and a plurality of music spectrums corresponding to the plurality of songs, segmenting the singing voice data of each song into a plurality of voice frames, segmenting the music score data of each song into a plurality of music score voice elements, establishing a mapping relation between each music score voice element in each song and the corresponding plurality of voice frames, extracting acoustic features from the voice frames corresponding to each music score voice element of each song, and training the singing voice synthesis models according to each music score voice element of each song and the acoustic features corresponding to each music score voice element to obtain the trained singing voice synthesis models.)

歌声合成模型的训练方法、系统及歌声合成方法

技术领域

本发明实施例涉及计算机数据处理领域,尤其涉及一种歌声合成模型的训练方法、系统、计算机设备、计算机可读存储介质,以及歌声合成方法。

背景技术

随着互联网和数字存储技术的发展,目前音频文件多以数字格式来记录和传播,譬如,WAV、MP3、MIDI等。数字格式的音频文件在制作、存储、发行等方面有着不可比拟的优势。创作者可以通过计算机设备谱曲并且输出音乐作品的制作效果,对乐谱进行的任何修改操作都可以及时的反馈给创作者,有效降低了音乐制作的周期和人力成。近几年来,歌声合成技术得到长足发展,当前的歌声合成系统主要为以下技术:基于语音拼接的歌唱合成系统(CSV),如日本的YAMAHA公司的VOCALOID合成器。

然后,上述歌声合成技术,需要大量的语料库,训练和合成效率低,合成缺乏灵活性。

发明内容

有鉴于此,本发明实施例的目的是提供一种歌声合成模型的训练方法、系统、计算机设备及计算机可读存储介质,可以有效解决训练和合成效率低以及合成缺乏灵活性的技术问题。

为实现上述目的,本发明实施例提供了一种歌声合成模型的训练方法,所述方法包括:

获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;

将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;

从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,所述声学特征包括:歌声基频特征、歌声音色特征、歌唱速度特征和/或歌唱加速度特征;及

根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。

优选地,将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系,包括:

对每首歌曲的歌声数据依据时间顺序进行分段处理,以将每首歌曲的歌声数据切分为M个语音帧,所述M个语音帧构成语音序列;

对每首歌曲的乐谱数据进行分段处理,以将每首歌曲的乐谱数据切分为N个乐谱音元,所述N个乐谱音元构成乐谱序列;及

将每首歌曲中的各个乐谱音元和一个或多个语音帧建立”乐谱音元-语音帧”的一对多映射关系对。

优选地,对每首歌曲的歌声数据依据时间顺序进行分段处理,以将每首歌曲的歌声数据切分为M个语音帧,包括:

a,将每首歌曲的各个语音帧分别分解成对应的多个子频带信号;

b,计算每首歌曲的各个语音帧的多个子频带信号的信号能量;

c,对每首歌曲的各个语音帧的多个子频带信号加总,得到每首歌曲的各个语音帧对应的信号能量;

d,比较每首歌曲中各个语音帧的信号能量与预设阈值,所述预设阈值为对应歌曲中各个语音帧的信号能量的平均值;

e,将信号能量小于预设阈值的语音帧定义为无效语音帧;

f,将信号能量不小于预设阈值的语音帧定义为有效语音帧,以得到每首歌曲的M个有效语音帧。

优选地,从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,包括:

在每个乐谱音元对应的语音帧中提取n个数据点;

对每个乐谱音元对应的语音帧进行快速傅里叶变换,得到每个乐谱音元对应的语音帧的频谱参数;

根据每个乐谱音元对应的语音帧的频谱参数进行快速服务类能量运算,得到与每个乐谱音元对应的语音帧的多个功率谱;

将每个乐谱音元对应的语音帧的功率谱进行Mel滤波,以得到m个滤波结果;

对m个滤波结果取对数运算,得到对数频谱;及

对数频谱进行离散余弦变换,得到每个乐谱音元对应的语音帧的歌声音色特征参数。

优选地,根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型,包括:

将各个歌曲的语音序列作为观察序列样本O={o1,o2,...,oM},乐谱序列作为状态序列Q={q1,q2,...,qN},计算HMM模型参数λ=(A,B,π),其中,π为初始概率分布,A为状态转移矩阵,B为观测矩阵。

为实现上述目的,本发明实施例还提供了歌声合成模型的训练系统,包括:

获取模块,用于获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;

分割模块,用于将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;

提取模块,用于从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,所述声学特征包括:歌声基频特征、歌声音色特征、歌唱速度特征和/或歌唱加速度特征;及

训练模块,用于根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。

为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的歌声合成模型的训练方法的步骤。

为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的歌声合成模型的训练方法的步骤。

为实现上述目的,本发明实施例还提供了歌声合成方法,包括:

输入待合成歌曲的目标乐谱数据;

将所述目标乐谱数据进行分段处理,以得到相应的目标乐谱序列,所述目标乐谱序列包括多个目标乐谱音元;

将所述目标乐谱序列中的多个目标乐谱音元输入到通过权利要求1~6任意一项所述的训练方法训练好的歌声合成模型中,以通过歌声合成模型输出各个目标乐谱音元的多个相关参数预估值,所述相关参数预估值包括歌声基频特征参数、歌声音色特征参数、歌唱速度特征参数和/或歌唱加速度特征参数;及

根据各个目标乐谱音元的多个相关参数预估值,生成各个目标乐谱音元的声音信息,并将这些声音信息进行拼接以得到合成歌声。

优选的,输入待合成歌曲的目标乐谱数据,包括:

分析所述目标乐谱数据,得到所述目标乐谱数据的音域范围;

判断该音域范围是否在目标合成对象的预设音域范围之内;

如果在所述音域范围在所述预设音域范围之内,则将所述目标乐谱数据进行分段处理,以得到相应的目标乐谱序列,所述目标乐谱序列包括多个目标乐谱音元;及

如果在所述音域范围未在所述预设音域范围之内,则输出提示信息,所述提示信息用于表示所述目标乐谱数据不适合合成操作。

本发明实施例提供的歌声合成模型的训练方法、系统、计算机设备、计算机可读存储介质以及歌声合成方法,通过在乐谱音元和语音帧之间建立映射关系,并基于乐谱音元和语音帧的声学特征来训练歌声合成模型,通过少量语料即可高效且灵活地训练得到对应于某一或某类歌手的歌声合成模型。

附图说明

图1为本发明歌声合成模型的训练方法实施例一的流程图。

图2为本发明歌声合成模型的训练系统实施例二的程序模块示意图。

图3为本发明计算机设备实施例三的硬件结构示意图。

图4为本发明歌声合成方法实施例五的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

以下实施例将以计算机设备2为执行主体进行示例性描述。

实施例一

参阅图1,示出了本发明实施例一之歌声合成模型的训练方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S100,获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库。

所述歌声数据为录制的音频数据,通常来说,所述歌声数据包括指定人员(专业歌手)发出的演唱声音和伴奏乐器的声音。但是,当没有伴奏乐器时,则所述歌声数据即为指定人员发送的演唱声音。

示例性的,可以在隔音环境下通过录音设备录制指定人员(专业歌手)的歌声,并将录制的歌声传输至云端;所述录音设备由压电传感器和附加元件组成,信号调理电路使得传感器可以放大歌声。

例如,可以构建50首歌曲构成的训练数据库,该50首歌曲选择以慢歌为主,根据这名专业歌手的音域,选择相关歌曲。这50首歌曲,平均时长为4.7分钟,总时长为3.9小时。

例如,在上述训练数据库中,存储有50首歌曲对应的50个歌声数据,以及存储有50个曲谱,每首歌曲一一对应一首曲谱。即,训练数据库中的信息是用于描述多个歌声数据和多首曲谱之间的对应关系。

步骤S102,将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系。

将每首歌曲的歌声数据切分为多个语音帧,可以为:根据预设帧长和帧移对有效语音进行分帧,得到多个语音帧。其中,预设帧长可以为10~30毫秒。在分帧过程中,相邻两帧之间可以设置一部分重叠时域区间,以使各个语音帧的特征参数平滑地变化,因此可以设置帧移为帧长的0.2~0.5倍,帧移即为相邻语音帧的重叠时域区间。

乐谱音元,为一种独立且完整的最基本语音结构单元,其可以被看着为产生声波的一段短时间的阻尼振动。多个乐谱音元的不同排列、组合形式构成了不同的乐谱数据。

将每首歌曲的乐谱数据切分为多个乐谱音元,通过每个乐谱音元所在的时间区间与对应时间区间的一个或多个语音帧进行关联操作,从而构建出乐谱音元和语音至之间的映射关系。

步骤S104,从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,所述声学特征包括:歌声基频特征、歌声音色特征、歌唱速度特征和/或歌唱加速度特征。

针对每帧语音来说,可以通过利用傅里叶变换等一系列操作把它转换成声学特征,也可以通过深度神经网络来提取这些声学特征。声学特征的示例包括歌声基频特征、歌声音色特征、歌唱速度特征、歌唱加速度特征等。

歌声基频(F0)特征,用于记录歌声的音高,可以通过基频参数提取算法从每个乐谱音元对应的语音帧中提取出离散的基频值序列,然后对该基频值序列计算算术平均值作为该乐谱音元对应的语音帧的基频值。

歌声音色(MFCC)特征,用于表示歌手声音的特点。MFCC(梅尔倒谱系数,Mel-Frequency Cepstral Coefficients),为根据人耳的生理特性,提取乐谱音元对应的语音帧的内容信息,该内容信息通过一个多维向量表示。训练得到对应于某一或某类歌手的歌声合成模型。

步骤S106,根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。

基于乐谱音元和语音帧的声学特征来训练歌声合成模型。其中:所述歌声合成模型可以为多流HMM(Hidden Markov Model,隐马尔可夫模型)模型。

在一个实施例中,步骤S102可以通过以下步骤具体实现:

步骤S102A,对每首歌曲的歌声数据依据时间顺序进行分段处理,以将每首歌曲的歌声数据切分为M个语音帧,所述M个语音帧构成语音序列。

示例性的,可以对歌声数据X(t)加窗和分帧处理,以得到多个语音帧,每个语音帧的长度可以为25~30ms,帧移可以为5~10ms;具体的,可以通过哈明窗对歌声数据X(t)以T(采样时间)截断,以避免出现吉布斯效应。

示例性的,所述步骤S102A可以进一步包括以下步骤:a,将每首歌曲的各个语音帧分别分解成对应的多个子频带信号;b,计算每首歌曲的各个语音帧的多个子频带信号的信号能量;c,对每首歌曲的各个语音帧的多个子频带信号加总,得到每首歌曲的各个语音帧对应的信号能量,信号能量可以用平均功率谱表示:

Figure BDA0002202919220000081

d,比较每首歌曲中各个语音帧的信号能量与预设阈值,所述预设阈值为对应歌曲中各个语音帧的信号能量的平均值;e,将信号能量小于预设阈值的语音帧定义为无效语音帧(即,噪声);f,将信号能量不小于预设阈值的语音帧定义为有效语音帧,以得到每首歌曲的M个有效语音帧。

步骤S102B,对每首歌曲的乐谱数据进行分段处理,以将每首歌曲的乐谱数据切分为N个乐谱音元,所述N个乐谱音元构成乐谱序列。

步骤S102C,将每首歌曲中的各个乐谱音元和一个或多个语音帧建立”乐谱音元-语音帧”的一对多映射关系对。

在一个实施例中,步骤S104可以通过以下步骤提取MFCC特征的提取步骤:

(1)在每个乐谱音元对应的语音帧中提取n个数据点,具体的,可以为256个数据点;

(2)对每个乐谱音元对应的语音帧进行快速傅里叶变换(FFT,FastFourierTransformation),得到每个乐谱音元对应的语音帧的频谱参数,即得到每个乐谱音元对应的语音帧的256个复数形式的数据点;

(3)根据每个乐谱音元对应的语音帧的频谱参数进行快速服务类能量运算,得到与每个乐谱音元对应的语音帧的多个功率谱;

(4)将每个乐谱音元对应的语音帧的功率谱进行Mel滤波,以得到m个滤波结果;

Mel滤波即将乐谱音元对应的语音帧的频谱参数通过一组m个带通滤波器(m一般为20~30个,优选24个)所组成的梅尔(Mel)刻度滤波器;具体的,如果m为24个,则得到24个滤波结果;

(5)对m个滤波结果取对数运算,得到对数频谱;及

(6)对数频谱进行离散余弦变换,得到每个乐谱音元对应的语音帧的歌声MFCC参数。

在一个实施例中,步骤S106可以通过以下步骤具体实现:示例性的,将各个歌曲的语音序列作为观察序列样本O={o1,o2,...,oM},乐谱序列作为状态序列Q={q1,q2,...,qN},计算HMM模型参数λ=(A,B,π),其中,π为初始概率分布,A为状态转移矩阵,B为观测矩阵。

训练过程可以包括如下步骤:

计算得到N个样本初始状态为q1的频率π,π为初始概率分布;

通过Baum-Welch极大似然算法计算得到状态转移矩阵A,其中,Aij为节点t处于状态i,转移到节点t+1处于状态j的频数,N为乐谱音元个数;

通过最大似然估计算法

Figure BDA0002202919220000092

计算观测转移概率以得到观测矩阵B,其中,Bjk为状态j且观测值为k的频数,S为声学特征个数(如,MFCC参数个数)。

实施例二

请继续参阅图2,示出了本发明歌声合成模型的训练系统实施例二的程序模块示意图。在本实施例中,歌声合成模型的训练系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述歌声合成模型的训练方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述歌声合成模型的训练系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:

获取模块200,用于获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库。

分割模块202,用于将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系。

提取模块204,用于从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,所述声学特征包括:歌声基频特征、歌声音色特征、歌唱速度特征和/或歌唱加速度特征。

训练模块206,用于根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。

在示例性的实施例中,所述分割模块202还用于:对每首歌曲的歌声数据依据时间顺序进行分段处理,以将每首歌曲的歌声数据切分为M个语音帧,所述M个语音帧构成语音序列;对每首歌曲的乐谱数据进行分段处理,以将每首歌曲的乐谱数据切分为N个乐谱音元,所述N个乐谱音元构成乐谱序列;及将每首歌曲中的各个乐谱音元和一个或多个语音帧建立”乐谱音元-语音帧”的一对多映射关系对。

在示例性的实施例中,所述分割模块202还用于:将每首歌曲的各个语音帧分别分解成对应的多个子频带信号;计算每首歌曲的各个语音帧的多个子频带信号的信号能量;对每首歌曲的各个语音帧的多个子频带信号加总,得到每首歌曲的各个语音帧对应的信号能量;比较每首歌曲中各个语音帧的信号能量与预设阈值,所述预设阈值为对应歌曲中各个语音帧的信号能量的平均值;将信号能量小于预设阈值的语音帧定义为无效语音帧;将信号能量不小于预设阈值的语音帧定义为有效语音帧,以得到每首歌曲的M个有效语音帧。

在示例性的实施例中,所述提取模块204还用于:在每个乐谱音元对应的语音帧中提取n个数据点;对每个乐谱音元对应的语音帧进行快速傅里叶变换,得到每个乐谱音元对应的语音帧的频谱参数;根据每个乐谱音元对应的语音帧的频谱参数进行快速服务类能量运算,得到与每个乐谱音元对应的语音帧的多个功率谱;将每个乐谱音元对应的语音帧的功率谱进行Mel滤波,以得到m个滤波结果;对m个滤波结果取对数运算,得到对数频谱;及对数频谱进行离散余弦变换,得到每个乐谱音元对应的语音帧的歌声音色特征参数。

在示例性的实施例中,所述训练模块206还用于:将各个歌曲的语音序列作为观察序列样本O={o1,o2,...,oM},乐谱序列作为状态序列Q={q1,q2,...,qN},计算HMM模型参数λ=(A,B,π),其中,π为初始概率分布,A为状态转移矩阵,B为观测矩阵。

实施例三

参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及歌声合成模型的训练系统20。其中:

本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例五的歌声合成模型的训练系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行歌声合成模型的训练系统20,以实现实施例一的歌声合成模型的训练方法。

所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是,图3仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。

在本实施例中,存储于存储器21中的所述歌声合成模型的训练系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。

例如,图2示出了所述实现歌声合成模型的训练系统20实施例二的程序模块示意图,该实施例中,所述基于歌声合成模型的训练系统20可以被划分为获取模块200、分割模块202、提取模块204和训练模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述歌声合成模型的训练系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。

实施例四

本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储歌声合成模型的训练系统20,被处理器执行时实现实施例一的歌声合成模型的训练方法。

实施例五

参阅图4,示出了本发明实施例五之歌声合成方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下。

步骤S400,输入待合成歌曲的目标乐谱数据。

所述目标乐谱数据可以是指定音域范围的乐谱数据,以保证目标乐谱数据和歌曲演唱者的匹配。

在示例性的实施例中,所述步骤S400包括以下步骤:

分析所述目标乐谱数据,得到所述目标乐谱数据的音域范围;判断该音域范围是否在目标合成对象的预设音域范围之内;如果在所述音域范围在所述预设音域范围之内,则将所述目标乐谱数据进行分段处理,以得到相应的目标乐谱序列,所述目标乐谱序列包括多个目标乐谱音元;如果在所述音域范围未在所述预设音域范围之内,则输出提示信息,所述提示信息用于表示所述目标乐谱数据不适合合成操作。

步骤S402,将所述目标乐谱数据进行分段处理,以得到相应的目标乐谱序列,所述目标乐谱序列包括多个目标乐谱音元。

步骤S404,将所述目标乐谱序列中的多个目标乐谱音元输入到通过实施例一所述的训练方法训练好的歌声合成模型(如,HMM模型)中,以通过歌声合成模型输出各个目标乐谱音元的多个相关参数预估值,所述相关参数预估值包括歌声基频特征参数、歌声音色特征参数、歌唱速度特征参数和/或歌唱加速度特征参数。

所述相关参数预估值可以包括:F0的参数,MFCC的参数,声音的速度和加速度;

示例性的:将所述目标乐谱序列作为HMM模型的目标状态序列,通过该HMM输出目标观测序列,该目标观测序列包括对应F0参数的第一目标观测序列,对应MFCC参数的第二目标观测序列,对应声音速度参数的第三目标观测序列和对应声音加速度参数的第四目标观测序列。

步骤S406,根据各个目标乐谱音元的多个相关参数预估值,生成各个目标乐谱音元的声音信息,并将这些声音信息进行拼接以得到合成歌声。

示例性的,可以将所述目标观测序列输入到韵律合成过滤器中,通过所述韵律合成过滤器合成歌声。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于智能语音通话对答的交互方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!