歌手识别方法、装置、设备及存储介质

文档序号:21591 发布日期:2021-09-21 浏览:35次 >En<

阅读说明:本技术 歌手识别方法、装置、设备及存储介质 (Singer identification method, singer identification device, singer identification equipment and storage medium ) 是由 张旭龙 王健宗 于 2021-06-30 设计创作,主要内容包括:本发明涉及人工智能领域,公开了一种歌手识别方法、装置、设备及存储介质,用于提高歌手识别的准确率和效率。所述歌手识别方法包括:接收混合录音的待识别音频文件,并获取待识别音频文件的目标音频信号;根据预置的傅里叶变换算法,将目标音频信号转换到梅尔频域,得到待识别音频文件对应的音频梅尔频谱图;通过预置的基频提取算法,从音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;基于训练好的歌手识别模型,对音频梅尔频谱图和旋律梅尔频谱图进行歌手识别,得到待识别音频文件对应的歌手信息。此外,本发明还涉及区块链技术,歌手信息可存储于区块链节点中。(The invention relates to the field of artificial intelligence, and discloses a singer identification method, a singer identification device, singer identification equipment and a storage medium, which are used for improving the accuracy and efficiency of singer identification. The singer identification method comprises the following steps: receiving an audio file to be identified of the mixed recording, and acquiring a target audio signal of the audio file to be identified; converting the target audio signal into a Mel frequency domain according to a preset Fourier transform algorithm to obtain an audio Mel spectrogram corresponding to the audio file to be identified; extracting a melody Mel spectrogram of a background music part from the audio Mel spectrogram by a preset fundamental frequency extraction algorithm; and carrying out singer identification on the audio Mel frequency spectrogram and the melody Mel frequency spectrogram based on the trained singer identification model to obtain singer information corresponding to the audio file to be identified. In addition, the invention also relates to a block chain technology, and singer information can be stored in the block chain node.)

歌手识别方法、装置、设备及存储介质

技术领域

本发明涉及语音分类领域,尤其涉及一种歌手识别方法、装置、设备及存储介质。

背景技术

目前,歌手识别在许多领域都有广泛应用,特别是在音乐分类方面,当歌手在特定的音乐环境中歌唱时,现有的歌手识别模型能够识别演唱歌手,以便于为用户提供歌手信息。

现有的歌手识别模型通常是将同一歌手的不同歌曲进行切分截取,得到正样本,再将不同歌手的歌曲进行切分和截取,得到负样本,正样本和负样本作为样本对,用于联合训练,这种方式模型的识别准确率很大程度上取决于样本对的量级,且操作复杂,识别效率低。

发明内容

本发明提供了一种歌手识别方法、装置、设备及存储介质,用于提高歌手识别的准确率和效率。

本发明第一方面提供了一种歌手识别方法,包括:

接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号;

根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图;

通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息。

可选的,在本发明第一方面的第一种实现方式中,在所述接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号之前,所述歌手识别方法还包括:

获取带歌手信息标注的初始样本音频文件,并通过预置的数据增强算法,对所述初始样本音频文件进行扩展,得到目标样本音频文件;

获取初始化的卷积递归神经网络模型,并将所述目标样本音频文件输入所述卷积递归神经网络模型,所述卷积递归神经网络模型包括多个卷积层、多个门控循环单元层和全连接层;

基于所述目标样本音频文件,对所述多个卷积层、所述多个门控循环单元层和所述全连接层进行模型训练,得到模型损失结果;

根据所述模型损失结果,对所述卷积递归神经网络模型的网络参数进行调整,得到训练好的歌手识别模型。

可选的,在本发明第一方面的第二种实现方式中,所述获取带歌手信息标注的初始样本音频文件,并通过预置的数据增强算法,对所述初始样本音频文件进行扩展,得到目标样本音频文件,包括:

获取带歌手信息标注的多个初始样本音频文件,并将所述多个初始样本音频文件转化为样本音频信号,得到多个样本音频信号;

通过预置的音乐分轨算法,分别将所述多个样本音频信号中的乐器音轨删除,得到多个人声信号;

通过预置的基频提取算法,分别在所述多个样本音频信号中提取背景音,得到多个旋律信号;

通过预置的数据增强算法,分别将各人声信号与所述多个旋律信号融合,得到目标样本音频文件。

可选的,在本发明第一方面的第三种实现方式中,所述通过预置的音乐分轨算法,分别将所述多个样本音频信号中的乐器音轨删除,得到多个人声信号,包括:

按照预置的音乐分轨算法,分别将所述多个样本音频信号分离为多个目标音轨;

将所述多个目标音轨中的乐器音轨剔除,得到多个人声音轨,并生成所述多个人声音轨对应的多个人声信号。

可选的,在本发明第一方面的第四种实现方式中,所述根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图,包括:

按照预置帧长的时间窗,对所述目标音频信号进行分帧处理,得到多帧时域信号;

通过预置的傅里叶变换算法,将所述多帧时域信号转换到频域,得到多帧频域信号;

获取预置的梅尔滤波器组,对所述多帧频域信号进行滤波处理,得到所述待识别音频文件对应的音频梅尔频谱图。

可选的,在本发明第一方面的第五种实现方式中,所述通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图,包括:

通过预置的基频提取算法,从所述目标音频信号中提取基频信号,所述基频信号用于指示所述待识别音频文件的背景音乐部分信号;

基于所述基频信号,对从所述音频梅尔频谱图进行卷积运算,得到所述音频梅尔频谱图中背景音乐部分的旋律梅尔频谱图。

可选的,在本发明第一方面的第六种实现方式中,所述基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息,包括:

通过训练好的歌手识别模型中的多个卷积层和多个门控循环单元层,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行卷积递归特征提取,得到所述待识别音频文件对应的特征矩阵;

通过所述歌手识别模型中的全连接层,对所述特征矩阵进行歌手概率投票,并将投票概率最高的歌手信息作为所述待识别音频文件对应的歌手信息。

本发明第二方面提供了一种歌手识别装置,包括:

接收模块,用于接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号;

转换模块,用于根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图;

提取模块,用于通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

识别模块,用于基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息。

可选的,在本发明第二方面的第一种实现方式中,所述歌手识别装置还包括:

扩展模块,用于获取带歌手信息标注的初始样本音频文件,并通过预置的数据增强算法,对所述初始样本音频文件进行扩展,得到目标样本音频文件;

输入模块,用于获取初始化的卷积递归神经网络模型,并将所述目标样本音频文件输入所述卷积递归神经网络模型,所述卷积递归神经网络模型包括多个卷积层、多个门控循环单元层和全连接层;

训练模块,用于基于所述目标样本音频文件,对所述多个卷积层、所述多个门控循环单元层和所述全连接层进行模型训练,得到模型损失结果;

调整模块,用于根据所述模型损失结果,对所述卷积递归神经网络模型的网络参数进行调整,得到训练好的歌手识别模型。

可选的,在本发明第二方面的第二种实现方式中,所述扩展模块包括:

获取单元,用于获取带歌手信息标注的多个初始样本音频文件,并将所述多个初始样本音频文件转化为样本音频信号,得到多个样本音频信号;

分轨单元,用于通过预置的音乐分轨算法,分别将所述多个样本音频信号中的乐器音轨删除,得到多个人声信号;

提取单元,用于通过预置的基频提取算法,分别在所述多个样本音频信号中提取背景音,得到多个旋律信号;

融合单元,用于通过预置的数据增强算法,分别将各人声信号与所述多个旋律信号融合,得到目标样本音频文件。

可选的,在本发明第二方面的第三种实现方式中,所述分轨单元具体用于:

按照预置的音乐分轨算法,分别将所述多个样本音频信号分离为多个目标音轨;

将所述多个目标音轨中的乐器音轨剔除,得到多个人声音轨,并生成所述多个人声音轨对应的多个人声信号。

可选的,在本发明第二方面的第四种实现方式中,所述转换模块具体用于:

按照预置帧长的时间窗,对所述目标音频信号进行分帧处理,得到多帧时域信号;

通过预置的傅里叶变换算法,将所述多帧时域信号转换到频域,得到多帧频域信号;

获取预置的梅尔滤波器组,对所述多帧频域信号进行滤波处理,得到所述待识别音频文件对应的音频梅尔频谱图。

可选的,在本发明第二方面的第五种实现方式中,所述提取模块具体用于:

通过预置的基频提取算法,从所述目标音频信号中提取基频信号,所述基频信号用于指示所述待识别音频文件的背景音乐部分信号;

基于所述基频信号,对从所述音频梅尔频谱图进行卷积运算,得到所述音频梅尔频谱图中背景音乐部分的旋律梅尔频谱图。

可选的,在本发明第二方面的第六种实现方式中,所述识别模块具体用于:

通过训练好的歌手识别模型中的多个卷积层和多个门控循环单元层,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行卷积递归特征提取,得到所述待识别音频文件对应的特征矩阵;

通过所述歌手识别模型中的全连接层,对所述特征矩阵进行歌手概率投票,并将投票概率最高的歌手信息作为所述待识别音频文件对应的歌手信息。

本发明第三方面提供了一种歌手识别设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述歌手识别设备执行上述的歌手识别方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的歌手识别方法。

本发明提供的技术方案中,接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号;根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图;通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息。本发明实施例中,服务器获取到待识别音频文件对应的目标音频信息之后,将目标音频信号映射到梅尔频域,得到音频梅尔频谱图,再通过基频提取算法,提取音频梅尔频谱图中的旋律梅尔频谱图,最后,服务器基于训练好的歌手识别模型进行歌手识别,得到待识别音频文件对应的歌手信息。本发明可以提高歌手识别的效率及准确率。

附图说明

图1为本发明实施例中歌手识别方法的一个实施例示意图;

图2为本发明实施例中歌手识别方法的另一个实施例示意图;

图3为本发明实施例中歌手识别装置的一个实施例示意图;

图4为本发明实施例中歌手识别装置的另一个实施例示意图;

图5为本发明实施例中歌手识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种歌手识别方法、装置、设备及存储介质,用于提高歌手识别的准确率和效率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中歌手识别方法的一个实施例包括:

101、接收混合录音的待识别音频文件,并获取待识别音频文件的目标音频信号;

可以理解的是,本发明的执行主体可以为歌手识别装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中,待识别音频文件为混合录音的音频文件,也就是具有歌手演唱和背景音乐的音乐文件,待识别音频文件可以是整首音乐的音频文件,也可以是整首音乐中的某个片段,此处不作具体限定。

本实施例中,服务器通过预置的音频信号采集算法,对待识别音频文件中的音频信号进行采集,得到目标音频信号,并将目标音频信号作为待识别音频文件在歌手识别过程的中的信号源输入。

102、根据预置的傅里叶变换算法,将目标音频信号转换到梅尔频域,得到待识别音频文件对应的音频梅尔频谱图;

本实施例中,傅里叶变换算法是一种线性积分变换算法,主要用于信号中的时域转换,是基于傅里叶级数的扩展,服务器通过预置的傅里叶变换算法,可以将任意目标音频信号转换为一系列的正弦波和余弦波之和,使得抽象且无规律的目标乐谱信号能够被表示音频的变化曲线。

本实施例中,预置的傅里叶变换算法包括短时傅里叶变换算法和快速傅里叶变换算法,优选的,服务器采用短时傅里叶变换算法。首先,服务器对目标音频信号的时域信号进行短时傅里叶变换转换到频域,得到目标音频信号对应的音频频域信号,然后服务器再通过梅尔频率刻度的滤波器组对音频频域信号进行过滤,就可以得到待识别音频文件对应的音频梅尔频谱,用于待识别音频文件的歌手识别。

103、通过预置的基频提取算法,从音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

本实施例中,由于声音的基频往往随时间而变化,所以服务器在进行基频提取的时候,服务器先将目标音频信号分帧(帧长通常为几十毫秒),得到多帧音频信号片段,服务器再对多帧音频信号片段进行逐帧基频提取。服务器对每帧音频信号片段的基频提取方式有两种,其中一种方式为:服务器以目标音频信号的波形为输入,然后寻找波形的最小正周期,从而得到背景音部分的旋律基频信号,另一种方式为:服务器先对目标音频信号进行傅里叶变换,得到频谱(仅取幅度谱,舍弃相位谱),频谱上在基频的整数倍处会有尖峰,服务器求出这些尖峰频率的最大公约数,从而得到旋律基频信号。

本实施例中,预置的基频提取算法包括但不限于:锯齿波音高预测算法(sawtoothwave inspired pitch estimator,SWIPE)、自监督音高预测算法(self-supervised pitchestimation,SPICE)、卷积音高预测算法(convolutional representation for pitchestimation,CREPE),其中,本发明优选CREPE为基频提取算法,用于目标音频信号的基频提取。

104、基于训练好的歌手识别模型,对音频梅尔频谱图和旋律梅尔频谱图进行歌手识别,得到待识别音频文件对应的歌手信息。

本实施例中,服务器将音频梅尔频谱图和旋律梅尔频谱图输入到训练好的歌手识别模型,服务器通过歌手识别模型对音频梅尔频谱图和旋律梅尔频谱图进行歌手识别,从而得到待识别音频文件对应的歌手标签,服务器再通过歌手标签,查找预置的歌手库,获得歌手标签对应的歌手信息,并将歌手信息输出至终端。

本实施例中,训练好的歌手识别模型是一个卷积递归神经网络模型(convolutional recurrent neural network model,CRNNM),该模型由4个卷积层、2个门控循环单元(Gate Recurrent Unit,GRU)层和1个密集层(即全连接层)组成的堆栈,能够对音频梅尔频谱图和旋律梅尔频谱图进行高效的特征提取、歌手提取等处理。

进一步地,服务器将歌手信息存储于区块链数据库中,具体此处不做限定。

本发明实施例中,服务器获取到待识别音频文件对应的目标音频信息之后,将目标音频信号映射到梅尔频域,得到音频梅尔频谱图,再通过基频提取算法,提取音频梅尔频谱图中的旋律梅尔频谱图,最后,服务器基于训练好的歌手识别模型进行歌手识别,得到待识别音频文件对应的歌手信息。本发明可以提高歌手识别的效率及准确率。

请参阅图2,本发明实施例中歌手识别方法的另一个实施例包括:

201、获取带歌手信息标注的初始样本音频文件,并通过预置的数据增强算法,对初始样本音频文件进行扩展,得到目标样本音频文件;

本实施例中,为了扩大样本的数量,服务器通过预置的数据增强算法对带歌手信息标注的初始样本音频文件进行扩展,以获得数量级更大的目标样本音频文件。

具体的,服务器获取带歌手信息标注的多个初始样本音频文件,并将多个初始样本音频文件转化为样本音频信号,得到多个样本音频信号;服务器通过预置的音乐分轨算法,分别将多个样本音频信号中的乐器音轨删除,得到多个人声信号;服务器通过预置的基频提取算法,分别在多个样本音频信号中提取背景音,得到多个旋律信号;服务器通过预置的数据增强算法,分别将各人声信号与多个旋律信号融合,得到目标样本音频文件。

本实施例中,服务器通过将多个初始样本音频文件中的旋律信号和人声信号分离,得到多个人声信号和多个旋律信号,服务器再通过两两组合的方式,将每个人声信号分别与所有的旋律信号进行组合,使得样本数量呈指数级增长,得到目标样本音频文件,目标样本音频文件为样本数量扩展后的目标样本音频文件,能够提高小样本训练的泛化能力,和提高歌手分类的鲁棒性,为歌手识别模型的训练提供了数据基础。

本实施例中,服务器通过音乐分轨算法,提取每个初始样本音频文件对应的样本音频信号中的人声信号,再通过基频提取算法,提取每个样本音频信号中的旋律信号,与待识别音频文件的信号提取方式相似,具体此处不再赘述。

进一步的,服务器通过预置的音乐分轨算法,分别将多个样本音频信号中的乐器音轨删除,得到多个人声信号,包括:服务器按照预置的音乐分轨算法,分别将多个样本音频信号分离为多个目标音轨;服务器将多个目标音轨中的乐器音轨剔除,得到多个人声音轨,并生成所述多个人声音轨对应的多个人声信号。

本实施例中,服务器通过预置的音乐分轨算法,对各样本音频信号进行分轨处理,其中,音乐分轨算法包括:开源音乐分离算法open-unmix、音乐深度提取算法demucs、音轨分离算法spleeter,其中,本实施例优选以demucs为预置的音乐分轨算法,能够高效地将多个样本音频信号分离为多个目标音轨,服务器将多个目标音轨中的乐器音轨删除,即能得到人声音轨对应的人声信号。

202、获取初始化的卷积递归神经网络模型,并将目标样本音频文件输入卷积递归神经网络模型,卷积递归神经网络模型包括多个卷积层、多个门控循环单元层和全连接层;

本实施例中,用于歌手识别模型训练的初始模型为卷积递归神经网络模型,其网络结构为由多个卷积层、多个门控循环单元层和全连接层组成的堆栈,在将目标样本音频文件输入初始化的卷积递归神经网络模型之前,服务器还对目标样本音频文件进行一系列的预处理,得到目标样本音频文件对应的音频梅尔频谱图和旋律梅尔频谱图,以提高卷积递归神经网络模型的训练效率。

203、基于目标样本音频文件,对多个卷积层、多个门控循环单元层和全连接层进行模型训练,得到模型损失结果;

本实施例中,服务器将目标样本音频文件对应的音频梅尔频谱图和旋律梅尔频谱图输入卷积递归神经网络模型之后,服务器通过卷积递归神经网络模型中的多个卷积层、多个门控循环单元层和全连接层,对卷积递归神经网络模型进行多轮的歌手识别训练,每轮输出预测结果,服务器通过预测结果与目标样本音频文件对应的歌手信息标注进行损失计算,从而得到每轮训练的模型损失结果。

204、根据模型损失结果,对卷积递归神经网络模型的网络参数进行调整,得到训练好的歌手识别模型;

本实施例中,服务器对每轮训练的模型损失结果进行判断,当模型损失结果小于预置损失阈值时,说明模型训练完成,而当模型损失结果大于预置损失阈值时,说明模型仍未训练完成,预测结果与真实结果存在较大差异,那么,服务器重复步骤203和步骤204,进行下一轮模型训练,直至模型损失结果小于预置损失阈值,服务器生成训练好的歌手识别模型。

205、接收混合录音的待识别音频文件,并获取待识别音频文件的目标音频信号;

该步骤205的执行过程与步骤101的执行过程相似,具体此处不再赘述。

206、根据预置的傅里叶变换算法,将目标音频信号转换到梅尔频域,得到待识别音频文件对应的音频梅尔频谱图;

具体的,服务器按照预置帧长的时间窗,对目标音频信号进行分帧处理,得到多帧时域信号;服务器通过预置的傅里叶变换算法,将多帧时域信号转换到频域,得到多帧频域信号;服务器获取预置的梅尔滤波器组,对多帧频域信号进行滤波处理,得到待识别音频文件对应的音频梅尔频谱图。

本实施例中,由于目标音频信号是一定量随时间的变化,而在歌手识别方面,关注的是声音中频率和能量之间的关系,因此,服务器需将目标音频信号转换为频谱图,才能进行音频分析,进而识别歌手信息。具体的,服务器通过预置帧长的时间窗,对目标音频信号进行分帧处理,得到多帧时域信号,服务器再通过傅里叶变换算法,将每帧时域信号转换到频域,从而得到多帧频域信号,其中,多帧频域信号的载体就是频谱图。

本实施例中,由于人耳对声音的感知不是线性的,人耳对声音的低频比对声音的高频更加敏感,所以服务器将线性的频谱图转换为非线性的梅尔频谱,具体的是采用梅尔滤波器组对多帧频域信号进行滤波处理,得到待识别音频文件对应的音频梅尔频谱图。

首先,服务器对目标音频信号的时域信号进行短时傅里叶变换转换到频域,得到目标音频信号对应的音频频域信号,然后服务器再通过梅尔频率刻度的滤波器组对音频频域信号进行过滤,就可以得到待识别音频文件对应的音频梅尔频谱,音频梅尔频谱用于待识别音频文件的歌手识别。

207、通过预置的基频提取算法,从音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

具体的,服务器通过预置的基频提取算法,从目标音频信号中提取基频信号,基频信号用于指示待识别音频文件的背景音乐部分信号;服务器基于基频信号,对从音频梅尔频谱图进行卷积运算,得到音频梅尔频谱图中背景音乐部分的旋律梅尔频谱图。

本实施例中,优选的基频提取算法为CREPE,基频提取算法又称基频提取模型,它包括6个卷积层和1个全连接层,基频提取模型的输出是360维的向量,每一维对应着一个候选基频的概率,基频提取模型的输出层并没有整体使用一个激活函数,而是逐维使用激活sigmoid函数,以使输出的概率区间位于0~1之间,服务器将概率最高的候选基频作为各维的目标基频,各维的目标基频组合而成旋律梅尔频谱图。

208、基于训练好的歌手识别模型,对音频梅尔频谱图和旋律梅尔频谱图进行歌手识别,得到待识别音频文件对应的歌手信息。

具体的,通过训练好的歌手识别模型中的多个卷积层和多个门控循环单元层,对音频梅尔频谱图和旋律梅尔频谱图进行卷积递归特征提取,得到待识别音频文件对应的特征矩阵;服务器通过歌手识别模型中的全连接层,对特征矩阵进行歌手概率投票,并将投票概率最高的歌手信息作为待识别音频文件对应的歌手信息。

本实施例中,服务器通过训练好的歌手识别模型,也就是参数微调后的多个卷积层、多个门控循环单元层和全连接层,能够高效地对待识别音频文件进行歌手识别,最终的歌手信息由歌手概率投票决定,概率最高的作为最终的待识别音频文件对应的歌手信息。

本发明实施例中,当歌手识别模型的训练样本不足以完成模型训练时,服务器通过数据增强算法,对初始样本音频文件进行数量扩展,得到指数级增长后的目标样本音频文件,服务器再通过初始化的卷积递归神经网络模型中的多个卷积层、多个门控循环单元层和全连接层,对目标样本音频文件进行歌手信息预测,得到模型损失结果,最后,服务器根据模型损失结果,生成训练好的歌手识别模型。

上面对本发明实施例中歌手识别方法进行了描述,下面对本发明实施例中歌手识别装置进行描述,请参阅图3,本发明实施例中歌手识别装置一个实施例包括:

接收模块301,用于接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号;

转换模块302,用于根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图;

提取模块303,用于通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

识别模块304,用于基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息。

进一步地,将歌手信息存储于区块链数据库中,具体此处不做限定。

本发明实施例中,服务器获取到待识别音频文件对应的目标音频信息之后,将目标音频信号映射到梅尔频域,得到音频梅尔频谱图,再通过基频提取算法,提取音频梅尔频谱图中的旋律梅尔频谱图,最后,服务器基于训练好的歌手识别模型进行歌手识别,得到待识别音频文件对应的歌手信息。本发明可以提高歌手识别的效率及准确率。

请参阅图4,本发明实施例中歌手识别装置的另一个实施例包括:

接收模块301,用于接收混合录音的待识别音频文件,并获取所述待识别音频文件的目标音频信号;

转换模块302,用于根据预置的傅里叶变换算法,将所述目标音频信号转换到梅尔频域,得到所述待识别音频文件对应的音频梅尔频谱图;

提取模块303,用于通过预置的基频提取算法,从所述音频梅尔频谱图中提取背景音乐部分的旋律梅尔频谱图;

识别模块304,用于基于训练好的歌手识别模型,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行歌手识别,得到所述待识别音频文件对应的歌手信息。

可选的,所述歌手识别装置还包括:

扩展模块305,用于获取带歌手信息标注的初始样本音频文件,并通过预置的数据增强算法,对所述初始样本音频文件进行扩展,得到目标样本音频文件;

输入模块306,用于获取初始化的卷积递归神经网络模型,并将所述目标样本音频文件输入所述卷积递归神经网络模型,所述卷积递归神经网络模型包括多个卷积层、多个门控循环单元层和全连接层;

训练模块307,用于基于所述目标样本音频文件,对所述多个卷积层、所述多个门控循环单元层和所述全连接层进行模型训练,得到模型损失结果;

调整模块308,用于根据所述模型损失结果,对所述卷积递归神经网络模型的网络参数进行调整,得到训练好的歌手识别模型。

可选的,所述扩展模块305包括:

获取单元3051,用于获取带歌手信息标注的多个初始样本音频文件,并将所述多个初始样本音频文件转化为样本音频信号,得到多个样本音频信号;

分轨单元3052,用于通过预置的音乐分轨算法,分别将所述多个样本音频信号中的乐器音轨删除,得到多个人声信号;

提取单元3053,用于通过预置的基频提取算法,分别在所述多个样本音频信号中提取背景音,得到多个旋律信号;

融合单元3054,用于通过预置的数据增强算法,分别将各人声信号与所述多个旋律信号融合,得到目标样本音频文件。

可选的,所述分轨单元3052具体用于:

按照预置的音乐分轨算法,分别将所述多个样本音频信号分离为多个目标音轨;

将所述多个目标音轨中的乐器音轨剔除,得到多个人声音轨,并生成所述多个人声音轨对应的多个人声信号。

可选的,所述转换模块302具体用于:

按照预置帧长的时间窗,对所述目标音频信号进行分帧处理,得到多帧时域信号;

通过预置的傅里叶变换算法,将所述多帧时域信号转换到频域,得到多帧频域信号;

获取预置的梅尔滤波器组,对所述多帧频域信号进行滤波处理,得到所述待识别音频文件对应的音频梅尔频谱图。

可选的,所述提取模块303具体用于:

通过预置的基频提取算法,从所述目标音频信号中提取基频信号,所述基频信号用于指示所述待识别音频文件的背景音乐部分信号;

基于所述基频信号,对从所述音频梅尔频谱图进行卷积运算,得到所述音频梅尔频谱图中背景音乐部分的旋律梅尔频谱图。

可选的,所述识别模块304具体用于:

通过训练好的歌手识别模型中的多个卷积层和多个门控循环单元层,对所述音频梅尔频谱图和所述旋律梅尔频谱图进行卷积递归特征提取,得到所述待识别音频文件对应的特征矩阵;

通过所述歌手识别模型中的全连接层,对所述特征矩阵进行歌手概率投票,并将投票概率最高的歌手信息作为所述待识别音频文件对应的歌手信息。

本发明实施例中,当歌手识别模型的训练样本不足以完成模型训练时,服务器通过数据增强算法,对初始样本音频文件进行数量扩展,得到指数级增长后的目标样本音频文件,服务器再通过初始化的卷积递归神经网络模型中的多个卷积层、多个门控循环单元层和全连接层,对目标样本音频文件进行歌手信息预测,得到模型损失结果,最后,服务器根据模型损失结果,生成训练好的歌手识别模型。

上面图3和图4从模块化功能实体的角度对本发明实施例中的歌手识别装置进行详细描述,下面从硬件处理的角度对本发明实施例中歌手识别设备进行详细描述。

图5是本发明实施例提供的一种歌手识别设备的结构示意图,该歌手识别设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对歌手识别设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在歌手识别设备500上执行存储介质530中的一系列指令操作。

歌手识别设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的歌手识别设备结构并不构成对歌手识别设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种歌手识别设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述歌手识别方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述歌手识别方法的步骤。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:异常行为检测方法、装置、设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!