歌词转换点检测方法、装置、计算机设备及存储介质

文档序号:116976 发布日期:2021-10-19 浏览:46次 >En<

阅读说明:本技术 歌词转换点检测方法、装置、计算机设备及存储介质 (Lyric conversion point detection method, device, computer equipment and storage medium ) 是由 萧博耀 高旋 于 2021-07-09 设计创作,主要内容包括:本发明实施例公开了一种歌词转换点检测方法、装置、计算机设备及存储介质,涉及音频处理技术领域。其中方法包括:获取目标音频数据;对目标音频数据进行检测以得到目标音频数据的节拍;对目标音频数据进行人声分离处理以得到人声数据;计算人声数据的幅值以得到人声能量波形;对人声能量波形进行预处理以得到目标波形;根据目标音频数据的节拍以及预设转换条件对目标波形进行检测以确定歌词的转换点。该方法实现了机器设备对音乐和人声的有效识别,并通过目标音频数据的节拍以及预设转换条件来检测经过处理后的人声数据实现精准地确定歌词的转换点,大大提高了对歌词转换点定位的精度以及效率。(The embodiment of the invention discloses a method and a device for detecting a lyric conversion point, computer equipment and a storage medium, and relates to the technical field of audio processing. The method comprises the following steps: acquiring target audio data; detecting the target audio data to obtain the beat of the target audio data; carrying out voice separation processing on the target audio data to obtain voice data; calculating the amplitude of the human voice data to obtain a human voice energy waveform; preprocessing a human acoustic energy waveform to obtain a target waveform; and detecting the target waveform according to the beat of the target audio data and a preset conversion condition to determine the conversion point of the lyrics. The method realizes effective recognition of music and human voice by the robot equipment, detects the processed human voice data through the beat of the target audio data and the preset conversion condition to accurately determine the conversion point of the lyrics, and greatly improves the precision and the efficiency of positioning the conversion point of the lyrics.)

歌词转换点检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及音频处理技术领域,尤其涉及一种歌词转换点检测方法、装置、计算机设备及存储介质。

背景技术

卡点视频是一种近年来新兴起的音视频编辑软件功能,主要作法是让使用者自行添加动态和静态影像,并且选择一段音乐,软件就自动生成一段音视频,其中视频部份的转场或渲染时间点和抉择的音乐有特定设计过的关联性,例如会出现在音乐的鼓点、重拍点以及特效点上,使得自动生成产出的音视频能够看起来不冲突,如同使用者花上很多时间精心编辑之后的结果。

基于卡点视频的需求,可归纳常用的音乐视频剪辑成果,由此可发现除了音乐的重拍和鼓点等传统特征点之外,歌词转换点(一首歌里面间奏结束,人声开始唱歌的那个时间点)也非常适合作为转场或渲染时间的点。

但是检测音乐中的人声一直以来都是MIR(Music Information Retrieval,音乐信息检索)领域中一项难度很大,并具有挑战性的问题。歌曲中的内容包括音乐和人声两部分,它们之间的频谱相互重叠,互相影响。虽然人耳能很清晰的分辨出含人声的音乐,但是对于计算机等机器设备来说,还不能够有效识别出音乐和人声。现有技术中主要通过人工的方式对歌词转换点进行定位,该种方式的定位精度以及效率较低。

发明内容

本发明实施例提供了一种歌词转换点检测方法、装置、计算机设备及存储介质,旨在解决现有人工的方式对歌词转换点进行定位的精度以及效率较低的问题。

第一方面,本发明实施例提供了一种歌词转换点检测方法,所述歌词转换点检测方法包括:

获取目标音频数据;对所述目标音频数据进行检测以得到所述目标音频数据的节拍;对所述目标音频数据进行人声分离处理以得到人声数据;计算所述人声数据的幅值以得到人声能量波形;对所述人声能量波形进行预处理以得到目标波形;根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

第二方面,本发明实施例还提供了一种歌词转换点检测装置,该装置包括:

获取单元,用于获取目标音频数据;

检测单元,用于对所述目标音频数据进行检测以得到所述目标音频数据的节拍;

分离单元,用于对所述目标音频数据进行人声分离处理以得到人声数据;

计算单元,用于计算所述人声数据的幅值以得到人声能量波形;

预处理单元,用于对所述人声能量波形进行预处理以得到目标波形;

确定单元,用于根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行上述计算机程序时实现上述方法。

第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时实现上述方法。

本发明实施例提供了一种歌词转换点检测方法、装置、计算机设备及存储介质,其中所述方法包括:获取目标音频数据;对所述目标音频数据进行检测以得到所述目标音频数据的节拍;对所述目标音频数据进行人声分离处理以得到人声数据;计算所述人声数据的幅值以得到人声能量波形;对所述人声能量波形进行预处理以得到目标波形;根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。该方法实现了机器设备对音乐和人声的有效识别,并通过目标音频数据的节拍以及预设转换条件来检测经过处理后的人声数据实现精准地确定歌词的转换点,大大提高了对歌词转换点定位的精度以及效率。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种歌词转换点检测方法流程示意图;

图2为本发明实施例提供的一种歌词转换点检测方法的子流程示意图;

图3为本发明实施例提供的一种歌词转换点检测方法的子流程示意图;

图4为本发明实施例提供的一种歌词转换点检测方法的子流程示意图;

图5为本发明实施例提供的一种歌词转换点检测方法的子流程示意图;

图6为本发明实施例提供的一种歌词转换点检测方法的子流程示意图;

图7为本发明实施例提供的一种歌词转换点检测装置的示意性框图;

图8为本发明实施例提供的一种计算机设备的示意性框图;

图9为一实施例中的目标音频波形图以及从其中分离出来的人声数据波形图;

图10为一实施例中的人声数据波形图以及人声能量波形图;

图11为一实施例中处理的中间波形图以及歌词转换点的波形图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1,图1是本发明实施例提供的歌词转换点检测方法的流程示意图。如图1所示,该方法包括以下步骤S1-S6。

S1,获取目标音频数据。

具体实施中,获取目标音频数据。其中,目标音频数据中包括人声数据以及背景音乐数据。在一实施例中,目标音频数据可为mp3、wav、ogg等常见音频格式。在此对目标音频数据的格式不作具体的限定。

可以理解的是,若要实现对歌词转换点的检测,需要将目标音频数据中的人声数据以及背景音乐数据进行分离处理,即步骤S3。

S2,对所述目标音频数据进行检测以得到所述目标音频数据的节拍。

具体实施中,对所述目标音频数据进行检测以得到所述目标音频数据的节拍。在一实施例中,将所述目标音频数据输入节拍检测模型进行节拍检测以得到所述目标音频数据的节拍。

节拍是乐曲中表示固定单位时值和强弱规律的组织形式,亦称拍子。节拍具有两个特性:周期性和连续性。节拍周期性表现为节拍结构,是乐曲中周期性出现的节奏序列。常见的节拍有1/4,2/4,3/4,4/4,3/8,6/8,7/8,9/8,12/8拍等等,每小节的长度是固定的。一首乐曲的节拍在作曲时已经固定,不会改变。由此可知对节拍的准确检测有利于提高歌词转换点检测的精度。

在不同的目标音频数据里,一拍的时间长度是不一样的,即使在同一目标音频数据里,在不同的乐段里,一拍的时长也可能会不一样。需要结合曲速BPM(BeatPerMinute,每分钟节拍数)来计算,如果曲速是120拍每分钟,那一拍就是60/120=0.5秒,如果曲速是80拍每分钟,那一拍就是60/80=0.75秒,依此类推。

需要说明的是,在一实施例中,还需对目标音频数据的曲速BPM进行估算,通过将目标音频数据输入音乐分析模块以获得目标音频数据的曲速,得到目标音频数据的曲速便可计算每一拍的时长,再根据所检测的节拍便可计算出一个节拍的时长用于判断歌词转换点。在本实施例中经检测所述目标音频数据的曲速为每分钟108拍。

参见图2,在一实施例中,以上步骤S2具体包括:步骤S201-S202。

S201,对所述目标音频数据进行音频特征提取,得到目标音频数据的音频特征。

具体实施中,对所述目标音频数据进行音频特征提取,得到目标音频数据的音频特征。在一个实施例中,对目标音频数据进行音频特征提取,得到目标音频数据的音频特征的实现方式,可以包括:将目标音频数据进行低通滤波处理以得到低通音频信号;根据预设帧移以及至少一个帧长阈值,将低通音频信号进行分帧处理,得到至少一个分帧音频信号集合,其中不同分帧音频信号集合对应不同帧长阈值,每个分帧音频信号集合中包括至少两个子音频信号,每个子音频信号的帧长等于所属音频信号集合对应的帧长阈值;对至少一个分帧音频信号集合中的每个分帧音频信号集合分别进行特征提取,得到每个分帧音频信号集合对应的分音频特征;将每个分帧音频信号集合对应的分音频特征进行拼接处理,得到目标音频数据的音频特征。

S202,利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍。

具体实施中,利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍。在一实施例中,节拍检测模型是基于训练样本以及训练样本对应的节拍标签训练得到的。利用节拍检测模型对所检测音频的音频特征进行节拍检测,以获取目标音频数据的节拍的实现方式。

参见图3,以上步骤S202具体包括:步骤S2021-S2022。

S2021,将所述目标音频数据的音频特征进行堆叠处理以得到输出特征。

具体实施中,将所述目标音频数据的音频特征进行堆叠处理以得到输出特征。将目标音频数据的音频特征经过处理单元的堆叠处理后,得到输出特征,输出特征为与目标音频数据的音频特征等长的时间序列数据。

S2022,将所述输出特征输入至分类器中以获得所述目标音频数据的节拍。

具体实施中,将所述输出特征输入至分类器中以获得所述目标音频数据的节拍。将输出特征输入至分类器中,以使输出特征沿时间序列将每一帧的输出特征映射到每个时间点上,得到每个时间点对应的节拍检测结果,节拍检测结果为目标音频数据的节拍。

在一实施例中,所述节拍检测模型是基于训练样本以及训练样本对应的节拍标签训练得到的。具体实现中,获取训练样本,训练样本具有对应的节拍标签;对训练样本进行音频特征提取,得到训练样本的音频特征;调用节拍检测模型对音频特征进行检测,得到预测结果;基于节拍标签和预测结果对节拍检测模型进行优化训练,得到优化后的节拍检测模型。

S3,对所述目标音频数据进行人声分离处理以得到人声数据。

具体实施中,对所述目标音频数据进行人声分离处理以得到人声数据。在一实施例中,将所述目标音频数据输入音频分离工具中以从所述目标音频数据中提取人声数据。本申请可以利用基于人工智能技术得到的音轨分离器作为所述音频分离工具实现人声分离,如基于MIT协议的开源项目Spleeter(即一种音轨AI分离软件)提供的接口,对目标音频数据进行音轨分离,以得到目标音频数据中的人声数据。上述音轨分离器仅为本申请音频分离工具的一种实现方式,本申请对目标音频数据进行人声分离处理的音频分离工具不做具体限制。

如图9所示,其中曲线W1为目标音频数据的波形,曲线W2为从目标音频数据中分离出来的人声数据波形。

S4,计算所述人声数据的幅值以得到人声能量波形。

具体实施中,计算所述人声数据的幅值以得到人声能量波形。在一实施例中,通过计算人声数据的dBFS(Decibels Full Scale,全分贝刻度)作为人声能量波形的幅值。计算公式如下:

value_dBFS=20*log10(rms(signal)*sqrt(2))=20*log10(rms(signal))+3.0103

其中,signal为人声数据。

如图10所示,其中曲线W2为人声数据波形,曲线W3为人声能量波形。

S5,对所述人声能量波形进行预处理以得到目标波形。

具体实施中,对所述人声能量波形进行预处理以得到目标波形。通过对人声能量波形进行预处理将人声能量转换成幅值一定的方波,便于对歌词转换点的检测。

参见图4,在一实施例中,以上步骤S5具体包括:步骤S501-S503。

S501,对所述人声能量波形进行平滑处理以得到平滑能量波形。

具体实施中,对所述人声能量波形进行平滑处理以得到平滑能量波形。在实际的处理过程中,由步骤S4所得到的人声能量波形容易出现高频毛刺,会干扰后续对歌词转换点的检测,因而需对人声能量波形进行平滑处理以消除波形上的高频毛刺以提升人声能量波形幅值的稳定性。

参见图5,在一实施例中,以上步骤S501具体包括:步骤S5011-S5012。

S5011,调用窗函数计算权重。

具体实施中,调用窗函数计算权重。不同的窗函数对信号频谱的影响不一样,因为不同的窗函数,产生泄漏的大小不一样,频率分辨能力也不一样。信号的截断产生了能量泄漏,而用傅里叶算法计算频谱又产生了栅栏效应,从原理上讲这两种误差都是不能消除的,但是可以通过选择不同的窗函数对其所产生的影响进行抑制。在一实施例中,选用长度为0.8秒的汉宁(Hanning)窗作为窗函数来计算权重。用户可根据实际情况选用窗函数,本申请对此不作具体地限定。

S5012,根据所述权重对所述人声能量波形进行卷积运算以得到所述平滑能量波形。

具体实施中,根据所述权重对所述人声能量波形进行卷积运算以得到所述平滑能量波形。在一实施例中,平滑能量波形通过计算等权重的指数函数的卷积而得到的。

S502,根据预设阈值对所述平滑能量波形进行限阈处理以得到限阈波形。

具体实施中,根据预设阈值对所述平滑能量波形进行限阈处理以得到限阈波形。在一实施例中,通过限阈处理对将不规则的平滑能量波形进行简化转换为便于判断的方波即限阈波形。

需要说明的是,在一实施例中预设阈值为-34(dBFS)。用户可根据实际情况对预设阈值进行设定,本申请对此不作具体地限定。

S503,对所述限阈波形进行保持处理以得到目标波形。

具体实施中,对所述限阈波形进行保持处理以得到目标波形。通过对限阈波形进行保持处理可减少检测与判断的时间点数,以提高歌词转换点检测的效率。

参见图6,在一实施例中,以上步骤S503具体包括:步骤S5031-S5032。

S5031,识别所述限阈波形中时间间隔小于预设时间间隔的波峰作为目标波峰。

具体实施中,识别所述限阈波形中时间间隔小于预设时间间隔的波峰作为目标波峰。在一实施例中,识别相邻两的个波峰的上升沿的时间间隔作为两波峰间的时间间隔。为提高歌词转换点检测的精度对所述限阈波形进行保持处理。其中预设时间间隔可以设定为2s,一般预设时间间隔小于目标音频数据的一个节拍的时间。用户可根据实际情况设定保持时间,本申请对此不作具体地限定。

S5032,将所有所述目标波峰进行连线以得到目标波形。

具体实施中,将所有所述目标波峰进行连线以得到目标波形。若识别限阈波形中两个相邻的波峰之间的时间间隔小于预设时间间隔,则将两个相邻的波峰连成一条线,避免了对时间间隔小于预设时间间隔的时间点进行检测,提高了检测的效率。

S6,根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

具体实施中,根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

需要说明的是,在所述获取目标音频数据之前,接收预设转换条件。在一实施例中,预设转换条件为:

1)上一时间点未出现人声;

2)当前时间点出现人声;

3)过去长达一个节拍的时间里未出现人声;

4)未来长达一个节拍的时间里出现连续的人声。

根据目标音频数据的节拍对限阈波形进行检测,检测出同时满足以上四个条件的时间点即为歌词转换时间点。

如图11所示,其中W3为人声能量波形,曲线W4为平滑能量波形,曲线W5为限阈波形,曲线W6为目标波形,W7为歌词转换点波形。其中,由歌词转换点波形可得歌词的转换点。

经过检测可知目标音频为8拍,每分钟有108拍,故一个节拍的时长为8*60/108≈4.44s,由图11可知,有两个时间点出现人声满足第1)、2)个条件,分别在目标波形的第一个波峰以及第二个波峰的上升沿处;进一步判断是否满足条件3)和4);因第一个波峰的持续时间不足4.44s,故判断第一个波峰的上升沿处非歌词转换点,第二个波峰持续时间超过4.44s,且在第二个波峰的上升沿之前长达一个节拍的时间里未出现人声;故第二个波峰的上升沿处为歌词转换点。

本发明实施例提供的一种歌词转换点检测方法包括:获取目标音频数据;对所述目标音频数据进行检测以得到所述目标音频数据的节拍;对所述目标音频数据进行人声分离处理以得到人声数据;计算所述人声数据的幅值以得到人声能量波形;对所述人声能量波形进行预处理以得到目标波形;根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。该方法实现了机器设备对音乐和人声的有效识别,并通过目标音频数据的节拍以及预设转换条件来检测经过处理后的人声数据实现精准地确定歌词的转换点,大大提高了对歌词转换点定位的精度以及效率。

图7是本发明实施例提供的一种歌词转换点检测装置的示意性框图。如图7所示,对应于以上歌词转换点检测方法,本发明还提供一种歌词转换点检测装置100。该歌词转换点检测装置100包括用于执行上述歌词转换点检测方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图7,该歌词转换点检测装置100包括获取单元101、检测单元102、分离单元103、计算单元104、预处理单元105以及确定单元106。

获取单元101,用于获取目标音频数据;

检测单元102,用于对所述目标音频数据进行检测以得到所述目标音频数据的节拍;

分离单元103,用于对所述目标音频数据进行人声分离处理以得到人声数据;

计算单元104,用于计算所述人声数据的幅值以得到人声能量波形;

预处理单元105,用于对所述人声能量波形进行预处理以得到目标波形;

确定单元106,用于根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

在一实施例中,所述对所述目标音频数据进行检测以得到所述目标音频数据的节拍,包括;

对所述目标音频数据进行音频特征提取,得到目标音频数据的音频特征;

利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍。

在一实施例中,所述利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍,包括:

将所述目标音频数据的音频特征进行堆叠处理以得到输出特征,其中所述输出特征为与目标音频数据的音频特征等长的时间序列数据;

将所述输出特征输入至分类器中以获得所述目标音频数据的节拍。

在一实施例中,所述对所述人声能量波形进行预处理以得到目标波形,包括:

对所述人声能量波形进行平滑处理以得到平滑能量波形;

根据预设阈值对所述平滑能量波形进行限阈处理以得到限阈波形;

对所述限阈波形进行保持处理以得到目标波形。

在一实施例中,所述对所述人声能量波形进行平滑处理以得到平滑能量波形,包括:

调用窗函数计算权重;

根据所述权重对所述人声能量波形进行卷积运算以得到所述平滑能量波形。

在一实施例中,所述对所述限阈波形进行保持处理以得到目标波形,包括:

识别所述限阈波形中时间间隔小于预设时间间隔的波峰作为目标波峰;

将所有所述目标波峰进行连线以得到目标波形。

在一实施例中,所述对所述目标音频数据进行人声分离处理以得到人声数据,包括:

将所述目标音频数据输入音频分离工具中以从所述目标音频数据中提取人声数据。

需要说明的是,所属领域的技术人员可以清楚地了解到,上述歌词转换点检测装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。

上述歌词转换点检测装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8,图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备300是上位机。其中,上位机可以是平板电脑、笔记本电脑、台式电脑等电子设备。

参阅图8,该计算机设备300包括通过系统总线301连接的处理器302、存储器和网络接口305,其中,存储器可以包括非易失性存储介质303和内存储器304。

该非易失性存储介质303可存储操作系统3031和计算机程序3032。该计算机程序3032被执行时,可使得处理器302执行一种歌词转换点检测方法。

该处理器302用于提供计算和控制能力,以支撑整个计算机设备300的运行。

该内存储器304为非易失性存储介质303中的计算机程序3032的运行提供环境,该计算机程序3032被处理器302执行时,可使得处理器302执行一种歌词转换点检测方法。

该网络接口305用于与其它设备进行网络通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备300的限定,具体的计算机设备300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

其中,所述处理器302用于运行存储在存储器中的计算机程序3032,以实现如下步骤:

获取目标音频数据;

对所述目标音频数据进行检测以得到所述目标音频数据的节拍;

对所述目标音频数据进行人声分离处理以得到人声数据;

计算所述人声数据的幅值以得到人声能量波形;

对所述人声能量波形进行预处理以得到目标波形;

根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

在一实施例中,所述对所述目标音频数据进行检测以得到所述目标音频数据的节拍,包括;

对所述目标音频数据进行音频特征提取,得到目标音频数据的音频特征;

利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍。

在一实施例中,所述利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍,包括:

将所述目标音频数据的音频特征进行堆叠处理以得到输出特征,其中所述输出特征为与目标音频数据的音频特征等长的时间序列数据;

将所述输出特征输入至分类器中以获得所述目标音频数据的节拍。

在一实施例中,所述对所述人声能量波形进行预处理以得到目标波形,包括:

对所述人声能量波形进行平滑处理以得到平滑能量波形;

根据预设阈值对所述平滑能量波形进行限阈处理以得到限阈波形;

对所述限阈波形进行保持处理以得到目标波形。

在一实施例中,所述对所述人声能量波形进行平滑处理以得到平滑能量波形,包括:

调用窗函数计算权重;

根据所述权重对所述人声能量波形进行卷积运算以得到所述平滑能量波形。

在一实施例中,所述对所述限阈波形进行保持处理以得到目标波形,包括:

识别所述限阈波形中时间间隔小于预设时间间隔的波峰作为目标波峰;

将所有所述目标波峰进行连线以得到目标波形。

在一实施例中,所述对所述目标音频数据进行人声分离处理以得到人声数据,包括:

将所述目标音频数据输入音频分离工具中以从所述目标音频数据中提取人声数据。

应当理解,在本申请实施例中,处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器302还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。

因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤:

获取目标音频数据;

对所述目标音频数据进行检测以得到所述目标音频数据的节拍;

对所述目标音频数据进行人声分离处理以得到人声数据;

计算所述人声数据的幅值以得到人声能量波形;

对所述人声能量波形进行预处理以得到目标波形;

根据所述目标音频数据的节拍以及预设转换条件对所述目标波形进行检测以确定歌词的转换点。

在一实施例中,所述对所述目标音频数据进行检测以得到所述目标音频数据的节拍,包括;

对所述目标音频数据进行音频特征提取,得到目标音频数据的音频特征;

利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍。

在一实施例中,所述利用节拍检测模型对所述目标音频数据的音频特征进行节拍检测,获得所述目标音频数据的节拍,包括:

将所述目标音频数据的音频特征进行堆叠处理以得到输出特征,其中所述输出特征为与目标音频数据的音频特征等长的时间序列数据;

将所述输出特征输入至分类器中以获得所述目标音频数据的节拍。

在一实施例中,所述对所述人声能量波形进行预处理以得到目标波形,包括:

对所述人声能量波形进行平滑处理以得到平滑能量波形;

根据预设阈值对所述平滑能量波形进行限阈处理以得到限阈波形;

对所述限阈波形进行保持处理以得到目标波形。

在一实施例中,所述对所述人声能量波形进行平滑处理以得到平滑能量波形,包括:

调用窗函数计算权重;

根据所述权重对所述人声能量波形进行卷积运算以得到所述平滑能量波形。

在一实施例中,所述对所述限阈波形进行保持处理以得到目标波形,包括:

识别所述限阈波形中时间间隔小于预设时间间隔的波峰作为目标波峰;

将所有所述目标波峰进行连线以得到目标波形。

在一实施例中,所述对所述目标音频数据进行人声分离处理以得到人声数据,包括:

将所述目标音频数据输入音频分离工具中以从所述目标音频数据中提取人声数据。

所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音识别方法、装置、计算机设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!