一种用于非编工程中的音乐节拍提取方法

文档序号：11665 发布日期：2021-09-17 浏览：21次 >En<

阅读说明：本技术 一种用于非编工程中的音乐节拍提取方法 (Music beat extraction method for non-woven engineering ) 是由马萧萧张博文黄平雷锴赵越于 2021-04-30 设计创作，主要内容包括：本发明公开了一种用于非编工程中的音乐节拍提取方法,包括以下步骤：步骤一：音频数据样本预处理,对原始音频数据样本进行预处理,将原始音频数据样本打包为音频帧格式的音频数据样本；步骤二：音频数据样本节奏评估,对音频帧格式的音频数据样本进行节奏评估,获得音频数据样本的每分钟节拍数；步骤三：音频数据样本节拍位置评估,利用音频数据样本的每分钟节拍数进行节拍位置评估,定位出音频数据样本中每个节拍的出现的具体时间位置。本发明通过对音频数据进行预处理,并评估预处理后的音频数据的每分钟节拍数,利用节拍数评估出音频样本中每个节拍的出现的具体时间位置,实现音乐节拍提取,提高了关键点位的定位精度。(The invention discloses a music beat extraction method used in non-woven engineering, which comprises the following steps: the method comprises the following steps: preprocessing an audio data sample, namely preprocessing an original audio data sample, and packaging the original audio data sample into an audio data sample in an audio frame format; step two: evaluating the rhythm of the audio data sample, namely evaluating the rhythm of the audio data sample in an audio frame format to obtain the beats per minute of the audio data sample; step three: and evaluating the beat position of the audio data sample, namely evaluating the beat position by using the beats per minute of the audio data sample, and positioning the specific time position of each beat in the audio data sample. According to the method, the audio data are preprocessed, the beats per minute of the preprocessed audio data are evaluated, the specific time position of each beat in the audio sample is evaluated by the beats, the music beat extraction is realized, and the positioning precision of key point positions is improved.)

一种用于非编工程中的音乐节拍提取方法

技术领域

本发明涉及视频编辑

技术领域

，尤其涉及一种用于非编工程中的音乐节拍提取方法。

背景技术

近年来随网速不断提升，伴随着短视频的兴起，特别是针对短视频中的卡点剪辑模式，如何让视频切片能够快速精准对齐音频鼓点，让输出画面更加符合音乐节拍的功能，受到短视频制作者的追捧。

目前常用的音频卡点剪辑方法，是由剪辑人员在对音频切片试听过程中，通过人工对音频切片打点的方式来获取关键点位，再引入其它素材切片去对应点位，这种方式虽然也能满足实际应用，但精准度低下，且用户在使用过程中的体验较差。

如申请号为CN201910619907.9的专利申请公开了一种生成多媒体的方法及装置、电子设备、存储介质，该方法包括：根据为多媒体所选定的音频，获得音频中各音频帧的频谱；根据音频中各音频帧的频谱进行差分计算，获得音频帧的频谱通量；根据音频帧的频谱通量进行峰值检测，定位音频中鼓点所在的音频帧；根据为多媒体所选定的视频素材生成对齐至鼓点的视频片段；按照所述视频片段所对齐的鼓点进行视频片段和音频的合成，获得多媒体，所述多媒体适配于所述音频中的鼓点进行所对应视频片段的切换。方案虽然能提高多媒体的生成速度，但是还存在音频鼓点的定位精度不高的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种用于非编工程中的音乐节拍提取方法，通过对音频数据进行预处理，并评估预处理后的音频数据的每分钟节拍数，利用节拍数评估出音频样本中每个节拍的出现的具体时间位置，实现音乐节拍提取，提高了关键点位的定位精度。

本发明的目的是通过以下技术方案来实现的：

一种用于非编工程中的音乐节拍提取方法，包括以下步骤：

步骤一：音频数据样本预处理，对原始音频数据样本进行预处理，将原始音频数据样本打包为音频帧格式的音频数据样本；

步骤二：音频数据样本节奏评估，对音频帧格式的音频数据样本进行节奏评估，获得音频数据样本的每分钟节拍数；

步骤三：音频数据样本节拍位置评估，利用音频数据样本的每分钟节拍数进行节拍位置评估，定位出音频数据样本中每个节拍的出现的具体时间位置。

具体的，步骤一具体包括：

S101，音频样本通道合并，采用将多通道样本进行平均或者仅选择其中一个声道的样本作为后续处理的样本f(t)；

S102，音频样本下采样，以8KHz的采样频率fq对样本f(t)进行下采样，下采样后的样本记为S(n)，其中n为样本数据的索引编号；

S103，音频样本打包，将下采样样本S(n)按照预设音频帧格式打包为音频帧。

具体的，步骤二具体包括：

S201，频谱分析，利用频谱分析方法分析出不同音频帧中不同时刻与人耳听觉相适应的频谱强度；

S202，建立节奏样本，根据不同时刻的频谱强度，利用音乐节拍提取方法提取出音频帧中的节拍数；

S203，BPM评估，对音频强度进行自相关运算来获取音频帧的BPM。

具体的，步骤三具体包括：将音频帧的BPM作为参数生成高斯窗对；对音频强度进行滤波获得节拍评分Ga(fn)；对节拍评分进行局部极值点查找，获得音频帧索引号为fn且满足预设的查找条件的节拍时刻序列T(n)；将节拍时刻序列T(n)中末尾dn时刻的节拍评分Ga(fn)最大值作为音频节拍的结束时刻t_end；由结束时刻t_end向前每次在节拍评分Ga(fn)回溯dn时刻，即在节拍时刻序列T(n)中找出处于[t_end-dn，t_end]时间段内的时刻所对应的节拍评分Ga(fn)最大值对应的样本索引号fn；并根据公式t＝fn/fm计算出节拍时刻t，从而定位出音频数据样本中每个节拍的出现的具体时间位置。

具体的，步骤S201具体包括以下子步骤：

S2011，利用汉明窗函数对音频帧进行加汉明窗处理；

S2012，将经过加汉明窗处理的音频帧进行快速傅里叶变换，得到每一帧的傅里叶频谱强度；

S2013，利用矩阵变换方法将傅里叶频谱强度转换为梅尔频谱；

S2014，利用梅尔声谱换算公式将梅尔频谱换算为分贝幅度的梅尔声谱强度。

具体的，步骤S202具体包括以下子步骤：

S2021，通过阀值操作将梅尔声谱强度中低分贝的谱强度进行截断，剔除梅尔声谱中的低分贝的声音；

S2022，计算音谱强度增量，将每个音频帧的音频强度增量进行求和；

S2023，利用IIR滤波器将求和后的音频强度增量进行IIR滤波，去除直流分量。

本发明的有益效果：本发明通过对音频数据进行预处理，并评估预处理后的音频数据的每分钟节拍数，利用节拍数评估出音频样本中每个节拍的出现的具体时间位置，实现音乐节拍提取，提高了关键点位的定位精度，改善了音频卡点的剪辑体验。

附图说明

图1是本发明的方法流程图。

图2是本发明的音频数据样本预处理流程图。

图3是本发明的频谱分析流程图。

图4是本发明的节奏样本构建流程图。

图5是本发明的BPM评估流程图。

图6是本发明的节拍位置评估流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

本实施例中，如图1所示，一种用于非编工程中的音乐节拍提取方法，包括以下步骤：

(1)音频数据样本预处理，该过程具体包括：

(1.1)音频样本通道合并，可采用将多通道样本进行平均或者仅选择其中一个声道的样本作为后续处理的样本f(t)。

(1.2)样本下采样到较低的采样频率fq，可选的采样频率为8KHz，下采样方法可选最近邻或线性下采样方法，下采样后的样本记为S(n)，其中n为样本数据的索引编号。

(1.3)将样本打包为音频帧格式。音频帧计算公式为

SF(fn,n)＝S(fn·(fz-hz)+n)

其中，fz表示一个音频帧中所包含的样本数量；hz表示音频帧之间的重叠样本的数量；fn表示音频帧索引号，音频帧索引号取值范围为n表示音频帧中的样本数据索引号，样本数据索引号取值范围为0≤n＜fz；则音频帧对应的频率fm为

(2)节奏评估

节奏评估用来评估音乐的每分钟节拍数(BPM，Beats per minute)。包含三个子步骤：频谱分析，建立节奏样本，评估BPM。

(2.1)频谱分析是分析不同音频帧当中与人耳听觉相适应的频谱强度。频谱分析的实现步骤包含以下部分：

a.音频帧加汉明窗处理，加汉明窗处理中所使用的汉明窗函数为：

FW(fn,n)＝SF(fn,n)*HW(n)

b.将经过加窗处理的样本帧进行快速傅里叶变换得到每一帧的频谱强度。

FI(fn,n)＝|FFT(FW(fn,n))|

c.产生声谱图。通过傅里叶变换得到的频率为赫兹(Hz)，人耳通常能听到的频率范围为2Hz～20KHz，并且人耳对赫兹单位的感知是非线性的，通常对低频信号更加敏感，对高频信号相对不敏感。本发明中采用了相对人耳更为线性的梅尔频谱。在量化声音能量当中可将梅尔谱平均量化为mb个区间，mb通常可选用40。将傅里叶频谱转换为梅尔频谱可使用矩阵变换的方法，矩阵变换过程如下式所示：

MI＝FI·W

其中，MI(尺寸fn×mb矩阵)为梅尔频谱强度，FI(尺寸fn×n矩阵)为傅里叶频谱强度，W为n×mb的频谱能量转换矩阵。

d.将梅尔频谱换算到分贝幅度的梅尔声谱强度，换算过程如下式所示：

MIdb＝20.0*log10(MI)。

(2.2)建立节奏样本，得到不同时刻的的分贝幅度的梅尔谱强度之后需要获得声音强度的变化规律，从而提取出音乐当中的节拍数。节奏样本构建处理过程中包含以下流程：

a.剔除声谱当中的低分贝的声音。可通过阈值操作将分贝幅度中低分贝的声谱强度进行截断，截断过程如下式所示；

MIdb＝max(MIdb,Th_db)；

b.计算音谱强度增量，计算公式如下式所示：

D(fn,n)＝max(MIdb(fn,n)-MIdb(fn-1,n),0)；

将每一音频帧的音频强度增量求和，求和过程如下式所示：

c.利用IIR滤波器对求和后的音频强度增量进行IIR滤波，去除直流分量，滤波过程如下式所示：

Ed(fn)＝a₀E(fn)+a₁E(fn-1)+a₂Ed(fn-1)；

其中，IIR滤波器系数可选a₀＝1，a₁＝-1，a₂＝0.99。

(2.3)评估BPM。该步骤通过对音频强度进行自相关运算来获取音乐的BPM。具体评估流程如下：

将音频强度截取出长度为s秒的一段，对应的截取出的音频强度的样本数量为sn＝s·fm,记截取出的片段为Et(n)，其中n＜sn。将Et(n)进行自相关运算得到相关系数：

(为相关运算符)

为了抑制过小和过大的频率，可选择一个参考的节拍值，通常可选参考值范围[60,150]，在参考节拍值处对W(n)进行加窗处理，选择其中的最大值的索引号dn即为节拍的样本序号间隔，对应的时间间隔为Δt＝dn/fm，则对应的BPM＝60/Δt。

(3)节拍位置评估

节拍位置评估即评估出音频数据样本中每个节拍的出现的具体时间位置。该步骤具体包括：

A.生成高斯滤波器核，滤波器核尺寸为dn，高斯核函数如下：

其中sc为一缩放因子，通常可选8。

B.采用上述高斯核对Ed(fn)进行相关操作获得节拍评分

C.对节拍评分寻找局部极值点，即为潜在的节拍时刻序列T(n)。局部极值点满足(Ga(fn+1)-Ga(fn))·(Ga(fn)-Ga(fn-1))＜0的音频帧索引号为fn的时刻。

D.找出T(n)末尾dn样本内时刻的Ga(fn)的最大值作为音乐节拍结束的时刻t_end。

E.由t_end时刻往前每次在Ga(fn)回溯dn，找出T(n)时间Ga(fn)内的最大值对应的样本索引号fn，则音乐的节拍时刻t＝fn/fm。下次以fn为基准往前回溯dn，以此类推。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

10页详细技术资料下载

一种用于非编工程中的音乐节拍提取方法

相关技术

网友询问留言