一种音频分类方法及系统及设备及存储介质

文档序号：1921653 发布日期：2021-12-03 浏览：12次 >En<

阅读说明：本技术 一种音频分类方法及系统及设备及存储介质 (Audio classification method, system, equipment and storage medium ) 是由陈剑超肖龙源李稀敏叶志坚于 2021-08-30 设计创作，主要内容包括：本发明公开了一种音频分类方法,其通过如下步骤实现对混合类音频的处理分类：预处理,对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理；音频帧特征提取,通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取；建模,建立一个基于CNN-LSTM的分类模型并将提取的音频帧特征样本数据输入到模型中进行训练,直到模型的输出误差达到预设要求；分类处理,将待处理的音频信息的音频帧特征输入到建立的模型中进行处理分类并输出分类结果。本发明的优点在于：可以在音频检索处理时节省大量计算,大幅度缩小检索范围,提高了音频分类效率。(The invention discloses an audio classification method, which realizes the processing and classification of mixed audio through the following steps: preprocessing, namely performing pre-emphasis, framing and windowing on an input audio signal to realize the preprocessing of the audio signal; extracting audio frame characteristics, namely extracting the audio frame characteristics by sequentially performing the steps of detecting a pitch period and a harmonic noise ratio of an input audio signal, extracting a first-order difference of the harmony of voice and music, segmenting the harmony, extracting the characteristics of the harmony segment and the like; modeling, namely establishing a classification model based on CNN-LSTM and inputting the extracted audio frame feature sample data into the model for training until the output error of the model reaches the preset requirement; and (4) classification processing, namely inputting the audio frame characteristics of the audio information to be processed into the established model for processing and classification and outputting a classification result. The invention has the advantages that: a large amount of calculation can be saved during audio retrieval processing, the retrieval range is greatly reduced, and the audio classification efficiency is improved.)

一种音频分类方法及系统及设备及存储介质

技术领域

本发明涉及音频处理领域，尤其涉及一种音频分类方法及系统及设备及存储介质。

背景技术

音频数据具有编码方式、采样率等信息以外，本身是一种无结构的二进制流，具有数据量大、处理复杂、信息关联度高等特点，这使得音频信号的处理工作更加复杂，也给音频检索等应用带来了很大的困难。

音频分类技术是音频结构化的基础，能够解决上述问题，所以称为音频数据处理时最常用的预处理技术。但是，现有技术中的音频分类方法通常是将音频分类为某一个单一类别，而语音与音乐混合类数据是互联网中常见的音频数据，若仅仅标记为混合类，不够精细，已经无法满足一些音频信息处理系统的需求。

现有技术中的音频分类技术主要有基于规则、最小距离和统计学习算法三种。

基于规则的音频分类方法的思路是，选择能将音频类别区分开的特征，设定分类的规则。对音频分类时，根据规则，用计算得到的特征值予设定好的阈值进行比较，对音频进行分类。这种分类方法操作简单，但是只能识别特征单一的音频类型。同时，该方法中若上层决策错误，会累积到下一层，故很依赖于人的先验知识，阈值的设定十分重要，但是如今海量数据的情况下，该方法性能并不稳定。

基于最小距离的音频分类方法是利用了模板匹配的思想，该算法为音频中的每个类别建立一个模板，在对音频进行分类时，计算待分类音频的特征向量，匹配模板向量，并计算它们之间的距离，从而实现音频分类。

基于统计学习的音频分类算法是目前音频分类的重点和热点，它为自动学习分类提供了一种有效途径，也是未来该领域研究的主要方法。但是对于上述分类技术，都是将音频分为几个较大的类别，如语音、音乐、静音、环境噪音等，没有对语音音乐混合音频进行分类。且现在网络上生活中混合音频数据巨大，只有给其打上精细标签，才能更好的进行区分。

综上，现有技术中的算法不能满足音频检索等数据处理中对混合类数据添加精细标签的需求。

发明内容

本发明要解决的技术问题是如何实现混合类音频的处理分类，针对上述要解决的技术问题，现提出一种音频分类方法。

为实现上述目的，本发明提供如下技术方案：一种音频分类方法，其通过如下步骤实现对混合类音频的处理分类：

预处理，对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理；

音频帧特征提取，通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取；

建模，建立一个基于CNN-LSTM的分类模型并将提取的音频帧特征样本数据输入到模型中进行训练，直到模型的输出误差达到预设要求；

分类处理，将待处理的音频信息的音频帧特征输入到建立的模型中进行处理分类并输出分类结果。

进一步的，所述预加重的具体步骤公式为：其中，θ_x表示预加重系数，y(n)表示预加重处理后得到信号，x(n)表示音频信号第n个点的幅值。

进一步的，所述分帧过程选择用20ms作为稳定时长，选择10ms作为帧叠。

进一步的，所述基音周期检测过程通过时域估计法、变换法或混合法中的一种实现基音周期检测。

进一步的，提取语音和音乐和谐度的一阶差分的过程包括如下步骤：

S01,计算每个频率和跨越一定步长的频率之间的相关性，通过如下公式实现：

S02，计算步骤S01中的离散函数中相邻两项之间的差，通过离散量之间的变化提取出语音和音乐和谐度的一阶差分。

进一步的，所述和谐度分段特征提取过程通过如下步骤实现：

a01,识别音乐节拍，通过获取音频的起始包络、计节奏和节拍识别等步骤实现对音乐节拍的识别；

a02,找到各节拍中最低点，计算每两个节拍最低点之间和谐度的方差和均值。

进一步的，所述建模包括如下具体步骤：

b01，使用CNN将音频特征汇聚到一个较小的尺寸，获取音频数据中多个种类的局部特征；

b02,添加一层LSTM，使模型能够结合长段音频中，各个时刻的高层特征，得到音频中不同时刻的和谐度等特征的变化情况；

b03，设置两个全链接层和一个分类层，整合特征，将其映射到样本标记空间，再进行分类；

b04,对分类的结果与人工分类的结果进行比对得出误差。

本发明的另一个目的是提供一种音频分类系统，其包括音频信号输入模块，用于输入用于分类的音频信号；特征提取模块，用于对输入的音频信号进行音频特征的提取；分类处理模块，用于根据提取的音频特征数据对音频信号进行分类；输出模块，用于将音频分类的结果进行输出。

本发明还提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

与现有技术相比，本发明的有益效果是：

本发明的优点在于，能够对语音音乐混合类数据进行更加精细的标注，可以在音频检索处理时节省大量计算，大幅度缩小检索范围，提高了音频分类效率；并且可以根据识别算法对背景音乐的鲁棒性，选择合适的背景音乐音频进行处理，提高了处理速度，减少识别错误。

附图说明

图1为本发明的处理流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1所示，本具体实施方式披露了一种音频分类方法，其通过如下步骤实现对混合类音频的处理分类：

首先训练一个CNN二分类器，用来检测混合音频中的纯音乐段，然后通过音频能量平稳的特点估计音乐成分的能量，计算语音成分能量占比数值；为了解决语音中没有停顿或检测到的停顿时长较少的问题，提出了基于和谐度特征组的能量占比分类方法，该算法采用了和谐度和基频特征，对和谐度进行改进，构建了基于街拍的和谐度片段统计特征，并使用CNN-LSTM网络进行能量占比分类。

具体的，包括如下步骤：

预处理，对输入的音频信号进行预加重、分帧和加窗实现对音频信号的预处理；由于音频信号分析建立在音频信号短时平稳的特征上，在对音频信号进行分析处理之前，首先要进行预处理，主要包括预加重、分帧、加窗这三个步骤。预加重可以消除发声器官、口腔对语音信号造成的影响，还有由采集设备带来的混叠和高次谐波失真等因素，对音频做分帧和加窗处理，能够使音频信号在特征计算时，保持短时稳定性。这些操作可以保证后续音频处理的信号更加平滑，提高处理质量。

具体的，预处理过程如下：

预加重，由于，音频信号频率越高，信号成分越少，通过预加重处理可以加强其高频部分，减少口腔对语音信号造成的影响。音频信号x(n)为离散信号，预加重处理后得到信号y(n)为：

式中——预加重系数，

x(n)——音频信号第n个点的幅值。

分帧，长时的音频信号是随着时间变化的非平稳信号，但是在一个短时间内，通常是10-30ms，可以认为音频信号保持相对稳定。分帧的方式有两种，即无重叠和有重叠，在被具体实施方式中选择用20ms，帧叠10ms，这样能够保证相邻两帧之间的信号的连续性。

加窗，加窗能够使音频信号平滑，就时给每帧信号乘一个窗函数，常用的窗函数有汉明窗，矩形窗。可行的，在本具体实施方式中采用汉明窗，其窗函数为：

式中N——窗长。

经过预加重、分帧、加窗后的音频信号x(n)变为：

g(n)＝y(n)w(n)

具体的，在本具体实施方式中选择原因是基于，语音中清音和浊音交替，和谐度在浊音时较高清音时较低，而音乐有节奏，较稳定，和谐度按节奏在较高值范围内波动。同时，由于语音中的浊音具有一定周期性，所以可以提取信号中的基音周期。人在发声的时候，肺部中的气流经过声门时，冲击声门使其一张一合，造成声带的振动，产生了一系列具有准周期的脉冲，经过声道、口腔等谐振之后发出，形成了语音信号，故浊音具有一定的周期性。声带的振动的频率就成为基音频率，这种周期称为基音周期。

可行的，可以采用诸如时域估计法、变换法或混合法进行基音周期检测。

优选的，本具体实施方式中采用时域估计法进行检测，具体的，通过语音信号的波形图来估计基频，方法有自相关函数法、平均幅度差函数法等。其中自相关函数R(m)的公式：表示一个信号x(n)和延迟之后的信号之间的相似性，那么该信号若具有周期性，则周期和自相关函数的周期相同，获取到该周期的方法就是，在信号延迟周期的整数倍时，自相关函数会取得最大值，通过自相关函数最大值的位置，可以知道信号x(n)的基音周期，这种方法在有噪声的情况下表现比较好，但是容易受到倍频等错误的影响。

变换法则是通过将信号从时域转换到频域来求取基音周期的方法，首先，使用同态分析方法将非线性问题转化为线性问题，消除声道的影响，找到激励部分，再求基音周期，常用的方法是倒谱法。

混合法则是首先消除声道的影响，再得到声音信道的音源序列，最后使用时域估计中的方法得到基音周期。

在本发明的其他具体实施例中也可以采用变换法或混合法。

接下来进行，音频帧特征提取，通过对输入的音频信号依次进行基音周期检测、谐波噪声比检测、提取语音和音乐和谐度的一阶差分、和谐度分段以及和谐度分段特征提取等步骤实现音频帧特征的提取。

其中，关于和谐度，人的听觉系统很容易觉察到在非常嘈杂的环境中语音的存在，这源于人的听觉系统和语音信号的特点，语音信号的谐波结构是人类语音与其他噪声的主要区别。谐波是指对周期性非正弦交流量进行傅里叶级数分解所得到的大于基波频率整数倍的各次分量。通过研究声音的谐波结构，提取和谐度特征。和谐度表示信号的谐波或周期性程度，语音中谐波噪声比可以反映出语音信号的整体非周期性。

由于基频及其倍频信号的能量在整个音频信号中所占比重较大，为了反映这一特点，本具体实施方式优选用频域的归一化自相关方法估计每个频率是基频的可能性，R(k)的计算公式如下，R(k)的值反映了频率k·fs/N是基频的可能性。

在计算完音频每帧中各频率是基频的可能性后，可以定义一帧信号的和谐度为该帧所

有R(k)的平均值，即：式中[k_f1，k_f2]——和考察的频率范围相对应。

一帧信号和谐度也可以定义为频率范围内R(k)最大的值，即：

h＝max(R_j) j＝k_f1，...k_f2

为了使用的和谐度特征能够更好的反映语音和音乐的特点，对其进行区分，对公式进行改进，上面(1-1)公式中的R(k)的定义，是考虑某一频率的各倍频之间的相关性，和谐度也可以定义为(1-2)：

关于和谐度一阶差分，其中，由于语音的和谐度时高时低，没有太大规律。而音乐的和谐度，在每个街拍中，呈现相似的波动，且在一定范围内较规律，为了反映音乐在整体上的这个特性，考虑加入差分，来刻画音乐和语音整体波形变化上的区别。差分是离散函数中相邻两项之间的差，可以反映离散量之间的变化，从而提取语音和音乐和谐度的一阶差分。

关于和谐度片段特征提取的具体过程如下：

由于音乐信号的和谐度按照其节奏，在某一个范围内呈现有规律且相似的波动，所以提取和谐度的片段统计特征，如方差、均值等。最好的片段分割方式就是按照音频的节拍将音频进行切分，在对片段内的和谐度求段特征。

利用节拍对音乐和谐度进行分段时，首先要识别音乐节拍，过程如下：

1)获取音频的起始包络，若一段音乐看成由很多事件组成，则每个事件可以看成一个包络，通过提取梅尔谱能量，在使其通过滤波器，得到包络。

2)估计节奏，即每分钟节拍数。音乐是具有周期性的信号，可以通过周期性来估计整段音乐节拍的平均速度。可通过自相关函数来获取音乐的周期，将音乐信号和延迟周期整数倍后的信号做运算，得到的自相关函数是最大的，求得平均周期后，就可以计算全局的节拍速度

3)节拍识别，根据上步中求得的街拍速度，使用动态规划算法，利用先验知识，在起始包络线内跟踪节拍，得到信号中节拍的位置。

然而，使用上述方法可以检测到音乐中的节拍，但是在音乐信号的首尾两段时间，可能会存在检测不到节拍点的情况。所以需要首先获取音频信号每个节拍时刻，参考节拍点之间的最大距离max_beat_space，使用长度为max_beat_space的滑动窗，在和谐度曲线上滑动，找到各节拍中最低点，计算每两个节拍最低点之间和谐度的方差和均值。

通过分段算法将音频分段，提取和谐度的统计特征，不仅能够反映语音和音乐在和谐度上的差异，同时分段时也利用了节拍特征，故体现了音频的节拍特性。

建模，建立一个基于CNN-LSTM的分类模型并将提取的音频帧特征样本数据输入到模型中进行训练，直到模型的输出误差达到预设要求。可行的，本具体实施方式中，本文使用CNN网络和LSTM网络结合的方法，首先使用CNN将音频特征汇聚到一个较小的尺寸，获取音频数据中多个种类的局部特征，之后添加一层LSTM，使模型能够结合长段音频中，各个时刻的高层特征，得到音频中不同时刻的和谐度等特征的变化情况，对音频进行更好的分类，最后有两个全链接层和一个分类层，整合特征，将其映射到样本标记空间，在进行分类。

LSTM为一层的双向LSTM网络，隐层单元数为64，单向LSTM中，可以根据前面的信息对后面时刻进行预测，而双向LSTM可以利用前面若干输入和后面的输入得到当前时刻的输出，故用双向LSTM进行分类的结果会更加准确。输入网络的特征纬度为85，一条音频长度为300帧，通过CNN网络后的输出纬度为(5*64)*18，其中5*64为特征纬度，18为时间步长，在输入到LSTM中，通过双向网络中的64个隐层节点后，输出一个18*(64*2)的向量，对时间轴做品骏，得到长为128的向量，通过两个权值矩阵形状为(128，64)和(64,11)的全链接层，最后使用softmax将全链接层的输出映射到11个类别上。

分类处理，将待处理的音频信息的音频帧特征输入到建立的模型中进行处理分类并输出分类结果。

实施例2

本具体实施方式披露了一种音频分类系统，其包括音频信号输入模块，用于输入用于分类的音频信号；特征提取模块，用于对输入的音频信号进行音频特征的提取；分类处理模块，用于根据提取的音频特征数据对音频信号进行分类；输出模块，用于将音频分类的结果进行输出。该音频分类系统具体执行如实施例1中的方法。

上述系统搭载在一终端设备中，该设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如实施例1中的方法的步骤。

上述终端设备中的可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如实施例1中的方法的步骤。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

10页详细技术资料下载

一种音频分类方法及系统及设备及存储介质

相关技术

网友询问留言