一种音频场景识别方法、系统及装置

文档序号：393401 发布日期：2021-12-14 浏览：28次 >En<

阅读说明：本技术 一种音频场景识别方法、系统及装置 (Audio scene recognition method, system and device ) 是由张鹏远王猛颜永红于 2021-09-10 设计创作，主要内容包括：本发明涉及一种音频场景识别方法,方法包括：获取待识别音频；对待识别音频进行小波特征提取,以确定待识别音频对应的小波特征；将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中,以得到至少一个深度嵌入特征序列；将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中,以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征,可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时,保障提取的深度嵌入特征在识别时具有更高的准确率,还可极大提升对短时音频的识别性能。(The invention relates to an audio scene recognition method, which comprises the following steps: acquiring audio to be identified; performing wavelet feature extraction on the audio to be identified to determine wavelet features corresponding to the audio to be identified; inputting wavelet characteristics corresponding to the audio to be identified into a neural network embedded characteristic extractor with a residual error network structure to obtain at least one deep embedded characteristic sequence; and inputting the wavelet characteristics corresponding to the audio to be recognized and at least one deep embedding characteristic sequence into a neural network classifier together so as to determine an audio scene corresponding to the audio to be recognized. The invention extracts the wavelet characteristic of the voice data to be recognized and can adapt to the requirement of time-frequency signal analysis. Meanwhile, the neural network embedded feature extractor with the residual error network structure is combined, so that the extracted deep embedded features can be ensured to have higher accuracy in recognition when a large amount of data are trained, and the recognition performance of short-time audio can be greatly improved.)

一种音频场景识别方法、系统及装置

技术领域

本发明涉及音频识别领域，尤其是涉及一种基于小波特征和一维残差神经网络的音频场景识别方法、系统及装置。

背景技术

声音是人类生活中交流信息的重要渠道，而在日常生活中，声音大体可以分为语音和环境音。对于人们一般是通过语音的方式进行交流。而环境音则与语音不同，其独立于当前说话人，环境音包含了自然界和人类活动的丰富信息。

音频场景识别是对环境声音进行理解的一种基础任务，同时也是音频信息处理的一个重要研究方向。其主要目标是识别出一段音频的特定场景标签，从而达到感知周围环境的目的。目前音频场景识别的技术已经广泛应用在智能机器人和众多终端设备上。

然而，传统的音频场景识别方式一般采用机器学习方法，例如最近邻算法、隐马尔科夫模型、支持向量机等。但是，此类传统方法在较大数据量的情况下表现并不好，均已经到达了瓶颈。

近年来，基于深度神经网络的方法在音频场景识别方向也迅速发展，由于深度神经网络可以提取出音频更深的特征，从而可以进行更好的分类。而目前采用深度神经网络的方式是基于二维卷积的全连接卷积神经网络。该网络在判断长时音频时效果不错，例如10秒及以上。但是，在判断短时音频时性能则会出现明显的下降，短时音频例如1秒左右。显然，现在亟需一种可以克服上述问题的音频场景识别方案。

发明内容

本发明涉及一种音频场景识别方法，通过提取待识别语音数据的小波特征，并根据具有残差网络结构的神经网络嵌入特征提取器从该小波特征中提取出深度嵌入特征序列，以便可以利用提取出的深度嵌入特征序列确定出待识别音频所对应的音频场景。本发明的小波特征可以自适应时频信号分析的要求，结合具有残差网络结构的神经网络可以在大量数据训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，并且极大提升对短时音频的识别性能。

为实现上述目的，本发明第一方面提供了一种音频场景识别方法，方法包括：获取待识别音频；对待识别音频进行小波特征提取，以确定待识别音频对应的小波特征；将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中，以得到至少一个深度嵌入特征序列；将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中，以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征，可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，还可极大提升对短时音频的识别性能。

优选地，对待识别音频进行小波特征提取，以确定待识别音频对应的小波特征，包括：确定待识别音频对应的频谱；将频谱通过多个小波滤波器得到待识别音频对应的小波特征。

优选地，确定待识别音频中对应的频谱，包括：对待识别音频进行预加重；对预加重后的待识别音频进行分帧加窗，确定出多帧预加重后的待识别音频；针对多帧预加重后的待识别音频中的每一帧进行快速傅里叶变换，以确定出各帧对应的频谱。

优选地，分帧加窗包括：以每帧为512毫秒，帧移171毫秒进行分帧；以及，采用汉明窗作为窗函数进行加窗。本发明采用上述方式进行分帧加窗，可以有效提升音频场景识别的准确率。

优选地，将频谱通过多个小波滤波器得到待识别音频对应的小波特征，包括：对频谱进行取平方，以确定能量谱；将能量谱输入至多个小波滤波器，得到待识别音频对应的小波特征。本发明通过小波滤波器获取到小波特征，以便可以自适应时频信号分析的要求。

优选地，对频谱进行取平方，以确定能量谱，可以包括：对每一帧对应的频谱进行取平方，以确定出每一帧对应的能量谱。

优选地，小波特征为待识别音频中各帧对应的小波特征谱图；或小波特征为待识别音频对应的小波特征序列，小波特征序列包含各帧对应的小波特征谱图。

优选地，小波滤波器的个数为290个；小波特征谱图为包含290个参数的一维小波特征向量；小波特征序列为n*290个参数的二维小波特征向量，其中，n为待识别音频的帧数，n为正整数。本发明采用290个小波滤波器以获取到包含290个参数的小波特征谱图或n*290个参数的小波特征序列，从而保证后续可以提取出更加准确的深度嵌入特征，以提升音频场景识别的准确率。

优选地，具有残差网络结构的神经网络嵌入特征提取器包括：至少一个网络块，其中，每个网络块包含双路卷积层，双路卷积层具有两条卷积路径，每个网络块将该网络块中两条卷积路径的结果进行合并，以确定该网络块输出的深度嵌入特征序列。本发明采用双路卷积的方式可以保证提取的深度嵌入特征序列在后续识别音频场景时更加准确。

优选地，网络块的数量为4个；双路卷积层中的一路包括第一卷积层、第一批归一化层和平均池化层，另一路包括第二卷积层和第二批归一化层。

优选地，神经网络分类器包括特征拼接层和全连接分类层，其中，全连接分类层包括至少一个全连接映射层和结果输出层；将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中，以确定出待识别音频所对应的音频场景，包括：将待识别音频对应的小波特征以及至少一个深度嵌入特征序列输入至特征拼接层进行拉伸拼接，以构成一维深度特征向量；将一维深度特征向量输入至至少一个全连接映射层，以确定音频场景分类特征；将音频场景分类特征输入至结果输出层，以确定出各个音频场景的概率值；根据各个音频场景的概率值，确定出待识别音频所对应的音频场景。

优选地，根据各个音频场景的概率值，确定出待识别音频所对应的音频场景，包括：将概率值最大的音频场景作为待识别音频所对应的音频场景。

优选地，方法还包括：在训练阶段，若全连接映射层的数量大于或等于2时，除最后一个全连接映射层之外的其它全连接映射层采用随机失活的方式，以预设概率屏蔽部分神经元。本发明在训练阶段，通过随机失活的方式可以有效缓解音频场景识别出现过拟合现象。

本发明第二方面提供了一种音频场景识别系统，系统包括：信号处理及特征提取器、具有残差网络结构的神经网络嵌入特征提取器和神经网络分类器；信号处理及特征提取器，用于获取待识别音频；对待识别音频进行小波特征提取，以确定待识别音频对应的小波特征；具有残差网络结构的神经网络嵌入特征提取器，用于根据待识别音频对应的小波特征，得到至少一个深度嵌入特征序列；神经网络分类器，用于根据待识别音频对应的小波特征以及至少一个深度嵌入特征序列，确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征，可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，以及极大提升对短时音频的识别性能。

优选地，信号处理及特征提取器还用于：确定待识别音频对应的频谱；将频谱通过多个小波滤波器得到待识别音频对应的小波特征。

优选地，信号处理及特征提取器还用于：对待识别音频进行预加重；对预加重后的待识别音频进行分帧加窗，确定出多帧预加重后的待识别音频；针对多帧预加重后的待识别音频中的每一帧进行快速傅里叶变换，以确定出各帧对应的频谱。

优选地，信号处理及特征提取器还用于：对频谱进行取平方，以确定能量谱；将能量谱输入至多个小波滤波器，得到待识别音频对应的小波特征。本发明通过小波滤波器获取到小波特征谱图，从而使得可以自适应时频信号分析的要求。

优选地，信号处理及特征提取器还用于：对每一帧对应的频谱进行取平方，以确定出每一帧对应的能量谱。

优选地，网络块的数量为4个；双路卷积层中的一路包括第一卷积层、第一批归一化层和平均池化层，另一路包括第二卷积层和第二批归一化层。

优选地，神经网络分类器包括特征拼接层和全连接分类层，其中，全连接分类层包括至少一个全连接映射层和结果输出层；神经网络分类器还用于：将待识别音频对应的小波特征以及至少一个深度嵌入特征序列输入至特征拼接层进行拉伸拼接，以构成一维深度特征向量；将一维深度特征向量输入至至少一个全连接映射层，以确定音频场景分类特征；将音频场景分类特征输入至结果输出层，以确定出各个音频场景的概率值；根据各个音频场景的概率值，确定出待识别音频所对应的音频场景。

优选地，神经网络分类器还用于：将概率值最大的音频场景作为待识别音频所对应的音频场景。

优选地，神经网络分类器还用于：在训练阶段，若全连接映射层的数量大于或等于2时，除最后一个全连接映射层之外的其它全连接映射层采用随机失活的方式，以预设概率屏蔽部分神经元。本发明在训练阶段，通过随机失活的方式可以有效缓解音频场景识别出现过拟合现象。

本发明第三方面提供了一种音频场景识别装置，装置包括：处理器用于与存储器耦合，以及读取并执行存储在存储器中的指令；处理器中预先存储了具有残差网络结构的神经网络嵌入特征提取器和神经网络分类器的执行代码；当处理器运行时执行指令，使得处理器用于获取待识别音频；对待识别音频进行小波特征提取，以确定待识别音频对应的小波特征；将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中，以得到至少一个深度嵌入特征序列；将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中，以确定出待识别音频所对应的音频场景。本发明提取待识别语音数据的小波特征，可以自适应时频信号分析的要求。同时结合具有残差网络结构的神经网络嵌入特征提取器可以在大量数据训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，以及极大提升对短时音频的识别性能。

优选地，处理器还用于：确定待识别音频对应的频谱；将频谱通过多个小波滤波器得到待识别音频对应的小波特征。

优选地，处理器还用于：对待识别音频进行预加重；对预加重后的待识别音频进行分帧加窗，确定出多帧预加重后的待识别音频；针对多帧预加重后的待识别音频中的每一帧进行快速傅里叶变换，以确定出各帧对应的频谱。

优选地，处理器还用于：对频谱进行取平方，以确定能量谱；将能量谱输入至多个小波滤波器，得到待识别音频对应的小波特征。本发明通过小波滤波器获取到小波特征谱图，从而使得可以自适应时频信号分析的要求。

优选地，处理器还用于：对每一帧对应的频谱进行取平方，以确定出每一帧对应的能量谱。

优选地，网络块的数量为4个；双路卷积层中的一路包括第一卷积层、第一批归一化层和平均池化层，另一路包括第二卷积层和第二批归一化层。

优选地，神经网络分类器包括特征拼接层和全连接分类层，其中，全连接分类层包括至少一个全连接映射层和结果输出层；处理器还用于：将待识别音频对应的小波特征以及至少一个深度嵌入特征序列通过特征拼接层进行拉伸拼接，以构成一维深度特征向量；将一维深度特征向量通过至少一个全连接映射层确定音频场景分类特征；将音频场景分类特征通过结果输出层以确定出各个音频场景的概率值；根据各个音频场景的概率值，确定出待识别音频所对应的音频场景。

优选地，处理器还用于：将概率值最大的音频场景作为待识别音频所对应的音频场景。

优选地，处理器还用于：在训练阶段，若全连接映射层的数量大于或等于2时，除最后一个全连接映射层之外的其它全连接映射层采用随机失活的方式，以预设概率屏蔽部分神经元。本发明在训练阶段，通过随机失活的方式可以有效缓解音频场景识别出现过拟合现象。

本发明实现了一种音频场景识别方法，通过提取待识别语音数据的小波特征，并采用具有残差网络结构的神经网络嵌入特征提取器从该小波特征中提取出深度嵌入特征序列，从而可以根据该深度嵌入特征序列确定出待识别音频所对应的音频场景。本发明中的小波特征可以自适应时频信号分析的要求，同时具有残差网络结构的神经网络可以在大量数据进行训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，以及极大地提升对短时音频的识别性能。

附图说明

图1为本发明实施例提供的一种音频场景识别系统架构图；

图2为本发明实施例提供的一种音频场景识别方法流程图；

图3为本发明实施例提供的一种神经网络嵌入特征提取器结构示意图；

图4为本发明实施例提供的一种神经网络分类器结构示意图；

图5为本发明实施例提供的另一种音频场景识别方法流程图；

图6为本发明实施例提供的一种音频场景识别装置示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明主要应用在音频场景识别的场景。例如获取当前环境音，并对环境音进行识别，以便确定用户当前所处的环境是哪一种音频场景。比如可以识别出用户正处于讲课的课堂、嘈杂的广场、车辆密集的道路等等。

但是，目前的方案由于设计上缺陷，使得在训练阶段采用大规模训练数据进行训练后性能达到瓶颈无法提升。一部分方案虽然也采用了深度神经网络的方式，例如采用了二维卷积的全连接神经网络。但是此类网络在面对短时音频时，性能会出现明显下降。显然这是由于二维卷积的全连接神经网络其自身的设计所导致的。

因此，本发明提供了一种音频场景识别方法，采用了具有残差网络结构的神经网络嵌入特征提取器进行深度特征提取，可以解决二维卷积的全连接神经网络面对短时音频性能出现明显下降的问题。同时，本发明的具有残差网络结构的神经网络嵌入特征提取器是一种深度神经网络，可以适应在训练过程中采用的大规模训练数据，并使得训练后的神经网络性能有明显提升。并且，本发明通过提取待识别语音数据的小波特征，可以自适应在识别过程中的时频信号分析的要求，从而使得最终对音频场景识别的准确性大大提高。

为更加清晰的阐述本发明的方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细描述。

图1为本发明实施例提供的一种音频场景识别系统架构图。

如图1所示，本发明提供了一种音频场景识别系统100，该系统100包括信号处理及特征提取模块101、具有残差网络结构的神经网络嵌入特征提取器102和神经网络分类器103。

其中，信号处理及特征提取模块101主要用于获取待识别音频，并对待识别音频进行小波特征提取，以确定出待识别音频对应的小波特征。其中，待识别音频即准备进行音频场景识别的音频。可以是信号处理及特征提取模块101采集到的，也可以是预先采集好并输入至信号处理及特征提取模块101的，当然还可以是预先已经配置在信号处理及特征提取模块101中的，则信号处理及特征提取模块101只需读取预先存储的待识别音频即可，本发明在此不做限定。

具有残差网络结构的神经网络嵌入特征提取器102主要用于对信号处理及特征提取模块101提取得到的小波特征进行深度特征提取，以得到深度嵌入特征序列。可以理解的是，深度嵌入特征序列是对小波特征进行的深度特征提取所得到的特征，深度嵌入特征序列相比小波特征显然可以更加精准的表征相应的音频场景。

神经网络分类器103主要根据神经网络嵌入特征提取器102输出的深度嵌入特征序列进行分类识别，从而可以输出音频场景的识别结果。

下面将更为详细的介绍音频场景识别系统100的运行过程。

图2为本发明实施例提供的一种音频场景识别方法流程图。

如图2所示出的，为本发明提供的一种音频场景识别方法，该方法可以应用在如图1所示出的音频场景识别系统中。该方法可以包括以下步骤：

S201，获取待识别音频。

首先，信号处理及特征提取模块101会获取准备进行音频场景识别的待识别音频。在一些例子中，待识别音频可以是信号处理及特征提取模块101实时采集到的。在另一些例子中，待识别音频也可以是预先采集完成并输入至信号处理及特征提取模块101中的。当然，在又一些例子中，待识别音频还可以是预先已经配置在信号处理及特征提取模块101中准备进行音频场景识别的，本发明不做出限定。

S202，确定待识别音频对应的频谱。

当信号处理及特征提取模块101在S201中获取到待识别音频后，可以确定出该待识别音频对应的频谱。在一些例子中，可以确定出该待识别音频中每一帧对应的频谱。

在一个例子中，信号处理及特征提取模块101可以先对待识别音频进行预加重处理，以便提升待识别音频的高频部分。然后，再对预加重处理后的待识别音频进行分帧加窗。例如，可以设定每帧的帧长为512毫秒、帧移171毫秒进行分帧。然后针对每帧数据进行加窗处理。例如可以采用汉明窗作为窗函数进行加窗。可以理解的是，每个窗的大小与帧的大小一致，例如汉明窗的大小与帧长均为512毫秒。当然，对于每一帧帧长以及帧移的具体大小设定可以根据实际情况进行任意修改。上述示例仅仅作为一种优选方案，可以保证在该参数设定的情况进行分帧加窗后，数据能够提取出更有效的特征，以便后续提升音频场景识别的准确率。

之后，针对分帧加窗后的每一帧数据，可以进行快速傅里叶变换(fast fouriertransform，FFT)以得到待识别音频中每一帧相对应的频谱。

当然，在一些例子中，若不对待识别音频进行分帧加窗，也可以直接对待识别音频进行FFT以得到待识别音频对应的频谱。

S203，将频谱通过多个小波滤波器得到待识别音频对应的小波特征。

信号处理及特征提取模块101针对待识别音频对应的频谱，可以通过取平方的方式得到待识别音频所对应的能量谱。当然，在一些例子中，若S201中信号处理及特征提取模块101得到了待识别音频中每一帧相对应的频谱，则可以针对每一帧频谱进行取平方，以得到每一帧对应的能量谱。

之后，可以将待识别音频所对应的能量谱输入至小波滤波器组进行计算，然后取对数以得到待识别音频所对应的小波特征。或是，可以将每一帧对应的能量谱输入至小波滤波器组进行计算，然后对滤波结果取对数以得到每一帧对应的小波特征。可以理解的是，若S201中信号处理及特征提取模块101得到了待识别音频中每一帧相对应的频谱，还可以将各帧对应的频谱一并输入至小波滤波器组进行计算，然后针对每一帧的滤波结果取对数以得到待识别音频所对应的小波特征。显然，此时识别音频所对应的小波特征中包含有每帧对应的小波特征。

其中，每一帧对应的小波特征可以是小波特征谱图。多个小波特征谱图可以进行合并，从而得到小波特征序列。在一个例子中，可以将待识别音频中各帧对应的小波特征谱图全部进行合并，以得到小波特征序列。因此，上述每帧对应的小波特征即小波特征谱图。而上述待识别音频所对应的小波特征可以是小波特征序列。

在一个例子中，小波滤波器组可以包括多个小波滤波器。例如，优选地可以选择290个小波滤波器。因此，小波特征谱图可以是包含290个参数的一维小波特征向量。而小波特征序列可以表示为n*290个参数的二维小波特征向量。其中，n表示为待识别音频的帧数，n为正整数。显然，小波滤波器数量选择290个可以保证音频场景识别准确率提高的前提下，减少对资源的消耗。

可以理解的是，对于小波特征序列，由于其合并了每一帧对应的小波特征谱图，因此在进行传输时可以节省传输数据造成的时间和资源的浪费。

应当注意的是，上述小波滤波器数量的取值仅仅为一种优选方案，在其它例子中还可以根据实际情况选择任意数量的小波滤波器，本发明在此不做限定。

S204，将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器中，以得到至少一个深度嵌入特征序列。

当信号处理及特征提取模块101确定出待识别音频对应的小波特征后，可以将待识别音频对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器102中进行深度特征提取，以得到至少一个深度嵌入特征序列。

在一个例子中，对于具有残差网络结构的神经网络嵌入特征提取器102在进行深度特征提取时，可以对每一帧进行深度特征提取。因此，若待识别音频对应的小波特征为包含有每帧对应的小波特征时，可以分别将每一帧对应的小波特征输入至具有残差网络结构的神经网络嵌入特征提取器102中进行深度特征提取。也就是说，可以将每一帧对应的小波特征谱图输入至具有残差网络结构的神经网络嵌入特征提取器102中进行深度特征提取。

在一个例子中，神经网络嵌入特征提取器102的具体结构可以如图3所示出的。图3为本发明实施例提供的一种神经网络嵌入特征提取器结构示意图。可以看出，神经网络嵌入特征提取器102可以包括多个网络块。例如优选地可以选择4个网络块，即网络块1 301、网络块2 302、网络块3 303和网络块4 304。其中每个网络块的结构均相同。

每个网络块可以包括双路卷积层，双路卷积层顾名思义，即包括两路卷积。其中一路可以包括第一卷积层3011、第一批归一化层3012和平均池化层3013。另一路可以包括第二卷积层3014和第二批归一化层3015。之后，两路卷积的输出经过累加器3016进行叠加，以得到该网络块的深度嵌入特征序列。上述双路卷积可以通过较大的感受野(receptivefield，RF)对特征进行深度映射，其中，感受野即卷积神经网络每一层输出的特征图(feature map)上的像素点在输入图像上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域。当然，若输入为一维向量，则输出的特征图也为一维向量，则感受野即输出的一维特征向量中的一个点对应输入的一维向量上的区域。

可以理解的是，若第一卷积层3011和第二卷积层3014中的卷积核为一维的卷积核，则神经网络嵌入特征提取器102可以对每一帧对应的小波特征谱图进行深度特征提取。若第一卷积层3011和第二卷积层3014中的卷积核为二维的卷积核，则神经网络嵌入特征提取器102在进行深度特征提取时，必须以小波特征序列作为输入进行深度特征提取时。其原因在于，小波特征序列为二维的向量，而小波特征谱图为一维的向量，显然一维的向量无法进行二维卷积。

在一个例子中，以网络块1 301为例进行说明，该网络块的输入可以是信号处理及特征提取模块101输出的小波特征谱图，例如包含290个参数的一维小波特征向量。其中，第一卷积层3011中可以包括1*3的卷积核，且以步长为1进行卷积操作。在一个例子中，卷积核的数量可以设置为4个，以便该网络块可输出4通道的深度嵌入特征序列。第一卷积层3011将输入的包含290个参数的一维小波特征向量进行卷积后，将卷积后的数据输入第一批归一化层3012进行归一化处理。该过程主要是将特征进行归一化，以便进行梯度传播。然后将归一化后的数据经平均池化层3013进行压缩。其中，平均池化层3013中池化的步长可以设置为2，以简化网络复杂度的同时，还可以去除一些冗余信息。

优选地，在第一批归一化层3012输出归一化后的数据后，还可以经过线性整流函数(rectified linear unit,ReLU)进行非线性映射，从而增加非线性因素。避免了线性函数导致的网络表现能力有限的问题。之后，可以将增加了非线性因素的数据输入至平均池化层3013，以进行池化压缩。

为了网络块更好的提取深度嵌入特征，双路卷积层还包括另一路卷积，即第二卷积层3014可以包括1*1的卷积核，步长为2。为了与上述提到的一路卷积的输出相匹配，第二卷积层3014中的卷积核的数量与第一卷积层3011中的卷积核的数量相同，例如4个。可以理解的是，第二卷积层3014的输入与第一卷积层3011的输入相同，均为信号处理及特征提取模块101输出的小波特征谱图。之后，将第二卷积层3014的卷积结果输入至第二批归一化层3015进行归一化处理。然后，网络块1 301可以将两路卷积的结果进行合并，例如通过累加器3016进行相加，从而输出网络块1 301最终的深入嵌入特征序列。可以看出，双路卷积层将两路卷积的结果进行合并，从而构成了残差网络结构。

可以理解的是，另一路卷积主要用于将输入的小波特征进行维度变换，以匹配一路卷积输出的特征。将两路卷积的结果进行合并可以进一步提升深度嵌入特征的信息量。有助于后续进行音频场景识别。

在一些例子中，信号处理及特征提取模块101输出的小波特征谱图可以是双通道的包含290个参数的一维小波特征向量。其中，双通道例如可以是左声道、右声道；又或是两声道均为左声道、右声道的平均值等。可以理解的是，可以根据实际情况进行任意设定双通道中每个通道的数据，还可以根据实际情况设定更多或更少的通道数，本发明不做限定。显然，若网络块1 301输入为双通道的包含290个参数的一维小波特征向量，则经过每个1*3卷积核和1*1卷积核进行双路卷积。若卷积核的数量为4个，网络块1 301的输出为4通道的包含145个参数的深度嵌入特征序列。显然，深度嵌入特征序列中每个通道也可以看做是一维的向量。

在一些例子中，当具有残差网络结构的神经网络嵌入特征提取器102中包含多个网络块，例如4个。则网络块2 302的结构与网络块1 301的结构相同，区别仅在于网络块2302中卷积核的数量是网络块1 301中卷积核的数量的两倍。例如，网络块1 301中卷积核的数量为4，网络块2 302中卷积核的数量为8。当网络块2 302将网络块1 301的输出作为输入时，假设网络块1 301的输出为4通道的包含145个参数的深度嵌入特征序列，则网络块2302的输出为8通道的包含72个参数的深度嵌入特征序列。

同理，网络块3 303、网络块4 304的结构与网络块1 301、网络块2 302的结构相同。区别仅在于网络块3 303中卷积核的数量是网络块2 302中卷积核的数量的两倍。网络块4 304中卷积核的数量是网络块3 303中卷积核的数量的两倍。例如，网络块2 302中卷积核的数量为8，网络块3 303中卷积核的数量为16、网络块4 304中卷积核的数量为32。当网络块3 303将网络块2 302的输出作为输入时，假设网络块2 302的输出为8通道的包含72个参数的深度嵌入特征序列，则网络块3 303的输出为16通道的包含36个参数的深度嵌入特征序列。以及，当网络块4 304将网络块3 303的输出作为输入时，假设网络块3 303的输出为16通道的包含36个参数的深度嵌入特征序列，则网络块4 304的输出为32通道的包含18个参数的深度嵌入特征序列。

可以理解的是，上述深度嵌入特征提取时，优选采用小波特征谱图进行一维卷积。当然，在一些例子中，还可以采用小波特征序列进行二维卷积，或者采用小波特征序列进行一维卷积，本发明不做限定。

在一些例子中，具有残差网络结构的神经网络嵌入特征提取器102的输出可以是至少一个网络块的输出，或是将至少一个网络块的输出和输入的小波特征一并输出。在其它例子中，若网络块具有多个，则具有残差网络结构的神经网络嵌入特征提取器102的输出可以选择任意一个或多个网络块的输出，又或者任意一个或多个网络块的输出以及输入的小波特征。可以理解的是，具有残差网络结构的神经网络嵌入特征提取器102的输出越多，越有利于神经网络分类器103中进行映射。但是同时也会导致神经网络分类器103中一些层的参数更多，并提升神经网络分类器103的复杂度。因此，优选地，具有残差网络结构的神经网络嵌入特征提取器102可以选择上述4个网络块的输出以及输入的小波特征一并输出至神经网络分类器103。既保证了有利于神经网络分类器103中进行映射，同时也使得神经网络分类器103中一些层中的参数适中，避免了神经网络分类器103较高的复杂度。

S205，将待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器中，以确定出待识别音频所对应的音频场景。

当具有残差网络结构的神经网络嵌入特征提取器102在S204中确定出了至少一个深度嵌入特征序列后，可以将其输入的待识别音频对应的小波特征以及至少一个深度嵌入特征序列一并输入至神经网络分类器103中进行映射，以便识别出待识别音频所对应的音频场景。

在一个例子中，神经网络分类器103的结构可以如图4所示出的，图4为本发明实施例提供的一种神经网络分类器结构示意图。可以看出，神经网络分类器103可以包括特征拼接层401和全连接分类层402。进一步的，全连接分类层402可以包括至少一个全连接映射层和结果输出层4024。在一个例子中，优选地，全连接映射层的数量可以为3个，即第一全连接映射层4021、第二全连接映射层4022和第三全连接映射层4023。

例如，首先，特征拼接层401会将输入的所有数据进行特征拼接，例如将所有深度嵌入特征序列拉伸为一维向量。可以理解的是，若神经网络嵌入特征提取器102输出的深度嵌入特征序列为一维的向量时，该特征拼接层401用于将至少一个可能包含多通道的深度嵌入特征序列以及一维的小波特征向量进行拉伸拼接。例如，若神经网络嵌入特征提取器102的输出为双通道的包含290个参数的一维小波特征向量、4通道的包含145个参数的深度嵌入特征序列、8通道的包含72个参数的深度嵌入特征序列、16通道的包含36个参数的深度嵌入特征序列和32通道的包含18个参数的深度嵌入特征序列，则特征拼接层401可以先进行拉伸为1*580、1*580、1*576、1*576、1*576的特征序列，可以看作将多通道拉伸为单通道。之后，再将1*580、1*580、1*576、1*576、1*576的特征序列进行拼接，以得到1*2888的特征序列，即构成了包含2888个参数的深度嵌入特征。

在另一个例子中，如若神经网络嵌入特征提取器102输出的深度嵌入特征序列为二维的向量时，则特征拼接层401用于可以仅进行拼接即可。例如将各个多通道的二维向量直接拼接为通道数更多的二维向量，而无需进行拉伸。当不同的深度嵌入特征序列中参数的维度不同时，则可以根据预设规则进行参数的删减和填补，本发明不做限定。在一些例子中，可以采用补0的方式进行填补。

可以理解的是，本发明优选采用一维的向量进行拉伸和拼接。

当然，在一些例子中，若是特征拼接层401拼接的为二维向量时，则在输入至全连接分类层402之前，还需经过全局池化(global pooling)层，以用于对多通道的向量进行池化，例如针对每个通道上进行池化(pooling)，以得到包含每个通道上池化结果的一维向量。然后将该一维向量输入至全连接分类层402进行音频场景识别。在一个例子中，全局池化(global pooling)层可以采用全局平均池化(global average pooling)。显然，经过全局平均池化后的向量内参数的数量取决于有多少个通道，因此本发明S204中优选采用单帧的一维小波特征向量进行深度特征提取，以便特征拼接层401拼接后的深度嵌入特征内可以有较多的参数。

在一个例子中，以全连接映射层的数量可以为3个为例进行说明，其中，第一全连接映射层4021中的神经元数量可以为2048个，第二全连接映射层4022的神经元数量可以为1024个，以及第三全连接映射层4023的神经元数量可以为1024个。第一全连接映射层4021的输入为特征拼接层401拼接好的一维向量，例如包含2888个参数的深度嵌入特征。当包含2888个参数的深度嵌入特征经过第一全连接映射层4021后，可以输出包含2048个参数的第一深度映射特征，从而达到了对深度嵌入特征的降维映射。第一全连接映射层4021输出的包含2048个参数的第一深度映射特征将经过第二全连接映射层4022进行进一步的降维映射，以得到包含1024个参数的第二深度映射特征，从而进一步提取出更有用的信息。之后，第二全连接映射层4022输出的包含1024个参数的第二深度映射特征将经过第三全连接映射层4023继续降维映射，以得到更有助于音频场景分类的特征，即得到包含1024个参数的第三深度映射特征。

可以理解的是，每个全连接映射层中的神经元数量可以根据实际情况进行任意调整，本发明不做限定。

结果输出层4024中的神经元数量可以为10个，即表示10中不同的音频场景。当然可以根据实际情况进行增减，以适配不同数量的音频场景。在一个例子中，结果输出层4024采用归一化指数函数(softmax)进行概率预测。将第三全连接映射层4023输出的包含1024个参数的第三深度映射特征作为输入进行计算，以得到各个音频场景的概率值。之后，可以根据预设规则以及各个音频场景的概率值，确定出待识别音频所对应的音频场景。

在一个例子中，预设规则可以是，将最大的概率值所对应的音频场景作为待识别音频所对应的音频场景。当然，还可以结合不同音频场景的预设权重以及对应的概率值进行计算，以将计算后最高的数值所对应的音频场景作为待识别音频所对应的音频场景。可以理解的是，还可以采用任意等效的方式根据各个音频场景的概率值确定出待识别音频所对应的音频场景。

在一个例子中，若S204中输出的小波特征为小波特征谱图，以及至少一个深度嵌入特征序列是针对每帧提取到的，则S205中预测得到的音频场景也是基于每帧的。因此，进一步地，还可以在确定出待识别音频中每帧对应的音频场景后，按照每种音频场景进行分类，将包含帧数最多的音频场景作为待识别音频对应的音频场景。当然，还可以对不同的帧设置权重，之后计算各个音频场景在整个待识别音频中出现的占比，将占比最高的音频场景作为待识别音频对应的音频场景。显然，还可以采用任意等效的方式基于每帧对应的音频场景确定出待识别音频对应的音频场景。

本发明中的小波特征可以自适应时频信号分析的要求，同时具有残差网络结构的神经网络可以在大量数据进行训练时，保障提取的深度嵌入特征在识别时具有更高的准确率，以及极大地提升对短时音频的识别性能。

图5为本发明实施例提供的另一种音频场景识别方法流程图。

如图5所示，本发明还提供了另一种音频场景识别方法，该方法在S201之前执行，方法可以包括以下步骤：

S501，采用音频数据训练集对具有残差网络结构的神经网络嵌入特征提取器和神经网络分类器进行训练。

在S201之前，需要对具有残差网络结构的神经网络嵌入特征提取器102和神经网络分类器103进行训练。例如，通过预先配置好的音频数据训练集对上述神经网络嵌入特征提取器102和神经网络分类器103进行训练。

在一个例子中，在训练过程时，神经网络分类器103中全连接映射层的数量若大于等于2个时，可以针对除最后一个全连接映射层之外的其它全连接映射层，采用随机失活(dropout)的方式屏蔽部分神经元。这种方式有助于缓解训练出现的过拟合现象。同时，可以采用交叉熵损失函数在训练时进行梯度反向传播，从而动态调整神经网络嵌入特征提取器102和神经网络分类器103中各个层中的参数，以实现对神经网络嵌入特征提取器102和神经网络分类器103的更新，有助于神经网络嵌入特征提取器102和神经网络分类器103可以收敛到较好的结果。

当经过音频数据训练集中大量的数据训练完成后，执行S201以及后续步骤。以便S204、S205中可以使用训练完成的神经网络嵌入特征提取器102和神经网络分类器103。可以理解的是，在使用过程中，神经网络分类器103中不再采用dropout的方式屏蔽部分神经元。

可以理解的是，在训练时使用的音频数据训练集中的数据是携带有标签的，每个数据的标签即该数据对应的音频场景。

图6为本发明实施例提供的一种音频场景识别装置示意图。

如图6所示，本发明还提供了一种音频场景识别装置600。该装置600可以包括：处理器610、存储器620和总线630。装置600中的处理器610和存储器620可以通过总线630建立通信连接。

存储器620用于存储指令，当处理器610调用存储在存储器620中的指令时，使得处理器610，用于执行上述图1至图5中音频场景识别系统所涉及的任意一种方法。

其中，处理器610可以为CPU。

存储器620可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器620也可以包括非易失性存储器(英文：non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘(harddisk drive，HDD)或固态硬盘(solid state drive，SSD)；存储器620还可以包括上述种类的存储器的组合。

在一个例子中，存储器中可以预先存储训练好的神经网络嵌入特征提取器102和神经网络分类器103相对应的代码，以便可以被处理器610调用并进行音频场景识别。

在另一些例子中，在训练阶段，存储器中可以预先存储原始的神经网络嵌入特征提取器102和神经网络分类器103相对应的代码，以及相应的音频数据训练集，以便可以被处理器610调用并进行模型训练。

当然，可以理解的是，装置600中还可以包括更多其它可能用到硬件设备，例如用于传输数据的I/O接口、发送器、接收器等，本发明在此不作限定。

本发明基于小波特征可以在时频域上具有更好的分辨性，以及基于一维卷积的残差神经网络可以更高效地进行训练，从而提升了音频场景识别的性能。

本发明所涉及的方案可以克服传统音频场景识别系统在大规模训练数据上性能达到瓶颈的问题。相比于传统的音频场景识别系统，可以在大规模数据集上进行训练，突破性能瓶颈。同时，本发明还可以克服基于二维卷积的音频场景识别系统在识别短时音频的场景时性能明显下降的问题。相比于基于二维卷积的音频场景识别系统，可以在短时音频上取得更好的识别效果，提升音频场景识别系统的性能，可以在多种领域快速部署音频场景识别系统。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

19页详细技术资料下载

一种音频场景识别方法、系统及装置

相关技术

网友询问留言