一种基于深度学习的语音情感识别方法

文档序号：193309 发布日期：2021-11-02 浏览：42次 >En<

阅读说明：本技术 一种基于深度学习的语音情感识别方法 (Speech emotion recognition method based on deep learning ) 是由杨明极高霖于 2021-07-27 设计创作，主要内容包括：一种基于深度学习的语音情感识别方法,属于语音识别领域。现有语音情感识别率低。本发明方法的一种基于深度学习的语音情感识别方法包括,待测语音信息的预处理；情感特征提取；对提取的情感特征参数进行归一化处理的过程；设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统；利用归一化处理的情感特征参数对识别系统进行训练；利用训练后的DNN瓶颈层结合决策树和特征融合的语音情感识别系统对获取待测语音信息进行语音识别。本发明方法提高了语音情感识别率。(A speech emotion recognition method based on deep learning belongs to the field of speech recognition. The existing speech emotion recognition rate is low. The speech emotion recognition method based on deep learning comprises the steps of preprocessing speech information to be detected; extracting emotional characteristics; the normalization processing process is carried out on the extracted emotional characteristic parameters; designing a voice emotion recognition system combining a DNN bottleneck layer with a decision tree and feature fusion; training the recognition system by utilizing the normalized emotional characteristic parameters; and performing voice recognition on the obtained voice information to be tested by using the trained DNN bottleneck layer and combining a decision tree and a voice emotion recognition system with feature fusion. The method improves the speech emotion recognition rate.)

一种基于深度学习的语音情感识别方法

技术领域

本发明涉及一种语音识别方法，特别涉及一种基于深度学习的语音情感识别方法。

背景技术

语音是人类交际常用的一种方式，这种交际方式非常自然，也很快捷，在交际过程中通常也会将自身的情感信息传递给对方，通过情感信息的传递，人与人之间的交流更加方便。所以，在一段语音信号中既包含语义信息，同时也将说话人的情感状态融入其中。近几年，语音情感识别技术已经俨然成为了语音领域以及人工智能领域中的热门研究方向，在这些领域中投入的人力物力也十分多。语音情感识别本质上属于语音信号处理中的一部分，同时也是语音信号处理中比较难的技术，它的具体工作原理是通过提取不同语音信号的不同情感特征参数来实现语音情感分类。

在如今这个信息时代，计算机已经成为人们生活中的一部分。人们渴望计算机可以理解人的话，在生活或工作等场合为人类提供更加便捷的服务。传统的人与计算机的交流只局限于键盘、鼠标以及触摸屏，但这些远远不能满足人们对计算机的要求。要想计算机可以像人类一样交流，那么语言是必不可少的研究内容。目前计算机在识别和合成语音方面都有着不错的成果，但是计算机仍然只是机械地执行人的指令，无法理解人类的情感。情感计算的出现代表了人们首次尝试通过研究人类情感的特征用在计算机上实现人机交互。这一理论是由美国Picard教授提出的。生活中，人类主要通过表情、语音、动作来表达情感，其中语音是最为高效的一种方法。因此，语音情感识别技术的研究也就在这样的背景下产生。语音作为人类日常交流的主要方式，其所承载的情感信息越来越引起研究者的重视，并被应用到人机交互的领域中。

人工智能(Artificial Intelligence，AI)要想发展，离不开语音情感识别技术。实际除了AI，语音情感识别也可用于日常生活。比如在宇宙飞船或者潜艇等单调乏味的工作环境中，工作人员不可避免会比较消极，这时便可利用计算机来识别情绪，从而做出相关指示提高工作效率。在网络课堂中，由于教师处在虚拟教室，所以无法注意学生的情绪变化，这时便可采用语音情感识别通过学生的声音获得其情感，这样不仅可以促进师生了解，而且可以提高学习效率。在电子游戏行业中，可以设计智能玩具，例如索尼公司的ABIO狗就可以根据主人的话，做出喜悦、愤怒、难过等情绪。在医疗行业中，把具备语音情感识别系统的机器人可以和一些孤僻症病人进行交流，从而实时关注他们的情绪和状态，更好地辅助治疗。在服务业中主要可用在客服电话中，这样可随时掌握用户的情绪，从而做出转人工服务等相应的对策来为用户更好地服务。在公安刑侦中，语音情感识别可以帮助警察判断嫌疑人的证词帮助破案。

语音情感识别的应用不但可以使得人们生活更加便利，而且可以给社会带来无法估量的经济效益。但目前，语音情感识别发展还不成熟，基于此情况，本发明主要针对基于深度学习的语音情感识别方法和技术进行了研究，主要是DNN瓶颈层的提取以及如何优化支持向量机并将之用于语音情感识别的具体方法。

发明内容

本发明的目的是为了解决现有语音情感识别率低的问题，而提出一种基于深度学习的语音情感识别方法。

一种基于深度学习的语音情感识别方法，所述方法通过以下步骤实现：

步骤一、获取待测语音信息；

步骤二、待测语音信息的预处理；

所述的语音预处理技术主要包括预加重、加窗、分帧、端点检测等；

步骤三、情感特征提取；

所述的情感特征主要包括能量、过零率、基音频率、梅尔倒谱系数和傅里叶系数；

步骤四、对提取的情感特征参数进行归一化处理的过程，所述的归一化方式选用线性函数归一化方法或0均值归一化方法；

步骤五、设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统；

步骤六、利用归一化处理的情感特征参数对步骤五的识别系统进行训练；

步骤七、利用步骤六训练后的DNN瓶颈层结合决策树和特征融合的语音情感识别系统对获取待测语音信息进行语音识别。

基于

具体实施方式

，优选地，步骤五所述的设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统是指卷积神经网络深浅层特征融合的语音情感识别系统。

基于具体实施方式，优选地，所述的步骤五所述的卷积神经网络深浅层特征融合的语音情感识别系统的具体设计过程为，

第三一、深度神经网络理论基础；

深度神经网络从本质上是一种特殊的多层感知器，包括一个甚至多个隐层，由多个受限玻尔兹曼机相互堆叠构成；主要包括输入层、隐层以及输出层部分；

(1)预训练

受限玻尔兹曼机的神经元只在层间有连接，而在层内是没有连接的；在一个受限玻尔兹曼机中，可见层与隐层中的神经元节点的取值类型不同；在每一个RBM中，可见层中存在着可见层向量v，而隐层中同样存在隐层向量h，它们之间依据能量定理可以得出一定的关系，这种关系被研究者们赋予了一个能量值函数，该能量函数定义为：

训练RBM的过程实质是在学习模型参数，尽可能地拟合输入数据；参数θ一般通过学习的方式让RBM在训练集上的对数似然函数取得最大值的时候而得到；

采用对比散度算法对RBM的参数进行估算，计算公式分别为：

(2)微调

经过预训练后，得到DNN的网络参数；然后在DNN的最顶层添加标签数据，再进行有监督训练，以反向传播算法微调DNN的参数；采用交叉熵准则；

第三二、提取瓶颈特征的DNN；

构建一种改进的DNN，该改进的DNN含有瓶颈层，用于提取相应的瓶颈特征；在DNN的整个训练过程中，无监督地逐层训练每一个DBN，然后在输出层上叠加softmax层构成DNN，最后依据softmax层给出的每个类别的标签，通过BP算法进行网络中参数的微调；将预训练和微调后的DNN作为提取情感特征参数的工具；

当DNN网络训练完成后，去掉网络中瓶颈层之后的所有层，从而得到用于提取瓶颈特征的网络，其提取形式可表示为：

y＝h(x) (3-6)

其中，y∈R^D╳1＝[y₁,…,y_D]^T表示特征参数，D为瓶颈层的节点个数，输入特征向量x＝[x₁,…,x_D]^T

其中，d∈(1,…,D)，l为瓶颈层的节点序号，是第l层的节点i与第l-1层的节点j之间的权重系数，是第l层的节点i的偏置，f()是sigmoid激活函数；至此，将训练数据和测试数据分别输入上述网络得到各自的瓶颈特征，用于后期模型的训练；

第三三、构建基于DNN瓶颈层特征融合的语音情感识别系统；

通过设置瓶颈层的位置提取不同层的瓶颈特征，融合不同瓶颈层的特征来进行分类，构建基于DNN瓶颈层特征融合的语音情感识别系统，包含五个DNN，每个网络中间都是五个隐层，神经元节点数少于其他隐层的即为瓶颈层，再加上一个输入层以及一个输出层共七层；根据隐层中瓶颈层的位置的不同，分别命名为DNN1、DNN2、DNN3、DNN4、DNN5，用来分别提取每个隐层的瓶颈特征，然后将各个隐层的瓶颈特征进行拼接，送入SVM中进行匹配计算，得出最终结果；其中，将两个隐层的瓶颈特征进行融合；

第三四、设计DNN瓶颈层结合特征融合和决策树的语音情感识别系统；

将DNN-决策树的语音情感识别系统和DNN瓶颈层特征融合的语音情感识别系统结合起来，设计DNN瓶颈层结合特征融合和决策树的语音情感识别系统，首先，将两个隐层的瓶颈特征进行融合，然后，将融合后的瓶颈层送入决策树进行匹配计算，得出最终结果。

本发明的有益效果为：

语音作为人类日常生活交流的主要方式，承载着说话人丰富的情感信息。真正意义上的人工智能需要机器从情感层面充分理解人类的意图，因此语音情感识别在未来的人工智能领域具有广阔的应用前景。目前，在语音情感识别的基本框架下，寻找一种具有高区分度的语音情感特征和构建高效的识别模型是当今研究的热点问题，它们的好坏直接影响着整个系统的识别效果。本发明的新颖之处如下：

(1)常用于情感识别的声学特征包括谱相关特征、韵律特征、音质特征以及上述特征的融合特征。这些特征通常只关注时域或频域，而语谱图则以视觉形式来表示语音信号，横轴和纵轴分别表示时间和频率，将语谱图的每个点以图像中的像素点形式呈现出来，通过研究图像特征来挖掘相邻频点之间的关系。语谱图不仅表现了语音的时频特征，而且还反映了说话者的语言特征。本发明利用卷积神经网络和语谱图进行语音情感识别的研究，并提出一个新型卷积神经网络，该网络可以将深层特征和浅层特征融合在一起，得到区分性更大的情感特征，采用目前较为流行的迁移学习的方法进行网络的训练和测试。

(2)针对传统特征不能够挖掘语音信号更深层次的情感信息的问题，本发明设计了一个用于提取瓶颈特征的深度神经网络，并构建了基于DNN-决策树的语音情感识别系统。将DNN网络提取得瓶颈特征先进行特征融合，在与决策树模型进行了结合，构建了DNN瓶颈层结合特征融合和决策树的语音情感识别系统，本发明所提出的识别方法提升了语音情感识别率。

附图说明

图1为本发明方法流程图；

图2为本发明涉及的基于DNN瓶颈层特征融合的语音情感识别系统

图3为本发明涉及的DNN瓶颈层结合特征融合和决策树的语音情感识别系统。

具体实施方式

具体实施方式一：

本实施方式的一种基于深度学习的语音情感识别方法，如图1所示的流程图，所述方法通过以下步骤实现：

步骤一、获取待测语音信息；

步骤二、待测语音信息的预处理；

预处理技术在语音信号处理领域中具有重要意义，在语音情感识别系统中，预处理技术可以在一定程度上提高系统的识别率。常用的语音预处理技术主要包括预加重、加窗、分帧、端点检测等；

步骤三、情感特征提取；

有效的情感特征参数主要包括三大类：音质特征、韵律学特征和基于谱的相关特征。它们分别从不同的方面对语音情感信息进行了表达，且单一的特征识别效果不理想，因此将多种特征进行联合是当今研究的主要方式。同时，由于单一帧特征所含有的情感信息非常有限，这些特征参数通常以帧为单位进行提取，而通过计算全局变量的形式用于语音情感识别中。全局统计变量计算过程中通常以听觉上独立的语句或单词为单位，常用的统计变量为最大值、最小值、方差、中值和均值等。本发明利用的特征主要有能量、过零率、基音频率、梅尔倒谱系数(MFCC)和傅里叶系数。

步骤四、对提取的情感特征参数进行归一化处理的过程。目前，常用的归一化方式有线性函数归一化方法和0均值归一化方法；

在本发明中，由于提取的各类特征参数有着不同的量纲，当将各类特征进行联合时会影响对数据进行分析的效果。为了消除其对整个系统的影响，在训练模型前均对特征参数进行归一化处理的过程。目前，常用的归一化方式有线性函数归一化方法和0均值归一化方法。

步骤五、设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统；

步骤六、利用归一化处理的情感特征参数对步骤五的识别系统进行训练；

步骤七、利用步骤六训练后的DNN瓶颈层结合决策树和特征融合的语音情感识别系统对获取待测语音信息进行语音识别。

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种基于深度学习的语音情感识别方法，步骤五所述的设计DNN瓶颈层结合决策树和特征融合的语音情感识别系统是指卷积神经网络深浅层特征融合的语音情感识别系统。

具体实施方式三：

与具体实施方式二不同的是，本实施方式的一种基于深度学习的语音情感识别方法，所述的步骤五所述的卷积神经网络深浅层特征融合的语音情感识别系统的具体设计过程为，

第一，所述的卷积神经网络是近几年发展迅速的一种深度学习方法，它是一种前馈神经网络，属于多个模块层依次叠加构成的非全连接模型，广泛应用于图像以及自然语音处理等相关领域，卷积神经网络无需对图像进行各种各样的图像处理，只要统一图像大小即可。一个卷积神经网络通常包括输入层、中间层、输出层，中间层由一组或多组“卷积+池化”构成的特征提取层以及全连接层组成，每层由一些二维平面组成，每个平面都包含若干个神经元节点。卷积层作为特征提取层，系统大部分的计算量都集中在该层，是整个卷积神经网络中最为重要的部分，通过卷积计算可以实现图像锐化、降噪等滤波功能，同时也可以提取各种情感语谱图中的声纹、能量等特征，用于后续的分类处理。

卷积神经网络相对于传统的神经网络有几个重要的特点，比如：权值共享、稀疏连接以及端到端等。

第二，所述的特征融合策略是指，典型的卷积神经网络，卷积层主要是用来提取输入图像的特征，对输入图像进行卷积运算，所谓卷积运算就是将卷积核(滤波器)的中心置于需要计算的像素上，逐次计算卷积核中的每个元素和所覆盖的图像的像素值的乘积，并对所有结果进行求和运算，得到新的像素值。卷积核根据设置的步长依次滑动一定长度，分别计算图像的卷积，最终求出整个图像的所有像素值。

池化层将会对上一层卷积操作得到的特征图进行降维处理，池化层以达到图片从高层次特征表达到低层次表达的目的，统计卷积层各个位置处的特征，基于聚合统计的特征，不仅可以改善测试结果，还减小了特征的维度，一般会在不影响训练效果的情况下尽可能减少网络训练过程中的计算量，从而来达到加快训练速度的目的，也在一定程度上避免了训练过程中的过拟合现象。

通常情况下，随着卷积层的深入，特征映射的维度变得越来越小，并且特征变得越来越抽象，语义特征变得越来越明显。但是，全局信息变得越来越模糊。浅层特征可以提供全局信息，但语义特征不明显。仅使用浅层特征或者深层特征来表达语音中的情感信息是不够的。一个完美的卷积神经网络应该综合考虑浅层和深层特征。基于这些操作，对网络的浅层特征进行了池化操作，以便将浅层特征的维度减小到与深层特征相同的维度。将浅层特征和深层特征融合在一起，以生成合适的尺寸特征图，作为最终特征图。

第三，设计瓶颈层结合特征融合和决策树的语音情感识别系统；

第三一、深度神经网络理论基础

深度神经网络从本质上是一种特殊的多层感知器(MLP)，它一般包括一个甚至多个隐层，由多个受限玻尔兹曼机(RBM)相互堆叠构成；主要包括输入层、隐层以及输出层三大组成部分；

(1)预训练

受限玻尔兹曼机(RBM)是一种生成型的神经网络模型，它具有随机性的特点。它实质上是一种由一个可见层和一个隐含层构成的无向图模型。与传统的玻尔兹曼机相比，它的神经元只在层间有连接，而在层内是没有连接的；在一个受限玻尔兹曼机中，可见层与隐层中的神经元节点的取值类型也存在不同；在每一个RBM中，可见层中存在着可见层向量v，而隐层中同样存在隐层向量h，它们之间依据能量定理可以得出一定的关系，这种关系被研究者们赋予了一个能量值函数，该能量函数定义为：

训练RBM的过程实质是在学习模型参数，尽可能地拟合输入数据；参数θ一般通过学习的方式让RBM在训练集上的对数似然函数取得最大值的时候而得到；

采用对比散度算法(Contrastive Divergence，CD)对RBM的参数进行估算，计算公式分别为：

(2)微调

经过预训练后，得到DNN的网络参数；然后在DNN的最顶层添加标签数据，再进行有监督训练，以反向传播算法(Back Propagation，BP)微调DNN的参数；采用BP中典型的交叉熵(Cross Entropy，CE)准则；

第三二、提取瓶颈特征的DNN；

在语音情感识别的领域中，具有高区分度的情感特征参数对于最终的识别率有着至关重要的影响，所以，情感特征提取一直是语音情感识别领域中的研究热点。为了提取具有高区分度的情感特征参数，本发明构建一种改进的DNN，该改进的DNN含有瓶颈层，用于提取相应的瓶颈特征。在DNN的整个训练过程中，无监督地逐层训练每一个DBN，然后在输出层上叠加softmax层构成DNN，最后依据softmax层给出的每个类别的标签，通过BP算法进行网络中参数的微调；整个DNN在预训练和微调两个过程后，充分学习了语音信号中所蕴含的情感信息，挖掘了隐藏在语音中的结构信息，因此，将预训练和微调后的DNN作为提取情感特征参数的工具；

当DNN网络训练完成后，去掉网络中瓶颈层之后的所有层，从而得到用于提取瓶颈特征的网络，其提取形式可表示为：

y＝h(x) (3-6)

其中，y∈R^D╳1＝[y₁,…,y_D]^T表示特征参数，D为瓶颈层的节点个数，输入特征向量x＝[x₁,…,x_D]^T

其中，d∈(1,…,D)，l为瓶颈层的节点序号，是第l层的节点i与第l-1层的节点j之间的权重系数，是第l层的节点i的偏置，f()是sigmoid激活函数。至此，就可以将训练数据和测试数据分别输入上述网络得到各自的瓶颈特征，用于后期模型的训练；

第三三、构建基于DNN瓶颈层特征融合的语音情感识别系统；

为了进一步提高系统的整体识别率，通过设置瓶颈层的位置提取不同层的瓶颈特征，融合不同瓶颈层的特征来进行分类，构建基于DNN瓶颈层特征融合的语音情感识别系统，系统框图如图2所示(其中X、Y为1～5的整数且X≠Y)。在该系统中，一共包含五个DNN，每个网络中间都是五个隐层，神经元节点数少于其他隐层的即为瓶颈层，再加上一个输入层以及一个输出层(输出层神经元节点个数根据情感类别的多少进行相应更改)共七层；根据隐层中瓶颈层的位置的不同，分别命名为DNN1、DNN2、DNN3、DNN4、DNN5(DNN1的五个隐层中的第一隐层作为瓶颈层，DNN2的五个隐层中的第二隐层作为瓶颈层，以此类推)，用来分别提取每个隐层的瓶颈特征，然后将各个隐层的瓶颈特征进行拼接，送入SVM中进行匹配计算，得出最终结果；其中，由于拼接后的特征维数将变得很庞大，导致模型训练时间较长以及前期研究表明太多层的瓶颈特征融合会因为特征冗余导致识别率降低，所以，本发明中将两个隐层的瓶颈特征进行融合。

第三四、设计DNN瓶颈层结合特征融合和决策树的语音情感识别系统；

将DNN-决策树的语音情感识别系统和DNN瓶颈层特征融合的语音情感识别系统结合起来，设计DNN瓶颈层结合特征融合和决策树的语音情感识别系统，系统框图如图3所示。首先，将两个隐层的瓶颈特征进行融合，然后，将融合后的瓶颈层送入决策树进行匹配计算，得出最终结果；相比较前两种方法，该方法提高了语音情感的识别率。

以上仅为本发明的优选实施方式而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

13页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种生成声学特征、语音模型训练、语音识别方法及装置

一种基于深度学习的语音情感识别方法

相关技术

网友询问留言