具有多重注意机制的卷积循环神经网络的语音情感识别方法

文档序号:50835 发布日期:2021-09-28 浏览:32次 >En<

阅读说明:本技术 具有多重注意机制的卷积循环神经网络的语音情感识别方法 (Voice emotion recognition method of convolution cyclic neural network with multiple attention mechanisms ) 是由 姜芃旭 梁瑞宇 赵力 徐新洲 陶华伟 于 2021-06-23 设计创作,主要内容包括:本发明公布了一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括:步骤1,提取谱图特征和帧级特征。步骤2,谱图特征输送进CNN模块来学习特征中的时频相关信息。步骤3,多头自注意力层作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤4,一个多维注意层作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤5,处理过的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤6,一个融合层来总结不同模块的输出来增强模型性能。步骤7,利用Softmax分类器对不同情感进行分类。本发明结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。(The invention discloses a voice emotion recognition method of a convolution cyclic neural network with a multiple attention mechanism, which comprises the following steps: step 1, extracting spectrogram features and frame level features. And 2, transmitting the spectrogram characteristics into a CNN module to learn time-frequency related information in the characteristics. And 3, the multi-head self-attention layer acts on the CNN module to calculate the weights of different frames under the global features of different scales, and the features of different depths in the CNN are fused. And 4, a multi-dimensional attention layer acts on the frame-level features of the LSTM input to comprehensively consider the relationship between the local features and the global features. And 5, transmitting the processed frame-level features into an LSTM model to acquire time information in the features. Step 6, a fusion layer summarizes the outputs of different modules to enhance the model performance. And 7, classifying different emotions by using a Softmax classifier. The invention combines a deep learning network, and the module adopts a parallel connection structure to process the characteristics simultaneously, thereby effectively improving the performance of speech emotion recognition.)

具有多重注意机制的卷积循环神经网络的语音情感识别方法

技术领域

本发明涉及语音情感识别

技术领域

,具体涉及一种具有多重注意机制的卷积循环神经网络的语音情感识别方法。

背景技术

语言学研究的重点是挖掘语言中的潜在信息,表征说话者或声音的状态。作为副语言学中的一项情感任务,语音情感识别可以从语音中学习情感的类别,这可以为智能人机交互提供帮助。最近的深度学习的相关研究为语音识别提供了更好地描述语音情感状态的深度模型。最主要的深度学习模型之一是神经网络,它通常用于从低阶声学特征中学习有区别的特征表示。此外,这些与情感相关的工作倾向于以卷积神经网络和基于长短时记忆的递归神经网络为中心,以挖掘语音中的局部信息。CNN经常用于从频谱特征中学习时频信息,而LSTM主要用于提取语音时间序列的序列相关性。

尽管上述的神经网络模型在语言情感识别中得到了成功的应用,但仍存在三个问题需要解决。首先,大多数现有的神经网络模型方法将完整的语音分割成分段,以满足模型输入定长的要求。在这个过程中,不完整的时间信息不可避免地导致情感细节的丢失。其次,大多数基于CNN的方法只将最后一个卷积层作为输出,而没有考虑含有高分辨率低级别信息的隐藏卷积层。第三,现有的基于LSTM的注意力层的语音情感研究通过设置连接在LSTM后端的注意层,在高级表征中对序列进行加权,排除了话语中帧级级特征的时间相关性。

发明内容

技术问题:为了克服现有语音情感识别技术存在的一些问题,本发明公布了一种具有多重注意机制的卷积循环神经网络(CRNN-MA)的语音情感识别方法。

技术方案:一种具有多重注意机制的卷积循环神经网络的语音情感识别方法,包括如下步骤:

步骤A,提取谱图特征和帧级特征分别作为模型不同模块的输入。然后,将这些特征分别输入卷积神经网络(CNN)和长短时记忆循环神经网络(LSTM),采用并行结构同时获取时频信息和序列信。步骤B,谱图特征输送进CNN来学习特征中的时频相关信息。步骤C,多头自注意力层(Multiple Self-Attention)作用于CNN模块来计算不同规模的全局特征下不同帧的权重,并融合CNN中不同深度的特征。步骤D,一个多维注意层(Multi-DimensionalAttention)作用于LSTM输入的帧级特征来综合考虑局部特征与全局特征的关系。步骤E,处理好的帧级特征输送进LSTM模型中来获取特征中的时间信息。步骤F,一个融合层来总结不同模块的输出来增强模型性能。步骤G,利用Softmax分类器对不同情感进行分类。

优选的,步骤A中提取谱图特征的具体步骤包括:将语音进行预加重,分帧,快速傅里叶变换后,将能量谱通过一组Mel尺度的三角形滤波器组,求出谱图特征;然后求出每段谱图特征的一阶差分和二阶差分;步骤A中提取帧级特征的具体步骤包括:每帧语音提取95维的低级描述子,其中包括梅尔频率倒谱系数以及其一阶导,梅儿倒谱及其一阶导,光谱特征、谱平坦度、色谱、过零率和均方根。

优选的,步骤B的具体步骤包括:

将步骤A中的谱图特征及其一阶差分和二阶差分构成的三维谱图特征输送进CNN模块中进行学习;对于CNN模块,使用在ImageNet数据集上训练的AlexNet作为初始模型,该模型一共有五个卷积层和三个池化层,删除网络中的全连击层以更好的匹配多头自注意力层;输入的大小为227*227*3,第一层卷积层包含96个卷积核,大小为11×11,而第二层包含256个卷积核,大小为5×5;最后三个卷积层分别包含384、384和256个卷积核,大小为3×3。

优选的,步骤C的具体步骤包括:

步骤C-1:将步骤B中CNN的三个池化层设置为自注意力层的输入;在自注意力层中,首先将输入进行降维:

Fn=σR(fn*Xn)

其中σR(·)表示ReLU激活函数,“*”为卷积运算,Xn为输入,X1,X2,X3分别表示CNN中的第一个池化层,第二个池化层和第三个池化层;

步骤C-2:添加注意力单元来计算所有帧的相互依赖性,来获得不同帧的权重

αn=Softmax(Vn·Un)

其中,Vn=σS(Fn·Wn+bn),T0是时间维度,W和U为权重,b为偏差,σS表示Sigmoid激活函数,Softmax表示Softmax操作;

步骤C-3:设置一个拥有1024个卷积核的1×1大小的卷积Gn,计算为:

N0表示输入特征的特征维度,然后,在Gn上采用N0×1的最大池化操作:

步骤C-4:多头自注意力层的输出结合了所有的自相关层:

其中,On=Mn·αn∈R1024×1

优选的,步骤D的具体步骤包括:

步骤D-1:多维注意力层中,首先设置一个一通道1×1大小的卷积fT和fN,帧维度和特征维度的输出表示为:

FT=σR(fT*XT)∈RT×N

FN=σR(fN*XN)∈RN×T

其中XT和XN=(XT)T表示多维注意力层的两个维度的输入,T和N分别表示帧维度和特征维度;

步骤D-2:使用注意力单元对不同的帧维度或特征维度进行评分,从而得到不同注意力层的权重为:

αT=Softmax(σR(FT·WT+bT)·UT)∈RT×1

αN=Softmax(σR(FN·WN+bN)·UN)∈RN×1

WT,UT,WN,UN分别代表权重矩阵,bT,bN代表偏差;

步骤D-3:帧维度的输出OT和特征维度的输出ON的输出分别表示为:

其中eT∈RT×1,eN∈RN×1,。表示哈达玛积,然后将ON转置后与OT进行融合,作为LSTM的输入,O(LSTM)∈R1024×1

优选的,步骤E的具体步骤包括:

步骤E-1:LSTM每次的输入分别为当前时间的输入值xt,上一时间的输出值ht-1和上一次的单元状态ct-1,输出分别为当前时间ht和当前状态ct,‘忘记门’ft用于确定单元格丢弃的信息:

ft=σ(Wf[ht-1,xt]+bf)

σ表示激活函数Sigmoid,W和b分别为权重和偏移量,ft的输出为0到1之间,1代表信息全部保留,0代表数据完全抛弃;

步骤E-2:单元格决定要更新的值:

it=σ(Wi[ht-1,xt]+bi)

sigmoid决定将更新哪些值,tanh用于创建一个新的候选值;

步骤E-3:单元状态将更新并输出最终状态:

ht=ot*tanh(Ct)。

优选的,步骤F的具体步骤包括:

步骤F-1:分别优化两个不同模块的输出值,以加快训练的收敛速度:

O(CNN-)=σS(BN(O(CNN)))

O(LSTM-)=σR(BN(O(LSTM)))

其中BN表示批归一化;

步骤F-2:计算CRNN-MA模型的输出:

O(CRNN-MA)=σS([(O(CNN-B))T,[(O(LSTM-BN))T]·W)·V

其中W,V∈R2048×2048表示融合层的权重。

优选的,步骤G的具体步骤包括:softmax表示为:

利用softmax将特征进行归一化处理,f(Vi)为特征值所对应的概率,所有概率的和等于1,如果一个Vi大于其他所有V,那么这个特征值输出的概率就最高,映射分量就逼近与1,其他特征值的映射分量就逼近与0。

有益效果:发明的具有多重注意机制的卷积循环神经网络的语音情感识别方法,结合深度学习网络,模块内部采用并行的连接结构来同时处理特征,能够有效的提升语音情感识别的性能。

附图说明

图1为CRNN-MA模型结构图;

图2为多头自注意力层结构图;

图3为多维注意力层模型结构图。

具体实施方式

提出的CRNN-MA模型的体系结构如图1。首先将谱图特征和帧级特征输入模型。利用CNN中的三个池化层作为多头自注意力模块的输入,获得局部和全局特征之间的关系,多头自注意力模块如图2所示。多维注意力层计算不同框架和特征的权重,如图3所示。然后,融合层用于融合不同的输出,而softmax分类器输出结果。

为了验证所提出的模型的性能,在ABC情感数据库和eNTERFACE情感数据库上进行实验。ABC数据库为德语数据库,由4名男性和4名女性记录的6种不同的情感。共有430个语音样本。eNTERFACE情感数据库包括来自14个不同国家的43名受试者,英文录音,总共有1283个语音样本。

对于ABC数据库,采用LOSO交叉验证策略。在该策略中,每次从数据集中选择一个人的语样本作为实验的测试集,剩余的样本用作训练集。每个人的声音轮流作为测试集。最后,计算出几个试验的平均值。对于eNTERFACE数据库,将数据随机分成8个独立于说话人的样本,其中七个样本中每一个样本包含5个说话人的样本,剩余一个样本中包含8个说话人的样本,进行八次交叉验证。

由于情感类别的不平衡性,加权准确率和未加权准确率被用来评价实验结果。加权准确率是确定正确试样数量与所有试样数量之比。未加权准确率是所有类别精度除以类别数的总和,不考虑每个类别的样本数。

表1显示了多头注意力层对模型性能的影响

表1多头注意力层对CNN的性能比较(%;‘WA/UA’)

数据集 ABC eNTERFACE
CNN 49.2/41.7 70.9/71.0
CNN+多头注意力层 60.9/53.9 71.0/71.1

从表1中可以看出,多头注意力层可以有效的提升模型的情感的识别效果,两个数据库的WA值分别提升了11.7%和0.1%,UA值分别提升了12.2%和0.1%。结果表明,所提出的多头自注意层可以通过捕获CNN模块的时频信息来对CNN进行改进。

表2显示了多维注意力层对LSTM模型性能的影响。

表2多维注意力层对LSTM的性能比较(%;‘WA/UA’)

数据集 ABC eNTERFACE
LSTM 57.2/49.4 71.5/71.6
LSTM+多头注意力层 60.1/52.5 74.3/74.4

从表2中可以看出,多维注意力层同样可以有效的提升模型的识别效果,两个数据库的WA值分别提升了2.9%和2.8%,UA值分别提升了3.1%和2.8%。说明提出的多维注意层在协调情感片段方面是合理的。

表3显示了融合层对于模型性能的提升。

表3融合层对于模型性能的提升(%;‘WA/UA’)

数据集 ABC eNTERFACE
CNN+LSTM 58.0/49.9 74.8/75.0
CRNN-MA(无融合层) 60.3/53.1 75.7/75.6
CRNN-MA 65.3/59.7 78.6/78.6

从表3中我们可以看出提出的CRNN-MA模型取得了最好的实验效果,融合层对不同高级特性的集成使得模型的性能产生了积极的影响;同样,融合层的添加也使模型能够获得更有效的情感信息。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种音频磁头的磁头制造装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!