语音情绪识别模型训练方法及电子设备

文档序号:193315 发布日期:2021-11-02 浏览:29次 >En<

阅读说明:本技术 语音情绪识别模型训练方法及电子设备 (Speech emotion recognition model training method and electronic equipment ) 是由 简仁贤 许曜麒 林长洲 于 2021-08-31 设计创作,主要内容包括:本发明公开了一种语音情绪识别模型训练方法及电子设备,方法包括:获取语者识别语料;从所述语者识别语料中提取频域特征数据;使用所述频域特征数据进行训练,获得语音情绪特征抽取器;获取语音情绪语料;利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据;使用语音情绪特征数据进行训练,获得语音情绪识别模型。本发明仅需少量的语音情绪语料就能使得训练得到的语音情绪识别模型也具有较高的精确度。(The invention discloses a speech emotion recognition model training method and electronic equipment, wherein the method comprises the following steps: obtaining speaker identification corpora; extracting frequency domain characteristic data from the speaker identification corpus; training by using the frequency domain characteristic data to obtain a speech emotion characteristic extractor; acquiring a voice emotion corpus; extracting voice emotion feature data from the voice emotion corpus by using the voice emotion feature extractor; and training by using the voice emotion characteristic data to obtain a voice emotion recognition model. The method can ensure that the trained speech emotion recognition model has higher accuracy only by a small amount of speech emotion corpora.)

语音情绪识别模型训练方法及电子设备

技术领域

本发明涉及语音情绪识别技术领域,尤其涉及语音情绪识别模型训练方法及电子设备。

背景技术

目前,深度学习在各领域的效果表现非常卓越,具有运算硬件性能提升、模型架构深化等影响。其中,所用到的训练语料的规模大小是所能到达上述效果的最关键因素。语音情绪识别是可以实现的深度学习的一种,但是语音情绪识别的语料量非常稀少,无法应用深度学习达到更好的识别效果。相较之下语音识别、语者识别能取得的训练语料则是语音情绪识别的数干倍、数万倍。

要解决语音情绪识别训练数据不足的问题,最直接的做法即是广泛收集、录制语料,但语料收集属于高成本的任务,尤其语音情绪识别的语料收集成本更是比其他领域更高。一般来说语音情绪识别可先区分四类较常用的类别:生气(Angry)、高兴(Happy)、中立(Neutral)、悲伤(Sad),收集相关的语音情绪语料则需要找专业演员来录制,并非一般语者可以演绎。甚至到更进阶的情绪类别:惊讶、恐惧、厌恶、蔑视、疑惑,更是大副提升了收集难度。这种方式的可行性不高。

发明内容

本发明的目的在于提供一种语音情绪识别模型训练方法,仅需少量的语音情绪语料就能使得训练得到的语音情绪识别模型也具有较高的精确度。

实现上述目的的技术方案是:

本申请提供一种语音情绪识别模型训练方法,包括:

获取语者识别语料;

从所述语者识别语料中提取频域特征数据;

使用所述频域特征数据进行训练,获得语音情绪特征抽取器;

获取语音情绪语料;

利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据;

使用语音情绪特征数据进行训练,获得语音情绪识别模型。

在一实施例中,所述从所述语者识别语料中提取频域特征数据,包括:

将所述语者识别语料的语音经过傅里叶变换,获得第一变换结果;

将所述第一变换结果通过梅尔滤波器产生第一梅尔频率倒谱系数特征,作为频域特征数据。

在一实施例中,所述使用所述频域特征数据进行训练,获得语音情绪特征抽取器,包括:

依次完成多次迭代过程,每次迭代过程包括:

随机选择一部分所述频域特征数据作为当前语者模型输入;

使用当前语者模型输入对当前语者识别模型进行训练,并通过前向传播算法获取语音情绪特征值;

将语音情绪特征值和语音情绪特征真实值的差距记为第一最小化交叉熵;

根据第一最小化交叉熵判断当前语者识别模型是否满足收敛条件,若满足,将当前语者识别模型作为最终语者识别模型;若不满足,迭代次数加1,以所述语音情绪特征值逐步靠近语音情绪特征真实值为目标,通过反向传播算法更新当前语者识别模型的参数,进行一下个迭代过程;

将最终语者识别模型作为语音情绪特征抽取器。

在一实施例中,所述利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据,包括:

将所述语音情绪语料的语音经过傅里叶变换,获得第二变换结果;

将所述第二变换结果通过梅尔滤波器产生第二梅尔频率倒谱系数特征;

将第二梅尔频率倒谱系数特征输入语音情绪特征抽取器,获得语音情绪特征数据。

在一实施例中,所述使用语音情绪特征数据进行训练,获得语音情绪识别模型,包括:

依次完成多次迭代过程,每次迭代过程包括:

随机选择一部分所述语音情绪特征数据作为当前情绪模型输入;

使用当前情绪模型输入对当前情绪识别模型进行训练,并通过前向传播算法获取语音情绪类别值;

将语音情绪类别值和语音情绪类别真实值的差距记为第二最小化交叉熵;

根据第二最小化交叉熵判断当前情绪识别模型是否满足收敛条件,若满足,将当前情绪识别模型作为最终情绪识别模型;若不满足,迭代次数加1,以所述语音情绪类别值逐步靠近语音情绪类别真实值为目标,通过反向传播算法更新当前情绪识别模型的参数,进行一下个迭代过程;

将最终情绪识别模型作为语音情绪识别模型。

在一实施例中,所述当前语者识别模型采用ECAPA-TDNN(Emphasized ChannelAttention,Propagation and Aggregation in Time-Delay Neural Network);

所述语音情绪特征真实值通过所述语者识别语料获取。

在一实施例中,所述当前情绪识别模型采用多层感知器;

所述语音情绪类别真实值通过所述语音情绪语料获取。

在一实施例中,将所述第二梅尔频率倒谱系数特征输入语音情绪特征抽取器,语音情绪特征抽取器的倒数第二层生成向量值,提取该向量值作为语音情绪特征数据。

在一实施例中,所述收敛条件为:满足条件一或条件二,

条件一:第一最小化交叉熵或第二最小化交叉熵停止变化;

条件二:迭代次数达到200次。

本申请提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为执行权利要求1-8任意一项所述语音情绪识别模型训练方法。

本发明的有益效果是:本发明应用大量语者识别语料并以语者识别任务为目标训练语者识别模型,可以抽取更丰富的语音特征,基于该语音特征在少量语音情绪语料的情况下训练获得语音情绪识别模型,解决现有技术中语音情绪语料不足的问题,通过少量语音情绪语料也能获得高精确度的语音情绪识别模型,效果好于利用传统的支持向量机(Support Vector Machine,SVM)进行语音情绪识别。同时,本发明在各情绪类别的预测比传统方法更平衡,不易偏向某些数据数量较多的情绪类别。

附图说明

图1是本申请实施例提供的语音情绪识别模型训练方法的流程图;

图2是本申请实施例提供的语音情绪识别方法的流程图;

图3是本申请实施例提供的语音情绪识别模型训练装置的结构图;

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合附图对本发明作进一步说明。

目前,语音情绪识别的语料量非常稀少,主要是因为语音情绪语料收集难度大、成本高。一般收集相关的语音情绪语料需要找专业演员来录制,一般语者难以演绎,所以收集难度大,收集数量难以达到较大规模。另外,有些进阶的情绪类别(例如:惊讶、恐惧、厌恶、蔑视、疑惑),更是大副提升了收集难度。因此,如果依靠少量的语音情绪语料以语音情绪识别任务为目标进行训练,得到的语音情绪识别模型的识别效果有限,难以得到较高的精确度。

为解决上述问题,仅靠少量语音情绪语料也能获得较高精确度的语音情绪识别模型。本发明提供了一种语音情绪识别模型训练方法、装置、电子设备及计算机可读存储介质,以语者识别语料以及语者识别模型来辅助语音情绪识别,应用大量语者识别语料并以语者识别任务为目标训练的深度学习模型抽取更丰富的语音特征,基于该语音特征在少量语音情绪语料上训练模型,得到获得较高精确度的语音情绪识别模型。本发明可以通过相应的软件、硬件或软硬结合的方式实现,以下对本发明实施例作详细介绍。

请参阅图1,本申请实施例提供一种语音情绪识别模型训练方法,该方法可以由电子设备执行,该方法包括如下步骤:

步骤S100,获取语者识别语料。

本实施例中,因为语者识别语料的丰富性、易得性,可以方便地获得大量的语者识别语料。以语者识别语料训练深度学习模型。

步骤S101,从所述语者识别语料中提取频域特征数据。

本实施例中,首先将语者识别语料的语音经过傅里叶变换,获得第一变换结果;将第一变换结果通过梅尔滤波器产生第一梅尔频率倒谱系数特征,作为频域特征数据。

步骤S102,使用频域特征数据进行训练,获得语音情绪特征抽取器。

本实施例中,使用ECAPA-TDNN作为语者识别模型,以分类不同语者为目标对ECAPA-TDNN进行参数更新。具体采用如下步骤实现步骤S102。

1)依次完成多次迭代过程,每次迭代过程包括:

11)随机选择一部分频域特征数据作为当前语者模型输入。

12)使用当前语者模型输入对当前语者识别模型进行训|练,并通过前向传播算法获取语音情绪特征值。

13)将语音情绪特征值和语音情绪特征真实值的差距记为第一最小化交叉熵。

14)根据第一最小化交叉熵判断当前语者识别模型是否满足收敛条件,若满足,将当前语者识别模型作为最终语者识别模型;若不满足,迭代次数加1,以语音情绪特征值逐步靠近语音情绪特征真实值为目标,通过反向传播算法更新当前语者识别模型的参数,进行一下个迭代过程。

2)将最终语者识别模型作为语音情绪特征抽取器。

本实施例中,交叉熵是一個损失函数,机器学习的模型训练通常都是定义一個损失函数,并以最小化该函数为目的做参数更新。而交叉熵大概来说就是计算语音情绪特征值与语音情绪特征真实值的差距,而最小化交叉熵就是目标,而整个训练过程会不断迭代。语音情绪特征真实值是从语者识别语料取得的标准答案,而最小化交叉熵目的就是促使语音情绪特征值的表示更接近语音情绪特征真实值的一种参数估测目标。其中,每经过一个迭代过程,更新一次当前语者识别模型的参数,更新参数后的当前语者识别模型作为下一个迭代过程的当前语者识别模型(在需要下一次迭代时)或者最终语者识别模型(收敛条件满足时)。最初的当前语者识别模型是初始的ECAPA-TDNN。

上述的收敛条件是指满足条件一或条件二,其中,条件一:第一最小化交叉熵停止变化;条件二:迭代次数达到200次。上述获得的语音情绪特征抽取器可以抽取语音情绪特征。

步骤S103,获取语音情绪语料。

本实施例中,可以获取少量的语音情绪语料,以此为基础训练语音情绪识别模型。获取的语音情绪语料可分为四种类别:生气(Angry)、高兴(Happy)、中立(Neutral)、悲伤(Sad),其重点在录制的语者的说话情绪而非说话内容,说话内容则不受语言、文字意图所限制。

步骤S104,利用所述语音情绪特征抽取器从所述语音情绪语料中提取语音情绪特征数据。

本实施例中,首先将语音情绪语料的语音经过傅里叶变换,获得第二变换结果。将第二变换结果通过梅尔滤波器产生第二梅尔频率倒谱系数特征;将第二梅尔频率倒谱系数特征输入语音情绪特征抽取器,获得语音情绪特征数据。具体地,将第二梅尔频率倒谱系数特征输入语音情绪特征抽取器,在语音情绪特征抽取器的倒数第二层生成向量值,提取该向量值作为语音情绪特征数据,倒数第二层指ECAPA-TDNN从输出层向输入层数第二层。

步骤S105,使用语音情绪特征数据进行训练,获得语音情绪识别模型。

本实施例中,使用多层感知器(Multilayer Perceptron,MLP)作为语音情绪识别模型,以分类不同情绪类别为目标对多层感知器进行参数更新。具体采用如下步骤实现步骤S105。

1)依次完成多次迭代过程,每次迭代过程包括:

11)随机选择一部分所述语音情绪特征数据作为当前情绪模型输入;

12)使用当前情绪模型输入对当前情绪识别模型进行训练,并通过前向传播算法获取语音情绪类别值;

13)将语音情绪类别值和语音情绪类别真实值的差距记为第二最小化交叉熵;

14)根据第二最小化交叉熵判断当前情绪识别模型是否满足收敛条件,若满足,将当前情绪识别模型作为最终情绪识别模型;若不满足,迭代次数加1,以所述语音情绪类别值逐步靠近语音情绪类别真实值为目标,通过反向传播算法更新当前情绪识别模型的参数,进行一下个迭代过程;

2)将最终情绪识别模型作为语音情绪识别模型。

其中,每经过一个迭代过程,更新一次当前情绪识别模型的参数,更新参数后的当前情绪识别模型作为下一个迭代过程的当前情绪识别模型(在需要下一次迭代时)或者最终情绪识别模型(收敛条件满足时)。最初的当前情绪识别模型是初始多层感知器。

本实施例中,上述的收敛条件是指满足条件一或条件二,其中,条件一:第二最小化交叉熵停止变化;条件二:迭代次数达到200次。

上述的语音情绪类别真实值是从语音情绪语料取得的标准答案,而最小化交叉熵目的就是促使语音情绪类别值的表示更接近语音情绪类别真实值的一种参数估测目标。

本实施例中,经过步骤S100-105处理后,得到语音情绪识别模型,之后可以使用语音情绪特征抽取器抽取语音情绪特征并输入语音情绪识别模型进行语音情绪识别,效果比传统的支持向量机更好。并且更加平衡,不易偏向某些数据数量较多的情绪类别。

在一实施例中,本申请对用户说出的“我想要的公平都是不公们虚构的”(其语音为高亢激昂且愤怒的语调)进行语音情绪识别。具体地,本申请提供一种语音情绪识别方法,如图2所示,具体包括如下步骤:

步骤S201,按照上述步骤S100-步骤S102,获得语音情绪特征抽取器。

步骤S202,按照上述步骤S103-步骤S105,获得语音情绪识别模型。

步骤S203,使用语音情绪特征抽取器提取待识别语音的语音情绪特征。

本实施例中,待识别语音为“我想要的公平都是不公们虚构的”。具体地,将待识别语音经过傅里叶变换从时域变到频域,获得相应的变换结果,再将变换结果通过梅尔滤波器产生梅尔频率倒谱系数特征,梅尔频率倒谱系数特征为待识别语音的频域特征。再将该频域特征输入到语音情绪特征抽取器中,提取到语音情绪特征。

步骤S204,使用语音情绪识别模型对待识别语音的语音情绪特征进行预测,获得待识别语音(“我想要的公平都是不公们虚构的”)的语音情绪识别结果【生气(Angry)】。

以上,经过步骤S201-204处理,获得语音情绪识别结果【生气(Angry)】,相比较传统语音情绪识别技术,识别准确率更高,并且不会因为某些数据的数量多而偏向这类情绪类别。

下述为本申请装置实施例,可以用于执行上述语音情绪识别模型训练方法实施例。对于本申请装置实施例中未披露的细节,请参照上述的语音情绪识别模型训练方法实施例。

请参阅图3,本发明提供一种语音情绪识别模型训练装置,包括:语者识别语料获取模块301、频域特征数据提取模块302、语音情绪特征抽取器训练模块303、语音情绪语料获取模块304、语音情绪特征数据提取模块305、语音情绪识别模型训练模块306。

语者识别语料获取模块301,获取语者识别语料。

频域特征数据提取模块302,从所述语者识别语料中提取频域特征数据。

语音情绪特征抽取器训练模块303,使用频域特征数据进行训练,获得语音情绪特征抽取器。

语音情绪语料获取模块304,用于获取语音情绪语料。

语音情绪特征数据提取模块305,用于利用语音情绪特征抽取器从语音情绪语料中提取语音情绪特征数据。

语音情绪识别模型训练模块306,使用语音情绪特征数据进行训练,获得语音情绪识别模型。

本实施例中,频域特征数据提取模块302进一步包括子模块:

第一傅里叶变换模块,将语者识别语料的语音经过傅里叶变换,获得第一变换结果。

第一梅尔滤波模块,将第一变换结果通过梅尔滤波器产生第一梅尔频率倒谱系数特征,作为频域特征数据。

语音情绪特征抽取器训练模块303进一步包括子模块:

第一选择模块,随机选择一部分频域特征数据作为当前语者模型输入。

语音情绪特征值获取模块,使用当前语者模型输入对当前语者识别模型进行训练,并通过前向传播算法获取语音情绪特征值。

第一最小化交叉熵模块,将语音情绪特征值和语音情绪特征真实值的差距记为第一最小化交叉熵。

第一收敛判断模块,根据第一最小化交叉熵判断当前语者识别模型是否满足收敛条件,若满足,将当前语者识别模型作为最终语者识别模型;若不满足,迭代次数加1,以所述语音情绪特征值逐步靠近语音情绪特征真实值为目标,通过反向传播算法更新当前语者识别模型的参数,进行一下个迭代过程,迭代过程指重新选择一部分频域特征数据进行上述过程。收敛条件是指满足条件一或条件二,其中,条件一:第一最小化交叉熵停止变化;条件二:迭代次数达到200次。上述获得的语音情绪特征抽取器可以抽取语音情绪特征。

语音情绪特征抽取器获取模块,将最终语者识别模型作为语音情绪特征抽取器。

语音情绪特征数据提取模块305进一步包括子模块:

第二傅里叶变换模块,将语音情绪语料的语音经过傅里叶变换,获得第二变换结果。

第二梅尔滤波模块,将第二变换结果通过梅尔滤波器产生第二梅尔频率倒谱系数特征。

语音情绪特征数据提取模块,将第二梅尔频率倒谱系数特征输入语音情绪特征抽取器,在语音情绪特征抽取器的倒数第二层生成向量值,提取该向量值作为语音情绪特征数据。

语音情绪识别模型训练模块306进一步包括子模块:

第二选择模块,随机选择一部分语音情绪特征数据作为当前情绪模型输入。

语音情绪类别值模块,使用当前情绪模型输入对当前情绪识别模型进行训练,并通过前向传播算法获取语音情绪类别值。

第二最小化交叉熵模块,将语音情绪类别值和语音情绪类别真实值的差距记为第二最小化交叉熵。

第二收敛判断模块,根据第二最小化交叉熵判断当前情绪识别模型是否满足收敛条件,若满足,将当前情绪识别模型作为最终情绪识别模型;若不满足,迭代次数加1,以所述语音情绪类别值逐步靠近语音情绪类别真实值为目标,通过反向传播算法更新当前情绪识别模型的参数,进行一下个迭代过程,迭代过程指重新选择一部分语音情绪特征数据进行上述过程。收敛条件是指满足条件一或条件二,其中,条件一:第二最小化交叉熵停止变化;条件二:迭代次数达到200次。

语音情绪识别模型获取模块,将最终情绪识别模型作为语音情绪识别模型。

请参阅图4,本发明提供一种电子设备,该电子设备400包括处理器401,以及用于存储处理器401可执行指令的存储器402。其中,处理器401被配置为执行上述任一实施例中的语音情绪识别模型训练方法。

处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetwordProcessor,NP)等;也可以是处理信号器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。

存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM),可编程只读存储器(Programmable Read-Only Memory,PROM),只读存储器(Read-only Memory,ROM),磁存储器,快闪存储器,磁盘或光盘。存储器402中还存储有一个或多个模块,分别借由该一个或多个处理器401执行,以完成上述一实施例中的语音情绪识别模型训练方法步骤。

本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器401执行以完成上述任一实施例中的语音情绪识别模型训练方法。

在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并列地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请上述各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储其(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于意图识别的流程节点跳转方法、装置、设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!