提升使用cnn网络结构的语音任务的性能的方法

文档序号:1783946 发布日期:2019-12-06 浏览:25次 >En<

阅读说明:本技术 提升使用cnn网络结构的语音任务的性能的方法 (Method for improving performance of voice task using CNN network structure ) 是由 陈华官 张志齐 于 2019-09-29 设计创作,主要内容包括:本发明公开了一种提升使用CNN网络结构的语音任务的性能的方法,该方法是在语音频谱图中增加位置嵌入。本发明通过在语音频谱图中增加位置嵌入,使得CNN网络在做卷积时能够利用频率信息做一些差异性的处理,从而提升了使用CNN网络结构的语音识别、声纹识别、语言分类等频率的绝对位置信息比较重要的语音任务的性能。(the invention discloses a method for improving the performance of a voice task using a CNN network structure, which adds position embedding in a voice spectrogram. The invention adds position embedding in the voice spectrogram, so that the CNN network can utilize the frequency information to perform some differential processing when performing convolution, thereby improving the performance of voice tasks which are important by using absolute position information of frequencies such as voice recognition, voiceprint recognition, language classification and the like of the CNN network structure.)

提升使用CNN网络结构的语音任务的性能的方法

技术领域

本发明涉及语音技术领域,特别是涉及一种可以提升使用CNN网络结构的语音任务的性能的方法。

背景技术

直接从音频波形信号中使用SFT(短时傅里叶变化)抽取出语音的频谱图。基于语音的频谱图,使用卷积神经网络(Convolutional Neural Networks,CNN)结构,可以实现语音识别、声纹识别、语言分类等等语音任务。例如,声纹识别(有1:1验证的场景和1:N检索的场景)的常规流程为:随机截取3秒音频,抽成一张F×N维的频谱图,送入CNN网络中,获得声纹特征(例如,512维的向量),然后基于此声纹特征做说话人分类,参见图1所示。网络训练使用的是最传统的SGD+Momentum方法。

一张语音频谱图有时间上的平移不变性,但是没有频率维度上的平移不变性,每一个频率维度都有它的独特性,相同的特征出现在不同的频谱位置,表达的含义不同。在使用CNN网络结构做语音任务时,由于CNN网络假设了时间和频率维度两个方向上的平移不变性,以及假设了CNN学到的kernel对所有频率通用,因此CNN无法抓取到相同特征因频谱位置不同而表达出来的不同含义,这就导致算法对信息利用不足,并最终导致算法性能下降。例如,在语音识别中,不同的元音字母发音差异在于共振峰的频率位置不同,单单截取一小块频谱图(低层CNN看到的情况),不给频率信息,是比较难以分辨它是什么字母的。

发明内容

本发明要解决的技术问题是提供一种提升使用CNN网络结构的语音任务的性能的方法,它可以提升使用CNN网络结构且频率的绝对位置信息比较重要的语音任务的性能。

为解决上述技术问题,本发明的提升使用CNN网络结构的语音任务的性能的方法,是在语音频谱图中增加位置嵌入。

该方法的具体步骤包括:

1)从音频波形信号中抽取出F×N的语音频谱图,其中,F表示频率维度的长度,N表示时间维度的长度;

2)针对语音频谱图上每一个频率和时间位置,增加一个D维的位置嵌入,全部位置嵌入构成一个F×N×D的三维矩阵;

3)将所述F×N×D的三维矩阵和所述语音频谱图合并,形成D+1通道的图片;

4)将所述D+1通道的图片输入到CNN网络中,使用常规SGD方法训练,获得声纹特征并基于此声纹特征进行说话人分类。

所述位置嵌入为随机初始化的、可以学习的权重。

所述F×N×D的三维矩阵可以全部是独立参数,也可以只有F×D个独立参数,按照N这个维度进行共享参数。

较佳的,步骤3),所述F×N×D的三维矩阵和所述频谱图沿着最后一维连接在一起。

所述D+1通道的图片的大小为F×N×(D+1)。

与现有技术相比,本发明通过在语音频谱图中增加位置嵌入,达到了让CNN网络利用频率信息的目的,从而提升了语音识别、声纹识别、语言分类等频率的绝对位置信息比较重要的语音任务的性能。

附图说明

图1是声纹识别的常规流程示意图。

图2是本发明实施例的声纹识别的流程示意图。

具体实施方式

为对本发明的技术内容、特点与功效有更具体的了解,现结合附图及具体实施例,对本发明的技术方案做进一步详细的说明。

参见图2所示,本实施例的声纹识别流程如下:

随机截取3秒音频,抽成一张F×N的频谱图,其中,F表示频率维度上的长度,N表示时间维度上的长度。

针对每一个频率和时间位置,加上一个D维位置嵌入(Position Embedding)。这些位置嵌入都是随机初始化的、可以学习的权重。这些可学习的权重共同构成一个F×N×D的三维矩阵。该三维矩阵可以有两种选择,一种是完全不共享参数,都是独立的参数;另一种是只有F×D个独立的参数,按照N这个维度进行共享参数(即针对每一个频率有一个位置嵌入,每个时间维度上都共享一个位置嵌入)。

将上述F×N×D的三维矩阵和原来的F×N的频谱图合并在一起,形成D+1通道的图片,该图片的大小为F×N×(D+1)。

最后,将上述D+1通道的图片送入CNN网络,按常规SGD方法训练,获得声纹特征,并基于此声纹特征进行说话人分类。

由于每个频率维度上都有不同的可以学习的位置嵌入,这样CNN网络在做卷积时就可以据此获得频谱图特征对应的频率位置信息,从而做一些差异性的处理,使声纹识别的性能得以提升。

5页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音交互方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!