基于dnn和频带内互相关系数的单通道语音增强算法

文档序号:1143067 发布日期:2020-09-11 浏览:19次 >En<

阅读说明:本技术 基于dnn和频带内互相关系数的单通道语音增强算法 (Single-channel speech enhancement algorithm based on DNN and in-band cross-correlation coefficient ) 是由 张天骐 张晓艳 周琳 张刚 白杨柳 于 2020-06-04 设计创作,主要内容包括:本发明请求保护一种基于深度神经网络(Deep Neural Network,DNN)和频带内互相关系数的单通道语音增强算法,属于语音信号处理领域。首先,提取带噪语音的能量谱作为DNN的输入特征;接着,将噪声与带噪语音的频带内互相关系数(inter-channel correlation factor,ICC factor)作为DNN的训练目标;然后,利用DNN模型得到的互相关系数构造凸优化的目标函数;最后,联合DNN和凸优化,利用梯度下降法迭代处理初始掩蔽,通过新的掩蔽合成增强语音。仿真实验表明,在不同背景噪声的低信噪比下,相比其他方法,本发明方法可以有效重构语音频谱成分,提升了语音的整体质量并且可以抑制噪声,具有重要的工程实际意义。(The invention requests to protect a single-channel speech enhancement algorithm based on Deep Neural Network (DNN) and in-band cross-correlation coefficients, belonging to the field of speech signal processing. Firstly, extracting an energy spectrum of a voice with noise as an input feature of DNN; then, taking an inter-channel correlation factor (ICC factor) of the noise and the voice with noise as a training target of the DNN; then, constructing a convex optimized objective function by utilizing the cross-correlation coefficient obtained by the DNN model; and finally, combining DNN and convex optimization, carrying out iterative processing on the initial mask by using a gradient descent method, and synthesizing and enhancing the voice by using the new mask. Simulation experiments show that under the condition of low signal-to-noise ratios of different background noises, compared with other methods, the method disclosed by the invention can effectively reconstruct the voice frequency spectrum components, improves the overall quality of voice, can inhibit noise and has important engineering practical significance.)

基于DNN和频带内互相关系数的单通道语音增强算法

技术领域

本发明涉及语音信号处理领域,具体为一种基于深度神经网络(Deep NeuralNetworks,DNN)和频带内互相关系数的单通道语音增强算法。

背景技术

语音增强在语音信号处理领域一直备受关注。语音增强旨在抑制带噪语音中的噪声成分或构造噪声掩蔽,提升增强语音的听感和整体质量,常用于自动语音识别、助听器、通讯等领域。根据传声器数量的多少,语音增强可以分为单通道语音增强和多通道语音增强。相比多通道语音增强,单通道语音增强只需要一个传声器,具有成本低、易于实现等优点,受到了广泛关注。

根据是否需要语音和噪声的先验信息,单通道语音增强算法可分为有监督和无监督两大类。但是研究表明,传统的无监督增强算法并不能提高语音的可懂度。近年来,单通道语音增强问题主要由基于数据训练的有监督语音增强算法来解决。其中,以基于DNN的算法为代表,在语音增强中的应用更为广泛。基于DNN的有监督语音增强算法,借助DNN的深层非线性结构,擅长处理高维数据,可以充分挖掘语音信号的上下文信息,学***稳噪声和低信噪比下显示出明显的优势。

凸优化研究的是定义在凸集上的凸函数(目标函数)最小化问题,该方法已经普及到通信以及信号处理方面的优化问题中。相较于一般的数学最优化问题,凸优化的特殊性在于局部最优值必然是全局最优值。在单通道语音增强中,当带噪语音和噪声的能量谱已知的条件下,计算目标语音的能量谱可看作一个凸优化过程。在单通道语音增强算法中,首先要估计噪声,但由于噪声的不确定性,噪声估计难免产生过估,影响语音的整体质量。为解决噪声过估问题,Bao等在文献(BAO F,ABDULLA W H.Noise masking method based onan effective ratio mask estimation in Gammatone channels[J].Asia-PacificSignal and Information Processing Association Transactions on Signal andInformation Processing,2018,7.)利用gammatone滤波器组的非线性特征,首先计算带噪语音和噪声在各频带内的互相关系数,然后利用凸优化算法迭代处理初始掩蔽,得到语音能量谱的估计值。但该方法还要对语音能量谱做聚类处理,由于聚类方法的准确性要求很高,恢复的增强语音的听感和可懂度可能达不到预期效果。Ge等对初始掩蔽做了改进,在文献(葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法[J].计算机应用,2019,39(10):3065-3070.)提出一种结合改进直接判决(Decision Directed,DD)算法和频带内互相关系数(Inter-channel correlation factor,ICC factor)的掩蔽估计与优化算法。但该算法无法有效抑制噪声,影响了增强语音的整体质量。

鉴于此,本发明提出一种基于DNN和频带内互相关系数的单通道语音增强算法,优化后的算法可以在增加掩蔽中的语音成分的同时,有效提升噪声抑制效果,得到更接近目标语音的增强语音。

发明内容

本发明所要解决的技术问题,是针对当前语音增强算法噪声抑制效果差的问题,提出一种基于DNN和频带内互相关系数的单通道语音增强算法。优化后的算法可以在增加掩蔽中的语音成分的同时,有效提升噪声抑制效果,得到更接近目标语音的增强语音。

本发明解决上述技术问题而提出的技术方案的实施办法为:首先提取带噪语音时频单元级别的特征,将带噪语音能量谱作为DNN的输入特征;接着为利用带噪语音和噪声的相关信息,以各频带内带噪语音与真实噪声的互相关系数,即噪声存在概率作为DNN的训练目标,训练DNN模型;然后,以理想比值掩蔽(Ideal Ratio Mask,IRM)为凸优化的优化目标,利用DNN模型得到的互相关系数估计值构造凸优化的目标函数;最后,采用改进DD算法得到初始掩蔽,联合DNN和凸优化,采用梯度下降法对初始掩蔽迭代优化。利用迭代得到的“新掩蔽”和带噪语音合成增强语音。

语音增强的主要目的是抑制噪声,从带噪语音中获得感兴趣的语音。本发明采用CASA中的gammatone滤波器组处理语音信号,将其由一维时域变换到二维时频域,分到带宽和中心频率各不相同的128个频带内。然后采用交叠分段的方法,对每个频带内的语音信号进行分帧加窗处理,得到时频单元序列,计算各时频单元的能量得到语音信号的能量谱。假定带噪语音由纯净语音和噪声加性合成,纯净语音和噪声相互独立。带噪语音经滤波器组处理后,其能量可以表示为:

Y(t,f)=R(t,f)+D(t,f) (1)

其中,t为时间帧,f为中心频率,Y(t,f)、R(t,f)和D(t,f)分别表示带噪语音、纯净语音和噪声的能量。

CASA语音增强通过掩蔽和带噪语音得到增强语音,本发明语音增强的计算目标是一个理想比值掩蔽(IRM),由IRM和带噪语音合成增强语音,理想比值掩蔽表示为:

得到带噪语音能量谱后,利用噪声估计方法得到噪声的能量谱。在带噪语音和噪声的能量谱已知的条件下,计算可看作一个凸优化过程。凸优化实质是以目标语音的能量R(t,f)为优化目标,通过缩小计算得到的

Figure BDA0002523500760000033

与Y(t,f)-D(t,f)的差值,使目标语音的能量估计值更接近最优值。但是语音能量取值范围为(0,+∞),且各个时频单元内的能量各不相同,导致每次迭代计算

Figure BDA0002523500760000034

的计算量很大。本发明以基于CASA的计算目标理想比值掩蔽MR(t,f)代替R(t,f),作为凸优化的优化目标,表示为:

Figure BDA0002523500760000035

其中,

Figure BDA0002523500760000036

每次迭代的计算量远远小于以为优化目标。

目标函数J[MR(t,f)]的表达式为:

Figure BDA0002523500760000038

式中,为带噪语音的掩蔽,ρ(t,f)为带噪语音和噪声的频带内互相关系数,λ=0.01。

噪声估计难免存在误差,如果对噪声过估,语音能量的估计值可能会出现负值。虽然可以借助补偿手段消去这些负值,但是会损失语音成分,使语音的听感和可懂度变差。为解决噪声过估问题,目标函数中引入带噪语音和噪声的频带内互相关系数ρ。

带噪语音和噪声的频带内互相关系数ρ(t,f)∈[0,1],表达式为:

Figure BDA0002523500760000041

式中,yt,f和dt,f分别为时间帧为t、频带中心频率为f的时频单元内,带噪语音和估计噪声的时域信号经过离散傅里叶变换后的幅度谱,符号T表示矩阵转置。

Figure BDA0002523500760000042

分别为yt,f和dt,f的平均值。

带噪语音与噪声的互相关系数的计算是基于在非语音段,带噪语音和噪声的幅度谱有某种相关性。

然而从式(5)可以看出,利用公式计算ρ,要先对噪声进行估计,噪声估计不可避免会引入误差。为利用ρ解决噪声过估问题的同时,避免新的噪声估计误差的引入,影响增强语音整体质量,本发明利用DNN的深层非线性结构,通过训练一个DNN模型从带噪语音中得到互相关系数。

训练阶段是一个不断更新权重和偏置的过程。测试阶段,输入带噪语音的特征,通过训练好的DNN模型,得到训练目标的预测值

Figure BDA0002523500760000044

构造凸优化的目标函数。通过凸优化算法不断减小MY(t,f)-ρ(t,f)·MY(t,f)-MR(t,f)的值,不满足迭代条件时停止,得到目标语音的掩蔽估计

Figure BDA0002523500760000045

以理想比值掩蔽为优化目标的凸优化是在优化掩蔽,使目标语音的掩蔽估计值更接近最优值。本发明利用基于DNN的噪声存在概率估计值

Figure BDA0002523500760000046

构造凸优化的目标函数,联合DNN和凸优化,采用凸优化算法迭代处理初始掩蔽。

目标函数确定后,采用梯度下降法求算法中第k次迭代时梯度▽k的计算公式如下:

Figure BDA0002523500760000048

对MR(t,f)的第k次迭代结果为:

其中,μ为每次迭代的步长,μ=0.01。迭代停止条件为:

其中,θ=0.0001。

附图说明

图1本发明的算法结构示意图;

图2本发明互相关系数和带噪语音时域波形的比较;

图3本发明的DNN结构图;

图4本发明各算法进行语音增强的频谱图;

具体实施方式

以下结合附图和具体实例,对本发明的实施作进一步的描述。

图1所示为本发明的算法流程示意图,具体步骤如下:

1)确定迭代初值

Figure BDA0002523500760000052

由改进DD算法做掩蔽估计,得到初始掩蔽令k=0,将初始掩蔽作为凸优化的迭代初值

Figure BDA0002523500760000054

2)确定凸优化的优化目标和目标函数。优化目标为理想比值掩蔽(IRM);目标函数由DNN模型得到的噪声存在概率估计值构造。

3)确定搜索方向。由式(6)得到搜索方向-▽k

4)更新迭代点。由式(7)计算迭代点。

5)判断迭代停止条件。当满足δ≤θ时,迭代停止;否则,k=k+1,跳转至第二步。

图2为互相关系数和带噪语音时域波形的比较,从图中可以清楚看到ρ在非语音段和语音段的变化。在理想情况下(估计的噪声和带噪语音几乎完全匹配或相关),非语音段ρ的值接近于1。相反,在语音段ρ下降到一个比较小的值。1-ρ可以作为纯净语音的增益因子,使带噪语音中保留更多的语音成分。即ρ可以看做噪声的增益因子,作为带噪语音的噪声存在概率,抑制带噪语音中的残留噪声和音乐噪声,解决噪声过估问题。

DNN结构如图3所示,包含一个输入层,三个隐层和一个输出层。输入层设置128个神经元,X为模型的输入特征。本发明以带噪语音能量谱作为DNN模型的输入特征,由于语音信号具有时间相关性,将连续的5帧信号(前两帧、当前帧、后两帧)合并作为输入特征,维度为640×300。隐层每层设置1024个神经元,用来学习输入特征间的非线性关系。输出层设置128个神经元,ρ为模型的输出,即训练目标。一般基于DNN的语音增强的训练目标为纯净语音的掩蔽或幅度谱,为减小计算噪声存在概率时,噪声估计引入的误差,本发明的训练目标为ρ。

对纯净语音信号加0dB的noisex-92数据库中的F16噪声,图4分别为用本发明算法、用本发明算法所用DNN模型直接估计IRM的算法(简称“IRM”)、文献(葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法[J].计算机应用,2019,39(10):3065-3070.)的“梯度下降法”和文献(Gerkmann T,Hendriks R C.Unbiased MMSE-Based Noise PowerEstimation With Low Complexity and Low Tracking Delay[J].IEEE Transactions onAudio Speech&Language Processing,2012,20(4):1383-1393.)的“噪声估计法”进行语音增强的频谱图。

从图4可以看出,与图4-(b)纯净语音的频谱图相比,图4-(d)“IRM”、图4-(e)“梯度下降法”和图4-(f)“噪声估计法”这三种算法的频谱图语音恢复程度比较差。语音段受噪声干扰严重,频谱图存在块状缺失,频谱成分缺失,只有低频段(语音能量主要集中区域)能恢复部分语音;非语音段有大量的噪声残留,噪声抑制效果差。相比较,图4-(c)本发明算法频谱图的低频段语音能量成分比较清晰,可以有效重构语音频谱成分;非语音段噪声去除明显。说明用DNN模型得到的带噪语音与噪声的互相关系数用来表示噪声存在概率,估计的噪声更接近真实值,可以有效恢复语音且抑制噪声。

本发明提出一种基于DNN和频带内互相关系数的单通道语音增强算法,来提升算法的噪声抑制效果。并联合DNN和凸优化问题中的梯度下降法法对初始掩蔽进行掩蔽优化后,利用新的掩蔽恢复增强语音。仿真结果表明,即使在低信噪比下,本发明算法仍能有效重构目标语音频谱成分,说明本发明算法可有效抑制噪声并提升语音的整体质量。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于条件变分自编码器的目标人语音增强方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!