语音增强模型的训练方法及装置、语音增强方法及装置

文档序号：154831 发布日期：2021-10-26 浏览：39次 >En<

阅读说明：本技术 语音增强模型的训练方法及装置、语音增强方法及装置 (Training method and device of voice enhancement model and voice enhancement method and device ) 是由陈联武张晨张旭郑羲光任新蕾于 2021-07-30 设计创作，主要内容包括：本公开关于一种语音增强模型的训练方法及装置、语音增强方法及装置,训练方法包括：获取训练样本集；将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络,得到含噪语音信号的至少两个特征,其中,至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；将至少两个特征进行融合处理,得到融合后的特征；将融合后的特征输入到语音增强网络,得到含噪语音信号的预估增强频谱；基于预估增强频谱对应的预估时域信号和对应的干净语音信号,确定语音增强模型的目标损失函数；根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数,对语音增强模型进行训练。(The present disclosure relates to a training method and apparatus for a speech enhancement model, and a speech enhancement method and apparatus, wherein the training method includes: acquiring a training sample set; respectively inputting at least two frequency spectrums of the noise-containing voice signal into corresponding feature extraction networks in the at least two feature extraction networks to obtain at least two features of the noise-containing voice signal, wherein the at least two frequency spectrums are obtained based on at least two groups of preset different time-frequency conversion parameters; fusing at least two characteristics to obtain fused characteristics; inputting the fused features into a voice enhancement network to obtain a pre-estimated enhancement frequency spectrum of the noisy voice signal; determining a target loss function of the speech enhancement model based on a pre-estimated time domain signal corresponding to the pre-estimated enhancement spectrum and a corresponding clean speech signal; and adjusting parameters of at least two feature extraction networks and the voice enhancement network according to the target loss function, and training the voice enhancement model.)

技术领域

本公开涉及音视频领域，尤其涉及一种语音增强模型的训练方法及装置、语音增强方法及装置。

背景技术

目前，基于神经网络的语音增强技术主要分为频域和时域两种方案，对于频域方案，主要采用短时傅里叶变换(Short-Time Fourier Transform，缩写为STFT)将含噪语音信号转换到频域，进而提取频谱特征，之后神经网络根据提取的频谱特征来估计干净语音信号。但是，该方案采用固定的时频转换参数对含噪语音信号进行STFT，来提取含噪语音信号的频谱特征。由于实际场景中语音信号和噪声信号的变化很大，理想情况下，针对不同信号的特点应该采用不同的时频转换参数(例如，对于很短的敲击噪声用短窗分析，基频较低且较为稳定的信号采用长窗分析)。因此，在实际频域方案中根据整体效果选取一种固定的时频转换参数来提取频谱特征，无法较好地覆盖含噪语音信号中所有信号的特点。

发明内容

本公开提供一种语音增强模型的训练方法及装置、语音增强方法及装置，以至少解决相关技术中根据整体效果选取一种固定的时频转换参数来提取频谱特征，无法较好地覆盖含噪语音信号中所有信号的特点的问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，语音增强模型包括至少两个特征提取网络和语音增强网络，训练方法包括：获取训练样本集，其中，训练样本集中每个训练样本包括含噪语音信号和对应的干净语音信号，含噪语音信号是对应的干净语音信号添加噪声和混响后的语音信号；将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；将至少两个特征进行融合处理，得到融合后的特征；将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱；基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。

可选地，语音增强网络的输出为含噪语音信号的掩码，其中，掩码表示的是含噪语音信号中干净语音信号的频谱占比，将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱，包括：将含噪语音信号的频谱与含噪语音信号的掩码相乘，得到含噪语音信号的预估增强频谱，其中，含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

可选地，语音增强网络的输出为含噪语音信号的预估增强频谱。

可选地，在将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征之前，还包括：获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，分别对含噪语音信号进行短时傅里叶变换，得到含噪语音信号的至少两个频谱。

可选地，将至少两个特征进行融合处理，得到融合后的特征，包括：将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。

可选地，一组时频转换参数包括：窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

根据本公开实施例的第二方面，提供一种语音增强方法，包括：获取待处理含噪语音信号；将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；将至少两个特征进行融合处理，得到融合后的特征；将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱；获取增强频谱对应的时域信号，并将时域信号作为待处理含噪语音信号的增强语音信号。

可选地，语音增强网络的输出为待处理含噪语音信号的掩码，其中，掩码表示的是待处理含噪语音信号中干净语音信号的频谱占比，将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱，包括：将待处理含噪语音信号的频谱与对应的掩码相乘，得到待处理含噪语音信号的增强频谱，其中，待处理含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

可选地，语音增强网络的输出为待处理含噪语音信号的增强频谱。

可选地，在将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征之前，还包括：获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，对待处理含噪语音信号进行短时傅里叶变换，得到待处理含噪语音信号的至少两个频谱。

可选地，一组时频转换参数包括窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

可选地，语音增强模型是基于上述的语音增强模型的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，语音增强模型包括至少两个特征提取网络和语音增强网络，训练装置包括：

训练样本集获取单元，被配置为获取训练样本集，其中，训练样本集中每个训练样本包括含噪语音信号和对应的干净语音信号，含噪语音信号是对应的干净语音信号添加噪声和混响后的语音信号；特征提取单元，被配置为将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；融合单元，被配置为将至少两个特征进行融合处理，得到融合后的特征；预估增强频谱获取单元，被配置为将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱；目标损失函数确定单元，被配置为基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数；训练单元，被配置为根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。

可选地，语音增强网络的输出为含噪语音信号的掩码，其中，掩码表示的是含噪语音信号中干净语音信号的频谱占比，预估增强频谱获取单元，还被配置为将含噪语音信号的频谱与含噪语音信号的掩相乘，得到含噪语音信号的预估增强频谱，其中，含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

可选地，语音增强网络的输出为含噪语音信号的预估增强频谱。

可选地，特征提取单元，还被配置为在将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征之前，获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，分别对含噪语音信号进行短时傅里叶变换，得到含噪语音信号的至少两个频谱。

可选地，融合单元，还被配置为将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。

可选地，一组时频转换参数包括：窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

根据本公开实施例的第四方面，提供一种语音增强装置，包括：信号获取单元，被配置为获取待处理含噪语音信号；特征提取单元，被配置为将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；融合单元，被配置为将至少两个特征进行融合处理，得到融合后的特征；增强频谱获取单元，被配置为将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱；增强语音信号获取单元，被配置为获取增强频谱对应的时域信号，并将时域信号作为待处理含噪语音信号的增强语音信号。

可选地，语音增强网络的输出为待处理含噪语音信号的掩码，其中，掩码表示的是待处理含噪语音信号中干净语音信号的频谱占比，增强频谱获取单元，还被配置为将待处理含噪语音信号的频谱与对应的掩码相乘，得到待处理含噪语音信号的增强频谱，其中，待处理含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

可选地，语音增强网络的输出为待处理含噪语音信号的增强频谱。

可选地，特征提取单元，还被配置为在将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征之前，获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，对待处理含噪语音信号进行短时傅里叶变换，得到待处理含噪语音信号的至少两个频谱。

可选地，融合单元，还被配置为将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。

可选地，一组时频转换参数包括窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

可选地，语音增强模型是基于上述的语音增强模型的训练方法训练得到的。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的语音增强模型的训练方法和语音增强方法。

根据本公开实施例的第六方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的语音增强模型的训练方法和语音增强方法。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的语音增强模型的训练方法和语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音增强模型的训练方法及装置、语音增强方法及装置，在训练过程中，预设多个时频转换参数，并基于该多个时频转换参数得到的频谱来进行特征提取，可以提取到含噪语音信号的多尺度特征，再将该多尺度特征进行融合，使用融合后的特征进行语音增强模型的训练。由于提取的多尺度特征包含了含噪语音信号的不同类型信息，即含噪语音信号中所有信号的特点，使得通过上述提取的多尺度特征可以取得较好的训练效果，提升了语音增强模型的整体效果。因此，本公开解决了相关技术中根据整体效果选取一种固定的时频转换参数来提取频谱特征，无法较好地覆盖含噪语音信号中所有信号的特点的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图；

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图；

图3是根据一示例性实施例示出的一种语音增强方法的流程图；

图4是根据一示例性实施例示出的一种语音增强系统示意图；

图5是根据一示例性实施例示出的一种语音增强模型的训练装置的框图；

图6是根据一示例性实施例示出的一种语音增强装置的框图；

图7是根据本公开实施例的一种电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

本公开提供了一种语音增强模型的训练方法和语音增强方法，能够取得较好的训练效果，提升了语音增强模型的整体效果。图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装有用于获取声音的麦克风，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

服务器100接收用户终端110、120发送的对语音增强模型(包括至少两个特征提取网络和语音增强网络)进行训练的请求之后，可以统计历史上接收的干净语音信号和噪声信号，然后将干净语音信号和噪声信号按预设方式混合并添加混响后，得到含噪语音信号，将该含噪语音信号和对应的干净语音信号作为用于训练语音增强模型的一个训练样本，按上述方式可以得到多个训练样本，将多个训练样本合并可以得到训练样本集，在得到训练样本集以后，服务器100将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到所述含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的，然后将得到的至少两个特征进行融合处理，将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱，再基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数，以根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。

在训练好语音增强模型后，用户终端110、120通过麦克风接收含噪语音信号(如会议中说话人的声音)并发送给服务器100，服务器100接收到含噪语音信号后，将含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的，然后将至少两个特征进行融合处理，将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱，再获取增强频谱对应的时域信号，该时域信号即用户终端110、120接收到的含噪语音信号的增强语音信号，也即会议中说话人去除噪声和混响后的声音。

下面，将参照图2至图6详细描述根据本公开的示例性实施例的语音增强模型的训练方法及装置、语音增强方法及装置。

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图，如图2所示的训练方法中语音增强模型包括至少两个特征提取网络和语音增强网络，语音增强模型的训练方法包括以下步骤：

在步骤S201中，获取训练样本集，其中，训练样本集中每个训练样本包括含噪语音信号和对应的干净语音信号，含噪语音信号是对应的干净语音信号添加噪声和混响后的语音信号。上述训练样本集中的含噪语音信号和对应的干净语音信号可以是单通道含噪语音信号和对应的干净语音信号，也可以是多通道含噪语音信号和对应的干净语音信号，还可以是进行分帧操作的时域降噪系统所需的含噪语音信号和对应的干净语音信号，本公开对此并不进行限定。

具体地，在训练样本集中的含噪语音信号和对应的干净语音信号是单通道含噪语音信号和对应的干净语音信号的情况下，可以通过数据增强的方式生成含噪语音信号。即，对于干净语音信号和噪声信号，先通过各种EQ滤波器模拟硬件设备的频率响应，然后使用各种房间冲击响应来模拟环境混响，最后将经过模拟后的语音信号和噪声信号根据不同的信噪比混合生成含噪语音信号。也即训练过程中使用的含噪语音信号据和对应的干净语音信号。

返回图2，在步骤S202中，将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的。具体地，该步骤可以先通过多尺度时频分析(STFT_1,STFT_2,…,STFT_M)进行时频域转换，然后将时频域转换后频谱输入到对应的特征提取网络(FeaNet_1,FeaNet_2,…,FeaNet_M)，其中，M表示多尺度特征(即时频转换参数)的个数。当M＝1时即采用固定时频分辨率的语音增强方案，故在本公开中，M的取值需要满足M≥2。需要说明的是，基于每个STFT分析的输出，设置有对应的特征提取网络(FeaNet_1,FeaNet_2,…,FeaNet_M)。由于不同的STFT_m对应的FFT长度不同，所以FeaNet_m的输入维度也不同。FeaNet_m可以选择不同的网络结构，一种典型的FeaNet_m可以包括两层Conv2d卷积网络来提取频谱的结构信息，然后再接一层全连接网络将特征映射到所需的维度。

根据本公开的示例性实施例，在将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征之前，还包括：获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，分别对含噪语音信号进行短时傅里叶变换，得到含噪语音信号的至少两个频谱。通过本实施例，可以基于不同时频转换参数进行短时傅里叶变换，进而获取含噪语音信号的多个频谱，以覆盖含噪语音信号中所有信号。

根据本公开的示例性实施例，一组时频转换参数包括：窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

具体地，对于STFT_m(m＝1,2,…,M)，可以根据实际场景选择对应的时频转换参数。如，对于16KHz输入的语音增强系统，一种典型的配置如下表1所示。该配置为M＝3时对应多尺度分析的时频转换参数设置，为方便多尺度特征的对齐，窗移统一设置为160个采样点。

表1 16KHz语音增强系统对应的时频转换参数设置

	窗长	窗移	窗函数	FFT长度
					STFT_1	320	160	Hamming	320
STFT_2	512	160	Hamming	512
					STFT_3	768	160	Kaiser	1024
STFT_0	512	160	Hamming	512

返回图2，在步骤S203中，将至少两个特征进行融合处理，得到融合后的特征。例如，融合过程中，可以根据实际场景的需求，对不同尺度特征(即上述至少两个特征)设置不同的融合权重{α₁,α₂,…,α_M}，融合方法可以采用拼接融合方法或者相加融合方法，但并不限于此，即上述融合方法可以采用任何可应用于本公开的融合方法。需要说明的是，该步骤可以设置一个特征融合模块实现，该特征融合模块的输入即多尺度特征{F₁,F₂,…,F_M}(即上述至少两个特征)，输出即融合后的特征F_all。

根据本公开的示例性实施例，将至少两个特征进行融合处理，得到融合后的特征，包括：将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。通过本实施例，可以方便、快速的进行融合。

例如，当多尺度特征(即上述至少两个特征)的维度不一致时，可以采用拼接融合方法：

F_all＝concat(α₁F₁,α₂F₂,...，α_MF_M)

α_m(m＝1,2,…,M)取值为[0,1]区间内的数值，对应上述至少两个权重，M为正整数，一种典型取值为

又例如，当多尺度特征(即上述至少两个特征)的维度一致时，可以采用相加融合方法：

F_all＝α₁F₁+α₂F₂+…+α_MF_M

α_M(m＝1,2,…,M)取值为[0,1]区间内的数值，对应上述至少两个权重，M为正整数，一种典型取值为

在步骤S204中，将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱。例如，语音增强网络输入为多尺度融合特征F_all，输出为干净语音信号的预估增强频谱，还可以是干净语音信号的掩码mask。当输出是干净语音信号的掩码mask时，需要增设乘法模块，将该掩码mask与含噪语音信号的频谱相乘，得到干净语音信号预估增强频谱。本公开对于语音增强网络的结构并不进行限定，在实际场景中为了保证系统的低复杂度，一种典型的语音增强网络结构可以是两层RNN网络加上一层全连接网络。

根据本公开的示例性实施例，语音增强网络的输出为含噪语音信号的掩码，其中，掩码表示的是含噪语音信号中干净语音信号的频谱占比，将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱，包括：将含噪语音信号的频谱与含噪语音信号的掩码相乘，得到含噪语音信号的预估增强频谱，其中，含噪语音信号的频谱是基于预设的一组时频转换参数获取的。需要说明的是，上述预设的一组时频转换参数可以是上述预设的至少两组不同的时频转换参数中的一组，也可以是单独预设的一组时频转换参数。通过本实施例，将频谱与掩码相乘的部分从语音增强网络中分离，可以降低语音增强网络的复杂度。

根据本公开的示例性实施例，语音增强网络的输出为含噪语音信号的预估增强频谱。通过本实施例，可以方便、快速的获取预估增强频谱。

在步骤S205中，基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数。本公开对目标损失函数并不进行限定，可以采用常用的时域或者频域损失函数，例如频谱均方误差MSE，对数能量谱平均绝对误差MAE，时域MSE等。

在步骤S206中，根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。在训练过程中，输入含噪语音信号，经过上述多尺度特征提取、特征融合和语音增强网络，最后可以得到增强语音信号(即预估时域信号)。根据增强语音信号和对应的干净语音信号计算目标损失函数的值，以最小化目标损失函数为目标，更新两个特征提取网络和语音增强网络的参数直至语音增强模型收敛。

图3是根据一示例性实施例示出的一种语音增强方法的流程图，如图3所示的语音增强模型是基于上述任一语音增强模型的训练方法训练得到的，该语音增强方法包括以下步骤：

在步骤S301中，获取待处理含噪语音信号。上述待处理的含噪语音信号可以是终端内麦克风接收到的语音信号，也可以任何其他需要处理的语音信号。

在步骤S302中，将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的。具体地，该步骤可以先通过多尺度时频分析(STFT_1,STFT_2,…,STFT_M)进行时频域转换，然后将时频域转换后频谱输入到对应的特征提取网络(FeaNet_1,FeaNet_2,…,FeaNet_M)，其中，M表示多尺度特征(即时频转换参数)的个数。当M＝1时即采用固定时频分辨率的语音增强方案，故在本公开中，M的取值需要满足M≥2。需要说明的是，基于每个STFT分析的输出，设置有对应的特征提取网络(FeaNet_1,FeaNet_2,…,FeaNet_M)。由于不同的STFT_m对应的FFT长度不同，所以FeaNet_m的输入维度也不同。FeaNet_m可以选择不同的网络结构，一种典型的FeaNet_m可以包括两层Conv2d卷积网络来提取频谱的结构信息，然后再接一层全连接网络将特征映射到所需的维度。

根据本公开的示例性实施例，在将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征之前，还包括：获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，对待处理含噪语音信号进行短时傅里叶变换，得到待处理含噪语音信号的至少两个频谱。通过本实施例，可以基于不同时频转换参数进行短时傅里叶变换，进而获取含噪语音信号的多个频谱，以覆盖含噪语音信号中所有信号。

根据本公开的示例性实施例，一组时频转换参数包括窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

表1 16KHz语音增强系统对应的时频转换参数设置

	窗长	窗移	窗函数	FFT长度
					STFT_1	320	160	Hamming	320
STFT_2	512	160	Hamming	512
					STFT_3	768	160	Kaiser	1024
STFT_0	512	160	Hamming	512

在步骤S303中，将至少两个特征进行融合处理，得到融合后的特征。例如，融合过程中，可以根据实际场景的需求，对不同尺度特征(即上述至少两个特征)设置不同的融合权重{α₁,α₂,…,α_M}，融合方法可以采用拼接融合方法或者相加融合方法，但并不限于此，即上述融合方法可以采用任何可应用于本公开的融合方法。需要说明的是，该步骤可以设置一个特征融合模块实现，该特征融合模块的输入即多尺度特征{F₁,F₂,…,F_M}(即上述至少两个特征)，输出即融合后的特征F_all。

例如，当多尺度特征(即上述至少两个特征)的维度不一致时，可以采用拼接融合方法：

F_all＝concat(α_iF₁,α₂F₂,...，α_MF_M)

α_m(m＝1,2,…,M)取值为[0,1]区间内的数值，对应上述至少两个权重，M为正整数，一种典型取值为

又例如，当多尺度特征(即上述至少两个特征)的维度一致时，可以采用相加融合方法：

F_all＝α₁F₁+α₂F₂+…+α_MF_M

α_M(m＝1,2,…,M)取值为[0,1]区间内的数值，对应上述至少两个权重，M为正整数，一种典型取值为

在步骤S304中，基于融合后的特征以及所述语音增强模型中的语音增强网络，得到所述待处理含噪语音信号的增强频谱。例如，语音增强网络输入为多尺度融合特征F_all，输出为干净语音信号的预估增强频谱，还可以是干净语音信号的掩码mask。当输出是干净语音信号的掩码mask时，需要增设乘法模块，将该掩码mask与含噪语音信号的频谱相乘，得到干净语音信号预估增强频谱。本公开对于语音增强网络的结构并不进行限定，在实际场景中为了保证系统的低复杂度，一种典型的语音增强网络结构可以是两层RNN网络加上一层全连接网络。

根据本公开的示例性实施例，语音增强网络的输出为待处理含噪语音信号的掩码，其中，掩码表示的是待处理含噪语音信号中干净语音信号的频谱占比，将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱，包括：将待处理含噪语音信号的频谱与对应的掩码相乘，得到待处理含噪语音信号的增强频谱，其中，待处理含噪语音信号的频谱是基于预设的一组时频转换参数获取的。需要说明的是，上述预设的一组时频转换参数与上述预设的至少两组不同的时频转换参数可以不同，也可以不同。通过本实施例，将频谱与掩码相乘的部分从语音增强网络中分离，可以降低语音增强网络的复杂度。

根据本公开的示例性实施例，语音增强网络的输出为待处理含噪语音信号的增强频谱。通过本实施例，可以方便、快速的获取预估增强频谱。

在步骤S305中，获取增强频谱对应的时域信号，并将时域信号作为待处理含噪语音信号的增强语音信号。

为了方便理解上述实施例，下面系统的进行说明，图4是根据一示例性实施例示出的一种语音增强系统示意图。如图4所示，含噪语音信号(Noisy)通过多个STFT模块(STFT_1,STFT_2,…,STFT_M)和对应的特征提取网络(FeaNet_1,FeaNet_2,…,FeaNet_M)得到不同时频转换参数对应的多尺度特征。之后通过特征融合层(Fusion Layer)将得到的多尺度特征进行融合，然后利用语音增强网络(EnhNet)得到含噪语音信号的掩码(Mask)。另外，STFT_0和ISTFT_0是语音增强操作对应的时频域转换，含噪语音经过STFT_0得到含噪频谱并与语音增强网络估计的mask相乘，得到语音增强频谱后，经过ISTFT_0得到最终的时域增强语音，即最终的增强语音信号。需要说明的是，上述STFT_0对应的时频转换参数可以预先设定。

综上，本公开克服了相关技术中语音降噪方案中由于采用固定时频转换参数带来的性能局限性，提出了一种基于多尺度特征的实时语音降噪方案。即通过对输入含噪语音信号进行不同时频转换参数的时频分析方法，得到多种时频转换参数对应的频谱，之后对每种频谱进行单独的特征提取，再将提取的多个特征进行融合，最后神经网络基于融合的后的特来估计干净语音信号。本公开通过提取含噪语音信号多个频谱的特征，可以有效提取不同类型语音和噪声的信息，提升模型的整体效果。

图5是根据一示例性实施例示出的一种语音增强模型的训练装置的框图。其中，语音增强模型包括至少两个特征提取网络和语音增强网络，参照图5，该装置包括训练样本集获取单元50、特征提取单元52、融合单元54、预估增强频谱获取单元56、目标损失函数确定单元58和训练单元510。

训练样本集获取单元50，被配置为获取训练样本集，其中，训练样本集中每个训练样本包括含噪语音信号和对应的干净语音信号，含噪语音信号是对应的干净语音信号添加噪声和混响后的语音信号；特征提取单元52，被配置为将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；融合单元54，被配置为将至少两个特征进行融合处理，得到融合后的特征；预估增强频谱获取单元56，被配置为将融合后的特征输入到语音增强网络，得到含噪语音信号的预估增强频谱；目标损失函数确定单元58，被配置为基于预估增强频谱对应的预估时域信号和对应的干净语音信号，确定语音增强模型的目标损失函数；训练单元510，被配置为根据目标损失函数调整至少两个特征提取网络和语音增强网络的参数，对语音增强模型进行训练。

根据本公开的实施例，语音增强网络的输出为含噪语音信号的掩码，其中，掩码表示的是含噪语音信号中干净语音信号的频谱占比，预估增强频谱获取单元56，还被配置为将含噪语音信号的频谱与含噪语音信号的掩相乘，得到含噪语音信号的预估增强频谱，其中，含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

根据本公开的实施例，语音增强网络的输出为含噪语音信号的预估增强频谱。

根据本公开的实施例，特征提取单元52，还被配置为在将含噪语音信号的至少两个频谱分别输入到至少两个特征提取网络中对应的特征提取网络，得到含噪语音信号的至少两个特征之前，获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，分别对含噪语音信号进行短时傅里叶变换，得到含噪语音信号的至少两个频谱。

根据本公开的实施例，融合单元54，还被配置为将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。

根据本公开的实施例，一组时频转换参数包括：窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

图6是根据一示例性实施例示出的一种语音增强装置的框图。其中，语音增强模型包括至少两个特征提取网络和语音增强网络，参照图6，该装置包括信号获取单元60、特征提取单元62、融合单元64、增强频谱获取单元66和增强语音信号获取单元68。

信号获取单元60，被配置为获取待处理含噪语音信号；特征提取单元62，被配置为将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征，其中，至少两个频谱是基于预设的至少两组不同的时频转换参数获取的；融合单元64，被配置为将至少两个特征进行融合处理，得到融合后的特征；增强频谱获取单元66，被配置为将融合后的特征输入到语音增强模型中的语音增强网络，得到待处理含噪语音信号的增强频谱；增强语音信号获取单元68，被配置为获取增强频谱对应的时域信号，并将时域信号作为待处理含噪语音信号的增强语音信号。

根据本公开的实施例，语音增强网络的输出为待处理含噪语音信号的掩码，其中，掩码表示的是待处理含噪语音信号中干净语音信号的频谱占比，增强频谱获取单元，还被配置为将待处理含噪语音信号的频谱与对应的掩码相乘，得到待处理含噪语音信号的增强频谱，其中，待处理含噪语音信号的频谱是基于预设的一组时频转换参数获取的。

根据本公开的实施例，语音增强网络的输出为待处理含噪语音信号的增强频谱。

根据本公开的实施例，特征提取单元62，还被配置为在将待处理含噪语音信号的至少两个频谱分别输入到语音增强模型中对应的特征提取网络，得到待处理含噪语音信号的至少两个特征之前，获取预设的至少两组不同的时频转换参数；基于至少两组不同的时频转换参数，对待处理含噪语音信号进行短时傅里叶变换，得到待处理含噪语音信号的至少两个频谱。

根据本公开的实施例，融合单元64，还被配置为将至少两个特征进行加权拼接或加权相加，其中，至少两个特征中的每个特征对应的权重是预设的。

根据本公开的实施例，一组时频转换参数包括窗长、窗移、窗函数和快速傅立叶变换长度中的至少一项。

根据本公开的实施例，语音增强模型是基于上述的语音增强模型的训练方法训练得到的。

根据本公开的实施例，可提供一种电子设备。图7是根据本公开实施例的一种电子设备700的框图，该电子设备包括至少一个存储器701和至少一个处理器702，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音增强模型的训练方法及语音增强方法。

作为示例，电子设备700可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备700还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备700中，处理器702可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器702还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器702可运行存储在存储器中的指令或代码，其中，存储器701还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器701可与处理器702集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器702可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器701和处理器702可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器702能够读取存储在存储器701中的文件。

此外，电子设备700还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的语音增强模型的训练方法及语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的语音增强模型的训练方法及语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

21页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：多说话人场景识别及网络训练方法、装置

语音增强模型的训练方法及装置、语音增强方法及装置

相关技术

网友询问留言