语音增强方法、装置、设备及存储介质

文档序号:1075065 发布日期:2020-10-16 浏览:5次 >En<

阅读说明:本技术 语音增强方法、装置、设备及存储介质 (Voice enhancement method, device, equipment and storage medium ) 是由 邓承韵 宋辉 沙永涛 张毅 于 2020-06-30 设计创作,主要内容包括:本公开的实施例提供一种语音增强方法、装置、设备及存储介质。该方法包括:获取目标语音;确定目标语音所在场景的场景类型;在预设的各语音增强模型中,选取与场景类型对应的语音增强模型;通过与场景类型对应的语音增强模型,对目标语音进行增强。本公开的实施例的方法,提供了语音增强的灵活性,使得语音增强的使用场景更广泛,同时确保各个场景下的语音增强效果。(Embodiments of the present disclosure provide a voice enhancement method, apparatus, device, and storage medium. The method comprises the following steps: acquiring a target voice; determining the scene type of a scene where the target voice is located; selecting a voice enhancement model corresponding to the scene type from preset voice enhancement models; and enhancing the target voice through a voice enhancement model corresponding to the scene type. The method of the embodiment of the disclosure provides flexibility of voice enhancement, so that the use scenes of the voice enhancement are wider, and simultaneously, the voice enhancement effect under each scene is ensured.)

语音增强方法、装置、设备及存储介质

技术领域

本公开的实施例涉及语音处理领域,尤其涉及一种语音增强方法、装置、设备及存储介质。

背景技术

语音增强是指对语音信号进行降噪处理,以提高语音信号的质量。

通常的,在硬件方面,有通过多个麦克风采集来自不同方向的语音来提高语音增强效果的方式,在软件方面,有通过深度学习技术来提高语音信号效果的方式。

然而,上述方式更多的是侧重于提高语音去噪程度,未充分考虑到语音增强的实际场景。

发明内容

本公开的实施例提供一种语音增强方法、装置、设备及存储介质,用以解决现有的语音增强方式未充分考虑语音增强的实际场景,导致语音增强效果不佳的问题。

第一方面,本公开的实施例提供一种语音增强方法,包括:

获取目标语音;

确定所述目标语音所在场景的场景类型;

在预设的各语音增强模型中,选取与所述场景类型对应的语音增强模型;

通过与所述场景类型对应的语音增强模型,对所述目标语音进行增强。

第二方面,本公开的实施例提供一种语音增强装置,包括:

获取模块,用于获取目标语音;

确定模块,用于确定所述目标语音所在场景的场景类型;

选取模块,用于在预设的各语音增强模型中,选取与所述场景类型对应的语音增强模型;

增强模块,用于通过与所述场景类型对应的语音增强模型,对所述目标语音进行增强。

第三方面,本公开的实施例提供了一种电子设备,包括:

存储器和处理器;

所述存储器用于存储程序指令;

所述处理器用于调用所述存储器中的程序指令执行如上述第一方面所述的方法。

第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,实现如上述第一方面所述的方法。

第五方面,本公开的实施例提供一种包含指令的程序产品,所述程序产品包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的方法。

本公开的实施例提供的语音增强方法、装置、设备及存储介质,确定目标语音所在场景的场景类型,确定与该场景类型对应的语音增强模型,通过与该场景类型对应的语音增强模型,对目标语音进行语音增强。因此,依据目标语音所在场景,有针对性地对目标语音进行语音增强,以适应不同场景对语音增强的要求,提高了语音增强的灵活性,使得语音增强的适用场景更广泛,同时确保不同场景下的语音增强效果。

本公开的各种可行实施例及其技术优势将在下文详述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1为本公开的一实施例提供的网络架构示意图;

图2为本公开的一实施例提供的语音增强方法的流程示意图;

图3为本公开的一实施例提供的语音增强模型训练过程的流程示意图;

图4为本公开的一实施例提供的语音增强模型的一次训练过程的流程示意图;

图5为本公开的一实施例提供的生成式对抗网络的结构示例图;

图6为本公开的一实施例提供的语音增强装置的结构示意图;

图7为本公开的一实施例提供的语音增强模型的训练装置的结构示意图;

图8为本公开的一实施例提供的服务器的结构示意图;

图9为本公开的一实施例提供的语音增强装置的框图。

通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。

本公开的各种可行实施例及其技术优势将在下文详述。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

首先对本公开的实施例所涉及的名词进行解释:

生成式对抗网络(GAN,Generative Adversarial Networks):一种深度学习模型,包括生成器和判别器,其中,生成器又被称为生成模型(Generative model),判别器又被称为判别模型(Discriminative mode);

卷积神经网络(CNN,Convolutional Neural Networks):包含卷积计算且具有深度结构的前馈神经网络;

卷积循环神经网络(CRNN,Convolutional Recurrent Neural Network):是由循环神经网络(RNN,Recurrent Neural Network)和卷积神经网络结合得到的一种卷积神经网络。

语音信号的幅度谱和相位谱:通过对语音信号进行傅里叶变换,可得到语音信号的幅度谱和相位谱,其中,幅度谱用于体现语音信号的幅度随着信号频率的变化而发生的变化,相位谱用于体现语音信号的相位随着信号频率的变化而发生的变化。

时频掩码(T-F mask,time-frequency mask):又称为时频掩蔽,将时频掩码作用在语音信号的幅度谱上,可对语音信号中的部分信号进行掩蔽,因此,可通过生成合适的时频掩码作用于语音信号,以对语音信号进行降噪。

语音增强可以用于不同的语音系统和语音设备,例如,语音增强可用于语音识别系统,又如,语音增强可用于助听器。不同的语音系统和语音设备对语音增强的效果要求不一样。通常的,语音识别系统对语音增强的要求是:在去除语音噪声的同时尽可能地保持语音的完整度,避免失真;助听器对语音增强的要求是:在去除语音噪声的同时尽可能的保持语音的语音主观质量,语音主观质量包括语音的清晰度和可懂度。

一般的,在语音增强时,通常侧重于提高语音去噪程度,未充分考虑到语音增强的应用场景对语音增强效果的需求。

本公开实施例提供的语音增强方法、装置、设备及存储介质,在获得目标语音的情况下,确定目标语音所在场景的场景类型,通过与该场景类型对应的语音增强模型,对目标语音进行增强,从而依据目标语音所在的场景,有针对性地对目标语音进行语音增强,充分考虑了不同场景对语音增强的要求,提供了语音增强的灵活性,使得语音增强的适用场景更广泛,同时确保不同场景下的语音增强效果。

本公开的实施例提供的语音增强的方法,可以适用于图1所示的网络架构示意图。如图1所示,该网络架构包括:终端设备101和服务器102,终端设备101和服务器102之间建立网络通信。服务器102可接收终端设备101发送的目标语音,通过预先训练好的语音增强模型对目标语音进行增强。当然,也可以将训练好的语音增强模型设置在终端设备101中,终端设备101通过语音增强模型对目标语音进行增强。

其中,终端设备101可为计算机、平板电脑、智能手机等终端设备,服务器102可为单独的服务器,也可为服务器群。

下面以具体地实施例对本公开的实施例的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例的实施例进行描述。

图2为本公开的一实施例提供的语音增强方法的流程示意图。如图2所示,该方法包括:

S201、获取目标语音。

其中,目标语音的数量为一个或多个。

具体的,可预先采集并保存多条语音,生成包括多条语音的语音库。在接收到用户的语音增强请求的情况下,可在语音库中获取未进行语音增强的语音,将未进行增强的语音确定为目标语音。或者,可接收用户发送的目标语音,以对用户指定的目标语音进行语音。

具体的,还可实时采集目标语音,例如,在接收到用户的语音增强请求的情况下,打开麦克风,实时采集目标语音。

在一个可行的实施方式中,目标语音可为人物语音,例如,人物交谈时的语音,人物唱歌的语音。目标语音还可为动物语音,还可为物体发出的语音,例如乐器声构成的轻音乐,以对不同类型的目标语音进行语音增强。

S202、确定目标语音所在场景的场景类型。

具体的,可预先设置多个场景类型。在获取目标语音的同时或者在获取目标语音之后,可获取目标语音的场景信息,对目标语音的场景信息进行分析,确定目标语音所在场景的场景类型。在对目标语音的场景信息进行分析的过程中,可从场景信息中提取预设的关键字,在根据关键字和场景类型之间预设的对应关系,确定与目标语音的场景信息中的关键字对应的场景类型。

作为示例的,可预先设置关键字“打电话”、“开会”、“唱歌”等,关键字“打电话”对应的场景类型为通话场景,关键字“开会”对应的场景类型为开会场景,关键词“唱歌”对应的场景类型为音乐场景。

具体的,在获取目标语音的场景信息时,可获取用户输入的目标语音的场景信息,例如,目标语音为打电话时的录音时,用户可输入场景信息“打电话”,目标语音为开会时的录音时,用户可输入场景信息“公司开会”。还可将预设的多个场景类型发送给用户,获取用户选择的场景类型并将用户选择的场景类型确定为目标语音所在场景的场景类型。

在一个可行的实施方式中,还可通过对目标语音的内容进行初步识别,来确定目标语音所在场景的场景类型,以提高目标语音所在场景的场景类型的准确度,例如,在识别出目标语音中出现与打电话相关的词语时,可认为目标语音所在场景的场景类型为通话场景。

在一个可行的实施方式中,还可根据采集目标语音的应用程序确定场景类型,例如,如果采集目标语音的应用程序为打车应用程序,则可认为目标语音所在场景的场景类型为打车场景或者出租车场景,如果采集目标语音的应用程序为字典应用程序,则可认为字典查询场景。因此,将目标语音所在场景的场景类型与目标语音的实际业务关联起来,以便语音增强更好地满足不同应用场景的需求。

在一个可行的实施方式中,预设的多个场景类型包括人耳听音场景和机器识别场景,以确保场景类型设置的合理性。在对人耳听音场景中的目标语音进行语音增强的过程中,更侧重于在去除目标语音的噪声的同时,提高目标语音的语音主观质量。在对机器识别场景中的目标语音进行语音增强的过程中,更侧重于在去除目标语音的噪声的同时,保证语音的完整度并避免语音的失真。其中,人耳听音场景是指语音增强后的目标语音用于播放的场景,上述的通话场景、开会场景、打车场景都可以认为是人耳听音场景;机器识别场景是指语音增强后的目标语音用于转换为相应的文字内容的场景,上述的字典查询场景可认为是机器识别场景。

S203、在预设的各语音增强模型中,选取与场景类型对应的语音增强模型。

具体的,预先设置各个场景类型分别对应的语音增强模型,语音增强模型可为预先训练好的深度学习模型。在得到目标语音所在场景的场景类型之后,可从各个语音增强模型中,选取与目标语音所在场景的场景类型对应的语音增强模型。

具体的,在各个场景类型分别对应的语音增强模型的训练过程中,可为各个场景类型分别对应的语音增强模型设置相应的性能指标,在人耳听音场景中可将语音主观质量作为语音增强模型的性能指标,在机器识别场景中,可将语音的完整度作为语音增强模型的性能指标,以提高性能指标为目的,对语音增强模型进行训练,从而得到各个场景类型分别对应的语音增强模型。

S204、通过与场景类型对应的语音增强模型,对目标语音进行增强。

具体的,将目标语音输入与目标语音所在场景的场景类型对应的语音增强模型,得到增强后的目标语音。

在一个可行的实施方式中,语音增强模型为预先训练好的生成式对抗网络的生成器,生成器为卷积循环神经网络。通常的,语音增强模型仅为卷积循环神经网络时,能够有效去除噪声,却存在容易过拟合导致过度去噪、进而导致语音成分缺失的问题;语音增强模型仅为生成式对抗网络时,可以降低过拟合的风险,但去噪能力一般。因此,将卷积循环神经网络作为生成式对抗网络的生成器,结合卷积循环神经网络的去噪能力和生成式对抗网络降低过拟合的能力,以及在性能指标的引导下,对生成式对抗网络进行训练,得到各个场景类型的语音增强模型并提高语音增强模型的语音增强效果。

在一个可行的实施方式中,在语音增强模型为生成式对抗网络中的生成器、且生成器为卷积循环神经网络的情况下,在通过语音增强模型对目标语音进行语音增强的过程中:可先提取目标语音的幅度谱和相位谱,将目标语音的幅度谱输入语音增强模型,得到用于目标语音增强的时频掩码;接着,通过时频掩码对目标语音的幅度谱进行增强,得到目标语音的增强的幅度谱;最后,根据目标语音的增强的幅度谱与目标语音的相位谱,得到增强后的目标语音。因此,通过卷积循环神经网络有效地提高目标语音的语音增强效果。

在一个可行的实施方式中,生成式对抗网络的判别器为卷积神经网络,以通过卷积神经网络辅助生成器的训练,提高语音增强模型的语音增强效果。

本公开实施例提供的语音增强方法,依据目标语音所在场景,有针对性地对目标语音进行语音增强,以适应不同场景对语音增强的要求,提高了语音增强的灵活性,使得语音增强的适用场景更广泛,同时确保不同场景下的语音增强效果。

图3为本公开的一实施例提供的语音增强模型训练过程的流程示意图,语音增强模型为生成式对抗网络中的生成器,生成式对抗网络的生成器为卷积循环神经网络。如图3所示,该方法包括:

S301、获取训练语音。

其中,训练语音包括带噪语音和带噪语音的原始语音,原始语音即干净语音。在采集训练语音时,可采集多个原始语音,再向原始语音中添加不同的噪声,得到与原始语音对应的带噪语音。

S302、根据训练语音和预设的性能指标,多次训练生成式对抗网络。

具体的,将训练语音中的带噪语音作为生成式对抗网络中生成器的输入,通过生成器对带噪语音进行增强,得到增强后的带噪语音。根据性能指标对增强后的带噪语音进行性能评估,得到增强后的带噪语音的性能分数,例如:在性能指标为主观语音质量时,在主观语音质量上对带噪语音进行性能评估。通过生成式对抗网络中的判别器对增强后的带噪语音的性能分数进行预测,得到增强后的带噪语音的预测性能分数。

具体的,增强后的带噪语音的预测性能分数和增强后的带噪语音的性能分数可反映出判别器的预测误差,因此可依据增强后的带噪语音的预测性能分数和增强后的带噪语音的性能分数,对判别器进行模型参数调整,完成判别器的一次训练过程。依据增强后的带噪语音的预测性能分数和预设的目标性能分数,可对生成器进行模型参数调整,完成生成器的一次训练过程。

具体的,完成对判别器的一次训练过程以及完成对生成器的一次训练过程,则完成生成式对抗网络的一次训练过程。对生成式对抗网络进行多次上述训练过程,以提高生成式对抗网络中生成器的语音增强效果。在生成式对抗网络训练结束后,训练好的生成式对抗网络中的生成器即用于语音增强的语音增强模型。

本公开实施例提供的语音增强模型的训练过程,依据训练数据和性能指标,对生成式对抗网络进行多次训练,提高了语音增强模型的语音增强效果,并且可以针对不同的场景类型设计相应的性能指标,训练得到不同的场景类型下的语音增强模型。

图4为本公开的一实施例提供的语音增强模型的一次训练过程的流程示意图,语音增强模型为生成式对抗网络中的生成器,生成式对抗网络的生成器为卷积循环神经网络。如图4所示,该方法包括:

S401、获取训练语音。

其中,训练语音包括带噪语音和带噪语音的原始语音,原始语音即干净语音。在采集训练语音时,可采集多个原始语音,再向原始语音中添加不同的噪声,得到与原始语音对应的带噪语音。

S402、通过生成器对带噪语音进行增强。

具体的,可通过对带噪语音进行傅里叶变化,提取得到带噪语音的幅度谱和相位谱,将带噪语音的幅度谱作为生成器的输入,得到生成器的输出。生成器的输出为时频掩码,通过时频掩码对带噪语音的幅度谱进行增强,得到增强后的幅度谱。对带噪语音的相位谱和带噪语音的增强后的幅度谱进行逆傅里叶变换,得到增强后的带噪语音。

作为示例的,时频掩码可为理想二值掩码(Ideal Binary Mask,IBM)、者理想比值掩蔽(Ideal Ratio Mask,IRM)或相位敏感掩码(Phase Sensitive Mask,PSM)。

其中,可通过时频掩码与带噪语音的幅度谱相乘,得到增强后的幅度谱。

在一个可行的实施方式中,生成器中依次包括编码结构、循环结构和解码结构,编码结构中的网络层为卷积层,循环结构中包括一个或多个双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory,BiLSTM),解码结构中的网络层为反卷积层,解码结构是编码结构的反向过程。其中,编码结构用于从不同维度和不同尺度上提取语音信号自身的相关性,循环结构用于提取语音信号的长短期时序信息,解码结构结合编码结构和循环结构提取的信息生成时频掩码。通过该结构的生成器能够更有效地提取语音信号的信息,并能够降低过拟合的风险,提高语音增强效果。

进一步的,编码结构与解码结构之间建立有跳跃连接(Skip Connections),以提高生成器的语音增强效果。其中,跳跃连接用在深度神经网络中,用于解决训练过程中梯度***和梯度消失的问题,提高深度神经网络的训练效果。

其中,编码结构与解码结构之间建立有跳跃连接,是指编码结构中的卷积层与解码结构中相应的反卷积层之间建立有跳跃连接,卷积层的输出通过跳跃连接输入至反卷积层。根据解码结构是编码结构的反向过程,编码结构中的第一个卷积层与解码结构中的倒数第一个反卷积之间建立有跳跃连接,编码结构中的第二个卷积层与解码结构中的倒数第二个反卷积之间建立有跳跃连接,依次类推。

在一个可行的实施方式中,在编码结构和解码结构中,对每一卷积层的输出和每一反卷积层的输出进行批标准化(Batch Normalization,BN)处理,以提高生成器的数据处理效果,进而提高语音增强效果。

进一步的,在生成器中,隐藏层的激活函数可采用指数线性单元(Exponentiallinear units,ELU),输出层的激活函数可采用非线性激活函数,以提高生成器的数据处理效果,进而提高语音增强效果。其中,生成器的输入层为编码结构中的第一个卷积层,生成器的输出层为解码结构中的最后一个反卷积层。

S403、通过性能指标对应的预设性能评估函数,对增强后的带噪语音进行性能评估,得到增强后的带噪语音的性能分数。

其中,性能指标对应的预设性能评估函数,用于对增强后的带噪语音在性能指标这方面的表现进行打分。因此,性能评估函数具体可根据性能指标进行设计,在此不做限制。

在一个可行的实施方式中,性能指标为语音识别指标或主观听感指标。如果性能指标为语音识别指标,则训练得到的语音增强模型为机器识别场景对应的语音增强模型,适用于对机器识别场景下的目标语音进行增强。如果性能指标为主观听感指标,则训练得到的语音增强模型为人耳听音场景对应的语音增强模型,适用于对人耳听音场景下的目标语音进行增强。因此,可通过不同的性能指标训练得到适合不同场景的语音增强模型。

在一个可行的实施方式中,语音识别指标包括词错误率(Word Error Rate,WER),从而以词错误率作为性能指标训练语音增强模型,在机器识别场景中提高语音增强后的目标语音的识别准确度。

在一个可行的实施方式中,主观听感指标包括如下一项或多项:主观语音质量评估(Perceptual evaluation of speech quality,PESQ)、短时客观可懂度(Short-TimeObjective Intelligibility,STOI),从而以主观语音质量评估或者短时客观可懂度作为性能指标训练语音增强模型,在人耳听音场景中提高语音增强后的目标语音的清晰度和可懂度。

S404、通过判别器对增强后的带噪语音进行性能分数预测,得到增强后的带噪语音的预测性能分数。

具体的,可提取增强后的带噪语音的幅度谱,该幅度谱也为经过S402中的时频掩码增强的幅度谱。可将幅度谱输入判别器,通过判别器对增强后的带噪语音进行性能分数预测,得到判别器的输出数据,判别器的输出数据即增强后的带噪语音的预测性能分数。其中,判别器为深度神经网络,判别器的输出为预设的性能分数区间中的值,性能分数区间为连续区间,例如连续区间[0,1]。

在一个可行的实施方式中,判别器为卷积神经网络,依次包括卷积层、压平层(flatten layer)和全连接层,以通过卷积神经网络提高预测性能分数的准确度。

在一个可行的实施方式中,在判别器中的每一个卷积层中,对卷积层的输出采用批标准化处理和激活函数,激活函数可为带泄露修正线性单元(Leaky Rectified LinearUnit,Leaky ReLU),以提高判别器预测性能分数的准确度。

在一个可行的实施方式中,在通过判别器对增强后的带噪语音进行性能分数预测的过程中,提取增强后的带噪语音的幅度谱,并提取带噪语音的原始语音的幅度谱,将增强后的带噪语音的幅度谱与原始语音的幅度谱进行合并,得到合并数据,将该合并数据作为判别器的输入数据,将判别器的输入数据输入判别器,得到增强后的带噪语音的预测性能分数,从而通过增强后的带噪语音的幅度谱和原始语音的幅度谱的合并,提高判别器预测增强后的带噪语音的性能分数的准确度。

其中,增强后的带噪语音的幅度谱与原始语音的幅度谱的合并为维度合并。例如,增强后的带噪语音的幅度谱的维度为F*T*1,原始语音的幅度谱的维度为F*T*1,则合并数据的维度为F*T*2,其中,对于每一语音,F表示该语音的频率序列中的频率总数,T表示该语音的时间序列中的总帧数。

S405、通过判别器对原始语音进行性能分数预测,得到原始语音的预测性能分数。

具体的,可提取原始语音的幅度谱,将原始语音的幅度谱输入判别器,通过判别器对原始语音进行性能分数预测,得到判别器的输出数据,判别器的输出数据即原始语音的预测性能分数。

在一个可行的实施方式中,在通过判别器对原始语音进行性能分数预测的过程中,提取原始语音的幅度谱,将两个相同的原始语音的幅度谱进行合并,得到合并数据,将该合并数据作为判别器的输入数据,将判别器的输入数据输入判别器,得到原始语音的预测性能分数,从而通过将两个相同的原始语音的幅度谱进行合并,提高判别器预测原始语音的性能分数的准确度。

S406、根据增强后的带噪语音的性能分数和预测性能分数、以及原始语音的预测性能分数,对判别器进行训练。

具体的,可根据增强后的带噪语音的性能分数和增强后的带噪语音的预测性能分数之间的差值、并根据原始语音的预测性能分数和原始语音的预设性能分数之间的差值,计算判别器进行性能分数预测的损失值,根据该损失值和预设的模型优化算法,对判别器进行模型参数调整,完成对判别器的一次训练。

在一个可行的实施方式中,模型优化算法可采用适应性矩估计(adaptive momentestimation,Adam)优化算法,以提高模型训练效果。

在一个可行的实施方式中,用于计算判别器进行性能分数预测的损失值的损失函数可表示为:

LD=E(x,s)~(X,S)[(Dl(s,s)-1)2+(Dl(G(x),s)-Q'(iSTFT(G(x)),iSTFT(s)))2];

其中,LD为判别器计算判别器进行性能分数预测的损失值。E(x,s)~(X,S)()表示期望值。X表示当前训练次数中的所有训练语音中的带噪语音,S表示当前训练次数中的所有训练语音中的原始语音,例如,在每次训练中可在训练数据库中选取5个训练语音,X则表示其中的5个带噪语音,S则表示其中的5个原始语音,x为其中一个带噪语音,s为与x对应的原始语音。Dl(s,s)表示原始语音的预测性能分数,这里的两个s表示在进行原始语音的性能分数预测时输入判别器的是两个相同原始语音的幅度谱的合并数据,1为原始语音的预设性能分数。G(x)表示通过生成器进行语音增强的带噪语音,即增强后的带噪语音。Dl(G(x),s)表示增强后的带噪语音的预测性能分数,此时输入判别器的是增强后的带噪语音的幅度谱和原始语音的幅度谱的合并数据。Q'(iSTFT(G(x)),iSTFT(s))表示增强后的带噪语音的性能分数,Q'(·)为性能指标对应的性能评估函数,iSTFT(G(x))表示对增强后的带噪语音进行短时傅里叶变换,iSTFT(s)表示对原始语音进行短时傅里叶变换。因此,通过上述公式提高判别器进行性能分数预测的损失值的计算准确度

S407、根据增强后的带噪语音的预测性能分数、预设的目标性能分数、带噪语音和原始语音,对生成器进行训练。

其中,预设的目标性能分数为增强后的带噪语音的理想性能分数。

具体的,在通过生成器对带噪语音进行增强时,生成器的输出为时频掩码,通过时频掩码与带噪语音的幅度谱相乘,才得到增强后的带噪语音,因此,在已经知道带噪语音对应的原始语音的情况下,可得到目标时频掩码。其中,目标时频掩码与带噪语音的幅度谱相乘,可得到原始语音的幅度谱,可见,目标时频掩码是生成器的学习目标之一。

具体的,可根据增强后的带噪语音的预测性能分数与目标性能分数之间的差值,确定第一损失值,根据目标时频掩码和时频掩码之间的差值,确定第二损失值。结合第一损失值、第二损失值和预设的模型优化算法,对生成器进行模型参数调整,完成对生成器的一次训练,以提高生成器的训练效果。

在一个可行的实施方式中,模型优化算法可采用适应性矩估计优化算法,以提高模型训练效果。

在一个可行的实施方式中,第一损失值的计算公式可表示为:

LG1=Ex~X[(Dl(G(x),s)-1)2];

其中,LG1为第一损失值,Ex~X()表示期望值,Dl(G(x),s)表示增强后的带噪语音的预测性能分数。

在一个可行的实施方式中,第二损失值的计算公式可表示为:

Figure BDA0002563527590000131

其中,LG2为第二损失值,为生成器生成的时频掩码,yt,f为目标时频掩码,t为T中的其中一帧,f为F中的其中一个频率。

在一个可行的实施方式中,可通过加权求和的方式将第一损失值和第二损失值进行结合,得到生成器的损失值,以提高损失值的准确度。

作为示例的,第一损失值和第二损失值进行结合的公式可表示为:

LG=LG1+λ·LG2;其中,λ为预设的权重参数,LG为生成器的损失值。

本公开实施例提供的语音增强模型的训练过程,依据训练数据和性能指标,对生成式对抗网络中的生成器和判别器进行训练,提高了语音增强模型的语音增强效果,并且可以针对不同的场景类型设计相应的性能指标,训练得到不同的场景类型下的语音增强模型。

作为示例的,图5为本公开的一实施例提供的生成式对抗网络的结构示例图,在图5中,生成式对抗网络的生成器为CRNN网络,也即卷积循环神经网络,生成式对抗网络的判别器为CNN网络,也即卷积神经网络。

如图5所示,生成器包括5个卷积层、2个双向长短时记忆循环网络(BiLSTM)和5个反卷积层。其中,5个卷积层网络构成编码结构,2个BiLSTM构成循环结构,5个反卷积层构成解码结构。编码结构中的每个卷积层通过跳跃连接与解码结构中相应的反卷积层连接,以将自身的输出数据输入至相应的反卷积层,避免训练过程中发生梯度***或梯度消失。

如图5所示,判别器包括5个卷积层、1个压平层和1个全连接层,其中,压平层用于对卷积层的输出数据进行降维,使之能够输入至全连接层,再通过全连接层输出相应的预测性能分数。如果,性能分数的取值范围为0~1,则判别器的输出数据的取值范围也为0~1。

如图5所示,在生成式对抗网络的训练过程中,将带噪语音的幅度谱输入生成器,得到相应的时频掩码。将该时频掩码与带噪语音的幅度谱相乘,得到增强后的幅度谱。将增强后的幅度谱和带噪语音的相位谱进行逆傅里叶变换,得到增强后的带噪语音。通过性能评估函数对带噪语音进行性能评估,可得到增强后的带噪语音的性能分数。

如图5所示,在得到增强后的带噪语音后,可将增强后的带噪语音的幅度谱(即经过生成器生成的时频掩码增强的幅度谱)和原始语音的幅度谱,输入判别器。得到增强后的带噪语音的预测性能分数和原始语音的预测性能分数。可根据增强后的带噪语音的预测性能分数和原始语音的预测性能分数、增强后的带噪语音的预测性能分数和原始语音的预测性能分数,对判别器进行训练。可根据增强后的带噪语音的预测性能分数、目标性能分数、时频掩码和目标时频掩码,对生成器进行训练。其中,原始语音与性能评估函数之间的箭头,表示性能函数在对增强后的带噪语音进行评估的时候可能会需要原始语音作为输入数据之一。性能评估函数与判别器中第一层卷积层之间的箭头,表示将增强后的带噪语音的性能分数用于判别器的训练。

图6为本公开的一实施例提供的语音增强装置的结构示意图。如图5所示,该装置包括:

获取模块601,用于获取目标语音;

确定模块602,用于确定目标语音所在场景的场景类型;

选取模块603,用于在预设的各语音增强模型中,选取与场景类型对应的语音增强模型;

增强模块604,用于通过与场景类型对应的语音增强模型,对目标语音进行增强。

在一个可行的实施方式中,场景类型为人耳听音场景或机器识别场景。

在一个可行的实施方式中,语音增强模型为预先训练好的生成式对抗网络的生成器,生成器为卷积循环神经网络。

在一个可行的实施方式中,获取模块601还用于:获取训练语音,训练语音包括带噪语音和带噪语音的原始语音;

该装置还包括训练模块,用于:根据训练语音和预设的性能指标,训练生成式对抗网络。

在一个可行的实施方式中,生成式对抗网络的判别器为卷积神经网络;训练模块具体用于:通过生成器对带噪语音进行增强;通过性能指标对应的预设性能评估函数,对增强后的带噪语音进行性能评估,得到增强后的带噪语音的性能分数;通过判别器对增强后的带噪语音进行性能分数预测,得到增强后的带噪语言的预测性能分数;通过判别器对原始语音进行性能分数预测,得到原始语音的预测性能分数;根据增强后的带噪语音的性能分数和预测性能分数、以及原始语音的预测性能分数,对判别器进行训练;根据增强后的带噪语音的预测性能分数、预设的目标性能分数、带噪语音和原始语音,对生成器进行训练。

在一个可行的实施方式中,训练模块具体用于:提取带噪语音的幅度谱和相位谱;将幅度谱输入生成器,得到生成器输出的时频掩码;通过时频掩码对幅度谱进行增强;对相位谱和增强后的幅度谱进行逆傅里叶变换,得到增强后的带噪语音。

在一个可行的实施方式中,训练模块具体用于:根据带噪语音和原始语音,确定目标时频掩码;根据增强后的带噪语音的预测性能分数和目标性能分数,确定第一损失值,并根据目标时频掩码和时频掩码,确定第二损失值;根据第一损失值和第二损失值,对生成器进行训练。

在一个可行的实施方式中,训练模块具体用于:提取原始语音的幅度谱,并提取增强后的带噪语音的幅度谱;对原始语音的幅度谱和增强后的带噪语音的幅度谱进行合并,得到判别器的输入数据;将判别器的输入数据输入判别器,得到增强后的带噪语音的预测性能分数。

在一个可行的实施方式中,性能指标包括语音识别指标或主观听感指标。

在一个可行的实施方式中,语音识别指标包括词错误率。

在一个可行的实施方式中,主观听感指标包括如下一项或多项:主观语音质量评估、短时客观可懂度。

图7为本公开的一实施例提供的语音增强模型的训练装置的结构示意图,其中,语音增强模型为生成式对抗网络的生成器,生成器为卷积循环神经网络,生成器为卷积神经网络。如图7所示,该装置包括:

获取模块701,用于获取训练语音,训练语音包括带噪语音和带噪语音的原始语音;

训练模块702,用于根据训练语音和预设的性能指标,多次训练生成式对抗网络。

在一个可行的实施方式中,生成式对抗网络的判别器为卷积神经网络;训练模块702具体用于:通过生成器对带噪语音进行增强;通过性能指标对应的预设性能评估函数,对增强后的带噪语音进行性能评估,得到增强后的带噪语音的性能分数;通过判别器对增强后的带噪语音进行性能分数预测,得到增强后的带噪语言的预测性能分数;通过判别器对原始语音进行性能分数预测,得到原始语音的预测性能分数;根据增强后的带噪语音的性能分数和预测性能分数、以及原始语音的预测性能分数,对判别器进行训练;根据增强后的带噪语音的预测性能分数、预设的目标性能分数、带噪语音和原始语音,对生成器进行训练。

在一个可行的实施方式中,训练模块702具体用于:提取带噪语音的幅度谱和相位谱;将幅度谱输入生成器,得到生成器输出的时频掩码;通过时频掩码对幅度谱进行增强;对相位谱和增强后的幅度谱进行逆傅里叶变换,得到增强后的带噪语音。

在一个可行的实施方式中,训练模块702具体用于:根据带噪语音和原始语音,确定目标时频掩码;根据增强后的带噪语音的预测性能分数和目标性能分数,确定第一损失值,并根据目标时频掩码和时频掩码,确定第二损失值;根据第一损失值和第二损失值,对生成器进行训练。

在一个可行的实施方式中,训练模块702具体用于:提取原始语音的幅度谱,并提取增强后的带噪语音的幅度谱;对原始语音的幅度谱和增强后的带噪语音的幅度谱进行合并,得到判别器的输入数据;将判别器的输入数据输入判别器,得到增强后的带噪语音的预测性能分数。

在一个可行的实施方式中,性能指标包括语音识别指标或主观听感指标。

在一个可行的实施方式中,语音识别指标包括词错误率。

在一个可行的实施方式中,主观听感指标包括如下一项或多项:主观语音质量评估、短时客观可懂度。

图6提供的语音增强装置和图7提供的语音增强模型的训练装置,可以执行上述相应方法实施例,其实现原理和技术效果类似,在此不再赘述。

图8为本公开的一实施例提供的一种服务器的结构示意图。如图8所示,该服务器可以包括:处理器801和存储器802。存储器802用于存储计算机执行指令,处理器801执行计算机程序时实现如上述任一实施例的方法。

上述的处理器801可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。上述存储器802可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

本公开的一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述任一实施例的方法。

本公开的一实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质中读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述任一实施例的方法。

图9为本公开的一实施例提供的语音增强装置900的框图。例如,装置900可以被提供为一服务器或者一计算机。参照图9,装置900包括处理组件901,其进一步包括一个或多个处理器,以及由存储器902所代表的存储器资源,用于存储可由处理组件901的执行的指令,例如应用程序。存储器902中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件901被配置为执行指令,以执行上述任一实施例的方法。

装置900还可以包括一个电源组件903被配置为执行装置900的电源管理,一个有线或无线网络接口904被配置为将装置900连接到网络,和一个输入输出(I/O)接口905。装置900可以操作基于存储在存储器902的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。

其中,语音增强模型的训练装置可为计算机或服务器,因此,语音增强装置900的框图可参照图9所示语音增强装置900的框图。

在本公开实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中,A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。

可以理解的是,在本公开实施例中涉及的“第一”、“第二”仅为描述方便进行的区分,并不用来限制本公开实施例的范围。

可以理解的是,在本公开实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本公开实施例的范围。

可以理解的是,在本公开的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:残留回声消除方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!