基于多域扩张的音频增强方法及装置

文档序号:193375 发布日期:2021-11-02 浏览:43次 >En<

阅读说明:本技术 基于多域扩张的音频增强方法及装置 (Audio enhancement method and device based on multi-domain expansion ) 是由 安名华 陈林福 林德云 于 2021-08-04 设计创作,主要内容包括:本发明属于音频处理技术领域,具体涉及基于多域扩张的音频增强方法及装置。所述方法执行以下步骤:步骤1:将待处理音频进进行多域变换,得到待处理音频在频域、时域和映射域的波形;步骤2:对待处理音频在频域的波形进行叠加扩张,具体包括:将频域的波形代入预设的频域叠加扩张函数,生成一个中间叠加波形,将生成的中间叠加波形与频域的波形进行叠加,得到叠加波形。本发明通过对将待处理的音频进行多域变换,再分别对不同域的波形进行处理,以找回音频丢失帧,再对音频进行处理,可以显著提升音频的质量;同时在进行处理过程中,还通过多种手段去除了处理过程中产生的噪声,进一步提升了音频质量。(The invention belongs to the technical field of audio processing, and particularly relates to an audio enhancement method and device based on multi-domain expansion. The method performs the steps of: step 1: carrying out multi-domain transformation on the audio to be processed to obtain the waveforms of the audio to be processed in a frequency domain, a time domain and a mapping domain; step 2: the method for performing superposition expansion on the waveform of the audio to be processed in the frequency domain specifically comprises the following steps: and substituting the waveform of the frequency domain into a preset frequency domain superposition expansion function to generate an intermediate superposition waveform, and superposing the generated intermediate superposition waveform and the waveform of the frequency domain to obtain a superposition waveform. The invention carries out multi-domain transformation on the audio to be processed, then respectively processes waveforms in different domains to find out lost audio frames, and then processes the audio, thereby obviously improving the quality of the audio; meanwhile, in the processing process, noise generated in the processing process is removed through various means, and the audio quality is further improved.)

基于多域扩张的音频增强方法及装置

技术领域

本发明属于音频处理技术领域,具体涉及基于多域扩张的音频增强方法及装置。

背景技术

语音增强是指当语音波形被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音波形,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。

语音编码和语音识别研究常常是在实验室条件下进行的,也就是在信噪比很高或无噪声的环境中进行的。因此当语音处理从实验室走向实际应用时,由于实际环境噪声与干扰的存在,会使许多方法无法使用,性能急速下降。因此研究对受噪降质语音改善其听觉效果或提髙信噪比的处理,是面临的必须解决的实际问题。

在一些实施方式中,语音识别系统可以执行自适应音频增强技术以例如通过改善其鲁棒性和/或精度来改进多声道语音识别。例如,自适应波束成形可以使用神经网络来执行。可以将多个声道的音频(例如来自不同麦克风的音频信息)提供给神经网络模块,所述神经网络模块自适应地改变用于执行音频增强(例如,空间滤波或波束成形)的滤波器。在一些实施方式中,系统可以使用神经网络为每个输入帧动态地估计一组滤波器。例如,原始波形多声道波形可以传递到滤波器预测(FP)长短期记忆(LSTM)模块,以便为每个声道生成时域滤波器。然后将这些滤波器与各个声道的音频数据进行卷积并相加在一起形成单声道增强语音,所述单声道增强语音被提供给用于执行语音识别的声学模型。

专利号为CN201680079040.7A的专利公开了用于多声道语音识别的神经网络自适应波束成形的方法、系统和设备,包括编码在计算机存储介质上的计算机程序。一方面,一种方法包括以下动作:接收与话语相对应的音频数据的第一声道以及与所述话语相对应的音频数据的第二声道。所述动作进一步包括:基于所述音频数据的第一声道和所述音频数据的第二声道而生成第一滤波器的第一组滤波器参数;并且基于所述第一声道的音频数据和所述第二声道的音频数据而生成第二滤波器的第二组滤波器参数。所述动作进一步包括生成音频数据的单个组合声道。所述动作进一步包括将所述音频数据输入到神经网络。所述动作进一步包括为所述话语提供转录。

其通过对声音的多通道进行滤波和处理,完成语音增强,但增强的过程倚赖于神经网络,且在增强声音时,没有对声音进行处理,以降低或者去除噪声的影响,或者避免因为声音本身的丢帧导致的影响,若在这种情况进行音频增强,将很可能在增强声音的同时,增强噪声和放大声音本身的缺陷,而导致声音的信噪比降低,降低声音质量。

发明内容

有鉴于此,本发明的主要目的在于提供基于多域扩张的音频增强方法及装置,本发明通过对将待处理的音频进行多域变换,再分别对不同域的波形进行处理,以找回音频丢失帧,再对音频进行处理,可以显著提升音频的质量;同时在进行处理过程中,还通过多种手段去除了处理过程中产生的噪声,进一步提升了音频质量。

为达到上述目的,本发明的技术方案是这样实现的:

基于多域扩张的音频增强方法,所述方法执行以下步骤:

步骤1:将待处理音频进进行多域变换,得到待处理音频在频域、时域和映射域的波形;

步骤2:对待处理音频在频域的波形进行叠加扩张,具体包括:将频域的波形代入预设的频域叠加扩张函数,生成一个中间叠加波形,将生成的中间叠加波形与频域的波形进行叠加,得到叠加波形;

步骤3:对待处理音频在时域的波形进行复制扩张,具体包括:将时域的波形代入预设的时域复制扩张函数,生成一个中间复制波形,将生成的中间复制波形与时域的波形进行连接,得到复制波形;

步骤4:将待处理音频在映射域的波形进行映射扩张,具体包括:将映射域的波形代入预设的映射截止扩张函数,以得到除设定范围内的波形,生成一个截止波形;

步骤5:基于复制波形、截止波形和叠加波形进行丢失帧找回具体包括:将复制波形和叠加波形进行作差运算,得到的差值部分再使用截止波形进行作差运算,得到最终的波形作为找回丢失帧后的波形;

步骤6:将找回丢帧后的波形进行增强,具体包括:首先对波形在时间域上进行自扩张,以得到扩张后的波形,对扩张后的波形使用增强函数进行增强后,再对增强后的波形进行自收缩,对收缩后的波形基于召回丢帧后的波形进行还原,以去除自扩张和收缩过程中产生的波形毛刺,最后对还原后的波形中的空白部分基于找回丢正后的波形进行填充,完成音频增强。

进一步的,所述频域叠加扩张函数使用如下公式表示:,其中,我为频域的波形,为频域波形的横轴坐标上限,频域波形的横轴坐标上限,为横轴调整系数,取值范围为:1~1.5;为纵轴系数,取值范围为:2~2.5;为中间叠加波形。

进一步的,所述时域复制扩张函数使用如下公式表示:;其中为时域的波形;为时间上限;为时间间隔,为设定值,取值范围为:为得到的中间复制波形。

进一步的,所述映射截止扩张函数使用如下公式表示:;其中,为截止下限值,为截止上限值,为映射域波形,为截止波形。

进一步的,所述增强函数使用如下公式表示:;其中,为扩张后的波形的长度,为扩张后的波形的高度,为扩张后的波形,为对扩张后的波形使用增强函数进行增强后的结果。

进一步的,所述步骤6中对扩张后的波形使用增强函数进行增强的方法包括:将扩张后的波形划分为高频波形和低频波形,将低频次波形通过增强函数产生低频波形的高次谐波波形来作为将用于代替低频波形的增强波形,其中,基于关于失真度的预测信息调整高次谐波波形的阶数;以及根据关于失真度的预测信息,自适应地调整低频波形和增强波形的合成率。

进一步的,所述产生高次谐波波形的阶数的步骤包括:利用增强函数将与子带相应的波形的幅度调整为统一,以产生归一化的波形;以及根据音调信息自适应地产生归一化的波形的高次谐波波形。

进一步的,所述步骤6中对收缩后的波形基于找回丢帧后的波形进行还原的方法包括:将收缩后的波形与找回丢帧后的波形进行作差运算,得到的差值部分即进行自扩张和收缩过程中产生的波形毛刺,将差值部分从收缩后的波形中去除,得到还原后的波形。

进一步的,所述步骤1中将待处理音频进进行多域变换之前,还包括对待处理音频进行预处理的步骤,包括:对待处理音频进行平滑化处理;从待处理音频中减去平滑化处理后的波形;对待处理音频进行基于包络估计的幅值解调处理。

基于多域扩张的音频增强装置。

本发明的基于多域扩张的音频增强方法及装置,具有如下有益效果:

1.信噪比更高:本发明通过将音频信号进行多域转换后,得到多个域的音频信号,在不同的域中,进行针对性处理,分别实现了找回音频信号的丢失帧,以及对处理过程中产生的噪声进行去除的目的;通过上述过程,可以显著提升音频信号的质量;另外,本发明在进行音频增强时,将扩张后的波形划分为高频波形和低频波形,将低频次波形通过增强函数产生低频波形的高次谐波波形来作为将用于代替低频波形的增强波形,这样可以有效将低频波形直接转换为增强波形,而无须对整个音频信号都进行处理,提升了处理的效率。

2.处理算法效率高:本发明在进行时域、频域和映射域进行处理时,分别使用了不同的算法进行处理,与现有技术进行处理的算法均完全不同,在时域时,由于本发明是进行复制处理,所以使用的算法是在时域波形的基础上进行间隔特定时间进行处理的函数,而不是针对整个时域波形进行处理,提升了处理效率;另外,在频域和映射域的处理算法均适用于本发明的整体方案,考虑到算法处理需要消耗系统资源较大,所以本发明直接使用函数对音频信号进行作用,在保证达到本发明目的前提下,又实现了功能,提升了效率。

附图说明

图1为本发明实施例提供的基于多域扩张的音频增强方法的方法流程示意图;

图2为本发明实施例提供的基于多域扩张的音频增强方法及装置的丢失帧找回的原理示意图;

图3为本发明实施例提供的基于多域扩张的音频增强方法及装置对声音进行预处理的原理示意图;

图4为本发明实施例提供的基于多域扩张的音频增强方法及装置进行音频增强的原理示意图;

图5为本发明实施例提供的基于多域扩张的音频增强方法及装置每个音频被本发明的方法进行增强后的变化曲线示意图与现有技术的对比实验效果示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

如图1、图2、图3和图4所示,基于多域扩张的音频增强方法,所述方法执行以下步骤:

步骤1:将待处理音频进进行多域变换,得到待处理音频在频域、时域和映射域的波形;

步骤2:对待处理音频在频域的波形进行叠加扩张,具体包括:将频域的波形代入预设的频域叠加扩张函数,生成一个中间叠加波形,将生成的中间叠加波形与频域的波形进行叠加,得到叠加波形;

步骤3:对待处理音频在时域的波形进行复制扩张,具体包括:将时域的波形代入预设的时域复制扩张函数,生成一个中间复制波形,将生成的中间复制波形与时域的波形进行连接,得到复制波形;

步骤4:将待处理音频在映射域的波形进行映射扩张,具体包括:将映射域的波形代入预设的映射截止扩张函数,以得到除设定范围内的波形,生成一个截止波形;

步骤5:基于复制波形、截止波形和叠加波形进行丢失帧找回具体包括:将复制波形和叠加波形进行作差运算,得到的差值部分再使用截止波形进行作差运算,得到最终的波形作为找回丢失帧后的波形;

步骤6:将找回丢帧后的波形进行增强,具体包括:首先对波形在时间域上进行自扩张,以得到扩张后的波形,对扩张后的波形使用增强函数进行增强后,再对增强后的波形进行自收缩,对收缩后的波形基于召回丢帧后的波形进行还原,以去除自扩张和收缩过程中产生的波形毛刺,最后对还原后的波形中的空白部分基于找回丢正后的波形进行填充,完成音频增强。

具体的,参考图2,因为音频在采集和传输过程中会导致部分帧丢失,所以在对音频增强前,如果不能找回丢失帧,增强后的音频反而会因为丢失帧导致质量下降更加明显,因此本发明在进行增强前,通过找回丢失帧,有效提升了音频的质量。

同时,参考图3,在音频进行多域变换前,如果不能对音频进行预处理,降低噪声的影响,会导致多域变换后的信号在噪声影响下,各个域的结果再反映到原音频时,出现不一致的情况,因此,首先进行平滑滤波,避免这一情况的出现,可以提升本发明的可靠率。

参考图4,音频信号的增强,传统技术往往使用信号增强的技术,而本发明则使用将音频扩张后进行增强的方法,因为扩张后的音频,波形的细节将放大,在这个时候进行增强,可以使得音频增强的均匀程度更高,同时增强后的结果彼此之间的干扰也会更少,可以显著提升质量。

实施例2

在上一实施例的基础上,所述频域叠加扩张函数使用如下公式表示:,其中,我为频域的波形,为频域波形的横轴坐标上限,频域波形的横轴坐标上限,为横轴调整系数,取值范围为:1~1.5;为纵轴系数,取值范围为:2~2.5;为中间叠加波形。

具体的,频域frequency domain 是描述信号在频率方面特性时用到的一种坐标系。在电子学,控制系统工程和统计学中,频域图显示了在一个频率范围内每个给定频带内的信号量。频域表示还可以包括每个正弦曲线的相移的信息,以便能够重新组合频率分量以恢复原始时间信号。

实施例3

在上一实施例的基础上,所述时域复制扩张函数使用如下公式表示:;其中为时域的波形;为时间上限;为时间间隔,为设定值,取值范围为:为得到的中间复制波形。

具体的,时域是描述数学函数或物理信号对时间的关系。例如一个信号的时域波形可以表达信号随着时间的变化。

若考虑离散时间,时域中的函数或信号,在各个离散时间点的数值均为已知。若考虑连续时间,则函数或信号在任意时间的数值均为已知。

在研究时域的信号时,常会用示波器将信号转换为其时域的波形。

实施例4

在上一实施例的基础上,所述映射截止扩张函数使用如下公式表示:;其中,为截止下限值,为截止上限值,为映射域波形,为截止波形。

实施例5

在上一实施例的基础上,所述增强函数使用如下公式表示:;其中,为扩张后的波形的长度,为扩张后的波形的高度,为扩张后的波形,为对扩张后的波形使用增强函数进行增强后的结果。

实施例6

在上一实施例的基础上,所述步骤6中对扩张后的波形使用增强函数进行增强的方法包括:将扩张后的波形划分为高频波形和低频波形,将低频次波形通过增强函数产生低频波形的高次谐波波形来作为将用于代替低频波形的增强波形,其中,基于关于失真度的预测信息调整高次谐波波形的阶数;以及根据关于失真度的预测信息,自适应地调整低频波形和增强波形的合成率。

具体的,低频(低频率)或LF是ITU指定为无线电频率在30的范围内(RF)千赫(kHz)的-300千赫。它的波长范围从十公里到一公里,也被称为公里波段或千米波。

LF多用作卫星导航系统(差分全球定位系统)、国际广播以及AM广播等,另外亦可用作电波时计(授时)。

一些无线电频率识别( RFID技术 )标签使用低频。 这些标签通常被称为 LFID's或LowFID's(低频率识别Low Frequency Identification)。

低频发射天线的高功率发射机需要大量的空间,在美国和欧洲引起争议,担心暴露于高功率无线电波对健康可能会受影响。

实施例7

在上一实施例的基础上,所述产生高次谐波波形的阶数的步骤包括:利用增强函数将与子带相应的波形的幅度调整为统一,以产生归一化的波形;以及根据音调信息自适应地产生归一化的波形的高次谐波波形。

实施例8

在上一实施例的基础上,所述步骤6中对收缩后的波形基于找回丢帧后的波形进行还原的方法包括:将收缩后的波形与找回丢帧后的波形进行作差运算,得到的差值部分即进行自扩张和收缩过程中产生的波形毛刺,将差值部分从收缩后的波形中去除,得到还原后的波形。

具体的,对于任意一复合周期振动函数y(T)按傅氏级数分解表示为:第一项称均值或直流分量,第二项为基波或基本振动,第三项称二次谐波,依此类推或把二次谐波以后的统称为高次谐波。

谐波分析是信号处理的一种基本手段。在电力系统的谐波分析中,主要采用各种谐波分析仪分析电网电压、电流信号的谐波,该类仪表的谐波分析次数一般在40次以下。对于变频器而言,其谐波分布与电网不同,电网谐波主要为低次谐波,而变频器的谐波主要为集中在载波频率整数倍附近的高次谐波,一般的谐波分析设备只能分析50次以下的谐波,不能测量变频器输出的高次谐波。对于PWM波,当载波频率固定时,谐波的频率范围相对固定,而所需分析的谐波次数,与基波频率密切相关,基波频率越低,需要分析的谐波次数越高。一般宜采用宽频带的,运算能力较强、存储容量较大的变频功率分析仪,根据需要,其谐波分析的次数可达数百甚至数千次。例如,当载波频率为2kHz,基波频率为50Hz时,其40次左右的谐波含量最大;当基波频率为5Hz时,其400次左右的谐波含量最大,需要分析的谐波次数一般至少应达到2000次。

实施例9

在上一实施例的基础上,所述步骤1中将待处理音频进进行多域变换之前,还包括对待处理音频进行预处理的步骤,包括:对待处理音频进行平滑化处理;从待处理音频中减去平滑化处理后的波形;对待处理音频进行基于包络估计的幅值解调处理。

具体的,平滑滤波是低频增强的空间域滤波技术。它的目的有两类:一类是模糊;另一类是消除噪音。空间域的平滑滤波一般采用简单平均法进行,就是求邻近像元点的平均亮度值。邻域的大小与平滑的效果直接相关,邻域越大平滑的效果越好,但邻域过大,平滑会使边缘信息损失的越大,从而使输出的图像变得模糊,因此需合理选择邻域的大小。

实施例10

基于多域扩张的音频增强装置。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

需要说明的是,上述实施例提供的系统,仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元来完成,即将本发明实施例中的单元或者步骤再分解或者组合,例如,上述实施例的单元可以合并为一个单元,也可以进一步拆分成多个子单元,以完成以上描述的全部或者单元功能。对于本发明实施例中涉及的单元、步骤的名称,仅仅是为了区分各个单元或者步骤,不视为对本发明的不当限定。

所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

本领域技术人员应能够意识到,结合本文中所公开的实施例描述的各示例的单元、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件单元、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

术语“第一”、“另一部分”等是配置用于区别类似的对象,而不是配置用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者单元/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者单元/装置所固有的要素。

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术标记作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述,仅为本发明的较佳实施例而已,并非配置用于限定本发明的保护范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种具有音频识别功能的虚拟隔音通信方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!