一种多通道回声滤除方法、滤除装置和可读存储介质

文档序号:1116242 发布日期:2020-09-29 浏览:39次 >En<

阅读说明:本技术 一种多通道回声滤除方法、滤除装置和可读存储介质 (Multichannel echo filtering method, filtering device and readable storage medium ) 是由 荣赶丁 何颖洋 于 2020-06-29 设计创作,主要内容包括:本发明提供一种多通道回声滤除方法、滤除装置和可读存储介质,通过第一音频数据和第二音频数据重采样,继而得出第一时域数据和第二时域数据,继而处理得出第一反转时域数据和第二反转时域数据,随后将MIDFT矩阵和DFT矩阵进行叠加并相乘,计算得出的第一重采样时域信号和第二重采样时域信号进行低频相位处理,最后对回声信号进行滤除,并输出回声滤除后的声音信号。通过重采样对多通路的去相关方法,使得基于重采样前后等效于延时处理,且通过重采样比值主观控制信号处理前后的相关性,并且基于延时累计问题可通过重采样比值的组合解决,并能通过信号反转解决处理块间不连续问题。(The invention provides a multi-channel echo filtering method, a filtering device and a readable storage medium, which are characterized in that first audio data and second audio data are resampled to obtain first time domain data and second time domain data, the first time domain data and the second time domain data are obtained through processing, then a MIDFT matrix and a DFT matrix are superposed and multiplied, a first resampled time domain signal and a second resampled time domain signal obtained through calculation are subjected to low-frequency phase processing, finally an echo signal is filtered, and a sound signal after echo filtering is output. By the decorrelation method of the resampling to the multiple paths, the method is equivalent to delay processing before and after resampling, the correlation before and after signal processing is subjectively controlled by a resampling ratio, the problem of delay accumulation can be solved by the combination of the resampling ratio, and the problem of discontinuity among processing blocks can be solved by signal inversion.)

一种多通道回声滤除方法、滤除装置和可读存储介质

技术领域

本发明涉及回声滤除领域,特别是涉及一种多通道回声滤除方法、滤除装置和可读存储介质。

背景技术

在语音通信或者人机交互的应用中,常常存在回声的干扰。而且随着人们对通话质量的要求不断提高,以及智能语音音箱的不断发展,回声消除算法(Acoustic EchoCancellation,AEC)成为了当今的一个热点。例如,在智能语音音箱的人机交互应用中,需要在嘈杂的音乐环境下,通过AEC算法消除音乐的干扰,让机器可以准确获取唤醒词的准确信息,从而唤醒音箱进行下一步的交互。

在智能语音音箱发展初期,大部分设备只限制于播放单通路音频,在此情况下,通过最小均方(Least Mean Square,LMS)能达到较理想的效果。然而随着立体声以及多通路音频在智能语音音箱中的实现,仅采用LMS算法会导致失调问题,尤其是当通路间的相关性较高时,失调尤其严重。因此,在LMS处理前,有学者提出对通路间进行去相关处理,以降低后期的失调问题。常用的去相关算法包括:加噪声、非线性、相位调整、基于听觉模型等等。

图1图示了立体声回声消除处理系统。首先,在模块100中,立体声的左右通路102和103可以等效成远端房间的同一信号源101经过不一样的远端房间脉冲和所得,经过110模块进行去相关处理,得到处理后的左通路122和右通路123通过扬声器在近端房间进行播放,通过近端房间脉冲和后分别得到134和135与语音信号源131混合进入麦克风中。为了消除回声部分134和135,保留语音部分131,在120模块中采用LMS算法计算和,近似估计近端房间脉冲和,并分别与左通路122和右通路123相乘,得到左回声134的近似124,以及右回声135的近似125。因此得到的信号126仅保留了语音131。

实际情况下,当不进行左右通路的去相关算法,或者去相关的程度不够,会出现以下两个问题:

1)如公式1所示

Figure BDA0002559200290000021

不仅仅与近端房间脉冲

Figure BDA0002559200290000024

有关,同时也和远端房间脉冲

Figure BDA0002559200290000025

有关,导致解的不唯一性。

Figure BDA0002559200290000027

2)产生失调问题,如式(2)所示,失调是指估计脉冲

Figure BDA0002559200290000028

和真实房间脉冲

Figure BDA0002559200290000029

之间的差异。当

Figure BDA00025592002900000210

Figure BDA00025592002900000211

的差异越大时,ε越大。

推导所得,失调ε可近似为式(3),其中为左右通路间的互功率谱密度,为左通路122或者右通路123的自功率谱密度。从式中可以看出,当左通路122和右通路123相等时,即相关性为1,失调ε为∞;换句话说,当左通路122和右通路123相关性较高时,失调依然很大。

Figure BDA00025592002900000215

发明内容

本发明的第一目的是提供一种既能均衡通路间的去相关效果和主观感知,又能通过客观调整参数从而控制去相关的程度的一种多通道回声滤除方法。

本发明的第二目的是提供一种既能均衡通路间的去相关效果和主观感知,又能通过客观调整参数从而控制去相关的程度的一种多通道回声滤除装置。

本发明的第三目的是提供一种既能均衡通路间的去相关效果和主观感知,又能通过客观调整参数从而控制去相关的程度的可读存储介质。

为了实现本发明的第一目的,本发明提供一种多通道回声滤除方法,包括:

获取第一通道的第一音频数据和第二通道的第二音频数据,分别对第一音频数据和第二音频数据重采样,继而得出第一时域数据和第二时域数据;

对第一时域数据和第二时域数据利用镜像原理处理得出第一反转时域数据和第二反转时域数据;

根据重采样率和初始采样率的比值R大于1时,计算并得出第一MIDFT矩阵;

根据重采样率和初始采样率的比值R小于1时,计算并得出第二MIDFT矩阵;

计算DFT矩阵;

将第一MIDFT矩阵和DFT矩阵进行叠加并相乘,继而得出

Figure BDA0002559200290000031

将第一MIDFT矩阵和DFT矩阵进行叠加并相乘,继而得出

Figure BDA0002559200290000032

根据第一时域数据和

Figure BDA0002559200290000033

计算得出P1,根据第二时域数据和

Figure BDA0002559200290000034

计算得出P2

P1相乘第一反转时域数据得出第一重采样时域信号;

P2相乘第二反转时域数据得出第二重采样时域信号;

对第一重采样时域信号和第二重采样时域信号进行低频相位处理;

接收声音信号,声音信号包括语音信号和回声信号,根据经过低频相位处理后的第一重采样时域信号和第二重采样时域信号对回声信号进行滤除,并输出回声滤除后的声音信号。

更进一步的方案是,第一时域数据为xl,2N=[xl[-N],....xl[0],....xl[N-1]]T,L为左声道的音频数据,N为一帧数据的长度,T为混响时间;

第二时域数据为xr,2N=[xl[-N],....xl[0],....xl[N-1]]T,R为左声道的音频数据。

更进一步的方案是,第一反转时域数据为

Figure BDA0002559200290000035

第二反转时域数据为

Figure BDA0002559200290000036

更进一步的方案是,MIDFT矩阵为:

更进一步的方案是,DFT矩阵为:

[F]k+1,n+1=e-j2πkn/4N,k,n∈[0,4N-1]。

更进一步的方案是,对第一重采样时域信号和第二重采样时域信号进行低频相位处理的步骤包括:

对经过低频相位处理后的第一重采样时域信号和第二重采样时域信号进行FFT转换,并得出第一频域信号和第二频域信号;

对第一频域信号和第二频域信号分别提取第一相位值和第二相位值,通过第一相位值减去第二相位值得出相位差值;

根据相位差值,对第一相位值和第二相位值进行相位调整;

根据相位调整后的第一相位值将第一频域信号时频逆转换,得出第一输出时域信号;

根据相位调整后的第二相位值将第二频域信号时频逆转换,得出第二输出时域信号;

根据第一输出时域信号和第二输出时域信号进行滤除,并输出回声滤除后的声音信号。

为了实现本发明的第二目的,本发明提供一种多通道回声滤除装置,包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述方案的滤除方法的步骤。

为了实现本发明的第三目的,本发明提供一种可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述方案的滤除方法的步骤。

由上述方案可见,通过重采样对多通路的去相关方法,使得基于重采样前后等效于延时处理,且通过重采样比值主观控制信号处理前后的相关性,并且基于延时累计问题可通过重采样比值的组合解决,并能通过信号反转解决处理块间不连续问题,另外基于时域或者频域处理有较好的去相关效果,且主观听感不受去相关作用的影响。最后利用基于低频的相位调整,能进一步降低通路间的相关性,故本方案既能均衡通路间的去相关效果和主观感知,又能通过客观调整参数从而控制去相关的程度。

附图说明

图1是立体声回声消除系统模块框图。

图2是数据重采样所致各点延时的示意图。

图3是对立体声延时处理的示意图。

图4是本发明多通道回声滤除方法实施例的重采样去相关的流程图。

图5是本发明多通道回声滤除方法实施例低频相位去相关的流程图。

以下结合附图及实施例对本发明作进一步说明。

具体实施方式

参照图2,图2图示了对一帧数据进行重采样后,导致帧内各点延时示意图。设音频初始的采样率为fs,重采样后采样率为fs′,则重采样后比值R=fs′/fs,即当R>1时表示处理后采样率扩张,相反,当R<1则表示采样率压缩。当对长度为N一帧数据进行重采样,T为混响时间,对此帧处理后的时间延时为其中n∈[0,N-1]。因此延时可分成4类,201表示前向取帧,且R>1,帧内各点延时为正且递增,202表示前向取帧,且R<1,帧内各点延时为负且递减,203表示后向取帧,且R>1,帧内各点延时为负且递增,204表示后向取帧,且R<1,帧内各点延时为负且递减。

以xm表示重采样前时域信号,Xm表示重采样前频域信号,

Figure BDA0002559200290000052

表示重采样后时域信号,表示重采样后频域信号,所以帧内各点重采样,根据上文分析,可等效为信号延时处理,则如公式4和公式5。

Figure BDA0002559200290000061

假设信号xm为均值为0,方差为的白噪声,通过推导,容易得到xm的互功率谱密度为

Figure BDA0002559200290000065

当重采样比值R越大时,xm的互功率谱密度就越小,即处理前后两者的相关性降低。但同时也发现,重采样方法无法降低低频部分的处理前后的互功率谱密度,因此对信号的低频部分进行进一步相位处理,以达到整体去相关效果。

参照图3,即为了保证重采样处理前后音频文件不会出现累计延时叠加的问题,如图3所示以两帧为处理块长,对左通路300的前一帧301进行前向扩张,后一帧302进行压缩后向压缩;对右通路310的前一帧311进行前向压缩,后一帧312进行后向扩张,保证了连续性。同时,为了进一步提高重采样的精度以及处理块边缘的周期连续性,采用块镜像原理。

本实施例采用的立体声延时处理仅为其中一种实施例,其他如5.1通路、7.1通路等多通路等延时处理方式与此例类似,本领域的从业人员应能理解,并不会影响本发明原理的阐述。

参照图4,首先执行401步骤,获取第一通道的第一音频数据和第二通道的第二音频数据,并以2N长度为单位,分别对左右通路即LR通道进行处理块提取,对第一音频数据和第二音频数据重采样,继而得出第一时域数据xl,2N和第二时域数据xr,2N

xl,2N=[xl[-N],....xl[0],....xl[N-1]]T和xr,2N=[xl[-N],....xl[0],....xl[N-1]]T

然后采取镜像原理提升重采样的精度,对第一时域数据和第二时域数据利用镜像原理处理得出第一反转时域数据

Figure BDA0002559200290000071

和第二反转时域数据

Figure BDA0002559200290000072

即执行411步骤和412步骤其中

Figure BDA0002559200290000075

表示反转,同时确定采样率比值R和R′,当R>1表示采样率扩张时,则R'<1表示采样率压缩,根据公式(4)及上文分析,如经重采样比值R处理前后,可用以下公式表示:

随后执行步骤422,当R大于1时,根据R值计算MIDFT矩阵MR为:

同理,执行步骤423,当R小于1时,根据R′计算其MIDFT矩阵MR'

执行步骤421,设F为DFT矩阵,计算F的公式为

[F]k+1,n+1=e-j2πkn/4N,k,n∈[0,4N-1] (公式9)

随后执行步骤431,通过MR和F进行叠加并相乘可得

Figure BDA0002559200290000078

同理,执行步骤432,通过MR'和F进行叠加并相乘可得

结合公式10中的,在执行步骤441和步骤442中,分别进行反转数据处理,并同方向扩张,得到P1和P2,最后提取P1和P2的上半部分,分别与

Figure BDA00025592002900000712

Figure BDA00025592002900000713

相乘整合,在步骤451中,P1相乘所述第一反转时域数据得出第一重采样时域信号,即得到重采样后的左通路的第一重采样时域信号在步骤452中,P2相乘所述第二反转时域数据得出第二重采样时域信号,即得到重采样后的右通路的第二重采样时域信号

Figure BDA0002559200290000082

正如上文所述,重采样处理方法并不能降低

Figure BDA0002559200290000084

低频的相关性,既xl,2N与xr,2N的低频的相关性和低频的相关性基本一样,因此需要单独对的低频部分做一步的处理。

执行步骤453中的对所述第一重采样时域信号和所述第二重采样时域信号进行低频相位处理,参照图5,通过子带分解或者其他类似处理,把

Figure BDA0002559200290000089

Figure BDA00025592002900000810

低频部分(如1kHz以下的信号)提取出来,首先执行步骤501步骤,对第一重采样时域信号和第二重采样时域信号进行FFT(时频转换)变换处理,随后执行步骤502和步骤503,对第一频域信号和第二频域信号分别提取第一相位值和第二相位值,通过第一相位值减去第二相位值得出相位差值,即提取左右通路的相位部分,对左右通路的相位进行相减取差值;

随后执行步骤504和步骤505,根据所述相位差值,对第一相位值和第二相位值进行相位调整,得出如图5所示的。

然后执行步骤506和步骤507,根据相位调整后的第一相位值将所一频域信号时频逆转换,得出第一输出时域信号,和根据相位调整后的第二相位值将所述第二频域信号时频逆转换,得出第二输出时域信号,通过IFFT(时频逆转换)重新得到输出时域信号。理论上,通过相位调整,使通路间的相位差进一步增加,达到去相关效果。

最后,接收声音信号,所述声音信号包括语音信号和回声信号,根据第一输出时域信号和第二输出时域信号对回声信号进行滤除,并输出回声滤除后的声音信号。

尽管本实施例中仅针对进行描述,但实际上也可进行其他类似方式的相位调整,本领域的技术从业人员应该能意识到,基于本发明原理的这些修正或变形是明了的。

本案的多通道回声滤除装置,包括处理器,处理器用于执行存储器中存储的计算机程序时实现如上述的回声滤除方法的步骤。

本案的可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述的回声滤除方法的步骤。

尽管本实施例中仅针对立体声时域信号xm做了详细的描述,但是本领域的技术从业人员应该能意识到,诸如立体声时域信号Xm乃至多通路时域或者频域信号的处理模块,同时可以初始化时通过子带分解,针对不同频率的去相关程度进行设置不同的采样率比值R,基于本发明原理的这些修正或变形是明了的。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:信息处理装置及其方法和系统、计算机可读记录介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!