语音处理方法及装置

文档序号：1923555 发布日期：2021-12-03 浏览：18次 >En<

阅读说明：本技术 语音处理方法及装置 (Voice processing method and device ) 是由聂玮奇刘煜刘博洋季经伟于 2021-08-30 设计创作，主要内容包括：本公开提供一种语音处理方法及装置,涉及语音技术领域,所述方法包括获取至少两个待处理音频信号；所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号；对所述麦克风阵列中任意两个麦克风进行波达方向估计；根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理；对波束形成处理后的待处理音频信号进行噪声抑制,得到目标音频信号；输出所述目标音频信号。本公开实现了音频拾取和增强功能,提高了音频识别的准确性。(The present disclosure provides a voice processing method and apparatus, relating to the technical field of voice, wherein the method comprises obtaining at least two audio signals to be processed; the at least two audio signals to be processed comprise audio signals acquired by a microphone array; estimating the direction of arrival of any two microphones in the microphone array; carrying out beam forming processing on the audio signal to be processed according to the direction of arrival estimation and the beam forming algorithm; carrying out noise suppression on the audio signal to be processed after the beam forming processing to obtain a target audio signal; and outputting the target audio signal. The audio frequency picking and enhancing function is realized, and the accuracy of audio frequency identification is improved.)

语音处理方法及装置

技术领域

本公开涉及语音技术领域，尤其涉及语音处理方法及装置。

背景技术

随着人工智能技术的不断发展，各领域中的传统设备都将逐渐被相应的智能终端所代替。智能终端是具有监控、感知、通信以及智能交互多种功能的全开放式平台，搭载了操作系统，可自行安装和卸载各类应用软件，持续对功能进行扩充和升级的新型终端产品。在智能交互方面，很多复杂的项目并不是仅凭目标常用的遥控以及触摸屏就能实现的，其中最好的办法就是采用声音遥控，而声音遥控的关键是语音信号的获取与识别。

相关技术中，在获取到语音信号时，通常是直接对语音信号进行滤波后输出。

但在上述技术中，若获取到的语音信号中包含多个方向的语音时，仅滤波会导致最终得到的语音信号中的噪音较多，从而降低了语音识别的准确性。

发明内容

本公开实施例提供一种语音处理方法及装置，能够解决现有技术中降低了语音识别的准确性的问题。所述技术方案如下：

根据本公开实施例的第一方面，提供一种语音处理方法，所述方法包括：

获取至少两个待处理音频信号；所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号；

对所述麦克风阵列中任意两个麦克风进行波达方向估计；

根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理；

对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号；

输出所述目标音频信号。

本公开实施例提供一种语音处理方法，在获取到多个待处理音频信号时，对麦克风阵列中任意两个麦克风进行波达方向估计，并根据波达方向估计和波束形成算法对待处理音频信号进行波束形成处理，并对波束形成处理后的待处理音频信号进行噪声抑制，最终将降噪抑制后得到的目标音频信号进行输出。可知，本公开对每两个待处理音频信号均进行了波达方向估计，并对波束形成处理后的待处理音频信号进行了噪声抑制处理，从而实现了音频拾取和增强功能，提高了音频识别的准确性。

在一个实施例中，在所述对所述麦克风阵列中任意两个麦克风进行波达方向估计之前，还包括：

对每个所述待处理音频信号进行语音活动检测和噪声估计，并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率；

所述对所述麦克风阵列中任意两个麦克风进行波达方向估计包括：

根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。

在一个实施例中，所述根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计包括：

根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计，根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度。

在一个实施例中，所述对每个所述待处理音频信号进行语音活动检测和噪声估计包括：

确定是否有同步输入信号；

在确定有所述同步输入信号时，对每个所述待处理音频信号进行回声消除处理；

对进行回声消除处理后的每个所述待处理音频信号进行语音活动检测和噪声估计；

在确定未有所述同步输入信号时，对每个所述待处理音频信号进行语音活动检测和噪声估计。

在一个实施例中，所述获取至少两个待处理音频信号包括：

获取至少两个原音频信号；所述原音频信号为音频输入模块输出的信号；

对每个所述原音频信号进行短时傅里叶变换，得到所述待处理音频信号。

在一个实施例中，所述对每个所述待处理音频信号进行回声消除处理包括：

根据公式和

公式对每个所述待处理音频信号进行回声消除处理；

其中，y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号，s(t-l)表示t-l时刻的同步输入信号，h_l表示同步输入信号到每个麦克风之间的信道，l为累加运算符中的标识符，L表示时间长度，h(t,m)＝[h₀h₁...h_L-1]表示在t时刻同步输入信号到第m个麦克风之间的信道；表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值，表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值，表示误差信号，μ表示平滑因子，表示第m个麦克风在t时刻的回声估计，x(t,m)表示第m个麦克风在t时刻的近端信号，s(k,m)＝[s(k,m)s(k-1,m)…s(k-L+1,m)]表示同步输入信号向量，s^T(k,m)表示s(k,m)的转置。

在一个实施例中，所述对每个所述待处理音频信号进行语音活动检测和噪声估计，并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率包括：

根据公式

对每个所述待处理音频信号进行语音活动检测；

根据公式

对每个所述待处理音频信号进行噪声估计；

根据公式和

公式确定所述音频信号存在概率；

其中，α_s表示有语音时噪声估计的平滑因子，α_n表示无语音时噪声估计的平滑因子，V(k,t-1)表示第k个频点在t-1时刻的噪声频谱估计值，V(k,t)表示第k个频点在t时刻的噪声频谱估计值，X(k,t)表示第k个频点在t时刻的短时傅里叶变换；β_s表示有语音时信号估计的平滑因子，β_n表示无语音时信号估计的平滑因子，Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值，Y(k,t)表示第k个频点在t时刻的信号频谱估计值；SNR(k,t)表示信噪比的估计值，P(k,t)表示第k个频点在t时刻的语音存在概率，TH_SNR表示信噪比阈值。

在一个实施例中，所述根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计，根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度包括：

根据公式计算所述麦克风阵列中任意两个麦克风的时延估计；

根据公式计算目标声源与麦克风阵列的相对角度；

其中，τ表示两个待处理音频信号之间的时延估计值，Ψ(m)表示两个待处理音频信号的广义互相关，表示权值，表示信号的能量的期望，θ表示波达方向，c表示空气中的声速，d表示两个待处理音频信号对应的两个麦克风之间的距离。

在一个实施例中，所述根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理包括：

根据公式对所述待处理音频信号进行波束形成处理；

其中，R＝E{X(t)X^T(t)}，

d(θ)＝[1e^{-jωδcosθ/c}...e^{-j(M-1)ωδcosθ/c}]^T，

通过拉格朗日乘子法可以得到：

表示h_BF的转置矩阵，subject to表示使得等于1，d^T(θ)表示d(θ)的转置矩阵，X(t)表示第t时刻的短时傅里叶变换，X^T(t)表示X(t)的转置矩阵。

在一个实施例中，所述对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号包括：

根据公式和公式S(k,t)＝h_NR(k)X(k,t)得到所述目标音频信号；

其中，S(k,t)表示降噪处理后的待处理音频信号，h_NR(k)表示降噪滤波器，X(k,t)表示经短时傅里叶变换后的待处理音频信号。

根据本公开实施例的第二方面，提供一种语音处理装置，所述方法包括：

获取模块，用于获取至少两个待处理音频信号；所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号；

第一处理模块，用于对所述麦克风阵列中任意两个麦克风进行波达方向估计；

第二处理模块，用于根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理；

第三处理模块，用于对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号；

输出模块，用于输出所述目标音频信号。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例提供的一种语音处理方法的流程图；

图2是本公开实施例提供的一种语音处理方法的流程图；

图3a是本公开实施例提供的一种语音处理装置的结构图；

图3b是本公开实施例提供的一种语音处理装置的结构图；

图3c是本公开实施例提供的一种语音处理装置的结构图；

图3d是本公开实施例提供的一种语音处理装置的结构图；

图3e是本公开实施例提供的一种语音处理装置的结构图；

图3f是本公开实施例提供的一种语音处理装置的结构图；

图3g是本公开实施例提供的一种语音处理装置的结构图；

图3h是本公开实施例提供的一种语音处理装置的结构图；

图3i是本公开实施例提供的一种语音处理装置的结构图；

图3j是本公开实施例提供的一种语音处理装置的结构图；

图4是本公开实施例提供的一种语音处理设备的框架图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例提供一种语音处理方法，如图1所示，该方法包括以下步骤：

步骤101、获取至少两个待处理音频信号。

其中，所述待处理音频信号为音频输入模块输出的所有信号，所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号。

步骤102、对所述麦克风阵列中任意两个麦克风进行波达方向估计。

步骤103、根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。

步骤104、对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号。

步骤105、输出所述目标音频信号。

本公开实施例提供一种语音处理方法，如图2所示，该方法包括以下步骤：

步骤201、获取至少两个原音频信号。

其中，所述原音频信号为音频输入模块输出的信号，所述原音频信号包括麦克风阵列输出的音频信号，和/或，智能麦克风输出的音频信号。

示例的，以固定的周期从音频输入模块获取多通道的原音频信号，该原音频信号的来源可以是麦克风阵列，也可以是其他智能麦克风。

需要说明的是，音频输入模块可以包括声音采集模块和至少一个输入通道，例如，音频输入模块包括16个输入通道；声音采集模块可以包括模数转换器件、麦克风阵列、智能麦克风等，例如，声音采集模块为8个模拟麦克风输入和2个模数转换器件；整体音频信号的输入源可以包括：麦克风阵列、第三方的模拟或者数字音频流、其他智能麦克风。

步骤202、对每个所述原音频信号进行短时傅里叶变换，得到所述待处理音频信号。

可选的，根据公式对每个所述原音频信号进行短时傅里叶变换，得到所述待处理音频信号。

其中，X(k,t,m)表示第m个通道第k个频点在t时刻的短时傅里叶变换，即为待处理音频信号，N表示时间窗的长度，w(n)表示第n个窗函数值，x(n+t,m)表示n+t时刻第m个通道的待处理音频信号，n为大于等于1的整数，w_k＝2πk/K表示角频率，K表示短时傅里叶变换的长度，e为自然指数。

示例的，通过短时傅里叶变换将获取到的多通道的原音频信号从时域转换到频域。

步骤203、确定是否有同步输入信号。

示例的，同步输入信号通常指的是第三方的模拟和数字音频流，主要搭载的是在当前环境中播放的声音的音源，例如，音箱或者电视机播放的声音；同步输入信号的检测是进行回声消除处理的必要条件，所以确定是否有同步输入信号直接关系到是否进行回声消除；具体的，同步输入信号的检测通常通过能量检测来完成，即计算同步输入通道的信号能量，当信号能量大于或等于设定的阈值时，确定有同步输入信号，需要进行回声消除；当信号能量小于设定的阈值时，则确定没有同步输入信号，无需进行回声消除。

步骤204、在确定有所述同步输入信号时，对每个所述待处理音频信号进行回声消除处理。

其中，回声消除是指从采集到的待处理音频信号中消除人为播放的声音，即同步信号，并最大限度保留其他声音。

可选的，根据归一化最小均方误差的方法进行信道估计，即根据公式和

公式对每个所述待处理音频信号进行回声消除处理；

需要说明的是，还可以通过现有技术中的其他方法进行回声消除，本公开对此不做限定。

步骤205、对每个所述待处理音频信号进行语音活动检测和噪声估计。

具体的，由于在真实的声学场景中，环境中并非一直都存在语音信号，大部分时候语音段和噪声段都是交替出现的，甚至有时大部分都是噪声段，因此，必须进行语音活动检测，语音活动检测是通过检测实时音频流的能量或者幅值大小，并在此基础上跟踪音频流中语音和噪声的变化来实现的。而为了获取更好的降噪效果，噪声估计是必不可少的，噪声估计是通过跟踪音频流信号中的信噪比、幅值等特征的变化来实时跟踪声频谱的变化的。其中，最典型的做法就是通过跟踪语音和噪声的频谱来实时估计音频的信噪比，再根据估计的音频的信噪比来更新语音和噪声的频谱。

可选的，在确定有同步输入信号时，对每个进行回声消除处理后的待处理音频信号进行语音活动检测和噪声估计，得到音频信号存在概率。

可选的，在确定未有同步输入信号时，直接对每个所述待处理音频信号进行语音活动检测和噪声估计，得到音频信号存在概率。

示例的，根据公式

对每个待处理音频信号进行噪声估计。

其中，α_s表示有语音时噪声估计的平滑因子，α_n表示无语音时噪声估计的平滑因子，V(k，t-1)表示第k个频点在t-1时刻的噪声频谱估计值，V(k，t)表示第k个频点在t时刻的噪声频谱估计值，X(k，t)表示第k个频点在t时刻的短时傅里叶变换。

根据公式

对每个待处理音频信号进行语音活动检测。

其中，β_s表示有语音时信号估计的平滑因子，β_n表示无语音时信号估计的平滑因子，Y(k,t-1)表示第k个频点在t-1时刻的信号频谱估计值，Y(k,t)表示第k个频点在t时刻的信号频谱估计值。

其中，SNR(k,t)表示信噪比的估计值。

其中，P(k,t)表示第k个频点在t时刻的音频信号存在概率，TH_SNR表示信噪比阈值。

步骤206、根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。

其中，波达方向为目标声源与麦克风阵列的相对角度，波达方向估计分为两个步骤：根据音频信号的存在概率计算麦克风阵列中任意两个麦克风的时延估计，再根据时延估计的结果计算目标声源与麦克风阵列的相对角度。

示例的，根据公式计算所述麦克风阵列中任意两个麦克风的时延估计。

根据公式计算目标声源与麦克风阵列的相对角度。

其中，τ表示两个待处理音频信号之间的时延估计值，Ψ(m)表示两个待处理音频信号的广义互相关，φ(k)表示权值，φ(k)＝1/|E{X(k,1)X^*(k,2)|，E{X(k,1)X^*(k,2)}表示信号的能量的期望，θ表示波达方向，c表示空气中的声速，d表示两个待处理音频信号对应的两个麦克风之间的距离。

步骤207、根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。

具体的，在确定波达方向的情况下，利用波束形成算法可以最大限度的利用信号的空间信息，消除来自声源方向以外的噪声和混响。波束形成是通过在不同的频段分别对每个麦克风进行相位补偿，从而达到增强目标信号并抑制噪声和干扰的效果。具体来说，就是在不同的频段上分别设计空间滤波器，对每个待处理音频信号进行空间滤波。

示例的，可以根据无失真最小均方误差来设计波束形成系数，在保证波达方向信号不变的情况下，最小化整体能量。即根据公式对所述待处理音频信号进行波束形成处理。

其中，R＝E{X(t)X^T(t)}，

d(θ)＝[1e^{-jωδcosθ/c}...e^{-j(M-1)ωδcosθ/c}]^T，

通过拉格朗日乘子法可以得到：

表示h_BF的转置矩阵，subject to表示使得等于1，d^T(θ)表示d(θ)的转置矩阵，X(t)表示第t时刻的短时傅里叶变换，X^T(t)表示X(t)的转置矩阵。

步骤208、对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号。

具体的，由于真实环境中噪声无处不在，所以噪声消除必不可少，这里的噪声消除是通过频率滤波来实现的，而该滤波器可以通过最小化纯净信号与估计信号之间的差值来求得。通常通过谱减法来降噪，谱减法的思路就是针对每个频点，利用当前信号的能量和噪声估计的能量，计算纯净信号与观测信号的比值，然后通过该比值进行频率滤波。

示例的，根据公式和公式

S(k，t)＝h_NR(k)X(k,t)得到所述目标音频信号。

其中，S(k,t)表示降噪处理后的待处理音频信号，h_NR(k)表示降噪滤波器，X(k,t)表示经短时傅里叶变换后的待处理音频信号。

步骤209、对每个所述目标音频信号进行短时傅里叶反变换后输出。

示例的，在确定目标音频信号之后，再采用短时傅里叶反变换将目标音频信号从频域重新转换到时域，得到最终输出的数字音频流，输出的数字音频流可以通过音频输出模块来输出，音频输出模块可以为耳机接口、USB声卡或者其他智能麦克风等。

本公开实施例提供一种语音处理方法，在获取到多个待处理音频信号时，首先检测是否有同步输入信号，在有同步输入信号时，对每个待处理音频信号进行回声消除处理；然后对进行回声消除处理后的每个待处理音频信号进行语音活动检测和噪声估计，得到音频信号存在概率；再根据音频信号存在概率确定每两个待处理音频信号之间的波达方向估计，并根据波达方向估计对每个待处理音频信号进行降噪处理，最终将降噪处理后的目标音频信号进行输出。可知，本公开不仅对接收到的待处理音频信号进行了同步输入信号的检测，还进行了语音活动检测和噪声估计，最终根据语音活动检测和噪声估计得到的音频信号存在概率对每两个待处理音频信号均进行了波达方向估计，并根据波达方向估计对所有的待处理音频信号进行了降噪处理，从而进一步减少了目标音频信号中的各种噪音，实现了音频拾取和增强功能，进一步提高了音频识别的准确性；另外，本公开能够同时获取多个智能麦克风输出的待处理音频信号，并对多个智能麦克风输出的待处理音频信号进行同时处理，从而实现了对多个智能麦克风的联合处理，能够匹配处理难度较大的复杂场景，适应能力较强。本公开对麦克风阵列的最小尺寸无要求，相对于现有方法，可以做到更小的尺寸和更低的成本，通过本公开设计的麦克风拥有全面的中远场语音增强效果，可以应用于所有具有中远场语音增强需求的场景，具有极高的通用性。

基于上述实施例中所描述的语音处理方法，下述为本公开装置实施例，可以用于执行本公开方法实施例。

本公开实施例提供一种语音处理装置，如图3a所示，该语音处理装置30包括：获取模块301、第一处理模块302、第二处理模块303、第三处理模块304和输出模块305。

其中，获取模块301，用于获取至少两个待处理音频信号；所述至少两个待处理音频信号中包括麦克风阵列获取的音频信号。

第一处理模块302，用于对所述麦克风阵列中任意两个麦克风进行波达方向估计。

第二处理模块303，用于根据所述波达方向估计和波束形成算法对所述待处理音频信号进行波束形成处理。

第三处理模块304，用于对波束形成处理后的待处理音频信号进行噪声抑制，得到目标音频信号。

输出模块305，用于输出所述目标音频信号。

在一个实施例中，如图3b所示，所述装置还包括确定模块306，所述第一处理模块302包括第一处理子模块3021。

其中，所述确定模块306，用于对每个所述待处理音频信号进行语音活动检测和噪声估计，并根据所述语音活动检测和噪声估计的结果确定音频信号存在概率。

所述第一处理子模块3021，用于根据所述音频信号存在概率对所述麦克风阵列中任意两个麦克风进行波达方向估计。

在一个实施例中，如图3c所示，所述第一处理子模块3021包括计算单元30211。

其中，所述计算单元30211，用于根据所述音频信号的存在概率计算所述麦克风阵列中任意两个麦克风的时延估计，并根据所述时延估计的结果计算目标声源与麦克风阵列的相对角度。

在一个实施例中，如图3d所示，所述确定模块306包括第一确定子模块3061、第二处理子模块3062、第三处理子模块3063和第四处理子模块3064。

其中，所述第一确定子模块3061，用于确定是否有同步输入信号。

所述第二处理子模块3062，用于在确定有所述同步输入信号时，对每个所述待处理音频信号进行回声消除处理。

所述第三处理子模块3063，用于对进行回声消除处理后的每个所述待处理音频信号进行语音活动检测和噪声估计。

所述第四处理子模块3064，用于在确定未有所述同步输入信号时，对每个所述待处理音频信号进行语音活动检测和噪声估计。

在一个实施例中，如图3e所示，所述获取模块301包括获取子模块3011和变换子模块3012。

其中，所述获取子模块3011，用于获取至少两个原音频信号；所述原音频信号为音频输入模块输出的信号。

所述变换子模块3012，用于对每个所述原音频信号进行短时傅里叶变换，得到所述待处理音频信号。

在一个实施例中，如图3f所示，所述第二处理子模块3062包括处理单元30621。

其中，处理单元30621，用于根据公式和

公式对每个所述待处理音频信号进行回声消除处理。

其中，y(t,m)表示第m个麦克风在t时刻采集到的同步输入信号，s(t-l)表示t-l时刻的同步输入信号，h_l表示同步输入信号到每个麦克风之间的信道，l为累加运算符中的标识符，L表示时间长度，h(t，m)＝[h₀ h₁...h_L-1]表示在t时刻同步输入信号到第m个麦克风之间的信道；表示第m个麦克风在t+1时刻采集到的同步输入信号的信道估计值，表示第m个麦克风在t时刻采集到的同步输入信号的信道估计值，表示误差信号，μ表示平滑因子，表示第m个麦克风在t时刻的回声估计，x(t，m)表示第m个麦克风在t时刻的近端信号，s(k，m)表示＝[s(k，m)s(k-1，m)…s(k-L+1，m)]表示同步输入信号向量，s^T(k，m)表示s(k，m)的转置。

在一个实施例中，如图3g所示，所述确定模块306包括检测子模块3065、第五处理子模块3066和第二确定子模块3067。

其中，检测子模块3065，用于根据公式

对每个所述待处理音频信号进行语音活动检测。

第五处理子模块3066，用于根据公式

对每个所述待处理音频信号进行噪声估计。

第二确定子模块3067，用于根据公式和

公式确定所述音频信号存在概率。

其中，α_s表示有语音时噪声估计的平滑因子，α_n表示无语音时噪声估计的平滑因子，V(k，t-1)表示第k个频点在t-1时刻的噪声频谱估计值，V(k，t)表示第k个频点在t时刻的噪声频谱估计值，X(k，t)表示第k个频点在t时刻的短时傅里叶变换；β_s表示有语音时信号估计的平滑因子，β_n表示无语音时信号估计的平滑因子，Y(k，t-1)表示第k个频点在t-1时刻的信号频谱估计值，Y(k，t)表示第k个频点在t时刻的信号频谱估计值；SNR(k，t)表示信噪比的估计值，P(k，t)表示第k个频点在t时刻的语音存在概率，TH_SNR表示信噪比阈值。

在一个实施例中，如图3h所示，所述计算单元30211包括第一计算子单元302111和第二计算子单元302112。

其中，所述第一计算子单元302111，用于根据公式计算所述麦克风阵列中任意两个麦克风的时延估计。

所述第二计算子单元302112，用于根据公式计算目标声源与麦克风阵列的相对角度。

在一个实施例中，如图3i所示，所述第二处理模块303包括第六处理子模块3031。

其中，所述第六处理子模块3031，用于根据公式对所述待处理音频信号进行波束形成处理。

其中，R＝E{X(t)X^T(t)}，

d(θ)＝[1e^{-jωδcosθ/c}...e^{-j(M-1)ωδcosθ/c}]^T，

通过拉格朗日乘子法可以得到：

表示h_BF的转置矩阵，subject to表示使得等于1，d^T(θ)表示d(θ)的转置矩阵，X(t)表示第t时刻的短时傅里叶变换，X^T(t)表示X(t)的转置矩阵。

在一个实施例中，如图3j所示，所述第三处理模块304包括第七处理子模块3041。

其中，所述第七处理子模块3041，用于根据公式

和公式S(k，t)＝h_NR(k)X(k，t)得到所述目标音频信号。

其中，S(k，t)表示降噪处理后的待处理音频信号，h_NR(k)表示降噪滤波器，X(k，t)表示经短时傅里叶变换后的待处理音频信号。

本公开实施例提供一种语音处理装置，在获取到多个待处理音频信号时，对麦克风阵列中任意两个麦克风进行波达方向估计，并根据波达方向估计和波束形成算法对待处理音频信号进行波束形成处理，并对波束形成处理后的待处理音频信号进行噪声抑制，最终将降噪抑制后得到的目标音频信号进行输出。可知，本公开对每两个待处理音频信号均进行了波达方向估计，并对波束形成处理后的待处理音频信号进行了噪声抑制处理，从而实现了音频拾取和增强功能，提高了音频识别的准确性。

参考图4所示，本公开实施例还提供了一种语音处理设备，该语音处理设备包括接收器401、发射器402、存储器403和处理器404，该发射器402和存储器403分别与处理器404连接，存储器403中存储有至少一条计算机指令，处理器404用于加载并执行至少一条计算机指令，以实现上述图1对应的实施例中所描述的语音处理方法。

基于上述图1对应的实施例中所描述的语音处理方法，本公开实施例还提供一种计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器(英文：ReadOnly Memory，ROM)、随机存取存储器(英文：Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储装置等。该存储介质上存储有计算机指令，用于执行上述图1对应的实施例中所描述的语音处理方法，此处不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

29页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种多人语音分离方法及语音分离模型的训练方法

语音处理方法及装置

相关技术

网友询问留言