干扰及高混响环境下使用传声器阵列的语音声源定位方法

文档序号:1566592 发布日期:2020-01-24 浏览:26次 >En<

阅读说明:本技术 干扰及高混响环境下使用传声器阵列的语音声源定位方法 (Voice sound source positioning method using microphone array under interference and high reverberation environment ) 是由 王浩 卢晶 刘晓峻 狄敏 邵治英 于 2019-10-21 设计创作,主要内容包括:本发明公开了一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,步骤如下:(1)设定参数;(2)短时傅里叶变换,得到时-频域信号;(3)对时-频域信号的每个时-频点,计算对数化的交叉谱幅度均值,获得“能量”包络;(4)对时-频域信号的每个时-频点,计算“能量”包络的“变化率”;(5)利用瞬态噪声特征,判断并定位瞬态噪声;(6)选择直达声对应的时-频点,并忽略瞬态噪声部分;(7)对选中的时-频点,应用加权SRP-PHAT方法,得到定位结果。本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。(The invention discloses a method for positioning a voice sound source by using a microphone array in an interference and high reverberation environment, which comprises the following steps: (1) setting parameters; (2) short-time Fourier transform to obtain a time-frequency domain signal; (3) calculating a logarithmized cross spectrum amplitude mean value at each time-frequency point of the time-frequency domain signal to obtain an &#39;energy&#39; envelope; (4) calculating the change rate of the energy envelope at each time-frequency point of the time-frequency domain signal; (5) judging and positioning transient noise by using the transient noise characteristics; (6) selecting a time-frequency point corresponding to the direct sound, and neglecting a transient noise part; (7) and applying a weighted SRP-PHAT method to the selected time-frequency point to obtain a positioning result. The voice sound source positioning method can still obtain results with higher accuracy and robustness in the environment with high reverberation and interference.)

干扰及高混响环境下使用传声器阵列的语音声源定位方法

技术领域

本发明涉及一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,属于语音信号处理的技术领域。

背景技术

语音信号声源定位(Speech Source Localization , SSL)目的是估计语音信号到达传声器阵列时的角度(Direction-of-Arrival , DOA)。使用一个传声器阵列,对语音信号进行声源定位,或者说DOA估计,在声信号处理中是一个非常重要也是非常热点的话题。在很多应用场景对声音的捕捉有非常重要的作用,比如智能设备的人机语音交互、镜头追踪以及智能监控。这个问题的困难之处在于语音信号是一个宽带的非平稳随机过程,同时还存在本底噪声、混响和其他干扰声源。

经典的声源定位的方法可分为TDOA(Time Delay Of Arrival)、SRP (SteeredResponse Power)和Spatial Spectrum三大类。在大量的应用场景中,不仅存在混响,还存在噪声干扰,目前绝大多数方法都无法在这样的复杂环境保持很高的准确性和鲁棒性。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,包括以下步骤:

步骤1,直达声选取

步骤1.1,在房间中布置1个声源,使用I个传声器构成的传声器阵列来采集信号,采集信号的交叉谱幅度均值表示为:

Figure 980738DEST_PATH_IMAGE001

(1)

并对数化表示为:

Figure 299724DEST_PATH_IMAGE002

(2)

式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,

Figure 546029DEST_PATH_IMAGE003

表示采集信号的交叉谱 幅度均值,

Figure 557847DEST_PATH_IMAGE004

表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对值, *表示共轭操作,P(n,k)是信号在频率内的功率包络;

步骤1.2,根据信号在频率内的功率包络得到对数化的交叉谱幅度均值的变化率:

Figure 317173DEST_PATH_IMAGE006

(3)

式中,

Figure 542618DEST_PATH_IMAGE007

表示对数化的交叉谱幅度均值的变化率,

Figure 600704DEST_PATH_IMAGE008

表示用于计算“变化率”的 帧数范围,P(nt,k)是比P(n,k)早t帧的对应于帧数nt频率为k的功率包络;

步骤1.3,由(3)式计算出的变化率比预置变化率阈值大的K个时-频点被选择出来,认为其通过直达声选取(DPD)测试,组成一个直达声候选集合:

Figure 177179DEST_PATH_IMAGE009

(4)

其中,

Figure 733841DEST_PATH_IMAGE010

表示直达声候选集合,

Figure 813793DEST_PATH_IMAGE011

表示第n帧第k频带对应的时-频点;

步骤2,瞬态噪声的判定与消除

步骤2.1,通过以下两个判定准则判别瞬态噪声:

1),计算每一帧的“能量”

Figure 308359DEST_PATH_IMAGE012

, 寻找“能量”局部极大值的帧

Figure 106551DEST_PATH_IMAGE013

(5)

2),判断

Figure 711976DEST_PATH_IMAGE014

(6)

Figure 646434DEST_PATH_IMAGE015

(7)

式中,

Figure 311901DEST_PATH_IMAGE016

表示每一帧的“能量”,n v 表示“能量”局部极大值的帧,dn表示“能量变化率” 计算范围,Δn表示“局部”的范围,V 1V 2分别为“能量”的上升和下降的阈值;

步骤2.2,如果全部满足步骤2.1的两个判定准则,n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式改写为

Figure 597389DEST_PATH_IMAGE017

(8)

式中

Figure 740926DEST_PATH_IMAGE018

(9)

步骤3,利用选取的直达声进行语音声源定位

采用加权SRP-PHAT方法对选中的时-频点进行定位,表示为:

Figure 795469DEST_PATH_IMAGE019

(10)

式中

Figure 631838DEST_PATH_IMAGE020

(11)

Figure 139043DEST_PATH_IMAGE021

(12)

式中,

Figure 883008DEST_PATH_IMAGE022

表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为 0,

Figure 933004DEST_PATH_IMAGE023

表示信号交叉谱,

Figure 799328DEST_PATH_IMAGE024

表示频域信号,上标“H”和“T”分别表示复数共轭转置和 转置;g(k,θ)表示为θ方向的导向向量。

优选的:传声器阵列可为任意适合阵列,通常使用线阵列或环阵列。

优选的:如果传声器阵列为线阵列,g(k,θ)表示为:

Figure 931845DEST_PATH_IMAGE025

(13)

式中,

Figure 541818DEST_PATH_IMAGE026

表示以自然对数e为底的指数,

Figure 180741DEST_PATH_IMAGE027

表示虚度变量,

Figure 483546DEST_PATH_IMAGE028

表示声速, d是麦克风阵 列的间距向量,ω k 是频带k对应的角频率。

本发明相比现有技术,具有以下有益效果:

本发明中语音声源定位方法,能够使得在高混响及干扰的环境中,依然可以获得精确度和鲁棒性较高的结果。

附图说明

图1为仿真中不同方法的RMSE比较。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种干扰及高混响环境下使用传声器阵列的语音声源定位方法,适用于干扰和高混响环境,同时计算量相比同类别算法较小,包括如下步骤:

1.直达声选取(DPD)

在房间中布置1个声源,使用I个传声器来采集信号。本发明中可使用线阵列、环阵列等,不限于阵列形状。用x i (k,l)分别表示第i个传声器在频带k内第l帧的信号,采集信号的交叉谱幅度均值可以表示为:

(1)

并对数化表示为:

Figure 519952DEST_PATH_IMAGE030

(2)

式中,x i (k,l)表示第i个传声器在频带k内第l帧的信号,

Figure 13382DEST_PATH_IMAGE031

表示采集信号的交叉 谱幅度均值,

Figure 487088DEST_PATH_IMAGE032

表示帧序数,ξ是用来降低背景噪音的影响的正则化项,表示复数绝对 值, *表示共轭操作,P(n,k)是信号在频率内的功率包络。

受到优先效应的启发(Litovsky R Y, Colburn H S, Yost W A, et al. Theprecedence effect[J]. The Journal of the Acoustical Society of America, 1999,106(4): 1633-1654.),语音起始端的时-频点可以被认为主要由直达声组成,此部分包含准确的声源位置信息。此部分功率包络会快速增加,因此我们定义对数化的交叉谱幅度均值的变化率为:

(3)

式中,

Figure 162417DEST_PATH_IMAGE034

表示对数化的交叉谱幅度均值的变化率,

Figure 541446DEST_PATH_IMAGE035

表示用于计算“变化率”的 帧数范围,P(nt,k)是比P(n,k)早t帧的对应于帧数nt频率为k的功率包络。由(3)式计算 出的变化率较大的K(预置的阈值)个时-频点被选择出来,认为其通过直达声选取(DPD)测 试,组成一个直达声候选集合

Figure 873201DEST_PATH_IMAGE036

(4)

其中,

Figure 300772DEST_PATH_IMAGE037

表示直达声候选集合,

Figure 159006DEST_PATH_IMAGE038

表示第n帧第k频带对应的时-频点。很明显,如果 帧移越短,可被选中的点越多,更有利于提高DOA估计的准确度。

2.瞬态噪声的判定与消除

在实际场景中,总会有一些环境干扰。常见的干扰噪声可分为以下几类:稳态噪声,如风机噪声和电气噪声;瞬态噪声,如门的砰砰声、敲击声、键盘声;其他非稳态噪声,如音乐干扰和电视伴音。稳态噪声可以忽略,因为它们的声功率变化不快。目标语音的平均声功率通常大于环境干扰,因此一般情况下期望语音直达声是功率增长较快的时-频点的主要组成部分,但瞬态噪声对直达声判断影响最大,因为瞬态噪声在时-频域中具有较高的功率变化率,大大增加直达声判断中的误判率。瞬态噪声具有功率高、时间间隔短的特点,可以通过以下两个判定准则判别。

(1)计算每一帧的“能量”

Figure 846952DEST_PATH_IMAGE039

, 寻找“能量”局部极大值的帧

Figure 525058DEST_PATH_IMAGE040

(5)

(2)判断

Figure 694002DEST_PATH_IMAGE041

(6)

Figure 406743DEST_PATH_IMAGE042

(7)

式中,

Figure 268520DEST_PATH_IMAGE043

表示每一帧的“能量”,n v 表示“能量”局部极大值的帧,

Figure 699502DEST_PATH_IMAGE044

表示“能量变化 率”计算范围,Δn表示“局部”的范围,V 1V 2分别为“能量”的上升和下降的阈值。

如果上述两个标准全部满足,帧数n v 对应的部分被确定为瞬态噪声,以n v 为中心的“局部”在直达声选取中被忽略,(4)式可以改写为:

Figure 468874DEST_PATH_IMAGE045

(8)

式中

(9)

1.利用选取的直达声进行语音声源定位

我们可以借助常用的定位方法,SRP-PHAT方法,对选中的时-频点进行定位。由于需要对时-频点进行筛选,这里采用加权SRP-PHAT方法,表示为:

Figure 68800DEST_PATH_IMAGE047

(10)

式中

Figure 862444DEST_PATH_IMAGE048

(11)

Figure 497824DEST_PATH_IMAGE049

(12)

式中,表示待估计的声波到达方向,θ表示声波到达方向的可能取值,即自变量,arg max表示取使表达式最大值对应的自变量取值,当(n,k)在集合Π内时,W(n,k)为1,否则为 0,

Figure 795262DEST_PATH_IMAGE051

表示信号交叉谱,

Figure 935256DEST_PATH_IMAGE052

表示频域信号,上标“H”和“T”分别表示复数共轭转置和转 置;当(n,k)在集合Π内时,W(n,k)为1,否则为0;g(k,θ)表示为θ方向的导向向量,如果阵列 为线阵列,可表示为:

(13)

式中,d是麦克风阵列的间距向量,ω k 是频带k对应的角频率。若阵列为其他形式的阵列,导向向量可根据具体形状给出。

至此,语音声源定位结果得出。

仿真实例

1.仿真混合语音生成

本发明实施以仿真信号定位为例。仿真时采用Image model生成房间冲激响应与干净语音卷积生成混响环境下的语音,并与相同房间参数,不同声源位置处的Image model生成房间冲激响应与干净干扰卷积叠加,得到混合信号。使用Image model仿真时,传声器阵列单元间距为3.5 cm,房间大小设为7 × 5 × 3 m3;目标声源环绕阵列一周,与阵列中心距离为2 m,干扰声源与目标声源相对阵列中心夹角不小于120°;房间混响时间取0.4 s和1.0s两种情况。每个语音样本的长度为2 s。混响时间为0.4 s和1.0 s各生成2300个混合语音。信号的采样频率为16 KHz。

2.方法处理流程

a)参数设定

首先在表1中给出所提出方法的参数。需要注意的是,所提出的方法在不同的环境中不需对参数进行调整,及所给出参数的可以在各种环境下适用。

表 1 各个参数

Figure 54183DEST_PATH_IMAGE054

b)短时傅里叶变换

对传声器采集到的时域信号做离散短时傅里叶变换得到时-频域信号,所用窗函数为汉宁窗,窗长为32 ms,窗移为0.5 ms。

c)计算“能量”包络

对时-频域信号的每个时-频点:使用(1)(2)式计算对数化的交叉谱幅度均值。

d)估计“能量变化率”

对时-频域信号的每个时-频点:使用(3)式计算“能量”包络的“变化率”。

e)判断并定位瞬态噪声

对时-频域信号的每帧:

1.计算每一帧的“能量”

Figure 428664DEST_PATH_IMAGE055

, 使用(5)式寻找“能量”局部极大值的 帧;

2.对于“能量”局部极大值的帧,使用(6-7)式判断其能量的出现及耗散速率,满足过快的阈值,该帧即可对应于瞬态噪声。

f)选择直达声对应的时-频点,并忽略瞬态噪声部分

对时-频域信号的每个时-频点:使用(8-9)式选择“能量”包络的“变化率”较大的K个时-频点作为直达声筛选的结果,记为集合Π。

g)对选中的时-频点,应用加权SRP-PHAT方法,得到定位结果

对时-频域信号的每个时-频点:使用(10)式对最终的定位结果进行估计。需要注意的是,当时-频点(n,k)在集合Π内时,W(n,k)为1,否则为0。

为了说明本发明算法的优点,以下利用仿真和实验对本发明中提出方法与传统方法进行比较验证。

在不同的方法表示中,DPD-D-FR (PHAT)为本发明中提出的方法,DPD-D-FR(MUSIC)为将所提出方法的第三步中的加权SRP-PHAT定位方法改为加权MUSIC方法,DPD-MUSIC为Rafaely等在(Rafaely B, Kolossa D. Speaker localization in reverberantrooms based on direct path dominance test statistics[C]//Acoustics, Speechand Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE,2017: 6120-6124)中提出的借助矩阵的特征值分解的DPD-test方法,MUSIC方法为经典多信号分类方法 (Multiple Signal classification),SRP-PHAT为经典SRP-PHAT方法。

在仿真条件下,我们使用6通道环阵列,对50个语音样本与46个常见室内噪声和非稳态干扰样本两两混合后进行采样录音。6通道环阵列比较容易在智能设备顶端安装。测试房间为7 × 5 × 3 m3,包括不同的混响:Room 1, T60 = 0.4 s; Room 2, T60 = 1.0 s。阵列中心坐标(3.5 m, 2.2 m, 1.5 m),语音声源在周围10个方向,间隔36°,干扰声源与语音声源相对阵列中心夹角不小于120°,到传声器阵列的距离均为2米,高度相同,信扰比(Signal-to-interference ratio, SIR)为5 dB。声速取344 m/s。不含干扰条件下不同方法定位均方根误差(Root-mean-square error, RMSE)的对比结果见图1。在此定义两个用于比较的指标:P s,定位估计更接近干扰的概率;R s:定位估计更接近目标说话人的数据对应的均方根误差。含干扰的不同方法的P sR s比较见表2。

表2 仿真中不同方法的Ps和Rs比较

Figure 55954DEST_PATH_IMAGE056

在实验中,我们在三个房间中测试:Room 1是视听室,体积4.5 × 7.4 × 3 m3 ,T60= 0.32 s;Room 2是一个小型教室,体积3.6 × 5.2 × 3 m3 ,T60 = 1.20 s;Room 3是混响室,体积7.35 × 5.9 × 5.22 m3 ,T60 ≈ 5 s。使用4通道线阵列对35个语音样本进行录制,录音环境中同时用包含20个不同的常见噪声的干扰样本循环播放,期望声源和干扰源到传声器阵列距离均为2米,高度相同。采样率为16 KHz。语音声源分别在30°和60°处,干扰声源在−45°处。不同方法对应的均方根误差对比见表3。

表3 实验中不同方法的RMSE(°)比较

通过仿真和实验可以看出,本发明中提出的方法在准确性和鲁棒性上优于大多数其它常见方法,DPD-D-FR (PHAT)方法在高混响情况下更稳定,实验中无干扰时最大RMSE为1.2°,存在干扰时,对结果的影响也较小,鲁棒性同样较高。对比DPD-MUSIC方法,有一定优势,不仅如此本发明中方法运算需求量远小于基于矩阵空间分解的直达声判断方法。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种用于航天航空雷达的调节装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!