一种基于麦克风阵列的声源定位方法、装置及存储介质

文档序号:66798 发布日期:2021-10-01 浏览:59次 >En<

阅读说明:本技术 一种基于麦克风阵列的声源定位方法、装置及存储介质 (Sound source positioning method and device based on microphone array and storage medium ) 是由 张建民 颜禧烽 龙佳乐 谭泽辉 陈健恒 廖妙余 周凯凌 于 2021-06-11 设计创作,主要内容包括:本申请公开了一种基于麦克风阵列的声源定位方法、装置及存储介质,所述方法包括:获取来自所述麦克风阵列模块的语音信号;对所述语音信号进行预处理,确定包含声源信息的目标数据;根据所述目标数据,通过方位处理,得到声源方位信息;根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。根据本申请实施例提供的方案,声源定位方法能够有效排除噪音和静音等无用的语音信号,得到包含声源信息的目标数据,能够根据声源方位信息得到控制信号,从而在LED方位显示模块上显示声源的方位,处理效率高,实时性高,并且能够准确有效显示声源的方位。(The application discloses a sound source positioning method, a sound source positioning device and a storage medium based on a microphone array, wherein the method comprises the following steps: acquiring a voice signal from the microphone array module; preprocessing the voice signal and determining target data containing sound source information; obtaining sound source azimuth information through azimuth processing according to the target data; obtaining a control signal for controlling the LED azimuth display module according to the sound source azimuth information; and sending the control signal to the LED azimuth display module so that the LED azimuth display module displays the azimuth of the sound source. According to the scheme provided by the embodiment of the application, the sound source positioning method can effectively eliminate useless voice signals such as noise, silence and the like, obtain target data containing sound source information, and obtain control signals according to the sound source azimuth information, so that the azimuth of the sound source is displayed on the LED azimuth display module, the processing efficiency is high, the real-time performance is high, and the azimuth of the sound source can be accurately and effectively displayed.)

一种基于麦克风阵列的声源定位方法、装置及存储介质

技术领域

本发明涉及声源定位

技术领域

,特别涉及一种基于麦克风阵列的声源定位方法、装置及存储介质。

背景技术

麦克风作为声音信号尤其是语音信号采集的一种常用声电换能器,在多媒体会议、教学、通信、机械设备振动与噪声检测、军事指挥侦察等领域有着广泛应用。目前市场上音频采集相关产品,以单个麦克风作为音频信号采集单元的产品为主,一些高端产品采用了各种形式的麦克风阵列作为音频信号采集、处理的传感器。阵列中的每个麦克风为一个“阵元”,利用多个“阵元”采集的信息冗余获得更多关于声源的信息。

通过声源定位方法,能够确定声源在空间中的位置,目前,声源定位方法无法有效去噪,而且算法复杂度高,实时性差,导致无法准确有效显示声源的方位。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请提供了一种基于麦克风阵列的声源定位方法、装置及存储介质,能够准确有效的显示声源的方位。

本申请解决其技术问题的解决方案是:

第一方面,本申请实施例提供了一种基于麦克风阵列的声源定位方法,应用于声源定位装置,所述声源定位装置与麦克风阵列模块电连接,所述声源定位装置还与LED方位显示模块电连接,所述方法包括:获取来自所述麦克风阵列模块的语音信号;对所述语音信号进行预处理,确定包含声源信息的目标数据;根据所述目标数据,通过方位处理,得到声源方位信息;根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。

进一步,所述根据所述目标数据,通过方位处理,得到声源方位信息这一步骤,包括以下步骤:根据时延估计法,对所述目标数据计算得到时延数据;根据时延筛选法,由所述时延数据确定有效时延数据;根据方位解算法,对所述有效时延数据计算得到声源方位信息。

进一步,根据时延估计法,对所述目标数据计算得到时延数据这一步骤,包括以下步骤:根据傅里叶变换算法,对所述目标数据计算得到时延频域数据;根据信噪比加权型广义互相关算法,对所述频域数据计算得到时延加权数据;根据傅里叶逆变换算法,对所述加权数据计算得到时延时域数据;根据峰值检测法,由所述时延时域数据确定时延数据。

进一步,所述信噪比加权型广义互相关算法如下:其中,其中,其中,

G12(ω)=X1(ω)X2 *(ω),G11(ω)=X1(ω)X1 *(ω),G22(ω)=X2(ω)X2 *(ω),其中,A为时延加权数据,是信噪比加权函数,X1(ω)为一个频域数据,X1 *(ω)为X1(ω)的共轭复数,X2(ω)为另一个频域数据,X2 *(ω)为X2(ω)的共轭复数。

进一步,所述根据时延筛选法,由所述时延数据确定有效时延数据这一步骤,包括以下步骤:根据时延误差公式,由时延数据计算得到时延误差值;根据预设的误差阈值和所述时延误差值,由所述时延数据确定有效时延数据。

进一步,所述对所述语音信号进行预处理,确定包含声源信息的目标数据这一步骤,包括以下步骤:根据语音端点检测法,由所述语音信号确定起始状态和结束状态;根据所述起始状态和所述结束状态,由所述语音信号确定包含声源信息的目标数据。

进一步,所述根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号这一步骤,包括以下步骤:根据所述声源方位信息,确定方位角度;根据预设的角度配对表,由所述方位角度得到用于控制所述LED方位显示模块的控制信号。

第二方面,本申请提供了一种声源定位装置,所述声源定位装置与麦克风阵列模块电连接,所述声源定位装置还与LED方位显示模块电连接,所述装置包括:获取模块,用于获取来自所述麦克风阵列模块的语音信号;预处理模块,用于对所述语音信号进行预处理,确定包含声源信息的目标数据;方位解算模块,用于根据所述目标数据,通过方位处理,得到声源方位信息;控制模块,用于根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;发送模块,用于将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。

第三方面,本申请实施例还提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的一种基于麦克风阵列的声源定位方法。

第四方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行如第一方面所述的一种基于麦克风阵列的声源定位方法。

第五方面,本申请还提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使计算机执行如第一方面所述的一种基于麦克风阵列的声源定位方法。

本申请实施例中提供的一个或多个技术方案,至少具有如下有益效果:根据本申请实施例提供的方案,声源定位方法能够有效排除噪音和静音等无用的语音信号,得到包含声源信息的目标数据,能够根据声源方位信息得到用于控制所述LED方位显示模块的控制信号,从而在LED方位显示模块上显示声源的方位,处理效率高,实时性高,并且能够准确有效显示声源的方位。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。

图1是本申请一个实施例提供的基于麦克风阵列的声源定位方法的流程图;

图2是图1中步骤S130的具体方法流程图;

图3是图2中步骤S210的具体方法流程图;

图4是图2中步骤S220的具体方法流程图;

图5是图1中步骤S120的具体方法流程图;

图6是图1中步骤S140的具体方法流程图;

图7是本申请另一个实施例提供的声源定位装置的装置图;

图8是本申请另一个实施例提供的终端的装置图;

图9是图1的流程图得到的声源方位角估计平均值示意图;

图10是图1的流程图得到的声源方位角估计平均误差示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。

需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。

本申请提供了一种基于麦克风阵列的声源定位方法、装置及存储介质,该基于麦克风阵列的声源定位方法包括:获取来自所述麦克风阵列模块的语音信号;对所述语音信号进行预处理,确定包含声源信息的目标数据;根据所述目标数据,通过方位处理,得到声源方位信息;根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。根据本申请实施例提供的方案,声源定位方法能够有效排除噪音和静音等无用的语音信号,得到包含声源信息的目标数据,能够根据声源方位信息得到用于控制所述LED方位显示模块的控制信号,从而在LED方位显示模块上显示声源的方位,处理效率高,实时性高,并且能够准确有效显示声源的方位。

首先,对本申请中涉及的若干名词进行解析:

麦克风阵列,指的是麦克风的排列。具体是指由一定数目的声学传感器(例如,麦克风)组成,用来对声场的空间特性进行采样并处理的系统。

驻极体麦克风,又称驻极体话筒,由声电转换和阻抗变换两部分组成。声电转换的关键元件是驻极体振动膜,在驻极体振动膜的一面蒸发上一层纯金薄膜,再经过高压电场驻极后,驻极体振动膜的两面分别驻有异性电荷,纯金薄膜与金属外壳相连通,纯金薄膜与金属极板之间形成电容;当驻极体膜片遇到声波振动时,引起电容两端的电场发生变化,从而产生了随声波变化而变化的交变电压。

傅里叶变换,表示能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。

傅里叶逆变换,对一个给定的傅里叶变换,求其相应原函数f(t)的运算。

语音活动检测(Voice Activity Detection,VAD),又称语音端点检测或语音边界检测,能够从声音信号流里识别和消除长时间的静音期。

下面结合附图,对本申请实施例作进一步阐述。

参照图1、图9和图10,图1是本申请一个实施例提供的一种基于麦克风阵列的声源定位方法,应用于声源定位装置,所述声源定位装置与麦克风阵列模块电连接,所述声源定位装置还与LED方位显示模块电连接,所述方法包括但不限于有步骤S110、步骤S120、步骤S130、步骤S140和步骤S150。

步骤S110,获取来自所述麦克风阵列模块的语音信号;

可以理解的是,声源产生的语音能够有效被麦克风阵列模块采集,并转化为语音信号,从而能够获取来自麦克风阵列模块的语音信号。

步骤S120,对所述语音信号进行预处理,确定包含声源信息的目标数据;

可以理解的是,通过预处理,能够排除噪音和静音等无用的语音信号,从而得到包含声源信息的目标数据,能够提高后续的信号处理的精度和效率。

步骤S130,根据所述目标数据,通过方位处理,得到声源方位信息;

可以理解的是,对目标数据进行方位处理,能够得到有效准确的声源方位信息。

步骤S140,根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;

需要说明的是,控制信号与声源方位信息对应,能够保证LED方位显示模块显示的准确性。

步骤S150,将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。

需要说明的是,利用LED方位显示模块,能够快速直观的显示声源的方位。

可以理解的是,根据本申请实施例提供的方案,声源定位方法能够有效排除噪音和静音等无用的语音信号,得到包含声源信息的目标数据,能够根据声源方位信息得到用于控制所述LED方位显示模块的控制信号,从而在LED方位显示模块上显示声源的方位,处理效率高,实时性高,并且能够准确有效显示声源的方位;由图9和图10可知,声源方位角估计平均值与实际值接近,声源方位角估计平均误差较小,因此,声源定位方法的准确度较高。

另外,参照图2,在一实施例中,步骤S130具体包括但不限于有以下步骤:

步骤S210,根据时延估计法,对所述目标数据计算得到时延数据;

步骤S220,根据时延筛选法,由所述时延数据确定有效时延数据;

步骤S230,根据方位解算法,对所述有效时延数据计算得到声源方位信息。

可以理解的是,利用时延估计法,能够有效估计出目标数据的时延数据;利用时延筛选法排除异常数据,得到有效时延数据,保证后续运算的准确度。

需要说明的是,通过方位解算法,能够得到声源的方位角;麦克风阵列模块采用四个驻极体麦克风时,解算公式如下:

其中,θ为声源的方位角,r1、r2、r3和r4为四个驻极体麦克风分别与声源的距离,τij为驻极体麦克风Mi和Mj的有效时延数据,解算公式的具体推导过程如下所示:

其中,C为声速;

由公式(1)、(2)和(3),整理得:

当驻极体麦克风与声源的距离较远时,可以近似的认为:

r4+r2≈r3+r1 (5)

将公式(5)代入公式(4)并求反切,则得到解算公式。

另外,参照图3,在一实施例中,步骤S210具体包括但不限于有以下步骤:

步骤S310,根据傅里叶变换算法,对所述目标数据计算得到时延频域数据;

步骤S320,根据信噪比加权型广义互相关算法,对所述频域数据计算得到时延加权数据:

步骤S330,根据傅里叶逆变换算法,对所述加权数据计算得到时延时域数据;

步骤S340,根据峰值检测法,由所述时延时域数据确定时延数据。

可以理解的是,利用傅里叶变换算法,得到时延频域数据,并进行信噪比加权型广义互相关算法的计算,保证时延估计的准确性;利用傅里叶逆变换算法,重新得到在时域上的时延时域数据,方便利用峰值检测法确定时延数据。

在具体实践中,麦克风阵列模块采用四个驻极体麦克风时,以10KHz的频率采样4个驻极体麦克风的语音信号,分别存放在长度为2048的数组中,4组语音信号分别记为目标数据X1(t)、X2(t)、X3(t)和X4(t),对目标数据进行快速傅里叶变换,得到4组时延频域数据X1(ω)、X2(ω)、X3(ω)和X4(ω);任取其中两组时延频域数据,确定时延数据,例如取时延频域数据X1(ω)和X2(ω),确定时延数据τ12;对于4组时延频域数据X1(ω)、X2(ω)、X3(ω)和X4(ω),需要确定6组时延数据,分别为τ12、τ13、τ14、τ23、τ24和τ34

另外,在一实施例中,步骤S320中,所述信噪比加权型广义互相关算法如下:

其中,

其中,

其中,

G12(ω)=X1(ω)X2 *(ω),G11(ω)=X1(ω)X1 *(ω),G22(ω)=X2(ω)X2 *(ω),

其中,A为时延加权数据,是信噪比加权函数,X1(ω)为一个频域数据,X1 *(ω)为X1(ω)的共轭复数,X2(ω)为另一个频域数据,X2 *(ω)为X2(ω)的共轭复数。

可以理解的是,加权函数使用PHAT函数,具有一定的抗噪声和抗混响能力,但是在实际应用中受到加性噪声的影响容易导致该算法的性能急剧下降,通过引入信噪比加权函数和广义互相关算法以改善在不同信噪比条件下的识别准确率。

另外,参照图4,在一实施例中,步骤S220具体包括但不限于有以下步骤:

步骤S410,根据时延误差公式,由时延数据计算得到时延误差值;

步骤S420,根据预设的误差阈值和所述时延误差值,由所述时延数据确定有效时延数据。

具体的,所述时延误差公式如下:

δ=|τij-(τikkj)|,

其中,δ为误差,i、j和k为所述麦克风阵列模块中的任意三个所述驻极体麦克风的编号,τij、τik和τkj为有效时延数据。

可以理解的是,当麦克风阵列模块采用四个驻极体麦克风时,可得到6组时延数据,分别为τ12、τ13、τ14、τ23、τ24和τ34;时延估计法是存在误差的,利用误差对时延值进行筛选,分别计算误差是否在误差阈值内,若超出,则抛弃这组时延数据,从而在时延数据内筛选出有效时延数据。

另外,参照图5,在一实施例中,步骤S120具体包括但不限于有以下步骤:

步骤S510,根据语音端点检测法,由所述语音信号确定起始状态和结束状态;

步骤S520,根据所述起始状态和所述结束状态,由所述语音信号确定包含声源信息的目标数据。

可以理解的是,利用语音端点检测法,得到语音信号的短时能量和过零率,从而判断语音信号的起始状态和结束状态,具体为,若语音信号的短时能量超过门限值则判断为起始状态,反之,进入结束状态,从而排除掉噪音和静音等无用的语音信号。

另外,参照图6,在一实施例中,步骤S140具体包括但不限于有以下步骤:

步骤S610,根据所述声源方位信息,确定方位角度;

步骤S620,根据预设的角度配对表,由所述方位角度得到用于控制所述LED方位显示模块的控制信号。

可以理解的是,声源方位信息包含了声源的方位角度,角度配对表是指方位角度与LED方位显示模块对应的点亮顺序表,通过控制信号点亮LED方位显示模块,能够直观有效的显示声源的方位。

在具体实践中,声源定位系统包括机壳和设置在机壳上的LED方位显示模块,LED方位显示模块包括16个LED灯珠,LED灯珠沿机壳的周向均匀排列,机壳共被分为16个区间,相邻两个LED灯珠的夹角为22.5度,由机壳中心指向的一个方向设为0度,并为第一个区间的起点,则所有区间形成的夹角的角度范围依次为[0度、22.5度)、[22.5度、45度)、[45度、67.5度)、[67.5度、90度)、[90度、112.5度)、[112.5度、135度)、[135度、157.5度)、[157.5度、180度)、[180度、202.5度)、[202.5度、225度)、[225度、247.5度)、[247.5度、270度)、[270度、292.5度)、[292.5度、315度)、[315度、337.5度)和[337.5度、360度),16个LED灯珠依次位于16个区间形成的夹角的角平分线上,角度配对表就是包含LED灯珠与区间的对应关系的表格,根据声源的方位所属的区间,得到用于控制所述LED方位显示模块的控制信号,以点亮该区间对应的LED灯珠,从而直观有效的显示声源的方位。

另外,参照图7,本申请的一个实施例还提供了一种声源定位装置700,麦克风阵列模块和LED方位显示模块分别与声源定位装置700电连接,所述装置包括但不限于:获取模块710、预处理模块720、方位解算模块730、控制模块740和发送模块750。

其中,获取模块710,用于获取来自所述麦克风阵列模块的语音信号;

预处理模块720,用于对所述语音信号进行预处理,确定包含声源信息的目标数据;

方位解算模块730,用于根据所述目标数据,通过方位处理,得到声源方位信息;

控制模块740,用于根据所述声源方位信息,得到用于控制所述LED方位显示模块的控制信号;

发送模块750,用于将所述控制信号发送至所述LED方位显示模块,以使所述LED方位显示模块显示声源的方位。

需要说明的是,由于本实施例中的一种声源定位装置700与上述的一种基于麦克风阵列的声源定位方法基于相同的发明构思,因此,方法实施例中的相应内容同样适用于本装置实施例,此处不再详述。

另外,参照图8,本申请的一个实施例还提供了一种终端800,该终端800可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。

具体地,该终端800包括:存储器810、处理器820及存储在存储器810上并可在处理器820上运行的计算机程序。

处理器 20和存储器810可以通过总线或者其他方式连接。

需要说明的是,实现上述实施例的基于麦克风阵列的声源定位方法所需的非暂态软件程序以及指令存储在存储器810中,当被处理器820执行时,执行上述实施例中的应用于声源定位系统的基于麦克风阵列的声源定位方法,例如,执行以上描述的图1中的方法步骤S110至S150,图2中的方法步骤S210至S230,图3中的方法步骤S310至S340,图4中的方法步骤S410至S420,图5中的方法步骤S510至S520,图6中的方法步骤S610至S620。

需要说明的是,存储器810作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本申请实施例中的一种基于麦克风阵列的声源定位方法对应的程序指令/模块,例如,图7所示的获取模块710、预处理模块720、方位解算模块730、控制模块740和发送模块750。处理器820通过运行存储在存储器810中的非暂态软件程序、指令以及模块,从而执行一种声源定位装置700的各种功能应用以及数据处理,即实现上述方法实施例的一种基于麦克风阵列的声源定位方法。

存储器810可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据一种声源定位装置700的使用所创建的数据等。此外,存储器810可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器810可选包括相对于处理器820远程设置的远程存储器,这些远程存储器可以通过网络连接至该终端800。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器810中,当被所述一个或者多个处理器820执行时,执行上述方法实施例中的一种基于麦克风阵列的声源定位方法,例如,执行以上描述的图1中的方法步骤S110至S150,图2中的方法步骤S210至S230,图3中的方法步骤S310至S340,图4中的方法步骤S410至S420,图5中的方法步骤S510至S520,图6中的方法步骤S610至S620,实现图7的模块710至750的功能。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器820执行,例如,被图7中的一个处理器820执行,可使得上述一个或多个处理器820执行上述方法实施例中的一种基于麦克风阵列的声源定位方法,例如,执行以上描述的图1中的方法步骤S110至S150,图2中的方法步骤S210至S230,图3中的方法步骤S310至S340,图4中的方法步骤S410至S420,图5中的方法步骤S510至S520,图6中的方法步骤S610至S620,实现图7的模块710至750的功能。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(ReadOnly Memory,ROM)或随机存储记忆体(Random AcceSS Memory,RAM)等。

以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于波束指向优化的提高三坐标雷达比幅测角精度的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!