一种全声场定向的声源定位方法及装置

文档序号:1555798 发布日期:2020-01-21 浏览:29次 >En<

阅读说明:本技术 一种全声场定向的声源定位方法及装置 (Full sound field oriented sound source positioning method and device ) 是由 姚康 李保民 张燕 华中南 范文伟 于 2019-09-17 设计创作,主要内容包括:本发明实施例公开了一种全声场定向的声源定位方法及装置,涉及声学技术领域,能够缓解单一辅Mic后续提取分离时所产生的声音忽大忽小的情况,使之更好的应用于大型现场场景中。本发明包括:采集设备中的主麦克风启动后,开启辅麦克风;通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽;对所述主声音信号进行提取分离处理,得到主声音,同时从所述辅助声音信号获取辅助声音;将所述主声音和所述辅助声音通过用户终端的扬声器播放。本发明适用于大型现场场景的声源处理。(The embodiment of the invention discloses a sound source positioning method and device for whole sound field orientation, relates to the technical field of acoustics, and can relieve the situation that the sound generated by the subsequent extraction and separation of single auxiliary Mic is suddenly and suddenly changed, so that the sound can be better applied to a large-scale scene. The invention comprises the following steps: starting an auxiliary microphone after a main microphone in the acquisition equipment is started; collecting the sound in the direction of sight of the user through the main microphone, and shielding the sound in the direction of non-sight of the user; extracting and separating the main sound signal to obtain main sound, and acquiring auxiliary sound from the auxiliary sound signal; and playing the main sound and the auxiliary sound through a loudspeaker of the user terminal. The invention is suitable for sound source processing of large-scale scene.)

一种全声场定向的声源定位方法及装置

技术领域

本发明涉及AR/VR中的声学技术领域,尤其涉及一种全声场定向的声源定位方法及装置。

背景技术

随着AR/VR技术的发展,各大国内外的科技公司如雨后春笋般纷纷发布了自己的AR/V R硬件设备。AR/VR技术的核心理念就是通过在现实环境中加载虚拟信息,来帮助人类完成工作。特别是随着5G时代的到来,3GPP所定义5G标准中的eMBB是其中之一的重要场景。实现场景上对应的是3D/超高清视频等大流量移动宽带业务,所以5G时代的到来更加速了VA/VR技术的发展和应用。

在5G这个“催化剂”促使下,“虚拟现实”无可厚非的成为了AR/VR发展落地的重头戏。而如何提供更加真实的“实时观看”体验,成为了主要的研究目的。这其中,与影像同步的声学方案,成为一个主要研究课题。目前,“实时观看”的视频部分主要采用实感摄像头捕捉3D画面,音频部分是用实感摄像头每秒X帧的输出从而达到模拟声场的目的。简而言之就是用摄像头在某个定点的位置将现场的音视频录制下来,再增加延时delay。但这种方案的问题在于,采集的地点是固定的;那么用户即便佩戴也只是体验到某一个特定位置的观赛感,观赛视角单一。

尤其是在足球运动、马拉松等场地较大的运动项目,无法达到多机位观赛。原因在于,比赛场地声场环境极为嘈杂,即便采用实感摄像头都无法避免旁人噪音对观赛者的干扰。如果采用降噪算法处理,在极为复杂的声场环境下,算法运算又及其复杂。而通常的降噪处理会滤掉一部分声音较小的声音,如果此时用户处在稍微偏远的观赛点,则该方法又会将场内正在比赛的如“进球击打”等有效声音过滤。因此目前的“实时观看”方案,主要应用在阅兵现场、演唱会现场等位置固定的场景中,实际的应用范围受限。

发明内容

本发明的实施例提供一种全声场定向的声源定位方法及装置,能够缓解单一辅Mic后续提取分离时所产生的声音忽大忽小的情况,使之更好的应用于大型现场场景中。

为达到上述目的,本发明的实施例采用如下技术方案:

第一方面,本发明的实施例提供一种全声场定向的声源定位方法,包括:

采集设备中的主麦克风启动后,开启辅麦克风;

通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽;

对所述主声音信号进行提取分离处理,得到主声音,同时从所述辅助声音信号获取辅助声音;

将所述主声音和所述辅助声音通过用户终端的扬声器播放。

第二方面,本发明的实施例提供一种全声场定向的声源定位设备,包括:

麦克风管理单元,用于在所述主麦克风启动后,开启辅麦克风;

预处理单元,用于通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽;

处理单元,用于对所述主声音信号进行提取分离处理,得到主声音,同时从所述辅助声音信号获取辅助声音;

传输单元,用于将所述主声音和所述辅助声音通过用户终端的扬声器播放。

本发明实施例主要是在音频空间化(音源定位)方面设计出了一种全新的方法。基于在AR/VR上通过对原有MIC重新进行定义为扇面可随用户头部进行同角度旋转结构,通过自动平面旋转、增加拓宽拾音孔的孔径及长度来解决进入该通道声音以及屏蔽其他非对视位置的音源进入等,重新改造拾音孔内径长度等函数,如散射和频率和入射方向的函数(详见下文)。并增加其他辅助MIC与之匹配。可避免单一辅Mic后续提取分离时所产生的声音忽大忽小的情况。在用户亲临现场观赛,并转动头的位置,可以实时感知所处位置的声音效果,增加深度沉浸感,让用户所达到极佳的体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种可能的硬件环境的示意图;

图2为本发明实施例提供的方法流程示意图;

图3~图11为本发明实施例提供的具体实例的示意图;

图12、图13为本发明实施例提供的装置结构的示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

本实施例中的方法流程,具体可以实现在一种如图1所示的系统中,该系统中包括了声源采集设备和用户终端。其中,声源采集设备可以是一种具备至少3个麦克风的头肩模拟器,用于采集现场的不同点位上的声音信号。用户终端可以理解为目前常见的AR/VR设备,比如头戴式的VR设备,具有扬声器的智能手机等。

本发明实施例提供一种全声场定向的声源定位方法,如图2所示,包括:

S101,采集设备中的主麦克风启动后,开启辅麦克风。

S102,通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽。

S103,对所述主声音信号进行提取分离处理,得到主声音,同时从所述辅助声音信号获取辅助声音。

S104,将所述主声音和所述辅助声音通过用户终端的扬声器播放。

本实施例在实现过程中,可以采用符合国际标准的B&K“头和躯干模拟器”(HATS-简称头肩模拟器、本实施例中所述的实验都是基于此头肩模拟器进行的验证)。实验全自由场定向的音源定位问题,主要目标是要解决比如用户在球场观看席的任意一个位置,通过人头的转动,能够随着所变化的位置体验到该位置上的声音效果。以及实现对视某个点时,能够接听到对视点声源并屏蔽其他非对视点的方法。

具体原理在于:声波是在自由空间中传播的,亦即无线理想媒质中传播的,由于其边界是无限的,所以可以看成解决的声场定向的一个球面体。

建立以球面中心为原点的坐标系,则有:x=r*cosA(A为通过该目标点的半径与x轴夹角)、y=r*cosB(B为通过该目标点的半径与y轴夹角)、z=r*cosC(C为通过该目标点的半径与z轴夹角)。以自由声场为例,如图3所示的,为一个球状的一个平面,其中‘O’为人所在的位置,‘A、B、C’为三个不同的音源,人在水平面上做视角运动,本实施例的方案需要解决的问题就是如何确定‘A、B、C’音源,从而达体验‘A、B、C’不同位置上的听觉效果。

具体的,所述通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽,包括:

所述主麦克风随所述采集设备在预设的角度范围内进行扇面旋转,在扇面旋转的过程中,获取所述主麦克风采集的主声音信号。

其中,所述采集设备中安装一个主麦克风和至少2个辅麦克风,左耳和右耳处的位置上分别安装至少一个辅麦克风,且辅麦克风朝向外部,分别用于采集左侧和右侧的环境声音。并且,在所述至少2个辅麦克风采集的辅助声音信号的过程中,不随所述主麦克风扇面旋转。

具体举例来说,在主麦克风上实现的声音处理方式为:

将主麦克风作为一个突出面来设计,利用凸面反射的原理,因为几乎所有的凸面都具有散射的作用,它们是作为扩散体的重要反射面,因为对于凸面而言,其r永远是负值的,如图4所示的。

继续以负值带入到凹面方程:

Figure BDA0002203993820000061

那么b也会是负值。综上,Q1为用户所在的位置,S为主麦克风位置,则Q2声源传递的声波会进入S主麦克风的通道内,其他波形会在球面进行反射,如A、B点。相反的,若Q2不在上图的位置,而在其他位置的话,其波形传递必定形成散射,也就是说可以进行屏蔽。

主麦克风设计为可旋转进行主对视音源采集的器件,并进一步进行将拾音孔进行孔径拓宽处理。其中,孔径表示为将一个声信号转换为电信号的电声传感器(麦克风)。比如:体积为V的麦克风接收孔径,考虑一体积为V的接收孔径,x(t,r)表示在时间t和空间r处信号的值。接收孔径在r处的一个无限小的体积dV的冲击响应为a(t,r),那么接收到的信号可以用卷积表示:xR(t,r)=∫x(i,r)a(t-i,r)di(公式1);或者用频域来表示:XR(f,r)=X(f,r)A(f,r)(公式2),其中A(f,r)是孔径函数,可以通过这个函数知道孔径在不同空间大小下所反映的相应函数。

接收孔径对于不同方向传来的信号来说,所张开的立体角是不同的,如图5所示,表示的是一维空间内线性孔径接收平面波的信号。孔径的响应是频率和入射方向的函数,通过求解波动方程可以推导出,孔径响应与孔径函数是存在傅里叶变换的关系。

若以比赛场地的场景为远场条件,则其表示方式为:

Figure BDA0002203993820000071

其中:

Fr{.}是三位的傅里叶变换。

Figure BDA0002203993820000072

是一个点在孔径上的空间位置。

Figure BDA0002203993820000073

是波的方向矢量,其中,角度参数θ和φ的数值关系如图6所示的。并可以将图中坐标简化为沿着X轴方向的一维线性孔径,孔径长度为L,如图7所示的。

在图7这种情况下:

Figure BDA0002203993820000074

孔径响应简化为:其中

若以θ和φ来表达的话,则有:

Figure BDA0002203993820000077

上述算法是在平面波假设的条件下得到的,所以只适用于球赛等远场的条件。对于线性的孔径,应该满足公式10的条件时可以认为满足远场条件。

Figure BDA0002203993820000078

考虑一个特定的情况,如果线性孔径,孔径函数不随着频率位置变化,那么,孔径函数可以表示为:AR(xα)=rect(xα/L) (公式11)

其中,

Figure BDA0002203993820000079

那么获得的孔径函数为:DR(f,ax)=Fr{rect(xα/L)} (公式13)

傅里叶变换结果为:DR(f,ax)=Lsinc(αx/L)} (公式14)

其中,

Figure BDA00022039938200000710

综上可见,通过计算均匀孔径函数和相应地方向性孔径函数得出图形如图8所示的,从图8中可以看出方向性孔径函数的零点分布在αx=mλ/L,其中m为整数。方向性范围就可以得出,范围是:-λ/L≤αx≤λ/L之间的区域之间的区域被称为主瓣,其范围就是作波束宽度。因此,线性孔径的波束宽度为2λ/L,也可以写为2c/fL。所以,波束宽度反比于f×L。因此,对于一个固定的孔径长度,频率越高,波束宽度越窄,如图9所示的。

由此可以得出,对于一个固定的孔径长度,频率越高,波束宽度越窄。因为归一化后可以反映不同角度入射的声波的相对响应,因此还考虑孔径的归一化的孔径响应。sinc函数满足-1≤sinc(x)≤1,Directivity Pattern最大的可能值为Dmax=L,

归一化的口径响应长度为:

Figure BDA0002203993820000081

在水平方向上可以表示为:

Figure BDA0002203993820000082

由公式17可以得出在水平方向上的极坐标的表示方式,那么在L/λ的条件下极坐标如下图10所示的,分别为L/λ=0.5、1、2、4四个不同数值。

通过上述公式1~公式17可以得出线性孔径特性。主麦克风的实施设计算法所描述的线性孔径特性,结合原有的水平方向上的线性孔径特征公式:

得出,无论是线性的麦克风还是等间距分布的麦克风整列下的孔径特征,都取决于一下几个条件:传感器的数量N、传感器间的间距d和声波的频率f。由于离散传感器阵列是连续孔径的一种近似。有一点需要注意的是,传感器阵列的有效长度定义为相应的连续孔径的长度,为L=Nd,而传感器阵列的实际长度是d(N-1)。由此可见,当用户所使用的设备的主麦克风拾音孔足够长时,并且做扇面旋转,在通过图3和4所描述的散射和频率和入射方向的函数,就可以较为准确的识别到对视方向上的音源,并实现对用户非对视向上的声音进行屏蔽。

在本实施例中,还包括:在接收到启动信号后,选择所述主麦克风的档位,并启动所选择档位的主麦克风,其中,按照麦克风拾音孔直径分为至少4个档位,包括:A(拾音孔直径24mm),B(拾音孔直径12mm),C(拾音孔直径6mm)、D(拾音孔直径3mm)四个档位规格。

具体的,本实施例应用在比赛场地的环境中,一般而言比赛场地最低至最高的声压级一般在60dB~110dB之间,传统的麦克风直径一般为24mm、12mm、6mm、3mm四种,其频响可达20Hz~40kHz,近似的可以看成全指向性,声压级的测量范围为30dB~140dB;综上,所要解决问题所处的环境声压级在麦克风测量声压级范围之内。

在声源采集设备上,可以同时采集四个档位的主麦克风的声源,并由用户终端可以接收用户输入所述用户终端的换挡指令,根据所述换挡指令切换所述主麦克风的档位。

例如:用户的操作过程可以如图11所示的,包括:

【001】用户开始使用设备。

【002】集成主麦克风开始随头肩模拟器移动,并进行录音。

【003】位于头肩模拟器双耳处的双辅麦克风进行录音;并经过电声信号传递至用户耳机。

【004】经过【002】集成主麦克风录制后,用户选择D默认档位;则经过电声信号传递至用户耳机。

【005】经过【002】集成主麦克风录制后,用户不选择D默认档位。

【006】当用户不选则默认档位时,其他通路继续进行声音的录制,并对应相应地通路。

【007】用户选择其他档位后,系统自动切换到对应档位的通路,并与耳机通路建立连接,进行传输。其他非用户选择档位关闭与耳机的通路。

相对应的,在声源采集设备上,进行实时采集的过程中,可以实现为【101】~【107】的流程:

【101】当用户在使用设备时,开启实时观赛功能。

【102】开启功能后设备的集成主麦克风,并开始工作;设备默认A、B、C、D中任意一个档位(根据本文之前的计算和观赛场地一般比较大的原则,故默认为D档位)。由于主麦克风为四种档位规格,所以此时四种规格的麦克风同时进行录音,对应四个音频通路。目前国际标准的麦克风拾音孔直径一般为24mm、12mm、6mm、3mm四种,所以将随人头转动的主麦克风定义为四种规格,现将将四种规格定义为A(24mm),B(12mm),C(6mm)、D(3mm)四个档位规格,并进行集成。

【103】开启功能后,设备的两个全场辅麦克风开始工作,其位置位于“头肩模拟器”的左耳和右耳处,麦克风朝向外部,实时采集头肩模拟器左侧和右侧的环境声音。

【104】当“头肩模拟器”朝向某个区域内时,随着“头肩模拟器”角度的变化,集成主麦克风同样随着变化。

【105】此时,集成麦克风将电声信号进行转换,通过耳机传递给“头肩模拟器”。

【106】同样的,两个辅麦克风将头左右两侧的声音通过电声信号转换,通过耳机传递给“头肩模拟器”。

【107】由【102】得知,默认档位为D,当“头肩模拟器”觉得此时的感受不能够满足现场观赛感需求的时候,可以通过调节按钮切换档位,并开启相对应的通路。

目前行业内现有方案存在一些问题:“实时观赛”总体的解决思路在于将“虚拟现实”+“现场感知”,将现场的画面投放在用户面前,通过两个无线耳塞和应用,再加音效,包括立体声,声场差异化等,这样在看球赛的时候能够听到比平时更加给力的音频效果。这种技术的视频部分主要采用实感摄像头包括1080p高清摄像头,红外摄像头以及红外镭射投影仪在内的一系列敏感元件捕捉3D画面。其中音频部分是用实感摄像头每秒X帧的输出从而达到模拟模拟声场的目的。简而言之就是用摄像头在某个定点的位置将现场的音视频录制下来,再增加延时delay。

采用这种技术的缺点在于,从实现方法来和做达到的目的来看,采集的地点是固定的;那么用户即便佩戴也只是体验到某一个特定位置的观赛感,观赛视角单一。尤其是在足球运动、马拉松等场地较大的运动项目,无法达到多机位观赛。其次,对于橄榄球、篮球等气氛较活跃的运动,比赛场地声场环境极为嘈杂,即便采用实感摄像头都无法避免旁人噪音对观赛着的干扰。如果采用降噪算法处理,在极为复杂的声场环境下,算法运算又及其复杂。都知道降噪处理会滤掉一部分声音较小的声音,如果此时用户处在稍微偏远的观赛点,则该方法又会将场内正在比赛的如“进球击打”等有效声音过滤。

本实施例就在音频空间化(音源定位)方面设计出了一种全新的方法。基于在AR/VR上通过对原有MIC重新进行定义为扇面可随用户头部进行同角度旋转结构,通过自动平面旋转、增加拓宽拾音孔的孔径及长度来解决进入该通道声音以及屏蔽其他非对视位置的音源进入等,重新改造拾音孔内径长度等函数,如散射和频率和入射方向的函数(详见下文)。并增加其他辅助MIC与之匹配。其中,原有MIC设计为可以进行扇面旋转的拾音设备,用于采集用户对视方向上的声音,并屏蔽其他非对视的声音。辅MIC为2个全向辅Mic,实时采集用户所处位置旁边的声音,并不随着主MIC转动。用户佩戴后,当用户目标朝向为赛场A点时,通过之前主MIC已经录制的A点所落入的扇面区间内的声音,将用户对视的方向于录制扇面区间的声音进行提取分离,添加2个全向辅Mic录制用户周围的声音,可避免单一辅Mic后续提取分离时所产生的声音忽大忽小的情况。在用户亲临现场观赛,并转动头的位置,可以实时感知所处位置的声音效果,增加深度沉浸感,让用户所达到极佳的体验。

本发明实施例还提供一种全声场定向的声源定位设备,如图12所示的,包括:

麦克风管理单元,用于在所述主麦克风启动后,开启辅麦克风。

预处理单元,用于通过所述主麦克风采集用户对视方向上的声音,并对用户非对视向上的声音进行屏蔽。

处理单元,用于对所述主声音信号进行提取分离处理,得到主声音,同时从所述辅助声音信号获取辅助声音。

传输单元,用于将所述主声音和所述辅助声音通过用户终端的扬声器播放。

具体的,所述声源定位设备中安装一个主麦克风和至少2个辅麦克风,左耳和右耳处的位置上分别安装至少一个辅麦克风,且辅麦克风朝向外部,分别用于采集左侧和右侧的环境声音。

其中,在所述至少2个辅麦克风采集的辅助声音信号的过程中,不随所述主麦克风扇面旋转。

所述预处理单元,具体用于所述主麦克风随所述采集设备在预设的角度范围内进行扇面旋转,在扇面旋转的过程中,获取所述主麦克风采集的主声音信号。

进一步的,如图13所示的,还包括:

档位切换单元,用于在接收到启动信号后,选择所述主麦克风的档位,并启动所选择档位的主麦克风。

其中,按照麦克风拾音孔直径分为至少4个档位,包括:A(拾音孔直径24mm),B(拾音孔直径12mm),C(拾音孔直径6mm)、D(拾音孔直径3mm)四个档位规格。

接收单元,用于接收用户输入所述用户终端的换挡指令,根据所述换挡指令切换所述主麦克风的档位。

本实施例就在音频空间化(音源定位)方面设计出了一种全新的方法。基于在AR/VR上通过对原有MIC重新进行定义为扇面可随用户头部进行同角度旋转结构,通过自动平面旋转、增加拓宽拾音孔的孔径及长度来解决进入该通道声音以及屏蔽其他非对视位置的音源进入等,重新改造拾音孔内径长度等函数,如散射和频率和入射方向的函数(详见下文)。并增加其他辅助MIC与之匹配。其中,原有MIC设计为可以进行扇面旋转的拾音设备,用于采集用户对视方向上的声音,并屏蔽其他非对视的声音。辅MIC为2个全向辅Mic,实时采集用户所处位置旁边的声音,并不随着主MIC转动。用户佩戴后,当用户目标朝向为赛场A点时,通过之前主MIC已经录制的A点所落入的扇面区间内的声音,将用户对视的方向于录制扇面区间的声音进行提取分离,添加2个全向辅Mic录制用户周围的声音,可避免单一辅Mic后续提取分离时所产生的声音忽大忽小的情况。在用户亲临现场观赛,并转动头的位置,可以实时感知所处位置的声音效果,增加深度沉浸感,让用户所达到极佳的体验。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于鸣声的鸟类定位系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!