用于空间音频处理的两阶段音频聚焦

文档序号:1776695 发布日期:2019-12-03 浏览:12次 >En<

阅读说明:本技术 用于空间音频处理的两阶段音频聚焦 (Two stages audio for space audio processing focuses ) 是由 M·塔米 T·马基南 J·维罗莱南 M·海基宁 于 2018-01-24 设计创作,主要内容包括:包括一个或多个处理器的装置,所述一个或多个处理器被配置为:接收用于音频信号处理的至少两个麦克风音频信号(101),其中,所述音频信号处理至少包括空间音频信号处理(303)和波束成形处理(305);基于与所述至少两个麦克风音频信号相关联的所述空间音频信号处理来确定空间信息(304);确定用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息(308);以及应用空间滤波器(307)以便基于来自所述至少两个麦克风音频信号(101)的所述至少一个波束成形音频信号、所述空间信息(304)和所述聚焦信息(308)以一种方式来合成至少一个空间处理的音频信号(312),该方式使得所述空间滤波器(307)、所述至少一个波束成形音频信号(306)、所述空间信息(304)和所述聚焦信息(308)被配置为用于在空间上合成(307)所述至少一个空间处理的音频信号(312)。(Device including one or more processors, one or more of processors are configured as: receiving at least two microphone audio signals (101) for being used for Audio Signal Processing, wherein, the Audio Signal Processing includes at least spatial audio signal processing (303) and beam forming processing (305);Spatial information (304) are determined based on the spatial audio signal processing associated at least two microphone audio signal;Determine the focus information (308) for the beam forming processing associated at least two microphone audio signal;And application space filter (307) is so as to based at least one described beam forming audio signal from least two microphone audio signal (101), the spatial information (304) and the focus information (308) synthesize the audio signal (312) of at least one spatial manipulation in one way, which makes the spatial filter (307), at least one described beam forming audio signal (306), the spatial information (304) and the focus information (308) are configured in the audio signal (312) of at least one spatial manipulation described in spatially synthesis (307).)

用于空间音频处理的两阶段音频聚焦

技术领域

本申请涉及用于空间音频处理的两阶段音频聚焦的装置和方法。在某些情况下,用于空间音频处理的两阶段音频聚焦在单独的设备中实现。

背景技术

通过在阵列中使用多个麦克风,可以有效捕获音频事件。然而,通常难以将捕获的信号转换为就好像在实际录制情况中那样可以体验的形式。特别地,缺乏空间表示,即收听者不能像原始事件那样相同地感知声源的方向(或收听者周围的氛围)。

空间音频回放系统,例如常用的5.1声道设置或具有耳机收听功能的备用双耳信号,可用于表示不同方向的声源。因此,它们适合于表示利用多麦克风系统捕获的空间事件。先前已经介绍了用于将多麦克风捕获转换为空间信号的有效方法。

音频聚焦技术可用于将音频捕获聚焦到选定的方向。这可以在捕获装置周围存在许多声源但仅特别关注一个方向的声源的情况下实现。这可以是例如在音乐会中的典型情况,在音乐会中任何关注的内容通常在该设备前面但该设备周围的观众里有干扰声源。

提议了用于将音频聚焦应用于多麦克风捕获并将输出信号呈现为优选空间输出格式(5.1,双耳等)的解决方案。但是,这些提议的解决方案目前无法同时提供以下所有特征:

·使用用户选择的音频聚焦模式(聚焦方向、聚焦强度等)捕获音频以便为用户提供对被认为重要的方向和/或音频源的控制的能力。

·低比特率的信号传送或存储。比特率主要由所提交的音频声道的数量所表征。

·选择合成阶段输出的空间格式的能力。这使得能够利用诸如耳机或家庭影院之类的不同回放设备来回放音频。

·对头部跟踪的支持。这在具有3D视频的VR格式中尤为重要。

·出色的空间音频质量。没有良好的空间音频质量,例如VR体验是不现实的。

发明内容

根据第一方面,提供了一种装置,包括一个或多个处理器,所述一个或多个处理器被配置为:接收用于音频信号处理的至少两个麦克风音频信号,其中,所述音频信号处理至少包括被配置为输出空间信息的空间音频信号处理和被配置为输出聚焦信息和至少一个波束成形音频信号的波束成形处理;基于与所述至少两个麦克风音频信号相关联的所述空间音频信号处理来确定空间信息;确定用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息和至少一个波束成形音频信号;以及将空间滤波器应用于所述至少一个波束成形音频信号,以便基于来自所述至少两个麦克风音频信号的所述至少一个波束成形音频信号、所述空间信息和所述聚焦信息以一种方式来合成至少一个聚焦的空间处理的音频信号,该方式使得所述空间滤波器、所述至少一个波束成形音频信号、所述空间信息和所述聚焦信息被配置为用于在空间上合成所述至少一个聚焦的空间处理的音频信号。

所述一个或多个处理器可以被配置为通过组合所述空间信息和所述聚焦信息来生成组合的元数据信号。

根据第二方面,提供了一种装置,包括一个或多个处理器,所述一个或多个处理器被配置为:根据至少一个波束成形音频信号和空间元数据信息在空间上合成至少一个空间音频信号,其中,所述至少一个波束成形音频信号本身由与至少两个麦克风音频信号相关联的波束成形处理生成并且所述空间元数据信息基于与所述至少两个麦克风音频信号相关联的音频信号处理;以及基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波,以提供至少一个聚焦的空间处理的音频信号。

所述一个或多个处理器还可以被配置为:对所述至少两个麦克风音频信号进行空间音频信号处理,以基于与所述至少两个麦克风音频信号相关联的所述音频信号处理来确定所述空间信息;以及确定用于所述波束成形处理的所述聚焦信息和对所述至少两个麦克风音频信号进行波束成形处理以产生所述至少一个波束成形音频信号。

所述装置可以被配置为接收定义输出声道布置的音频输出选择指示符,并且其中,被配置为在空间上合成至少一个空间音频信号的所述装置还可以被配置为以基于所述音频输出选择指示符的格式生成所述至少一个空间音频信号。

所述装置可以被配置为接收定义空间滤波的音频滤波器选择指示符,并且其中,被配置为对所述至少一个空间音频信号进行空间滤波的所述装置还可以被配置为基于与所述音频滤波器选择指示符相关联的至少一个聚焦滤波器参数对所述至少一个空间音频信号进行空间滤波,其中,所述至少一个滤波器参数可以包括以下中的至少一个:至少一个空间聚焦滤波器参数,所述空间聚焦滤波器参数定义在方位角和/或仰角中的至少一个的方面的聚焦方向和在方位角宽度和/或仰角高度方面的聚焦扇区的至少一个;至少一个频率聚焦滤波器参数,所述频率聚焦滤波器参数定义所述至少一个空间音频信号被聚焦的至少一个频带;至少一个衰减聚焦滤波器参数,所述衰减聚焦滤波器定义对所述至少一个空间音频信号的衰减聚焦效果的强度;至少一个增益聚焦滤波器参数,所述增益聚焦滤波器定义对所述至少一个空间音频信号的聚焦效果的强度;以及聚焦旁路滤波器参数,所述聚焦旁路滤波器参数定义是实现还是旁路所述至少一个空间音频信号的所述空间滤波器。

所述音频滤波器选择指示符可以由头部***输入提供。

所述聚焦信息可以包括转向模式指示符,所述转向模式指示符被配置为使得能够处理由所述头部***输入提供的所述音频滤波器选择指示符。

被配置为基于与所述至少两个麦克风音频信号相关联的所述波束成形处理基于聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号的装置可以进一步被配置为:对所述至少一个空间音频信号进行空间滤波以至少部分地消除与所述至少两个麦克风音频信号相关联的所述波束成形处理的影响。

被配置为基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号的所述装置可以进一步被配置为:仅对不受与所述至少两个麦克风音频信号相关联的所述波束成形处理显著影响的频带进行空间滤波。

被配置为基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号的所述装置可以被配置为:对在所述聚焦信息内指示的方向上的所述至少一个空间音频信号进行空间滤波。

基于与所述至少两个麦克风音频信号相关联的所述音频信号处理的所述空间信息和/或用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的所述聚焦信息可以包括:被配置为确定所述至少一个空间音频信号的哪个频带可以通过所述波束成形处理来处理的频带指示符。

被配置为从与所述至少两个麦克风音频信号相关联的所述波束成形处理中产生至少一个波束成形音频信号的所述装置可以被配置为:产生至少两个波束成形的立体声音频信号。

被配置为从与所述至少两个麦克风音频信号相关联的所述波束成形处理中产生至少一个波束成形音频信号的所述装置可以被配置为:确定两个预定波束成形方向中的一个;以及在所述两个预定波束成形方向的所述一个中对所述至少两个麦克风音频信号进行波束成形。

所述一个或多个处理器还可以被配置为从麦克风阵列接收所述至少两个麦克风音频信号。

根据第三方面,提供了一种方法,包括:接收用于音频信号处理的至少两个麦克风音频信号,其中,所述音频信号处理至少包括被配置为输出空间信息的空间音频信号处理和被配置为输出聚焦信息和至少一个波束成形音频信号的波束成形处理;基于与所述至少两个麦克风音频信号相关联的所述空间音频信号处理来确定空间信息;确定用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息和至少一个波束成形音频信号;以及将空间滤波器应用于所述至少一个波束成形音频信号,以便基于来自所述至少两个麦克风音频信号的所述至少一个波束成形音频信号、所述空间信息和所述聚焦信息以一种方式来合成至少一个聚焦的空间处理的音频信号,该方式使得所述空间滤波器、所述至少一个波束成形音频信号、所述空间信息和所述聚焦信息被配置为用于在空间上合成所述至少一个聚焦的空间处理的音频信号。

所述方法还可以包括从组合所述空间信息和所述聚焦信息生成组合的元数据信号。

根据第四方面,提供了一种方法,包括:根据至少一个波束成形音频信号和空间元数据信息在空间上合成至少一个空间音频信号,其中,所述至少一个波束成形音频信号本身由与至少两个麦克风音频信号相关联的波束成形处理生成并且所述空间元数据信息基于与所述至少两个麦克风音频信号相关联的音频信号处理;以及基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波,以提供至少一个聚焦的空间处理的音频信号。

该方法还可以包括:对所述至少两个麦克风音频信号进行空间音频信号处理,以基于与所述至少两个麦克风音频信号相关联的所述音频信号处理来确定所述空间信息;以及确定用于所述波束成形处理的所述聚焦信息和对所述至少两个麦克风音频信号进行波束成形处理以产生所述至少一个波束成形音频信号。

该方法还可以包括接收定义输出声道布置的音频输出选择指示符,并且其中,在空间上合成至少一个空间音频信号可以包括基于所述音频输出选择指示符的格式生成所述至少一个空间音频信号。

该方法可以包括接收定义空间滤波的音频滤波器选择指示符,并且其中,对所述至少一个空间音频信号进行空间滤波可以包括基于与所述音频滤波器选择指示符相关联的至少一个聚焦滤波器参数对所述至少一个空间音频信号进行空间滤波,其中,所述至少一个滤波器参数可以包括以下中的至少一个:至少一个空间聚焦滤波器参数,所述空间聚焦滤波器参数定义在方位角和/或仰角中的至少一个的方面的聚焦方向和在方位角宽度和/或仰角高度方面的聚焦扇区的至少一个;至少一个频率聚焦滤波器参数,所述频率聚焦滤波器参数定义所述至少一个空间音频信号被聚焦的至少一个频带;至少一个衰减聚焦滤波器参数,所述衰减聚焦滤波器定义对所述至少一个空间音频信号的衰减聚焦效果的强度;至少一个增益聚焦滤波器参数,所述增益聚焦滤波器定义对所述至少一个空间音频信号的聚焦效果的强度;以及聚焦旁路滤波器参数,所述聚焦旁路滤波器参数定义是实现还是旁路所述至少一个空间音频信号的所述空间滤波器。

该方法还可以包括从头部***接收所述音频滤波器选择指示符。

所述聚焦信息可以包括转向模式指示符,所述转向模式指示符被配置为使得能够处理所述音频滤波器选择指示符。

基于与所述至少两个麦克风音频信号相关联的所述波束成形处理基于聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号可以包括:对所述至少一个空间音频信号进行空间滤波以至少部分地消除与所述至少两个麦克风音频信号相关联的所述波束成形处理的影响。

基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号可以包括:仅对不受与所述至少两个麦克风音频信号相关联的所述波束成形处理显著影响的频带进行空间滤波。

基于用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的聚焦信息对所述至少一个空间音频信号进行空间滤波以提供至少一个聚焦的空间处理的音频信号可以包括:对在所述聚焦信息内指示的方向上的所述至少一个空间音频信号进行空间滤波。

基于与所述至少两个麦克风音频信号相关联的所述音频信号处理的所述空间信息和/或用于与所述至少两个麦克风音频信号相关联的所述波束成形处理的所述聚焦信息可以包括:被配置为确定所述至少一个空间音频信号的哪个频带可以通过所述波束成形处理来处理的频带指示符。

从与所述至少两个麦克风音频信号相关联的所述波束成形处理中产生至少一个波束成形音频信号可以包括产生至少两个波束成形的立体声音频信号。

从与所述至少两个麦克风音频信号相关联的所述波束成形处理中产生至少一个波束成形音频信号可以包括:确定两个预定波束成形方向中的一个;以及在所述两个预定波束成形方向的所述一个中对所述至少两个麦克风音频信号进行波束成形。

该方法还可以包括从麦克风阵列接收所述至少两个麦克风音频信号。

存储在介质上的计算机程序产品可以使装置执行如本文所述的方法。

电子设备可以包括如本文所述的装置。

芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请,现在将通过示例的方式参考附图,其中:

图1示出了现有的音频聚焦系统;

图2示意性地示出了现有的空间音频格式生成器;

图3示意性地示出了根据一些实施例的实现空间音频格式支持的示例性两阶段音频聚焦系统;

图4示意性地示出了根据一些实施例的图3中示出的示例性两阶段音频聚焦系统的进一步的细节;

图5a和5b示意性地示出了根据一些实施例的用于实现如图3和4所示的系统中所示的波束成形的示例性麦克风对波束成形;

图6示出了根据一些实施例的在单个装置内实现的另一示例性两阶段音频聚焦系统;

图7示出了根据一些实施例的另一示例性两阶段音频聚焦系统,其中,在空间合成之前应用空间滤波;

图8示出了附加的示例性两阶段音频聚焦系统,其中,波束成形和空间合成在与音频信号的捕获和空间分析分开的装置内实现;以及

图9示出了适合于实现如图3至8中任一个所示的两阶段音频聚焦系统的示例装置。

具体实施方式

以下进一步详细描述了用于提供有效的两阶段音频聚焦(或散焦)系统的合适装置和可能的机制。在以下示例中,描述了音频信号和音频捕获信号。然而,应当理解,在一些实施例中,该装置可以是被配置为捕获音频信号或接收音频信号和其他信息信号的任何合适的电子设备或装置的一部分。

与当前音频聚焦方法相关联的问题可以相对于图1中所示的当前音频聚焦系统示出。图1因此示出了接收来自至少两个麦克风的输入的音频信号处理系统(在图1和以下附图中,三个麦克风音频信号被示为示例麦克风音频信号输入,但是可以使用任何合适数量的麦克风音频信号)。麦克风音频信号101被传送到空间分析器103和波束成形器105。

图1中所示的音频聚焦系统可以独立于音频信号捕获装置,该音频信号捕获装置包括用于捕获麦克风音频信号的麦克风,并且因此音频聚焦系统独立于捕获装置形式因子(capture apparatus form factor)。换句话说,系统中麦克风的数量、类型和布置也可以存在很大差异。

图1中所示的系统示出了被配置为接收麦克风音频信号101的波束成形器105。波束成形器105可以被配置为对麦克风音频信号应用波束成形操作并且基于波束成形的麦克风音频信号生成反映左右声道输出的立体声音频信号输出。波束成形操作用于强调从至少一个选定的聚焦方向到达的信号。这可以进一步被认为是衰减从“其他”方向到达的声音的操作。波束成形方法例如在US-20140105416中给出。立体声音频信号输出106可以被传送到空间合成器107。

图1中所示的系统还示出了被配置为接收麦克风音频信号101的空间分析器103。空间分析器103可以被配置为分析每个时间频带的主导声源的方向。将该信息或空间元数据104然后可以被传送给空间合成器107。

图1中所示的系统进一步示出了空间合成的产生以及在波束成形之后对立体声音频信号106应用空间滤波操作。图1中所示的系统还示出了被配置为接收空间元数据104和立体声音频信号106的空间合成器107。空间合成器107可以例如应用空间滤波以进一步强调关注方向上的声源。这是通过处理在合成器中的空间分析器103中执行的分析阶段的结果以在优选方向上放大源并衰减其他源来完成的。空间合成和滤波方法例如在US-20120128174、US-20130044884和US-20160299738中给出。空间合成可以应用于任何合适的空间音频格式,例如立体声(双声道)音频或5.1多声道音频。

使用来自现代移动设备的麦克风音频信号进行波束成形可以实现的聚焦效果的强度通常约为10dB。通过空间滤波,可以达到近似相似的效果。因此,整体聚焦效果实际上可以是单独使用的波束成形或空间滤波的效果的两倍。然而,由于现代移动设备关于麦克风位置的物理限制及其麦克风的较少数量(通常为3个),单独的波束成形性能实际上不能在整个音频频谱上提供足够好的聚焦效果。这是应用附加空间滤波的驱动力。

两阶段方法组合了波束成形和空间滤波的优点。这些是波束成形不会引起伪影(artefact)或显著降低可听音频质量(原理上它只会延迟和/或滤波一个麦克风信号并将其与另一个麦克风信号相加),并且可以仅以轻微(或甚至没有)可听伪影实现适度的空间滤波效果。可以对波束成形独立地实现空间滤波,因为它仅基于从原始(未聚束的)音频信号获得的方向估计来对信号进行滤波(放大/衰减)。

当它们提供更温和但清晰可听的聚焦效果时,这两种方法都可以独立实现。对于某些情况,这种较温和的聚焦可能就足够了,尤其是当仅存在单个主导声源时。

在空间滤波阶段过于激进的放大可能导致音频质量下降,并且两阶段方法可以防止这种质量下降。

在图1所示的音频聚焦系统中,合成音频信号112然后可以用选定的音频编解码器编码,并被存储或作为任何音频信号通过声道109被传送到接收端。然而,由于许多原因,该系统存在问题。例如,必须在捕获侧决定所选择的回放格式,并且接收器不能选择该回放格式,因此接收器不能选择优化的回放格式。此外,编码的合成音频信号比特率可以很高,尤其是对于多声道音频信号格式。此外,这种系统不允许支持头部跟踪或用于控制聚焦效果的类似输入。

参考图2描述了用于传送空间音频的有效空间音频格式系统。该系统例如在US-20140086414中描述。

该系统包括被配置为接收麦克风音频信号101的空间分析器203。空间分析器203可以被配置为针对每个频带分析主导声源的方向。然后,该信息或空间元数据204可以经由声道209传送到空间合成器207或者本地存储。此外,通过生成立体声信号206来压缩音频信号101,立体声信号206可以是两个输入麦克风音频信号。该压缩立体声信号206也通过声道209传送或本地存储。

该系统还包括被配置为接收立体声信号206和空间元数据204作为输入的空间合成器207。然后可以将空间合成输出实现为任何优选的输出音频格式。该系统产生许多益处,包括低比特率的可能性(仅需要2声道音频编码和空间元数据来编码麦克风音频信号)。此外,由于可以在空间合成阶段选择输出空间音频格式,因此能够支持多种回放设备类型(移动设备、家庭影院等)。此外,这种系统允许双耳信号的头部跟踪支持,这对于虚拟现实/增强现实或沉浸式360度视频特别有用。此外,诸如系统允许将音频信号回放为传统立体声信号的能力,例如在回放设备不支持空间合成处理的情况下。

然而,诸如图2中所示的系统具有显著的缺点,因为引入的空间音频格式不支持如图1所示的包括波束成形和空间滤波的音频聚焦。

如以下在实施例中详细讨论的这个概念是提供一种组合音频聚焦处理和空间音频格式化的系统。因此,实施例示出了将聚焦处理方面划分为两个部分,使得部分处理在捕获侧完成,而部分处理在回放侧完成。在如本文所述的这样的实施例中,捕获装置或设备用户可以被配置为激活聚焦功能,并且当在捕获和回放侧都应用聚焦相关处理时,实现最大聚焦效果。同时保持了空间音频格式系统的所有好处。

在如本文所述的实施例中,空间分析部分总是在音频捕获装置或设备处执行。然而,合成可以在相同实体处或在诸如回放设备的另一设备中执行。这意味着回放所聚焦音频内容的实体不一定必须支持空间编码。

关于图3,示出了根据一些实施例的实现空间音频格式支持的示例性两阶段音频聚焦系统。在该示例中,该系统包括捕获(和第一阶段处理)装置和回放(和第二阶段处理)装置,并且示出了分离该捕获装置和第二阶段装置的合适的通信声道309。

捕获装置被示出为接收麦克风信号101。麦克风信号101(在图3中示为三个麦克风信号,但在其他实施例中可以有等于或大于2的任何数量)被输入到空间分析器303和波束成形器305。

在一些实施例中,麦克风音频信号可以由定向或全向麦克风阵列生成,该麦克风阵列被配置为捕获与例如由声源和环境声音表示的声场相关联的音频信号。在一些实施例中,捕获设备被实现在移动设备/OZO或具有或不具有相机的任何其他设备内。因此,捕获设备被配置为捕获音频信号,该音频信号当被呈现给收听者时使得收听者能够体验空间声音,类似于他们好像存在于空间音频捕获装置的位置处。

该系统(捕获装置)可以包括被配置为接收麦克风信号101的空间分析器303。空间分析器303可以被配置为分析麦克风信号以生成空间元数据304或与麦克风信号的分析相关联的信息信号。

在一些实施例中,空间分析器303可以实现空间音频捕获(SPAC)技术,其表示用于从麦克风阵列到扬声器或耳机的空间音频捕获的方法。空间音频捕获(SPAC)在本文指的是这样的技术,其使用自适应时间-频率分析和处理以从配备有麦克风阵列的任何设备(例如Nokia OZO或移动电话)提供高感知质量空间音频再现。捕获SPAC在水平平面中需要至少3个麦克风,并且3D捕获需要至少4个麦克风。术语SPAC在本文中用作通用术语,涵盖提供空间音频捕获的任何自适应阵列信号处理技术。范围内的方法在频带信号中应用分析和处理,因为它是对空间听觉感知有意义的域。在频带中动态分析空间元数据,例如到达声音的方向,和/或确定所录制声音的定向或非定向的比率或能量参数。

空间音频捕获(SPAC)再现的一种方法是定向音频编码(DirAC),其是使用声场强度和能量分析来提供空间元数据的方法,该空间元数据使得能够为扬声器或耳机实现高质量自适应空间音频合成。另一个例子是谐波平面波展开(Harpex),其是一种可以同时分析两个平面波的方法,这可以在某些声场条件下进一步提高空间精度。另一种方法是主要用于移动电话空间音频捕获的方法,其使用麦克风之间的延迟和相干性分析来获得空间元数据,以及其用于包含更多麦克风和阴影体(例如OZO)的设备的变体。尽管在以下示例中描述了变体,但是可以使用应用于获得空间元数据的任何合适的方法。这样的SPAC思想是从麦克风信号中,分析来自麦克风音频信号的一组空间元数据(例如在频带中声音的方向,以及诸如混响的非定向声音的相对量),并且这使得能够自适应地精确合成空间声音。

SPAC方法的使用对于小型设备也是稳健的,原因有两个:首先,它们通常使用短时随机分析,这意味着噪声的影响在估计值处被降低。其次,它们通常被设计用于分析声场的感知相关属性,这是空间音频再现的主要关注点。相关属性通常是到达声音的方向和它们的能量、以及非定向环境能量的量。能量参数可以以许多方式表达,例如在定向对总体(direct-to-total)比率参数、环境对总体(ambience-to-total)比率参数或其他方面。该参数在频带中估计,因为在这种形式中这些参数与人类空间听觉特别相关。频带可以是巴克频带、等效矩形频带(ERB)、或任何其他感知激励的非线性标度(scale)。线性频率标度也是适用的,尽管在这种情况下,希望分辨率足够精细以覆盖人类听觉最具频率选择性的低频。

在一些实施例中,空间分析器包括滤波器组(filter-bank)。滤波器组使时域麦克风音频信号能够被变换为频带信号。因此,可以将任何合适的时域到频域变换应用于音频信号。可以在一些实施例中实现的典型滤波器组是短时傅立叶变换(STFT),其涉及分析窗口和FFT。代替STFT的其他合适的变换可以是复调制的正交镜像滤波器(QMF)组。该滤波器组可以产生复值频带信号,其指示输入信号的相位和幅度作为时间和频率的函数。该滤波器组的频率分辨率可以是均匀的,这实现了高效的信号处理结构。然而,可以将均匀频带分组为近似于人类空间听觉的频谱分辨率的非线性频率分辨率。

该滤波器组可以接收麦克风信号x(m,n'),其中,m和n'分别是麦克风和时间的索引,并且通过短时傅里叶变换将输入信号变换为频带信号:

X(k,m,n)=F(x(m,n')),

其中,X标示变换后的频带信号,k标示频带索引,n标示时间索引。

可以将空间分析器应用于频带信号(或它们的组)以获得空间元数据。空间元数据的典型示例是在每个频率间隔和每个时间帧处的方向和定向对总体能量比。例如,可以选择基于麦克风间延迟分析来检索定向参数,这又可以例如通过对具有不同延迟的信号的互相关公式化并找到最大相关性来执行。检索定向参数的另一种方法是使用声场强度矢量分析,其是在定向音频编码(DirAC)中应用的过程。

在较高频率(高于空间混杂频率(spatial aliasing frequency))处,一个选项是使用用于例如OZO的某些设备的设备声学阴影以获得定向信息。麦克风信号能量通常在大部分声音到达的设备的那一侧更高,因此能量信息可以提供对定向参数的估计。

在阵列信号处理领域中还有许多其他方法来估计到达方向。

还可以选择使用麦克风间相干性分析来估计每个时间-频率间隔(换句话说,能量比率参数)的非定向环境的量。比率参数也可以用其他方法来估计,例如使用定向参数的稳定性测量或类似方法。用于获得空间元数据的特定方法不是在本范围内主要关注的。

在该部分中,描述了一种使用基于音频输入信号声道之间的相关性的延迟估计的方法。在该方法中,对于B个频域子带独立地估计到达声音的方向。该想法是为每个子带找到至少一个方向参数,其可以是实际声源的方向或者是近似于多个声源的组合方向性的方向参数。例如,在一些情况下,方向参数可以直接指向单个活动源,而在其他情况下,方向参数可以例如大致在两个活动声源之间的弧中波动。在存在房间反射和混响的情况下,方向参数可能波动更多。因此,方向参数可以被认为是感知激励参数:尽管例如在具有若干活动源的时间-频率间隔处的一个方向参数可能不指向这些活动源中的任何一个,但是它近似于在录制位置处的空间声音的主要方向性。与比率参数一起,该定向信息粗略地捕获多个同时活动源的组合感知空间信息。每时间-频率间隔执行这样的分析,并且由此在感知意义上捕获声音的空间方面。定向参数波动非常快,并表示声能如何在录制位置波动。这被再现给收听者,于是收听者的听觉系统获得空间感知。在一些时间-频率出现中,一个源可能非常占主导地位,并且定向估计精确地指向该方向,但这不是一般情况。

频带信号表示被标示为X(k,m,n),其中,m是麦克风索引,k是频带索引{k=0,...,N-1},并且其中,N是时间-频率变换信号的频带数。频带信号表示被分组为B个子带,每个子带具有较低的频带索引kb -和较高的频带索引kb +。子带的宽度(kb +—kb -+1)可以近似为例如ERB(等效矩形带宽)标度或巴克标度。

定向分析可以特征在于以下操作。在这种情况下,假设一个带有三个麦克风的扁平移动设备。该配置可以提供水平平面中的定向参数以及比率参数等的分析。

首先,利用两个麦克风信号估计水平方向(在该示例中,麦克风2和3位于捕获设备的水平平面中该设备的相对边缘处)。对于两个输入麦克风音频信号,估计那些声道中的频带信号之间的时间差。任务是找到使子带b的两个声道之间的相关性最大化的延迟τb

频带信号X(k,m,n)可以使用以下等式移位τb时域采样:

其中,fk是频带k的中心频率,并且fs是采样率。然后从以下等式中获得对于子带b和时间索引n的最佳延迟:

其中,Re指示结果的实部,*标示复共轭,并且Dmax是样本中的最大延迟,其可以是分数并且当声音准确到达由麦克风对确定的轴时发生。尽管上面例示了一个时间索引n上的延迟估计的示例,但是在一些实施例中,可以通过在该轴上平均或相加该估计来对几个索引n执行延迟参数的估计。对于τb,大约一个样本的分辨率适用于许多满足延迟搜索的智能手机。还可以使用除相关性之外的其他感知激励相似性测量。

因此,“声源”是由麦克风捕获的音频能量的表示,其可以被认为创建由在阵列中的麦克风(例如第二麦克风)处接收的示例性时域函数描述的事件和由第三麦克风接收的相同事件。在理想情形中,在阵列中的第二麦克风处接收的示例性时域函数仅仅是在第三麦克风处接收的函数的时移版本。这种情况被描述为理想情况,因为实际上两个麦克风可能会遇到不同的环境,例如,它们对事件的录制可能受到阻挡或增强事件声音等的建设性或破坏性干扰或元素的影响。

位移τb指示声源到第二麦克风比到第三麦克风更靠近多少(当τb为正时,声源更靠近第二麦克风而不是第三麦克风)。-1和1之间的归一化延迟可以表示为

利用基本几何,并假设声音是到达水平面的平面波,可以确定到达声音的水平角度等于

注意,到达声音的方向有两种选择,因为仅以两个麦克风无法确定精确的方向。例如,在装置的前部或后部处成镜像对称角度的源可以产生相同的麦克风间延迟估计。

然后可以利用另外的麦克风(例如三个麦克风阵列中的第一麦克风)来定义哪个符号(+或-)是正确的。该信息在一些配置中可以通过估计智能手机后侧具有一个(例如第一麦克风)而智能手机前侧具有另一个(例如第二麦克风)的麦克风对之间的延迟参数来获得。在该设备的细轴处的分析可能对于产生可靠的延迟估计是有噪声的。然而,如果在设备的前侧或后侧找到最大相关性那么大致趋势可能是稳健的。有了这些信息,就可以解决两个可能方向的模糊性。还可以应用其他方法来解决这种模糊性。

对每个子带重复相同的估计。

可以将等效方法应用于其中存在“水平”和“垂直”位移两者的麦克风阵列以便可以确定方位角和仰角。对于具有四个或更多个麦克风(在垂直于上述方向的平面中彼此移位)的设备或智能手机,还可以执行仰角分析。在这种情况下,例如,可以首先在水平平面中然后在垂直平面中对延迟分析公式化。然后,基于两个延迟估计,可以找到估计的到达方向。例如,可以执行类似于GPS定位系统中那样的延迟到位置(delay-to-position)分析。在这种情况下,还存在例如如上所述解决的定向前后模糊性。

在一些实施例中,可以根据以下方法生成表示非定向和定向声音的相对比例的比率元数据:

1)对于具有最大相互距离的麦克风,公式化最大相关延迟值和对应的相关性值c。相关性值c是归一化相关性,其对于完全相关信号是1而对于非相干信号是0。

2)对于每个频率,根据麦克风距离公式化漫射场相关性值(cdiff)。例如,在高频率cdiff≈0。对于低频,它可以是非零的。

3)对相关性值进行归一化以找到比率参数:比率=(c–cdiff)/(1–cdiff)然后,在0和1之间截断所得到的比率参数。使用这样的估计方法:

当c=1时,则比率=1。

当c≤cdiff时,则比率=0。

当cdiff<c<1时,则0<比率<1。

上述简单的公式化提供了对比率参数的近似。在极值(完全定向和完全非定向的声场条件)处,该估计是正确的。取决于声音到达角度,极值之间的比率估计可能有一些偏差。然而,在这些条件下,上述公式化在实践中也可以被证明是令人满意的。生成定向和比率参数(或取决于所应用的分析技术的其他空间元数据)的其他方法也是适用的。

SPAC分析方法类中的上述方法主要用于诸如智能手机的平板设备:设备的细轴仅适用于二元前后选择,因为更精确的空间分析在该轴可能不够稳健。主要在设备的较长轴处相应地使用上述延迟/相关性分析和定向估计来分析空间元数据。

下面描述估计空间元数据的另一种方法,提供两个麦克风声道的实际最小值的示例。可以放置具有不同定向模式的两个定向麦克风,例如相隔20厘米。与先前的方法等效,可以使用麦克风对延迟分析来估计两个可能的水平到达方向。然后可以使用麦克风方向性来解决前后模糊性:如果其中一个麦克风朝向前方具有更多衰减,而另一个麦克风朝向后方具有更多衰减,则可以通过例如测量麦克风频带信号的最大能量来解决前后模糊性。可以使用麦克风对之间的相关性分析(例如使用与先前描述的方法类似的方法)来估计比率参数。

显然,其他空间音频捕获方法也适用于获得空间元数据。特别地,对于诸如球形设备的非平板设备,其他方法可能例如通过为参数估计实现更高的鲁棒性而更合适。文档中的一个众所周知的例子是定向音频编码(DirAC),其典型形式包括以下步骤:

1)检索B格式信号,其等效于一阶球谐信号(first order spherical harmonicsignal)。

2)在频带中从B格式信号估计声场强度矢量和声场能量:

a.可以使用W(零阶)信号与X、Y、Z(一阶)信号之间的短时互相关估计来获得强度矢量。到达方向是声场强度矢量的相反方向。

b.根据声场强度和声场能量的绝对值,可以估计扩散(即,环境对总体比率)参数。例如,当强度矢量的长度为零时,扩散参数为1。

因此,在一个实施例中,可以应用根据DirAC范例的空间分析来产生空间元数据,从而最终实现球谐信号的合成。换句话说,可以通过几种不同方法来估计定向参数和比率参数。

空间分析器303可以使用SPAC分析来提供感知相关的动态空间元数据304,例如频带中的方向和能量比率。

此外,系统(和捕获设备)可以包括被配置为还接收麦克风信号101的波束成形器305。波束成形器305被配置为生成波束成形的立体声(或合适的下混声道)信号306输出。波束成形的立体声(或合适的下混声道)信号306可以被存储或通过声道309被输出到第二阶段处理装置。可以从延迟或未延迟的麦克风音频信号的加权和来生成波束成形音频信号。麦克风音频信号可以在时域或频域中。在一些实施例中,可以确定产生音频信号的麦克风的空间分离,并且该信息用于控制所生成的波束成形音频信号。

此外,波束成形器305被配置为输出用于波束成形器操作的聚焦信息308。音频聚焦信息或元数据308可以例如指示由波束成形器生成的音频聚焦的各方面(例如方向、波束宽度、波束成形的音频等)。音频聚焦元数据(其是组合的元数据的一部分)可以包括例如这样的信息:诸如,聚焦方向(以度为单位的方位角和/或仰角)、聚焦扇区宽度和/或高度(以度为单位)以及和定义聚焦效果的强度的聚焦增益。类似地,在元数据的一些实施例中,元数据可以包括诸如是否可以应用转向模式以便遵循或固定头部跟踪的信息。其他元数据可以包括可以聚焦哪些频带的指示,以及可以利用为每个频带单独定义的聚焦增益参数针对不同扇区进行调整的聚焦强度。

在一些实施例中,音频聚焦元数据308和音频空间元数据304可以被组合,并且可选地被编码。组合的元数据310信号可以被存储或通过声道309被输出到第二阶段处理装置。

该系统在回放(第二阶段)装置侧被配置为接收组合的元数据310和波束成形的立体声音频信号306。在一些实施例中,该装置包括空间合成器307。空间合成器307可以接收组合的元数据310和波束成形的立体声音频信号306并对波束成形的立体声音频信号执行空间音频处理(例如空间滤波)。此外,空间合成器307可以被配置为以任何合适的音频格式输出经处理的音频信号。因此,例如,空间合成器307可以被配置为以所选择的音频格式输出聚焦的空间音频信号312。

空间合成器307可以被配置为处理(例如自适应地混合)波束成形的立体声音频信号306并输出这些处理的信号,例如作为要呈现给用户的球谐音频信号。

空间合成器307可以在频域中完全操作或者部分地在频带域中操作并且部分地在时域中操作。例如,空间合成器307可以包括:第一或频带域部分,其将频带域信号输出到逆滤波器组;以及第二或时域部分,其从逆滤波器组接收时域信号并输出合适的时域音频信号。此外,在一些实施例中,空间合成器可以是线性合成器、自适应合成器或混合合成器。

以这种方式,音频聚焦处理被分成两部分。在捕获装置处执行的波束成形部分和在回放或呈现设备处执行的空间滤波部分。以这种方式,可以使用由元数据补充的两个(或其他合适数量的)音频声道来呈现音频内容,该元数据包括音频聚焦信息以及用于空间音频聚焦处理的空间信息。

通过将音频聚焦操作分成两个部分,可以克服在捕获装置中执行所有聚焦处理的限制。例如,在如上所述的实施例中,当执行捕获操作时不必选择回放格式,因为空间合成和滤波以及因此生成所呈现的输出格式音频信号是在回放设备处执行的。

类似地,通过在回放设备处应用空间合成和滤波,可以由回放设备提供对诸如头部跟踪的输入的支持。

此外,由于避免了要输出到回放设备的所呈现的多声道音频信号的生成和编码,因此还避免了声道309上的高比特率输出。

除了这些优点之外,与在回放设备中执行所有聚焦处理的限制相比,在分割聚焦处理方面也具有优点。例如,要么所有麦克风信号都需要通过声道309传输,这需要高比特率声道,要么只能应用空间滤波(或者换言之,不能执行波束成形操作,因此聚焦效果不大)。

实现诸如图3中所示的系统的优点可以是例如捕获装置的用户可以在捕获会话期间改变聚焦设置,例如以移除或减轻令人不快的噪声源。另外,在一些实施例中,回放设备的用户可以改变空间滤波的聚焦设置或控制参数。当两个处理阶段同时聚焦在同一方向上时,可以实现强烈的聚焦效果。换句话说,当波束成形和空间聚焦同步时,则可以产生强聚焦效果。聚焦元数据可以例如被发送到回放设备,以使回放设备的用户能够同步聚焦方向,从而确保可以生成强聚焦效果。

关于图4,更详细地示出了实现图3中所示的空间音频格式支持的示例性两阶段音频聚焦系统的另一示例实现。在该示例中,该系统包括捕获(和第一阶段处理)装置、回放(和第二阶段处理)装置、以及分离该捕获和回放装置的合适通信声道409。

在图4所示的示例中,麦克风音频信号101被传送到捕获装置,并且具体地被传送到空间分析器403和波束成形器405。

捕获装置空间分析器403可以被配置为接收麦克风音频信号并分析麦克风音频信号以便以与上述类似的方式生成合适的空间元数据404。

捕获装置波束成形器405被配置为接收麦克风音频信号。在一些实施例中,波束成形器405被配置为接收音频聚焦激活用户输入。在一些实施例中,音频聚焦激活用户输入可以定义音频聚焦方向。在图4所示的示例中,示出的波束成形器405包括被配置为生成左声道波束成形音频信号431的左波束成形器421和被配置为生成右声道波束成形音频信号433的右声道波束成形器423。

此外,波束成形器405被配置为输出音频聚焦元数据406。

可以组合音频聚焦元数据406和空间元数据404以生成组合的元数据信号410,其通过声道409存储或输出。

左声道波束成形音频信号431和右声道波束成形音频信号433(来自波束成形器405)可以被输出到立体声编码器441。

立体声编码器441可以被配置为接收左声道波束成形音频信号431和右声道波束成形音频信号433,并产生可以存储或通过声道409输出的合适的编码立体声音频信号442。所产生的立体声信号可以已经使用任何合适的立体声编解码器编码了。

该系统在回放(第二阶段)设备装置侧被配置为接收组合元数据410和编码立体声音频信号442。该回放(或接收器)装置包括立体声解码器443,立体声解码器443被配置为接收编码的立体声音频信号442并解码该信号以生成合适的立体声音频信号445。在一些实施例中,立体声音频信号445在一些实施例中可以从没有空间合成器或滤波器的回放设备输出,以提供具有由波束成形提供的温和聚焦的传统立体声输出音频信号。

此外,回放装置可以包括空间合成器407,空间合成器407被配置为从立体声解码器443接收立体声音频输出并接收组合的元数据410,并且从这些产生具有正确输出格式的空间合成音频信号。空间合成器407因此可以生成具有由波束成形器405产生的温和聚焦的空间音频信号446。在一些实施例中,空间合成器407包括音频输出格式选择输入451。音频输出格式选择输入可以被配置为控制回放装置空间合成器407为空间音频信号446生成正确的格式输出。在一些实施例中,可以通过装置类型(例如移动电话、环绕声处理器等)定义所定义的或固定的格式。

回放装置还可以包括空间滤波器447。空间滤波器447可以被配置为从空间合成器407和空间元数据410接收空间音频输出446并输出聚焦的空间音频信号412。空间滤波器447可以在一些实施例中包括例如来自控制空间音频信号446的空间滤波操作的头部***的用户输入(未示出)。

在捕获装置侧,捕获装置用户可以因此激活音频聚焦特征,并且可以具有用于调整音频聚焦的强度或扇区的选项。在捕获/编码侧,使用波束成形来实现聚焦处理。取决于麦克风的数量,可以利用不同的麦克风对或布置来聚束发射左和右声道波束成形音频信号。例如,关于图5a和5b,示出了3和4个麦克风配置。

例如,图5a示出了4麦克风装置配置。捕获装置501包括左前麦克风511、右前麦克风515、左后麦克风513和右后麦克风517。这些麦克风可以成对使用,使得左前511和左后513麦克风对形成左波束503,并且右前515和右后517麦克风形成右波束505。

关于图5b,示出了三麦克风装置配置。在该示例中,装置501仅包括左前麦克风511、右前麦克风515和左后麦克风513。左波束503可以由左前麦克风511和左后麦克风513形成,右波束525可以由左后麦克风513和右前515麦克风形成。

在一些实施例中,可以简化音频聚焦元数据。例如,在一些实施例中,仅有一种模式用于前聚焦而另一种模式用于后聚焦。

在一些实施例中,回放装置中的空间滤波(第二阶段处理)可以用于至少部分地消除波束成形(第一阶段处理)的聚焦效果。

在一些实施例中,空间滤波可以用于仅滤波在第一阶段处理中尚未(或未充分)由波束成形处理的频带。波束成形期间的这种处理缺乏可能是由于麦克风布置的物理尺寸不允许对某些定义的频带进行聚焦操作。

在一些实施例中,音频聚焦操作可以是音频衰减操作,其中,处理空间扇区以便移除干扰声源。

在一些实施例中,可以通过旁路聚焦处理的空间滤波部分来实现更温和的聚焦效果。

在一些实施例中,在波束成形和空间滤波阶段中使用不同的聚焦方向。例如,波束成形器可以被配置为在由方向α限定的第一聚焦方向上进行波束成形,并且空间滤波可以被配置为在由方向β限定的第二聚焦方向上对从波束成形器输出的音频信号进行空间聚焦。

在一些实施例中,可以在同一设备内实现两阶段音频聚焦实现。例如,第一次捕获装置(当录制音乐会时)也是回放装置(在用户在家时观看录制的稍后时间)。在这些实施例中,聚焦处理在内部以两个阶段实现(并且可以在两个分开的时间实现)。

例如,关于图6示出了这样的示例。图6中所示的单个装置示出了示例设备系统,其中,麦克风音频信号101被传送到空间分析器603和波束成形器605。空间分析器603以如上所述的方式分析麦克风音频信号并且生成空间元数据(或空间信息)604,其被直接传送到空间合成器607。此外,波束成形器605被配置为从麦克风接收麦克风音频信号并输出、生成波束成形音频信号和音频聚焦元数据608并将其直接传送给空间合成器607。

空间合成器607可以被配置为接收波束成形音频信号、音频聚焦元数据和空间元数据,并生成合适的聚焦空间音频信号612。空间合成器607还可以对音频信号应用空间滤波。

此外,在一些实施例中,可以改变空间滤波和空间合成的操作,使得回放装置处的空间滤波操作可以在生成输出格式音频信号的空间合成之前发生。关于图7,示出了替代的滤波器合成布置。在该示例中,该系统包括捕获-回放装置,然而该装置可以分成由通信声道分开的捕获和回放装置。

在图7所示的示例中,麦克风音频信号101被传送到捕获装置,并且具体地被传送到空间分析器703和波束成形器705。

捕获-回放装置空间分析器703可以被配置为接收麦克风音频信号并分析麦克风音频信号以便以与上述类似的方式生成合适的空间元数据704。空间元数据704可以被传送到空间合成器707。

捕获装置波束成形器705被配置为接收麦克风音频信号。在图7所示的示例中,示出了生成波束成形音频信号706的波束成形器705。此外,波束成形器705被配置为输出音频聚焦元数据708。音频聚焦元数据708和波束成形音频信号706可以被输出到空间滤波器747。

捕获-回放装置还可以包括空间滤波器747,其被配置为接收波束成形音频信号和音频聚焦元数据并输出聚焦音频信号。

聚焦音频信号可以被传送到空间合成器707,空间合成器707被配置为接收聚焦音频信号并接收空间元数据,并且从这些以正确的输出格式生成空间合成音频信号。

在一些实施例中,可以在回放装置内实现两阶段处理。因此,例如关于图8,示出了另一示例,其中,捕获装置包括空间分析器(和编码器),并且回放装置包括波束成形器和空间合成器。在该示例中,该系统包括捕获装置、回放(第一和第二阶段处理)装置、以及分离该捕获和回放装置的合适的通信声道809。

在图8所示的示例中,麦克风音频信号101被传送到捕获装置并且具体地被传送到空间分析器(和编码器)803。

捕获装置空间分析器803可以被配置为接收麦克风音频信号并分析麦克风音频信号以便以与上述类似的方式生成合适的空间元数据804。此外,在一些实施例中,空间分析器可以被配置为生成下混声道音频信号,并将这些信号编码以通过声道809与空间元数据一起发送。

回放装置可以包括波束成形器805,其被配置为接收下混声道音频信号。波束成形器805被配置为生成波束成形音频信号806。此外,波束成形器805被配置为输出音频聚焦元数据808。

音频聚焦元数据808和空间元数据804可以与波束成形音频信号一起被传送到空间合成器807,其中,空间合成器807被配置为生成合适的空间聚焦的合成音频信号输出812。

在一些实施例中,可以基于麦克风阵列的至少两个麦克风信号来分析空间元数据,并且可以基于元数据和同一阵列中的至少一个麦克风信号来执行球谐信号的空间合成。例如,利用智能手机,所有或一些麦克风可以用于元数据分析,并且例如,仅前麦克风可以用于合成球谐信号。然而,应当理解,在一些实施例中,用于分析的麦克风可以与用于合成的麦克风不同。麦克风也可以是不同设备的一部分。例如,可以基于具有冷却风扇的存在捕获装置的麦克风信号来执行空间元数据分析。尽管获得了元数据,但是由于例如风扇噪声,这些麦克风信号可能具有低保真度。在这种情况下,一个或多个麦克风可以放置在存在捕获装置的外部。可以根据使用来自存在捕获装置的麦克风信号获得的空间元数据来处理来自这些外部麦克风的信号。

存在可以用于获得麦克风信号的各种配置。

还应理解,本文讨论的任何麦克风信号可以是预处理的麦克风信号。例如,麦克风信号可以是设备的实际麦克风信号的自适应或非自适应组合。例如,可以存在彼此相邻的几个麦克风盒,这些麦克风盒被组合以提供具有改善的SNR的信号。

麦克风信号也可以被预处理,例如自适应或非自适应均衡,或者用噪声消除处理来处理。此外,在一些实施例中,麦克风信号可以是波束成形信号,换句话说,是通过组合两个或更多个麦克风信号而获得的空间捕获模式信号。

因此可以理解,存在许多用于获得用于根据本文提供的方法进行处理的麦克风信号的配置、设备和方法。

在一些实施例中,可能只有一个麦克风或音频信号,并且先前已经分析了相关联的空间元数据。例如,可能在使用至少两个麦克风分析空间元数据之后,已经用于发送或存储的麦克风信号的数量被减少到例如仅一个声道。在发送之后,在这样的示例配置中,解码器仅接收一个音频声道和空间元数据,然后使用本文提供的方法执行球谐信号的空间合成。显然,也可以存在两个或更多个发送的音频信号,并且在这种情况下,先前分析的元数据也可以应用于球谐信号的自适应合成。

在一些实施例中,从至少两个麦克风信号分析空间元数据,并且将元数据连同至少一个音频信号一起发送到远程接收器、或者存储。换句话说,音频信号和空间元数据可以以不同于球谐信号格式的中间格式存储或发送。例如,该格式可以特征在于比球谐信号格式更低的比特率。至少一个发送或存储的音频信号可以基于也使用其获得空间元数据的相同麦克风信号,或者基于来自声场中的其他麦克风的信号。在解码器处,中间格式可以被转码为球谐信号格式,从而实现与诸如YouTube之类的服务的兼容性。换句话说,在接收器或解码器处,利用相关联的空间元数据并使用本文描述的方法将发送或存储的至少一个音频声道处理成球谐音频信号表示。在发送或存储的同时,在一些实施例中,可以例如使用AAC来编码音频信号。在一些实施例中,空间元数据可以被量化、编码和/或嵌入到AAC比特流中。在一些实施例中,AAC或其他编码的音频信号和空间元数据可以嵌入诸如MP4媒体容器的容器中。在一些实施例中,媒体容器(例如MP4)可以包括视频流,例如编码的球形全景视频流。存在用于发送或存储音频信号和相关联的空间元数据的许多其他配置。

无论发送或存储音频信号和空间元数据的应用方法如何,在接收器(或解码器或处理器)处,本文描述的方法提供基于空间元数据和至少一个音频自适应地生成球谐信号的模块。换句话说,对于本文给出的方法,果音频信号和/或空间元数据是否例如通过编码、发送/存储和解码直接地或间接地从麦克风信号获得的,在实践中是不相关的。参考图9,示出了可以用作捕获和/或回放装置的至少一部分的示例电子设备1200。该设备可以是任何合适的电子设备或装置。例如,在一些实施例中,设备1200是虚拟或增强现实捕获装置、移动设备、用户设备、平板电脑、计算机、音频回放装置等。

设备1200可以包括麦克风阵列1201。麦克风阵列1201可以包括多个(例如数量M个)麦克风。然而,应该理解,可以存在任何合适的麦克风配置和任何合适数量的麦克风。在一些实施例中,麦克风阵列1201与该装置和通过有线或无线耦合发送到该装置的音频信号分离。

麦克风可以是被配置为将声波转换成合适的电音频信号的换能器。在一些实施例中,麦克风可以是固态麦克风。换句话说,麦克风可以能够捕获音频信号并输出合适的数字格式信号。在一些其他实施例中,麦克风或麦克风阵列1201可包括任何合适的麦克风或音频捕获装置,例如电容式麦克风(condenser microphone)、电容麦克风(capacitormicrophone)、静电麦克风、驻极体电容式麦克风、动圈式麦克风、带状麦克风、碳麦克风、压电麦克风或微电子机械系统(MEMS)麦克风。在一些实施例中,麦克风可以将音频捕获信号输出到模数转换器(ADC)1203。

设备1200还可以包括模数转换器1203。模数转换器1203可以被配置为从麦克风阵列1201中的每个麦克风接收音频信号并将它们转换成适合于处理的格式。在麦克风是集成麦克风的一些实施例中,不需要模数转换器。模数转换器1203可以是任何合适的模数转换或处理模块。模数转换器1203可以被配置为将音频信号的数字表示输出到处理器1207或存储器1211。

在一些实施例中,设备1200包括至少一个处理器或中央处理单元1207。处理器1207可以被配置为执行各种程序代码。所实现的程序代码可以包括例如本文所述的例如SPAC分析、波束成形、空间合成和空间滤波。

在一些实施例中,设备1200包括存储器1211。在一些实施例中,至少一个处理器1207耦合到存储器1211。存储器1211可以是任何合适的存储模块。在一些实施例中,存储器1211包括用于存储可在处理器1207上实现的程序代码的程序代码部分。此外,在一些实施例中,存储器1211还可以包括用于存储数据(例如根据本文描述的实施例已经处理或待处理的数据)的存储数据部分。所实现的存储在程序代码部分中的程序代码和存储在存储数据部分中的数据可以在需要时通过存储器-处理器耦合由处理器1207检索。

在一些实施例中,设备1200包括用户接口1205。在一些实施例中,用户接口1205可以耦合到处理器1207。在一些实施例中,处理器1207可以控制用户接口1205的操作并从用户接口1205接收输入。在一些实施例中,用户接口1205可以使用户能够例如通过键盘向设备1200输入命令。在一些实施例中,用户接口205可以使用户能够从设备1200获得信息。例如,用户接口1205可以包括显示器,其被配置为将信息从设备1200显示给用户。在一些实施例中,用户接口1205可以包括触摸屏或触摸接口,其能够使信息输入到设备1200并且进一步向设备1200的用户显示信息。

在一些实施例中,设备1200包括收发器1209。这些实施例中的收发器1209可以耦合到处理器1207,并且被配置为例如通过无线通信网络实现与其他装置或电子设备的通信。在一些实施例中,收发器1209或任何合适的收发器或发射器和/或接收器模块可以被配置为经由导线或有线耦合与其他电子设备或装置通信。

收发器1209可以通过任何合适的已知通信协议与另外的装置通信。例如,在一些实施例中,收发器1209或收发器模块可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(例如IEEE 802.X)、诸如蓝牙或红外数据通信路径(IRDA)的合适的短程射频通信协议。

在一些实施例中,设备1200可以用作合成器装置。这样,收发器1209可以被配置为接收音频信号并确定诸如位置信息和比率的空间元数据,并且通过使用处理器1207执行合适的代码来生成合适的音频信号呈现。设备1200可以包括数模转换器1213。数模转换器1213可以耦合到处理器1207和/或存储器1211,并且被配置为转换音频信号的数字表示(例如在如本文所述的音频信号的音频呈现之后,来自处理器1207的)到适合于经由音频子系统输出呈现的合适的模拟格式。在一些实施例中,数模转换器(DAC)1213或信号处理模块可以是任何合适的DAC技术。

此外,在一些实施例中,设备1200可以包括音频子系统输出1215。诸如图6中所示的示例可以是音频子系统输出1215是被配置为使得能够与耳机121耦合的输出插座。然而,音频子系统输出1215可以是任何合适的音频输出或到音频输出的连接。例如,音频子系统输出1215可以是到多声道扬声器系统的连接。

在一些实施例中,数模转换器1213和音频子系统1215可以在物理上分离的输出设备内实现。例如,DAC 1213和音频子系统1215可以实现为经由收发器1209与设备1200通信的无绳耳机。

尽管示出的设备1200具有音频捕获和音频呈现组件,但是应当理解,在一些实施例中,设备1200可以仅包括音频捕获或音频呈现装置元件。

通常,本发明的各种实施例可以用硬件或专用电路、软件、逻辑或其任何组合来实现。例如,一些方面可以用硬件实现,而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件实现,但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当充分理解,本文描述的这些框、装置、系统、技术或方法可以在作为非限制性示例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中来实现。

本发明的实施例可以通过可由电子设备的数据处理器(例如在处理器实体中)执行的计算机软件或通过硬件、或通过软件和硬件的组合实现。此外,在这方面,应该注意,如图中的逻辑流程的任何框可以表示程序步骤或互连的逻辑电路、块和功能,或程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质之类的物理介质上。

存储器可以是适合于本地技术环境的任何类型,并且可以使用任何合适的数据存储技术(例如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型,并且作为非限制性示例,可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路和基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序,例如由加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序,使用完善的设计规则以及预先存储的设计模块库,自动在半导体芯片上布线导体和定位组件。一旦完成半导体电路的设计,就可以将标准化电子格式(例如Opus、GDSII等)的所得设计发送到半导体制造设施或“厂”以进行制造。

前面的描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而,当结合附图和所附权利要求阅读时,鉴于前面的描述,各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而,对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

32页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:在多源环境中的非谐波语音检测及带宽扩展

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类