使用两个麦克风进行轻型全360度音频源位置检测

文档序号:574704 发布日期:2021-05-21 浏览:8次 >En<

阅读说明:本技术 使用两个麦克风进行轻型全360度音频源位置检测 (Lightweight full 360 degree audio source location detection using two microphones ) 是由 赫克托·A·科尔多瓦·马鲁里 约瑟·R·卡马乔·佩雷斯 保罗·洛佩兹·迈耶 朱利欧·C·萨莫拉 于 2020-09-25 设计创作,主要内容包括:本公开涉及使用两个麦克风进行轻型全360度音频源位置检测。本文描述了一种系统。该系统包括至少一个硬件处理器,该硬件处理器被配置为识别预定声学屏障滤波器,其中,该声学屏障滤波器与物理声学屏障相一致,并且在时间窗口内在第一麦克风和第二麦克风处接收音频信号。硬件处理器还被配置为计算第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量。硬件处理器还将第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量相连以形成特征向量,并且将特征向量输入到位置分类器中以获得音频源位置。(The present disclosure relates to lightweight full 360 degree audio source location detection using two microphones. A system is described herein. The system includes at least one hardware processor configured to identify a predetermined acoustic barrier filter, wherein the acoustic barrier filter is in conformity with the physical acoustic barrier and receive audio signals at the first microphone and the second microphone within the time window. The hardware processor is further configured to calculate a first variability metric, a second variability metric, a third variability metric, and a fourth variability metric. The hardware processor also concatenates the first variability metric, the second variability metric, the third variability metric, and the fourth variability metric to form a feature vector, and inputs the feature vector into a location classifier to obtain an audio source location.)

使用两个麦克风进行轻型全360度音频源位置检测

技术领域

本公开涉及人工智能领域,更具体地,涉及使用两个麦克风进行轻型全360度音频源位置检测。

背景技术

确定音频源的空间位置有许多应用。例如,在智能环境或智能运输设备中,知晓音频源的位置是确定声音是来自预期用户、来自某些干扰、还是来自可用于情境感知的某附加来源的基础。音频源的空间位置的确定还使得能够在所选音频源上使用音频增强技术,以进行自动语音辨识(ASR)、发声者识别、音频事件检测、或者甚至碰撞避免。通常,实时音频定位需要多个麦克风阵列或复杂的信号处理和机器学习技术。

发明内容

本公开的实施例提供了一种系统。该系统包括:物理声学屏障;麦克风阵列,麦克风阵列包括第一麦克风和第二麦克风;至少一个硬件处理器,至少一个硬件处理器被配置为:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。

本公开的实施例还提供了一种方法。该方法包括:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,音频信号由预定声学屏障滤波器进行滤波,以及计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。

附图说明

图1是人听到的幅度和频率内容差异的图示;

图2是电子设备接收到的音频中的幅度和频率内容差异的图示;

图3是根据本技术的特征提取的框图;

图4是位置分类的图示;

图5是示例性形状因子的图示;

图6是可以放置音频源的示例性环境的图示;

图7是方法的过程流程图;

图8是电子设备的框图,该电子设备使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位;以及

图9是示出了介质的框图,该介质使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位。

本公开和附图通篇使用相同数字以引用相同组件和特征。100系列中的数字是指最初在图1中找到的特征;200系列中的数字是指最初在图2中找到的特征;以此类推。

具体实施方式

传统上,高质量的实时音频位置确定需要多个麦克风阵列或复杂的信号处理和机器学习技术。多个麦克风阵列需要额外的功率。此外,当对音频信号进行处理时,复杂的信号处理和机器学习技术消耗额外的功率。此外,包括用于实现音频源位置检测的附加硬件和软件可能增加设备的总成本。

本技术使得能够使用两个麦克风来确定音频源位置。可以在两个麦克风周围的全360°内确定音频源位置。具体地,本技术包括识别预定声学屏障滤波器,以及在时间窗口内在第一麦克风和第二麦克风处接收音频信号,其中,声学屏障滤波器与物理声学屏障相一致。可以基于接收到的音频信号来计算第一变化性度量、第二变化性度量、第三变化性度量和第四变化性度量。第一变化性度量、第二变化性度量、第三变化性度量和第四变化性度量被相连,以形成特征向量。特征向量被输入到位置分类器以获得音频源位置。因此,本技术使得能够使用非常低的计算机开销来检测由两个麦克风的阵列捕获的声源的空间位置。

在实施例中,本技术仅使用一对“传感器”来模拟人耳检测声源位置的方式,其中,两个麦克风模拟人耳的功能。具体地,本技术使得能够仅使用安装在设备(膝上型计算机、智能扬声器、信息娱乐中心、自动驾驶车辆等)中的一对麦克风和声学屏障来检测360°到达角。变化性度量可以是均方根(RMS)值。在实施例中,未滤波麦克风信号和经滤波麦克风信号的差的RMS值可以用作描述符特征,并且机器学习可以将描述符作为输入并且基于该描述符来估计声源的位置。在实施例中,本文中使用的机器学习技术是被实现为位置估计器的浅层神经网络(NN)。

在实施例中,声源的位置可以是根据本技术来估计或确定的到达角。可以同时通过低成本硬件以及低计算机开销来实现本技术。以这种方式,本技术不需要在硬件和软件之间的权衡,因为每个组件都是低成本的并且消耗较低的开销。特别地,可以使用两个麦克风(例如,大多数膝上型计算机已具有)、较小的声学屏障(可能已经是形状因子的一部分)、以及非常轻型的算法(不需要计算FFT或其他类型的复杂信号处理例程)来实现本技术。本技术不需要数字信号处理(DSP)模块或专用的硬件加速。与人听力类似,本技术能够检测全360°源位置。此外,本技术不受每个麦克风具有略微不同的增益的情况的影响。

图1是人100听到的幅度和频率内容差异的图示。如图所示,声源102可以基本上位于人100的前方。声源104可以基本上位于人100的后方。如在此所使用的,基本上在人100的前方可以指人可以通过眼睛看到的位置。相比之下,基本上在人100的后方可以指人不可以通过眼睛看到的位置。在示例中,当声波向人耳膜传播时,与基本上位于人后方的声源相比,来自基本上位于人的前方的声源的音频将遇到人耳的不同物理屏障。具体地,人耳的组成部分可以充当声学屏障。例如,外耳组成部分用于根据音频的到达角来对音频频率分量中的分量进行滤波。具体地,音频可以基于声音到达的方向而被物理外耳组成部分不同地滤波。该方向可以指示声源的位置。

因此,曲线图106表示从前方声源102接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,从前方声源102接收到的音频被接收为具有全频谱音频内容。相比之下,曲线图108表示从后方声源104接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,在图1的示例中,前方声源102和后方声源104发射相同的音频内容,如感知频谱110A和110B所示。然而,如112处所示,随着音频内容的频率增加,曲线图108中的实线下的实际接收频谱经历增强的滤波。

图1示出了现实世界中的场景,其中,人脑使用频率内容的差异来估计声源的位置。如本文中所使用的,声源是指发出声音的实体。声源的位置可被描述为相对于听到或捕获声音的实体(例如,人或麦克风)在空间中的位置。如图1所示,人和许多其他动物仅使用两只耳朵或“传感器”就能估计出全向声源位置。这是可能的,因为耳朵的形状和头部的存在“过滤掉”某些音频方向上的某些音频频率内容(特别是高频)。大脑使用此频率内容差异来正确估计声音位置。

声源的位置的确定可用于确定声音是来自预期用户、来自某些干扰、还是可用于情境感知的某附加来源。此外,在智能家居环境、办公环境、或智能运输设备(自动驾驶汽车、无人机等)中,音频源的实时检测空间位置可能是重要的功能,其可用于确定音频是来自一个或多个预期用户、来自某些干扰、还是来自可用于情境感知的某附加音频源。它还可以在所选音频源上使用不同类型的音频增强技术来进行ASR、发声者ID、音频事件检测、或甚至碰撞避免。

传统上,高质量的声音位置检测是通过麦克风阵列捕获的音频来进行的,通常包括大约4到8个元素,以允许在所有方向上正确定位。其背后的原理是使得平台中的传感器或其他音频捕获设备大体上指向任何可能的音频源位置。此传统技术不仅伴随多个麦克风的附加成本,而且还伴随着平台中的处理音频通道,这可能给计算机开销带来沉重的负担。这样的实现方式还可能需要专用的DSP硬件。

图2是电子设备接收到的音频中的幅度和频率内容差异的图示。如图2所示,电子设备212可以是膝上型计算机。电子设备212可以包括麦克风阵列210。根据本技术的麦克风阵列包括两个麦克风。如图所示,声源202可以基本上位于膝上型计算机212的前方。声源204可以基本上位于膝上型计算机212的后方。如本文中所使用的,基本上位于膝上型计算机212的前方可以指膝上型计算机212的盖或显示屏所创建的平面的前方的位置。相比之下,基本上位于膝上型计算机212的后方可以指膝上型计算机212的盖或显示屏所创建的平面的后方的位置,其中,发声者面向膝上型计算机212的盖或显示屏所创建的平面的前方。在示例中,当音频向麦克风210传播时,与基本上位于膝上型计算机212后方的声源相比,来自基本上位于膝上型计算机212的前方的声源的音频将遇到膝上型计算机所创建的不同物理屏障。因此,膝上型计算机的组件可以充当声学屏障。例如,显示器和盖的组合用于对从各种方向接收到的音频内容的分量进行滤波。具体地,滤波器可以基于膝上型计算机的空间位置而变化。因此,音频可以基于声音到达的方向而被膝上型计算机组件不同地滤波。该方向可以指示声源的位置。

如本文中所描述的物理声学屏障可以是改变来自音频源的音频信号的频率分量的表面。遇到声学屏障的声音可能从声学屏障的表面被反射。此外,声音可能被声学屏障吸收和/或传输通过声学屏障。通常,声学屏障由固体材料形成并且足够宽或足够大以对音频信号的频率内容造成可测量的影响。声学屏障具有改变遇到声学屏障的音频信号的频谱的频率响应。如本文中所使用的,当包括音频信号的波形被声学屏障反射、传输或吸收时,音频信号遇到声学屏障。在实施例中,在给定频率下遇到声学屏障的音频信号将以与声学屏障的频率响应所指示的相同的频率变化来对与声学屏障的遇到或碰撞进行响应。可以确定声学屏障的频率响应并且将其用于得出数字滤波器。数字滤波器模拟声学屏障的物理频率响应。

应用于音频信号的频率响应可以充当低通滤波器。具体地,当音频信号遇到声学屏障时,对音频信号的影响是使低于所选截止频率的频率通过并且使具有高于该截止频率的频率的信号衰减。与声学屏障相关联的特定截止频率取决于用于制造声学屏障的材料、声学屏障的形状、以及声学屏障的其他物理属性。在实施例中,可以根据预定截止频率来设计声学屏障,该截止频率可以用于:当与该预定截止频率进行比较时,对来自位于麦克风前方的声源的声音和来自位于麦克风后方的声源的声音进行区分。例如,与不穿过声学屏障的音频信号相比,必须穿过声学屏障的音频信号可能经历更强的滤波。在该示例中,必须穿过声学屏障的音频信号可经历更多音频信号反射,因此,可供麦克风捕获的频率内容减少。未穿过声学屏障的音频信号可经历较少的音频信号反射,因此保留更多的频率内容以供麦克风捕获。

在实施例中,声学屏障可以被设计为使得特定音素有可能基于音素的相对频率而被滤波。音素的相对频率是该音素与同一用户说出的其他音素相比的频率。例如,相对于同一用户语音的其他部分,来自用户的/s/声音可能是以较高的频率说出的。因此,可以将声学屏障设计为具有相应的截止频率,该相应的截止频率对与其他音素相比天然地包括较高频率内容的音素进行滤波。

因此,曲线图206表示从前方声源202接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,从前方声源202接收到的音频被接收为具有全频谱音频内容。相比之下,曲线图208表示从后方声源204接收到的音频内容的感知频谱。该感知频谱是根据感知频谱的频率内容来图示的。注意,在图2的示例中,前方声源202和后方声源204发射相同的音频内容,如频谱214A和214B所示。然而,如216处所示,随着音频内容的频率增加,曲线图208中的实线下的实际接收频谱经历增强的滤波。

本技术实现了不需要频谱表示或任何其他数字变换的位置检测例程,这使得能够改善处理开销。具体地,本技术使用简化的硬件(两个麦克风阵列和声学屏障)使得能够在不同大小和形状的空间中进行全360°位置检测。在盖的顶部安装有麦克风阵列的传统膝上型计算机中,也可以使用从前方音频源和后方音频源捕获的音频之间的频率内容的差异来利用声学屏障滤波器检测这样的源位置。

在其他平台(例如,常规膝上型计算机)中也可以看到类似的情况,在这些平台中,一对麦克风位于某个取向上,在该取向上的频率内容的差异也可以用于检测这样的源位置。例如,在盖的顶部上安装有两个麦克风阵列的常规膝上型计算机中,盖本身可以被视为声学屏障,其对于低频声音是声学透明的,而对于高频声音是声学不透明的(类似于人耳)。屏障不透明的频段可以被建模为声学屏障滤波器,该声学屏障滤波器由膝上型计算机盖本身的材料“产生”。可以在图2中看到这种现象的方案。

图3是根据本技术的特征提取300的框图。在图3中,特征提取300是基于计算来自麦克风对的标准化时域信号的差的均方根(RMS)的。信号的RMS值可以表示与信号相关联的平均功率或强度。在实施例中,根据本技术的由麦克风接收的音频信号可以由时间帧或窗口来定义。时间帧或窗口可以是在其中音频信号被捕获的任何长度的时间段。在实施例中,从每个麦克风对获得相同时间窗口的信号。如本文中所述,麦克风对的第一麦克风可以被称为麦克风1,麦克风对的第二麦克风可以被称为麦克风2。可以针对麦克风对,在每个窗口的基础上计算如本文中所述的描述符。如本文中所使用的,描述符提供在时间窗口期间的音频信号的表示。

在块302处,从每个麦克风获得所标识的时间窗口期间的音频信号。可以通过捕获声音的空气振动并且将振动转换为电信号来对音频进行数字化。在时间窗口期间,可以在等间隔的时刻对空气振动进行采样。采样的音频可被表示为时间向量。

在实施例中,每个麦克风检测气压变化并且将基于气压变化的相应电压变化发送到模数转换器,在模数转换器处,根据音频采样率周期性地对电压进行采样。采样的音频值可以是被称为时间向量的时域信号。在块302处,将麦克风1和麦克风2中的每个捕获的音频转换为时间向量,其中第一时间向量对应于麦克风1,第二时间向量对应于麦克风2。每个时间向量都被标准化以消除每个麦克风具有略微不同的增益的影响。从来自第二麦克风的标准化的时间向量减去来自第一麦克风的标准化的时间向量,以获得针对该时间窗口的麦克风对之间的频率内容的差。在实施例中,减法是针对时间向量的每个元素逐元素地进行的向量减法。计算与两个麦克风信号之间的延迟相关的所得差的第一RMS值以获得第一特征系数。第一特征系数是第一麦克风和第二麦克风之间的内容的直接差的RMS值。

在实施例中,可以将RMS值计算为频率内容的所得差中的元素的平方的算术平均值的平方根。在实施例中,RMS值也可以被计算为定义连续波形的函数的平方。当计算RMS值时执行的计算不包括诸如快速傅立叶变换(Fast Fourier Transform)、拉普拉斯变换(Laplace Transform)等之类的变换。因此,当确定声源的位置时,RMS变换的使用带来较低的计算成本。此外,与使用基于FFT的互相关和深度学习算法的其他麦克风阵列相比,除了计算成本更低之外,由于所需的麦克风数量有限,本技术还使得在确定声源位置时消耗的功率降低。而且,本技术不需要使用诸如光学传感器、相机、或超声传感器之类的任何附加的硬件。实际上,光学设备通常无法检测某个对象是否自己发出声音。此外,对所有这些光学器件进行的图像处理总是意味着非常大量的操作。此外,超声设备仅限于简单地检测可能或可能不发出声音的固体表面。具体地,超声波设备不允许检测主动声源(active soundsource)。

为了便于描述,RMS值用于得出多个特征系数。然而,可以使用与信号的幅度或能量成比例的任何值。例如,可以向于频率内容的差应用平均绝对值(MAV)以确定特征系数。此外,可以并行地计算RMS值。

在块304处,针对麦克风对根据在时间窗口期间捕获的音频来计算第二描述符。在块304处,将延迟应用于麦克风对的第二麦克风捕获的音频信号。在实施例中,第二麦克风捕获的样本可以被延迟预定数量的样本。在块304处,在执行减法之前,将第二信道延迟少量且固定的“D”个样本(对于16kHz的采样频率约为2个)。延迟不是使用互相关来确定的。在实施例中,对延迟进行选择,以使得延迟所表示的样本的数量是在时间窗口内捕获的音频的单个波长中的样本总数的一小部分。延迟中的样本数量可以是2至5个样本。

每个时间向量都被标准化以消除每个麦克风具有略微不同的增益的影响。因此,将从第一麦克风捕获的音频中采样的时间向量标准化,并且将从第二麦克风捕获的音频中采样并且被延迟的时间向量标准化。

可以从来自第二麦克风的标准化延迟时间向量减去来自第一麦克风的标准化时间向量,以获得针对该时间窗口的频率内容的差。在实施例中,减法是针对时间向量的每个元素逐元素地进行的向量减法。计算与两个麦克风信号之间的延迟相关的所得差的第二RMS值以获得第二特征系数。第二特征系数是第一麦克风和第二麦克风之间的内容的经延迟的差的RMS值。

在块306处,从每个麦克风获得所标识的时间窗口期间的音频信号。在块306处,将声学屏障滤波器应用于由麦克风1和麦克风2中的每一者捕获的音频。在实施例中,滤波器可以是与声学屏障滤波器相一致的带通滤波器。这可以确保当信号位于屏障后方时,与位于屏障前方时相比具有非常不同的轮廓。具体地,数字滤波器可以模拟设备上存在的物理声学屏障的频率响应。来自两个向量的信号被标准化,并且信号被逐元素地相减。然后,计算所得减法的RMS值。

本技术实现诸如RMS值之类的变化性度量,其基于声源的位置来区分所捕获的麦克风信号之间的差异。例如,如果声源总体上位于麦克风阵列的前方,没有实质上阻碍从声源到麦克风阵列的路径的声学屏障,则对经数字滤波的音频信号和未滤波的音频信号的比较显示出非常不同的音频信号。如果声源总体上位于麦克风阵列的后方,具有阻碍从声源到麦克风阵列的路径的声学屏障,则对经数字滤波的音频信号和未滤波的音频信号的比较显示出类似的音频信号。在实施例中,物理声学屏障对音频信号的影响越大,音频源位于音频信号被声学屏障显著地阻碍的位置的可能性越高。在这种情况下,经滤波的音频信号和未滤波的音频信号的内容类似。然而,如果音频信号源自基本上位于物理声学屏障前方的声源,则经滤波的音频信号和未滤波的音频信号的内容是不同的,因为与经数字滤波额信号相比,未滤波的信号通常包含更大范围的频率内容。因此,在实施例中,可以实现具有与声学屏障相同的截止频率的高通滤波器,以强调来自物理声学屏障的前方和物理声学屏障的后方的音频信号之间的差异。

因此,在块306处,将经滤波的音频信号转换为时间向量,其中第一时间向量对应于麦克风1且第二时间向量对应于麦克风2。对由经滤波的音频产生的每个时间向量进行标准化,以消除每个麦克风具有略微不同的增益的影响。从来自第二麦克风的标准化时间向量中减去来自第一麦克风的标准化时间向量,以获得针对该时间窗口的麦克风对之间的频率内容的差。在实施例中,减法是针对时间向量的每个元素逐元素地进行的向量减法。计算与两个麦克风信号之间的延迟相关的差的第三RMS值,以获得第三特征系数。第三特征系数是第一麦克风和第二麦克风之间的经滤波的内容差的RMS值。

在块308处,针对麦克风对根据经滤波的、在时间窗口期间捕获的音频来计算第四特征系数。在块308处,将延迟应用于经滤波的、由麦克风对的第二麦克风捕获的音频信号。在实施例中,第二麦克风捕获的样本可以被延迟预定数量的样本。在块308处,在执行减法之前,第二信道被延迟少量且固定的“D”个样本(对于16kHz的采样频率为约2个)。每个时间向量都被标准化以消除每个麦克风具有略微不同的增益的影响。因此,将从第一麦克风捕获的音频中采样的时间向量标准化,并且将从第二麦克风捕获的音频中采样并且被延迟的时间向量标准化。计算与两个麦克风信号之间的延迟相关的所得差的第四RMS值,以获得第四特征系数。第四特征系数是第一麦克风和第二麦克风之间的经滤波和延迟的内容差的RMS值。

在块310处,将所有特征系数相连为对应于所分析的时间窗口的最终特征向量。具体地,将第一特征系数、第二特征系数、第三特征系数和第四特征系数相连,以形成代表时间窗口的特征向量。该全特征向量包括在块302、304、306和308处找到的直接信道差、经延迟信道差、经滤波信道差、以及经滤波和延迟的信道差的RMS值。在实施例中,特征向量被输入到经训练的神经网络中。神经网络可以被训练,以确定输出在时间窗口期间捕获的音频的音频源的位置。

图3的图不旨在指示示例特征提取300包括图3中所示的所有组件。而是,示例特征提取300可以使用更少的或图3中未示出的附加组件(例如,附加的变化性度量、神经网络、滤波器等)来实现。

图4是位置分类400的图示。在图4中,示出了全源位置检测管线的方案。图4包括声源402。膝上型计算机404包括具有两个麦克风传感器的麦克风阵列406。特别地,麦克风阵列406包括第一麦克风406A和第二麦克风406B。麦克风406A和406B可以捕获从声源402发出的音频信号。此外,膝上型计算机404的盖用作对通过来自声源402的音频信号发出的声音的声学屏障。

可以如关于图3所描述的那样对来自声源402的音频信号进行处理,以获得特征向量408。特征向量408可以被输入到位置分类器410。分类器可以是例如输出源位置412的监督式机器学习分类器。源位置可以是标识声源相对于麦克风阵列的位置的角度。例如,位置分类器可以输出与声音相关联的到达角或方位角(azimuth)。分类器可以是具有两层的前馈网络。位置分类器420可以使用浅层神经网来构建,并且根据输入特征来产生位置。位置分类器可还能够估计大体位置,例如,距离或海拔。

图5是示例性形状因子的图示。具体地,图5示出了在膝上型计算机502、智能扬声器508、以及智能车辆514中的两个麦克风的阵列中实现的声学屏障的示例。膝上型计算机502可以包括麦克风阵列504。麦克风阵列504包括麦克风504A和504B。如图所示,声学屏障由膝上型计算机502的盖506形成。以这种方式,由于声学屏障506,麦克风504A和504B遇到的声音经历了滤波。由声学屏障506使能的特定滤波可以用于对接收信号进行数字滤波以得出全长特征向量。数字滤波的特定频率响应可以与声学屏障506所提供的实际物理滤波相同。

智能扬声器508可以包括麦克风阵列510。麦克风阵列510包括麦克风510A和510B。在麦克风阵列510附近,形成声学屏障。如图所示,声学屏障限定了半圆形区域,其中,麦克风510A和麦克风510B位于该半圆形区域内。以这种方式,由于声学屏障512,麦克风510A和麦克风510B遇到的声音可经历滤波。如上所述,由声学屏障512实现的特定滤波可以用于对接收到的信号进行滤波以得出全长特征向量。数字滤波的特定频率响应可以与声学屏障512提供的实际物理滤波相同。

类似地,车辆514可以包括麦克风阵列516。麦克风阵列516包括麦克风516A和516B。在麦克风阵列516附近形成声学屏障518。在智能车辆514的示例中,声学屏障由智能车辆514的框架的物理壳体形成。例如,车辆514的框架518A可以形成声学屏障的一部分。此外,遍及车辆514的框架设置的玻璃518B也可以形成声学屏障518的一部分。由声学屏障518实现的特定滤波可以用于对麦克风516A和516B接收到的信号进行滤波,并且可以用于得出全长特征向量。数字滤波的特定频率响应可以与声学屏障518提供的实际物理滤波相同。尽管已经描述了具体的形状因子,但是可以在具有声学屏障和两个麦克风的任何形状因子上使用本技术。因此,可以将这种概念实现为不同的形状因子或系统,例如,常规膝上型计算机、智能扬声器、或其他家庭/办公设备、以及车辆。

图6是可以放置音频源的示例性环境600的图示。膝上型计算机602可以包括麦克风阵列604。球坐标系606被示出为距膝上型计算机602一米,该膝上型计算机位于球坐标系606的原点。在实施例中,位置分类器将声音位置输出为方位角。方位角可用于确定从原点到声源的位置的向量。以这种方式,可以识别声源的位置。

考虑具有总共1500个音频段的示例性用例,每个音频段的持续时间为一秒并具有44100Hz的采样频率。可以在打开的膝上型计算机602周围一米的距离处在八个不同的角度(0°、45°、90°、135°、180°、225°、270°和315°)上记录这些音频段。在图6的示例中,可以从4000Hz到8000Hz中选择声学屏障滤波器。

在本示例中,片段中随机选择的80%被用于训练,其余部分(20%,300个样本)被用于验证。使用图3中描述的所提出的例程从音频样本中获得特征,其中固定延迟D为3个样本。使用图3所示的特征对由2个输入、2个隐藏层、和位于输出处的6个神经元(共22个神经元)组成的浅层全连接神经网络进行训练和测试,并且测量分类结果并将其与验证样本的真实标签进行比较。

下面示出了应用于图6的示例的本技术的结果。可以注意到,在所有300个验证样本中,神经网络仅误识别了2个角度,正确到达角分类率占99.7%。

测量角度

真实角度

45° 90° 135° 180° 235° 270° 315°
42 0 0 0 0 0 2 0
45° 0 33 0 0 0 0 0 0
90° 0 0 31 0 0 0 0 0
135° 0 0 0 40 0 0 0 0
180° 0 0 0 0 47 0 0 0
235° 0 0 0 0 0 38 0 0
270° 0 0 0 0 0 0 34 0
315° 0 0 0 0 0 0 0 33

表1

表1中的结果证明了实现两个麦克风的阵列并添加人启发式声学屏障来检测全360°到达角检测的可行性。本方法仅基于两个麦克风和用于声源定位的非常轻型的神经网络技术,这消除了对于数字信号处理器(DSP)处理此任务的传入信号的需求。在非常简单的实现方式中,它成功地检测到阵列周围全360°的音频(在使用常规技术的情况下,无法使用如此小的阵列来实现这一点),并且具有99.3%正确分类的性能。

图7是方法700的过程流程图。示例方法700可以在图3的特征提取300、图8的计算设备800、或图9的计算机可读介质900中实现。在一些示例中,可以使用图4的位置分类器400来实现方法300。在块702处,计算直接差、延迟差、经滤波直接差、以及经滤波延迟差的变化性度量。在块704处,将计算出的变化性度量相连,以获得特征向量。在块706处,将特征向量输入到位置分类器中,以获得源位置。

该过程流程图不旨在指示示例方法700的块要以任何特定次序执行,或者在每种情况下都包括所有块。此外,取决于具体实现方式的细节,可以在示例性方法700内包括未示出的任何数量的附加的块。例如,音频信号可以由麦克风对捕获,并且在计算变化性度量之前被标准化。

图8是电子设备的框图,该电子设备使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位。可以实时确定音频源的位置。电子设备800可以例如是膝上型计算机、平板计算机、移动电话、智能电话、可穿戴头戴式耳机、智能头戴式耳机、智能眼镜或扬声器系统、或车辆等。电子设备800可以包括被配置为执行所存储的指令的中央处理单元(CPU)802,以及存储可以由CPU 802执行的指令的存储器设备804。CPU可通过总线806耦合至存储器设备804。此外,CPU 802可以是单核处理器、多核处理器、计算集群、或任意数量的其他配置。此外,电子设备800可以包括不止一个CPU 802。存储器设备804可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适的存储器系统。例如,存储器设备804可以包括动态随机存取存储器(DRAM)。

计算设备800还可以包括图形处理单元(GPU)808。如所示出的,CPU 802可以通过总线806耦合到GPU 808。GPU 808可以被配置为在计算设备800内执行任何数量的图形操作。例如,GPU 808可以被配置为呈现或操纵要被显示给计算设备800的用户的图形图像、图形帧、视频等。

存储器设备804可以包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器、或任何其他合适的存储器系统。例如,存储器设备804可以包括动态随机存取存储器(DRAM)。存储器设备804可以包括设备驱动器810,这些设备驱动器810被配置为执行用于训练多个卷积神经网络以执行与序列无关的处理的指令。设备驱动器810可以是软件、应用程序、应用代码等。

CPU 802还可以通过总线806连接到输入/输出(I/O)设备接口812,该接口812被配置为将计算设备800连接到一个或多个I/O设备814。I/O设备814可以包括例如键盘和指点设备,其中,指点设备可以包括触摸板或触摸屏等。I/O设备814可以是计算设备800的内置组件,或可以是从外部连接到计算设备800的设备。在一些示例中,存储器804可以通过直接存储器访问(DMA)通信地耦合到I/O设备814。

CPU 802还可以通过总线806链接到显示接口816,该显示接口816被配置为将计算设备800连接到显示设备818。显示设备818可以包括显示屏,该显示屏是计算设备800的内置组件。显示设备818还可以包括在计算设备800内部的或外部地连接到计算设备800的计算机监视器、电视、或投影仪等。

计算设备800还包括存储设备820。存储设备820是物理存储器,例如,硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列、固态驱动器、或其任何组合。存储设备820还可以包括远程存储驱动器。

计算设备800还可以包括网络接口控制器(NIC)822。NIC 822可以被配置为通过总线806将计算设备800连接到网络824。网络824可以是广域网(WAN)、局域网(LAN)、或互联网等。在一些示例中,设备可通过无线技术与其他设备进行通信。例如,设备可以通过无线局域网连接与其他设备进行通信。在一些示例中,设备可以通过蓝牙 或类似技术与其他设备连接和进行通信。

电子设备800还可以包括麦克风阵列826。麦克风阵列826包括两个独立的麦克风。在实施例中,每个麦克风可以是微机电系统(MEMS)麦克风。可以通过麦克风阵列826捕获来自声源的音频。位置检测器828可以获得麦克风所捕获的电信号,并且确定声源的位置。具体地,变化性度量单元830可以用于计算与麦克风对相关联的特征系数。具体地,变化性度量可以是与可以使用的信号的幅度或能量成比例的任何值。例如,可以将RMS值或平均绝对值(MAV)应用于频率内容的差以确定特征系数。串联器832可以将多个特征系数串联成特征向量。位置分类器834可以将特征向量作为输入并且确定位置。

图8的框图并不旨在指示计算设备800包括图8中所示的全部组件。而是,计算系统800可以包括更少的组件或图8中未示出的附加组件(例如,传感器、功率管理集成电路、附加网络接口等)。取决于具体实现方式的细节,计算设备800可包括图8中未示出的任意数量的附加组件。此外,CPU 802的任何功能可以部分地或完全地在硬件中和/或在处理器中实现。例如,功能可以用专用集成电路实现、在处理器中实现的逻辑中实现、在专用图形处理单元中实现的逻辑中实现、或者在任何其他设备中实现。

图9是示出了介质900的框图,该介质900使得能够使用两个麦克风来进行轻型全三百六十度音频声音定位。介质900可以是计算机可读介质,包括存储可以由处理器902通过计算机总线904访问的代码的非暂态介质。例如,计算机可读介质900可以是易失性或非易失性的数据存储设备。介质900还可以是逻辑单元,例如,专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或在一个或多个集成电路中实现的逻辑门的布置。

介质900可以包括被配置为执行本文中描述的技术的模块906-910。例如,变化性度量模块906可以被配置为计算与麦克风对相关联的特征系数。具体地,变化性度量可以是与可以使用的信号的幅度或能量成比例的任何值。例如,可以将RMS值或平均绝对值(MAV)应用于频率内容的差以确定特征系数。相连模块908被配置为将多个特征系数相连为特征向量。分类模块910可以被配置为将特征向量作为输入并且确定位置。在一些实施例中,模块906-910可以是被配置为引导处理器902的操作的计算机代码的模块。

图9的框图并不旨在指示介质900包括图9中所示的全部组件。此外,取决于具体实现方式的细节,介质900可以包括图9中未示出的任何数量的附加组件。

示例1是一种系统。该系统包括:物理声学屏障;麦克风阵列,包括第一麦克风和第二麦克风;至少一个硬件处理器,该至少一个硬件处理器被配置为:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。

示例2包括如示例1所述的系统,包括或排除可选特征。在该示例中,预定声学屏障滤波器通过复制物理声学屏障滤波器的频率响应而与物理声学屏障滤波器相一致。

示例3包括如示例1至2中任一项所述的系统,包括或排除可选特征。在该示例中,位置分类器是浅层神经网络。

示例4包括如示例1至3中任一项所述的系统,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

示例5包括如示例1至4中任一项所述的系统,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

示例6包括如示例1至5中任一项所述的系统,包括或排除可选特征。在该示例中,预定声学屏障滤波器是与物理声学屏障滤波器相一致的带通滤波器。

示例7包括如示例1至6中任一项所述的系统,包括或排除可选特征。在该示例中,物理声学屏障是改变来自音频源的音频信号的频率分量的表面。

示例8包括如示例1至7中任一项所述的系统,包括或排除可选特征。在该示例中,差是通过以下操作来计算的:对第一麦克风和第二麦克风接收到的音频信号进行标准化,并且从经标准化的由第二麦克风捕获的音频信号中减去经标准化的由第一麦克风捕获的音频信号。

示例9包括如示例1至8中任一项所述的系统,包括或排除可选特征。在该示例中,延迟的音频信号是通过将第二麦克风处的音频信号延迟预定数量的样本而生成的。

示例10包括如示例1至9中任一项所述的系统,包括或排除可选特征。在该示例中,音频源位置是到达角。

示例11是一种方法。该方法包括:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波,以及计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量和第四变化性度量相连以形成特征向量,并且将特征向量输入到位置分类器中以获得音频源位置。

示例12包括如示例11所述的方法,包括或排除可选特征。在该示例中,预定声学屏障滤波器通过复制物理声学屏障滤波器的频率响应而与物理声学屏障滤波器相一致。

示例13包括如示例11至12中任一项所述的方法,包括或排除可选特征。在此示例中,位置分类器是浅层神经网络。

示例14包括如示例11至13中任一项所述的方法,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

示例15包括如示例11至14中任一项所述的方法,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

示例16包括如示例11至15中任一项所述的方法,包括或排除可选特征。在该示例中,预定声学屏障滤波器是与物理声学屏障滤波器相一致的带通滤波器。

示例17包括如示例11至16中任一项所述的方法,包括或排除可选特征。在该示例中,物理声学屏障是改变来自音频源的音频信号的频率分量的表面。

示例18包括如示例11至17中任一项所述的方法,包括或排除可选特征。在该示例中,差是通过以下操作来计算的:对第一麦克风和第二麦克风接收到的音频信号进行标准化,并且从经标准化的由第二麦克风捕获的音频信号中减去经标准化的由第一麦克风捕获的音频信号。

示例19包括如示例11至18中任一项所述的方法,包括或排除可选特征。在该示例中,延迟的音频信号是通过将第二麦克风处的音频信号延迟预定数量的样本而生成的。

示例20包括如示例11至19中任一项所述的方法,包括或排除可选特征。在该示例中,音频源位置是到达角。

示例21是至少一种计算机可读介质,用于隐藏音频中的短语,其上存储有指令。该计算机可读介质包括指令,这些指令引导处理器进行以下操作:识别预定声学屏障滤波器,其中,声学屏障滤波器与物理声学屏障相一致;在时间窗口内,在第一麦克风和第二麦克风处,接收音频信号;计算在第一麦克风和第二麦克风处接收到的音频信号的直接差的第一变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的延迟差的第二变化性度量、在第一麦克风和第二麦克风处接收到的音频信号的经滤波直接差的第三变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波,以及计算在第一麦克风和第二麦克风处接收到的音频信号的经滤波延迟差的第四变化性度量,其中,该音频信号由预定声学屏障滤波器进行滤波;将第一变化性度量、第二变化性度量、第三变化性度量、以及第四变化性度量相连,以形成特征向量;以及将特征向量输入到位置分类器中,以获得音频源位置。

示例22包括如示例21所述的计算机可读介质,包括或排除可选特征。在该示例中,预定声学屏障滤波器通过复制物理声学屏障滤波器的频率响应而与物理声学屏障滤波器相一致。

示例23包括示例21至22中任一项所述的计算机可读介质,包括或排除可选特征。在此示例中,位置分类器是浅层神经网络。

示例24包括示例21至23中任一项所述的计算机可读介质,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

示例25包括示例21至24中任一项所述的计算机可读介质,包括或排除可选特征。在该示例中,第一变化性度量、第二变化性度量、第三变化性度量、和第四变化性度量是均方根值。

一些实施例可以在硬件、固件和软件之一或其组合中实现。一些实施例也可被实现为被存储在有形、非暂态、机器可读介质上的指令,该指令可以由计算平台读取和执行以执行所描述的操作。此外,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机构。例如,机器可读介质可以包括只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光存储介质;闪速存储器设备;或电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号、或发送和/或接收信号的接口)等等。

实施例是实现方式或示例。说明书中对“实施例”、“一个实施例”、“一些实施例”、“各种实施例”、或“其他实施例”的提及意味着结合实施例描述的特定特征、结构、或特性被包括在本技术的至少一些实施例中,但不一定被包括在所有实施例中。“实施例”、“一个实施例”、或“一些实施例”的各种出现不一定都指代相同的实施例。

并非本文中描述和展示的所有组件、特征、结构、特性等都需要被包括在一个或多个特定实施例中。例如,如果说明书陈述“可以”、“可能”、“可”或“能够”包括组件、特征、结构或特性,则不要求包括该特定组件、特征、结构或特性。如果说明书或权利要求提及“一”或“一个”元素,这不意味存在仅仅一个该元素。如果本说明书或权利要求提及“附加”元素,这并不排除存在多于一个该附加元素。

要注意的是,虽然一些实施例已参照具体实现方式来描述,但根据一些实施例,其他实现方式是可能的。此外,附图中示出的和/或本文中描述的电路元素或其他特征的布置和/或次序不需要以所示出和描述的特定方式布置。根据一些实施例,许多其他布置是可能的。

在图中所示的每个系统中,某些情况下每个元素可具有相同的参考数字或不同的参考数字以意指表示的元素可能是不同的/类似的。然而,元素可以足够灵活以具有不同实现方式,并且与本文中所示或所述的部分或全部系统一起工作。图中所示的各种元素可以是相同的或不同的。哪个被称为第一元素和哪个被称为第二元素是任意的。

将理解的是,可以被用在一个或多个示例中的任何地方前述示例中的详情。例如,还可以关于本文中所描述的方法或计算机可读介质中的任何一者实现上面描述的计算设备的所有可选特征。此外,虽然本文中可能已经使用流程图和/或状态图来描述实施例,但是这些技术不限于本文中的那些图或相应的描述。例如,流程不需要移动通过每个图示的块或状态或者确切地按照本文中所图示和描述的相同顺序来进行。

本技术不受限于本文中列出的具体细节。实际上,受益于本公开的本领域技术人员将认识到,可以在本技术的范围内对前述描述和附图进行许多其他变型。因此,所附权利要求包括限定本技术的范围的对这些权利要求的任意修改。

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种无人机雷达清洁方法和无人机

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!