基于语音活动检测的音频的定向捕获

文档序号:1662144 发布日期:2019-12-27 浏览:18次 >En<

阅读说明:本技术 基于语音活动检测的音频的定向捕获 (Directional capture of audio based on voice activity detection ) 是由 M·R·希克斯 D·R·克里斯特 A·R·莫吉米 于 2018-03-29 设计创作,主要内容包括:本文档描述了一种技术,所述技术可具体表现在一种计算机实现的方法,所述方法包括接收表示由麦克风阵列捕获的音频的信息,其中所述信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于所述麦克风阵列的对应方向捕获的音频信号。所述方法还包括使用一个或多个处理设备来针对所述多个数据集中的每一者计算指示从所述对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组所述多个数据集计算的所述一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。(This document describes a technique that may be embodied in a computer-implemented method that includes receiving information representative of audio captured by a microphone array, wherein the information includes a plurality of data sets, each data set representative of an audio signal captured according to a sensitivity pattern in a corresponding direction relative to the microphone array. The method also includes calculating, using one or more processing devices, for each of the plurality of data sets, one or more quantities indicative of human voice activity captured from the corresponding direction, and generating a directional audio signal representing audio captured from a particular direction based at least on the one or more quantities calculated for the plurality of sets of the plurality of data sets.)

基于语音活动检测的音频的定向捕获

技术领域

本公开整体涉及包括用于捕获声学信号的麦克风阵列的声学设备。

背景技术

麦克风阵列可用于沿特定方向捕获声学信号。

发明内容

在一个方面,本文档的特征在于一种计算机实现的方法,该方法包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。该方法还包括使用一个或多个处理设备来针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。

在另一方面,本文档的特征在于一种装置,该装置包括麦克风阵列、被配置为生成音频信号的一个或多个声换能器,以及包括存储器和一个或多个处理设备的音频处理引擎。音频处理引擎被配置为接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。音频处理引擎还被配置为针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。

在另一方面,本文档的特征在于一个或多个机器可读存储设备,该一个或多个机器可读存储设备具有在其上编码的用于使一个或多个处理设备执行各种操作的计算机可读指令。这些操作包括接收表示由麦克风阵列捕获的音频的信息,其中该信息包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。这些操作还包括针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量,以及至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号。

上述方面的具体实施可以包括以下特征中的一个或多个。可从被配置为处理使用麦克风阵列捕获的信号的波束形成器接收表示由麦克风阵列捕获的音频的信息。多个数据集中的每一者可对应于使用波束形成器生成的波束。波束形成器可为固定波束形成器或动态波束形成器中的一种。指示人类语音活动的一个或多个量可包括人类语音活动在针对对应方向的数据集中表示的音频信号中的可能性分数。指示人类语音活动的一个或多个量可包括信噪比(SNR)。SNR可被计算为表示语音信号的第一量与表示非语音信号的第二量的比率。指示人类语音活动的一个或多个量可表示在针对对应方向的数据集中表示的音频信号中存在关键词的可能性分数。生成定向音频信号可包括选择多个数据集中的一个。生成定向音频信号可包括使动态波束形成器根据针对特定方向生成的灵敏度图案来捕获音频。

本文所述的各种实施方式可提供以下优点中的一者或多者。通过基于语音活动的方向而不是最主导声源的方向来控制波束形成器,即使在存在生成大量声能的噪声源的情况下,也可以准确地捕获语音输入。在一些情况下,这可提升语音激活设备在存在主导的非语音噪声源诸如空调的情况下的性能。在一些情况下,相关的语音活动的方向可也经由检测口语关键词的发生来确定。这继而可提升语音激活设备在存在来自多个说话者的语音信号的情况下的性能。

本公开中所述的两个或更多个特征,包括本发明内容部分中所述的那些,可组合以形成在本文未具体描述的实施方式。

一个或多个实施方式的细节在附图和以下描述中论述。其他特征、对象和优点在说明书、附图和权利要求书中将是显而易见的。

附图说明

图1是其中可设置语音激活设备的环境的示例。

图2A和图2B是可与本文所述的技术—起使用的定向音频捕获设备的示例。

图3A是被配置为使用固定波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。

图3B是被配置为使用动态波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。

图3C是被配置为使用通过使用反馈回路控制的动态波束形成器来控制音频信号的定向捕获的波束控制系统的示意图。

图4是根据本文所述的技术的用于捕获定向音频的示例过程的流程图。

具体实施方式

本文档描述了用于基于语音活动检测来控制音频的定向捕获的技术。现行的有可使用口语命令来控制的各种语音激活设备。可商购获得的此类设备的示例包括由华盛顿州西雅图市(Seattle,WA)的亚马逊公司(Amazon Inc.)制造的和FIRE由苹果公司(Apple Inc.)制造的各种支持的设备,以及由加利福尼亚州山景城(MountainView,CA)的谷歌公司(Google Inc.)制造的Google和其他驱动设备。语音激活设备可包括用于口语输入的定向捕获的麦克风阵列(例如,线性阵列、圆形阵列等)。例如,由设备上的麦克风阵列捕获的信号可被处理以强调从特定方向捕获的信号和/或减弱来自一个或多个其他方向的信号。此类过程被称为波束形成,并且由此类过程产生的定向灵敏度图案可被称为波束。执行波束形成过程的设备可被称为波束形成器。沿特定方向来选择灵敏度图案或波束可被称为波束控制。

在一些情况下,波束形成器可将波束控制在声能的主导源的方向上。在低噪声环境中—其中人类说话者是声能的主导源,波束形成器可准确地控制波束朝向说话者。然而,在一些情况下—其中声能的主导源是噪声源,波束形成器可控制波束朝向该源,并且因此减弱来自人类说话者的语音输入。例如,如果麦克风阵列被设置在响亮声源(例如,空调、加湿器、除湿器等)附近,则波束形成器可控制波束朝向该声源。在此类情况下,来自另一个方向的语音输入可在无意中被减弱。在一些情况下,当多个说话者存在于环境中(例如,房间,其中多个人在相互交谈)时,声能的主导源可能为没在提供麦克风阵列需要捕获的语音输入的人。相反,语音输入可来自与声能的主导源的方向不同的方向。在上述这些情况下,如果基于主导噪声源的方向来控制波束,可能会错过来自另一个方向的口语输入,这继而可能会不利地影响对应的语音激活设备的性能。

本文所述的技术允许由麦克风阵列基于语音活动检测(VAD)(其可包括关键词识别(KWS))来控制音频捕获的方向。例如,波束控制或以其他方式控制定向音频捕获可基于指示语音活动或特定关键词在从特定方向捕获的音频中存在的可能性的初步输出来实现。这些初步输出可被称为软VAD输出(用于语音活动检测)或软KWS输出(用于关键词识别),这些软VAD输出或软KWS输出可用于确定方向,来自该方向的捕获音频被强调以进行后续处理。在一些情况下,基于此类软VAD输出来确定方向可帮助减弱源自非人类主导声源的声学信号,该非人类主导声源诸如为空调、加湿器、除湿器、真空吸尘器、洗衣机、烘干机,或其他机器或动物(例如,宠物)。这继而可提升相关联的语音激活设备在此类喧闹环境中的性能。在一些情况下,基于软KWS输出来确定方向可也通过甚至在环境中有多个其他的人类说话者在说话时准确地拾取相关的语音命令来提升对应的语音激活设备的性能。

图1是可用于实现本文所述的定向音频捕获的系统100的示意图。系统100包括可用于捕获源自该设备附近的声学信号的音频捕获设备105。在一些具体实施中,音频捕获设备105包括被配置为捕获源自设备105附近的各种源的声学信号的多个麦克风的阵列。例如,音频捕获设备105可用于捕获源自声源诸如一个或多个人类说话者110a、110b(统称为110),或非人类声源115(例如,空调、加湿器、除湿器、真空吸尘器、洗衣机、烘干机,或其他机器或动物)的声学信号。在一些具体实施中,音频捕获设备105可设置在可基于由音频捕获设备105捕获或拾取的声学信号进行控制的语音激活设备上或作为该语音激活设备的一部分。在一些具体实施中,音频捕获设备105可包括线性阵列,其中阵列中的连续麦克风基本上沿直线设置。在一些具体实施中,音频捕获设备105可包括非线性阵列,其中麦克风以大体圆形、椭圆形或其他构型设置。在图1示出的示例中,音频捕获设备105包括以圆形构型设置的六个麦克风的阵列。

麦克风阵列可用于沿特定方向捕获声学信号。例如,由阵列中的多个麦克风捕获的信号可被处理以生成灵敏度图案,该灵敏度图案强调沿特定方向上的波束的信号,并且抑制或减弱来自一个或多个其他方向的信号。图2A中示出了此类设备200的示例。设备200包括彼此分开特定距离的多个麦克风205。可通过此类麦克风阵列实现波束形成效应。如图2A所示,波前210a、210b或210c(统称为210)起源的方向可对波前210与阵列中每个麦克风205相遇的时间有影响。例如,从左侧以45°角到达麦克风阵列的波前210a首先到达左手麦克风205a,然后依次到达麦克风205b和205c。类似地,以垂直于阵列的角度到达的波前210b同时到达每个麦克风205,并且从右侧以45°角到达麦克风阵列的波前210c首先到达右侧麦克风205c,然后依次到达麦克风205b和205a。在计算麦克风阵列的输出的情况下(例如,通过对信号求和),源自垂直于该阵列定位的源的信号将同时到达麦克风205,从而相互增强。另一方面,源自非垂直方向的信号在不同时间到达不同的麦克风205,从而导致输出振幅变低。可计算非垂直信号的来波方向,例如,根据到达不同麦克风的延迟来计算。相反地,可在由不同麦克风捕获的信号中添加适当的延迟,以使得信号在求和之前彼此对齐。这可强调来自一个特定方向的信号,因此可用于在不物理移动天线的情况下沿特定的方向形成波束或灵敏度图案。以上描述的波束形成过程被称为延迟求和波束形成。

在一些具体实施中,定向音频捕获设备可也使用单个麦克风和开槽干扰管一起来实现。图2B中示出了此类设备250的示例。设备250包括设置在管255内的单个麦克风205,该管255包括允许偏轴声学信号270进入其中的多个槽260。轴上声学信号265穿过在管255的一端处的开口进入该管。期望的轴上声学信号265可以沿管的长度传播到麦克风205,而不需要的偏轴声学信号270通过穿过槽260进入管255来到达麦克风205,如图2B所示。因为偏轴声学信号270穿过多个槽260进入,并且麦克风与不同槽260之间的距离不相等,所以偏轴声学信号270可以变化的相关系到达麦克风,这些变化的相关系可彼此部分地抵消。此类相消干扰可能导致偏轴声学信号270的至少一部分相对于轴上声学信号265衰减,从而产生比仅使用麦克风205时的可能情况更定向的灵敏度图案。管255可被称为干扰管,并且设备250可被称为枪型(或步枪式)麦克风。

在一些具体实施中,音频捕获设备105上的麦克风阵列可包括定向麦克风,诸如以上描述的枪型麦克风。在一些具体实施中,音频捕获设备105可包括一种设备,该设备包括多个麦克风,该多个麦克风由设置在这些麦克风之间的无源定向声学元件分开。在一些具体实施中,无源定向声学元件包括具有沿管长度的至少一部分的伸长开口的管或管状结构,以及覆盖该伸长开口的至少一部分的声阻材料。声阻材料可包括例如丝网、烧结塑料或织物,使得声学信号穿过声阻材料进入管并且沿管传播到一个或多个麦克风。丝网、烧结塑料或织物包括多个小开口或孔,声学信号穿过这些小开口或孔进入管。无源定向声学元件因此各自充当紧密间隔的传感器或麦克风的阵列。各种类型和形式的无源定向声学元件可用于音频捕获设备105中。此类无源定向声学元件的示例在美国专利8,351,630、美国专利8,358,798和美国专利8,447,055中示出和描述,其内容以引用方式并入本文。具有无源定向声学元件的麦克风阵列的示例在共同未决的标题为“Capturing Wide-Band AudioUsing Microphone Arrays and Passive Directional Acoustic Elements”的美国专利申请No.15/406,045中描述,其全文内容也以引用方式并入本文。

从由音频捕获设备105捕获的信号生成的数据可被处理以生成灵敏度图案,该灵敏度图案强调沿特定方向上的“波束”的信号,并且抑制来自一个或多个其他方向的信号。图1中示出了此类波束或灵敏度图案107a至107c(统称为107)的示例。用于音频捕获设备105的波束或灵敏度图案可例如使用音频处理引擎120生成。例如,音频处理引擎120可包括存储器和一个或多个处理设备,该一个或多个处理设备被配置为处理表示由麦克风阵列捕获的音频信息的数据并且生成一个或多个灵敏度图案诸如波束107。在一些具体实施中,这可以使用由音频处理引擎120执行的波束形成过程来完成。在此类情况下,音频处理引擎120可被称为波束形成器。为(i)固定波束形成器(其强调沿固定离散方向的捕获声学信号)和(ii)动态波束形成器(其根据指定某一方向的控制输入来动态地强调沿此类方向或其近似方向的捕获声学信号)中的一种或多种。音频处理引擎120可也被配置为执行VAD和/或KWS过程以实现用于控制波束形成器的操作的波束控制系统(下文将更加详细地描述)。

音频处理引擎120可定位在各种位置。在一些具体实施中,音频处理引擎120可被设置在音频捕获设备105上或在与音频捕获设备105相关联的语音激活设备上。在一些此类情况下,音频处理引擎120可被设置为音频捕获设备105或相关联的语音激活设备的一部分。在一些具体实施中,音频处理引擎120可定位在位于相对于音频捕获设备105较远的位置处的设备上。例如,音频处理引擎120可定位在远程服务器上,或定位在分布式计算系统诸如基于云的系统上。

在一些具体实施中,音频处理引擎120可被配置为处理从由音频捕获设备105捕获的信号生成的数据,并且生成强调沿相对于音频捕获设备105的一个或多个方向捕获的音频数据的音频数据。在一些具体实施中,音频处理引擎120可被配置为基本实时地(例如,在几毫秒内)生成音频数据,使得音频数据可用于实时或近实时应用。可控制用于特定应用中的实时处理的可允许或可接受的时间延迟,例如,可将其控制为在不会显着降低与该特定应用相关联的对应用户体验的情况下可被容忍的迟延或处理延迟的量。在一些具体实施中,由音频处理引擎120生成的音频数据可例如通过网络诸如互联网传输到被配置为处理音频数据的远程计算设备。例如,由音频处理引擎生成的音频数据可被发送到远程服务器,该远程服务器分析音频数据以确定包括在音频数据中的语音命令,并且相应地将一个或多个控制信号发送回对应的语音激活设备以影响此类语音激活设备的操作。

在一些具体实施中,音频处理引擎120可被配置为基于计算沿给定方向存在语音活动的可能性来控制麦克风阵列对声学信号的定向捕获。图3A中示出了实现此类控制功能的示例系统。具体地讲,图3A是被配置为使用固定波束形成器来控制音频信号的定向捕获的波束控制系统300的示意图。系统300包括设置在音频捕获设备105上的多个麦克风305a至305m(统称为305)。麦克风305连接至音频处理引擎120,该音频处理引擎处理来自麦克风的信号并且生成表示来自一个或多个方向的强调声学信号的输出信号330。然后,此类定向信号可用于例如控制语音激活设备的一个或多个操作。

在一些具体实施中,音频处理引擎120包括固定波束形成器310,该固定波束形成器生成与相对于音频捕获设备105的多个方向对应的强调定向信号。例如,固定波束形成器310可被配置为基于由M个麦克风捕获的声学信号来生成N个定向信号或波束。M可大于、等于或小于N。N个波束中的每个波束表示沿相对于音频捕获设备105的特定离散方向强调的声学信号。

系统300还包括波束分数计算器315,其被配置为计算针对由固定波束形成器310生成的N个波束中的一个或多个波束的初步分数。例如,波束分数计算器315可计算分别对应于由固定波束形成器310生成的N个波束中的每个波束的波束分数320a至320n(统称为320)。在一些具体实施中,波束分数计算器315被配置为基于沿波束的对应方向存在语音活动的可能性来计算初步分数。例如,波束分数计算器315可被配置为对表示特定波束的数据执行VAD过程,并且生成VAD分数作为对应的波束分数320。在一些具体实施中,波束分数320可为指示在对应于特定波束的数据内是否存在人声的标记。

VAD过程可用于识别在对应于特定波束的输入音频数据内是否存在人声。在一些具体实施中,如果在对应于特定波束的数据中存在人声,则执行VAD过程的波束分数计算器315生成指示此类人声存在的离散标记,使得可基于该标记采取一个或多个动作。此类动作的示例包括打开或关闭进一步的处理、注入舒适噪声、门控音频通过等。在一些具体实施中,波束分数计算器315可被配置为基于在对应于特定波束的音频流中存在人声的概率来计算波束分数320。此类波束分数320可被称为软VAD分数。各种类型的VAD过程可用于计算此类软VAD分数。此类过程的一个示例在以下参考文献中描述:Huang,Liang-sheng和Chung-ho Yang在2000年在IEEE发表于2000年的IEEE国际会议的ICASSP'00会议录的2000年版《声学、语音与信号处理》(Acoustics,Speech,and Signal Processing,2000)第3卷上标题为“A novel approach to robust speech endpoint detection in carenvironments.”的文章,其全文内容以引用方式并入本文。

在一些具体实施中,可比较对应于不同波束的多个软VAD分数以确定可能存在人声源所沿的一个或多个方向。然后可选择对应于此类方向的一个或多个波束作为关注方向以用于进一步处理。例如,波束控制引擎325可用于分析波束分数320(例如,软VAD分数)以集中于对应于高波束分数的一个或多个关注方向。该一个或多个关注方向可以各种方式来选择。在一些具体实施中,波束控制引擎325可包括多路复用器335,该多路复用器被配置为选择由波束形成器生成的多个波束中的一个波束。例如,如果波束控制引擎325确定特定的波束分数(例如,320a)高于其他波束分数,则波束控制引擎325可指示多路复用器335(例如,使用控制信号)选择对应于该特定波束(在此示例中为波束1)的数据以用于进一步处理。在一些具体实施中,可也选择多于一个波束以用于进一步处理。例如,如果对应于两个特定波束的波束分数320彼此接近,但各自实质上高于其他波束分数,则对应于这两个特定波束的数据可被选择以用于进一步处理。

在一些具体实施中,可也使用动态波束形成器来选择一个或多个关注方向,该动态波束形成器被配置为基于例如由软VAD分数指示的空间信息来生成新的动态波束。在图3B中示出此类系统350的示例,其中音频处理引擎120包括动态波束形成器355。从M个麦克风接收的输入被提供给动态波束形成器355,该动态波束形成器由波束控制引擎325控制。在一些具体实施中,如果对应于一个或多个方向的软VAD分数高于其余的软VAD分数,则波束控制引擎325可被配置为控制动态波束形成器355来动态地生成对应于一个或多个方向的波束。动态或自适应的波束形成器355的示例包括Frost波束形成器和Griffiths-Jim波束形成器。

在一些具体实施中,动态波束形成器可在没有固定波束形成器的情况下使用。在图3C中示出此类系统的示例,该图示出了被配置为使用通过使用反馈回路控制的动态波束形成器380来控制音频信号的定向捕获的波束控制系统375的示意图。在此类具体实施中,动态波束形成器最初生成由波束分数计算器315评估以生成对应的波束分数320的多个波束。基于波束分数320,波束控制引擎325可通过反馈路径385向动态波束形成器380提供一个或多个控制信号以生成一个或多个关注波束。在一些具体实施中,对应于一个或多个关注波束的数据然后通过波束控制引擎325并且作为输出信号330提供。

上面的描述主要使用软VAD分数作为波束分数320的示例。然而,其他类型的波束分数320也是可能的。例如,波束分数320可包括信噪比(SNR),其中信号表示关注的语音活动,噪声表示其他不需要的信号诸如非语音声学信号以及不期望的语音信号。SNR可被计算为表示关注的语音信号的第一量(例如,振幅、功率等)与表示噪声的第二量(例如,振幅、功率等)的比率。在一些具体实施中,波束分数计算器315可执行KWS过程以生成软KWS分数作为波束分数320。KWS过程可用于确定特定短语或一组一个或多个“关键词”是否存在于对应于特定波束的数据流中。在一些具体实施中,如果存在该短语或该组关键词,则可设置标记,并且可基于是否设置标志来采取一个或多个动作。在可商购获得的系统中使用的关键词或短语的示例包括:用于由加利福尼亚州山景城(Mountain View,CA)的谷歌公司(Google Inc.)制造的Google和其他驱动设备的“OK Google”、用于由加利福尼亚州库比蒂诺(Cupertino,CA)的苹果公司(Apple Inc.)制造的支持的设备的“Hey Siri”、用于由华盛顿州西雅图市(Seattle,WA)的亚马逊公司(Amazon Inc.)制造的和FIRE设备的“Alexa”。波束分数计算器315可被配置为使用软KWS过程来生成波束分数320,该波束分数指示特定短语存在于对应于波束的数据中的可能性。此类波束分数可被称为软KWS分数,其然后可被使用,类似于软VAD分数用于选择一个或多个关注方向的方式。在识别一个或多个关注方向时,波束控制引擎325可被配置为选择由固定波束形成器生成的波束或使动态波束形成器针对一个或多个关注方向生成动态波束。

在一些具体实施中,波束分数计算器315可被配置为计算软VAD分数和软KWS分数两者。在此类情况下,波束控制引擎325可基于两者分数来控制波束形成器。例如,在存在多个人类说话者的环境中,软KWS分数可用于确定特定说话者的初始方向,并且然后如果特定说话者改变位置,则基于该特定用户的语音计算的软VAD分数可用于根据该特定用户的位置来控制波束形成器。在一些具体实施中,一旦识别出特定说话者(使用例如软KWS分数),就可识别特定说话者语音的一个或多个特征以用于确定在计算软VAD分数时要使用哪个语音。在一些具体实施中,可基于软KWS分数来选择初始方向或波束,并且然后软VAD分数可用于“沿循”对应于初始方向的语音,即使该语音更改位置也是如此。在一些具体实施中,在软VAD分数以及软KWS分数两者均可用的情况下,可将针对每个波束的组合分数计算为两个分数的加权组合。在一些具体实施中,一个分数可相比另一分数更为优选。例如,在未检测到关键词的情况下(如所指出的那样,例如,由于软KWS分数不存在,或由于软KWS分数低于阈值)可使用软VAD分数,但当检测出关键词时软KWS分数可相比软VAD分数更为优选。

图4是根据本文所述的技术的用于捕获定向音频的示例过程400的流程图。在一些具体实施中,可至少部分地由以上描述的音频处理引擎120执行过程400。过程400的操作包括接收表示由麦克风阵列捕获的音频的信息(402)。该信息可包括多个数据集,每个数据集表示根据灵敏度图案沿相对于麦克风阵列的对应方向捕获的音频信号。灵敏度图案可基本上类似于由波束形成器诸如固定波束形成器或动态波束形成器生成的波束。在一些具体实施中,波束形成器处理由麦克风阵列捕获的信号以生成包括多个数据集的信息并且将该信息提供给音频处理引擎120。在一些具体实施中,波束形成器是音频处理引擎的一部分。

过程400的操作也包括针对多个数据集中的每一者计算指示从对应方向捕获的人类语音活动的一个或多个量(404)。在一些具体实施中,一个或多个量可由以上描述的波束分数计算器315计算。指示人类语音活动的一个或多个量可包括例如人类语音活动在针对对应方向的数据集中表示的音频信号中的可能性分数。此类可能性分数可例如在语音活动检测器的帮助下进行计算。指示人类语音活动的一个或多个量可也包括信噪比(SNR),其中信号是关注的语音活动,噪声是其他不需要的信号(包括非语音声学信号以及不期望的语音信号)。SNR可被计算为表示关注的语音信号的第一量(例如,振幅、功率等)与表示噪声的第二量(例如,振幅、功率等)的比率。在一些具体实施中,指示人类语音活动的一个或多个量可基本上类似于以上描述的波束分数320,包括例如软VAD分数和软KWS分数。在一些具体实施中,指示人类语音活动的一个或多个量可表示在针对对应方向的数据集中表示的音频信号中存在关键词的可能性分数。

过程400包括至少基于针对多组多个数据集计算的一个或多个量来生成表示从特定方向捕获的音频的定向音频信号(406)。在一些具体实施中,生成定向音频信号包括选择多个数据集中的一个。例如,如果固定波束形成器用于生成多个数据集,则生成定向音频信号可包括选择由固定波束形成器生成的多个数据集中的一个。在一些具体实施中,生成定向音频信号可包括使动态波束形成器根据针对特定方向生成的灵敏度图案来捕获音频。

根据针对特定方向生成的灵敏度图案捕获的音频可用于各种目的。在一些具体实施中,基于捕获的音频生成的信号可用于各种语音处理应用中,该各种语音处理应用包括例如语音识别、说话者识别、说话者验证或另外的语音分类。在一些具体实施中,执行过程400的设备(例如,音频处理引擎120或包括音频处理引擎的另外设备或装置)可包括语音处理引擎以实现上述语音处理应用中的一个或多个。在一些具体实施中,执行过程400的设备可将基于捕获的音频的信息传输到提供语音处理服务的一个或多个远程计算设备(例如,与基于云的系统相关联的服务器)。在一些具体实施中,可基于处理根据针对特定方向生成的灵敏度图案捕获的音频来生成用于操作语音激活设备的一个或多个控制信号。

本文所述的功能或其部分,以及其各种修改(下文称为“功能”)可至少部分地经由计算机程序产品实现,例如在信息载体中有形实施的计算机程序,诸如一个或多个非暂态机器可读介质或存储设备,用于执行,或控制一个或多个数据处理装置,例如可编程处理器、计算机、多个计算机和/或可编程逻辑部件的操作。

计算机程序可以任何形式的编程语言被写入,包括编译或解释语言,并且它可以任何形式部署,包括作为独立程序或作为模块、部件、子例程、或适于用在计算环境中的其他单元。计算机程序可被部署在一个计算机上或在一个站点或多个站点分布以及通过网络互联的多个计算机上执行。

与实现全部或部分功能相关联的动作可由执行一个或多个计算机程序的一个或多个可编程处理器执行,以执行校准过程的功能。功能的全部或部分可被实现为专用目的逻辑电路,例如FPGA和/或ASIC(专用集成电路)。在一些具体实施中,功能的至少一部分可还在浮点或固定点数字信号处理器(DSP)上执行,诸如由模拟设备公司(Analog DevicesInc)开发的超级哈佛架构单片机(SHARC)。

适用于执行计算机程序的处理设备包括例如通用微处理器和专用微处理器两者,以及任何类型的数字计算机的任何一个或多个处理器。一般来讲,处理器将接收来自只读存储器或随机存取存储器或两者的指令和数据。计算机的部件包括用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。

本文中未具体描述的其他实施方案和应用也在以下权利要求书的范围内。例如,并联前馈补偿可与反馈路径中的可调谐数字滤波器组合。在一些具体实施中,反馈路径可包括可调谐数字滤波器以及并联补偿方案,以衰减在频率范围的特定部分中生成的控制信号。

本文所述的不同实施方式的元件可组合以形成上文未具体阐述的其他实施方案。可从本文所述的结构去除一些元件而不会不利地影响它们的操作。此外,可将各种独立的元件组合到一个或多个单独的元件中以执行本文所述的功能。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:音频输出控制器、音频输出控制方法以及程序

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!