用于瞬态噪声抑制的自适应能量限制

文档序号:1804303 发布日期:2021-11-05 浏览:10次 >En<

阅读说明:本技术 用于瞬态噪声抑制的自适应能量限制 (Adaptive energy limiting for transient noise suppression ) 是由 约翰·弗雷德里克·林德斯特伦 卡尔·塞缪尔·索宁 于 2020-10-13 设计创作,主要内容包括:本公开描述了用于瞬态噪声抑制的自适应能量限制的方面。在一些方面,自适应能量限制器将音频信号的限制器上限设置为满量程,并接收音频信号的一部分。对于音频信号的该部分,自适应能量限制器确定最大幅度,并用神经网络评估该部分,以提供语音似然性估计。基于最大幅度和语音似然性估计,自适应能量限制器确定音频信号的该部分包括噪声。响应于确定音频信号的该部分包括噪声,自适应能量限制器降低限制器上限,并将限制器上限提供给限制器模块,以有效地限制音频信号的能量的数量。这可以有效地防止音频信号将全能量瞬态噪声带入到会议音频中。(The present disclosure describes aspects of adaptive energy limiting for transient noise suppression. In some aspects, the adaptive energy limiter sets a limiter upper limit for the audio signal to a full scale and receives a portion of the audio signal. For the portion of the audio signal, the adaptive energy limiter determines a maximum amplitude and evaluates the portion with a neural network to provide a speech likelihood estimate. Based on the maximum amplitude and the speech likelihood estimate, the adaptive energy limiter determines that the portion of the audio signal includes noise. In response to determining that the portion of the audio signal includes noise, the adaptive energy limiter reduces the limiter upper limit and provides the limiter upper limit to the limiter module to effectively limit the amount of energy of the audio signal. This may effectively prevent the audio signal from carrying full energy transient noise into the conference audio.)

用于瞬态噪声抑制的自适应能量限制

背景技术

音频会议或视频会议通常包括许多参与者,其中一个或几个参与者在任何给定时间活跃发言。当不发言时,其它参与者通常会产生噪声,这些噪声可能会被他们的麦克风拾取,并馈入到会议的音频中,使所有参与者都听到。会议参与者产生的噪声示例可能包括在键盘上打字、将咖啡杯放在桌子上、翻纸、移动椅子、关门等等。这些噪声中的一些具有瞬态特性,即,不同于静态或反复出现的噪声,通过常规的降噪技术不能抑制这些具有瞬态特性的噪声。此外,瞬态噪声的音频能量通常与会议参与者的话音相关联的能量水平一样高或更高。因此,这些瞬态噪声通常作为不受抑制的能量被馈入到会议音频中,从而导致可能打扰发言者和听众、压制发言者的语音、触发残余回声抑制、错误地触发音频或视频切换方案等的噪声。

发明内容

本公开描述了用于瞬态噪声抑制的自适应能量限制的装置和技术。在一些方面,一种用于自适应能量限制的方法包括将音频信号的限制器上限设置为满量程,并接收音频信号的一部分。然后,该方法确定音频信号的该部分的最大幅度,并用神经网络评估音频信号该部分,以提供对音频信号的该部分的语音似然性估计。基于最大幅度和语音似然性估计,该方法确定音频信号的该部分包括噪声。响应于确定音频信号的该部分包括噪声,该方法降低限制器上限。限制器上限然后被提供给音频信号要经过的限制器模块,以限制音频信号的能量的数量。通过这样做,可以防止音频信号将全能量瞬态噪声携带到会议音频或后续音频过程(例如用于视频会议的发言者选择)中。

在其它方面,一种装置包括网络接口和限制器模块,该网络接口用于通过数据网络接收或发送音频信号,该限制器模块用于限制音频信号的能量。该装置还包括基于硬件的处理器和存储介质,该基于硬件的处理器与数据接口相关联,该存储介质存储用于自适应能量限制器的处理器可执行指令。自适应能量限制器被实施为将音频信号的限制器上限设置为满量程,并且从该音频信号,提供对应于来自音频信号的音频持续时间的音频的帧。然后,自适应能量限制器为该音频的帧确定音频信号的最大幅度,并用神经网络评估该音频的帧,以提供对该音频的帧的语音似然性估计。基于最大幅度和语音似然性估计,自适应能量限制器确定该音频的帧包括噪声。自适应能量限制器然后响应于该音频的帧包括噪声的确定降低限制器上限,并且向限制器模块提供限制器上限以降低音频信号的能量。

在其它方面,一种系统包括基于硬件的处理器和存储介质,该基于硬件的处理器与音频接口或数据接口可操作地相关联,该存储介质存储用于自适应能量限制器的处理器可执行指令,其中通过音频接口或数据接口接收音频信号。自适应能量限制器被实施为将音频信号的限制器上限设置为满量程,并且基于音频信号生成对应于来自音频信号的音频持续时间的音频的帧。然后,自适应能量限制器为该音频的帧确定音频信号的最大幅度,并用神经网络评估该音频的帧,以提供对该音频的帧的语音似然性估计。基于最大幅度和语音似然性估计,自适应能量限制器确定该音频的帧包括噪声。自适应能量限制器然后响应于该音频的帧包括噪声的确定降低限制器上限,并且向限制器模块提供限制器上限以降低音频信号的能量。

用于瞬态噪声抑制的自适应能量限制的一个或多个实施方式的细节在附图和以下描述中阐述。从说明书和附图以及权利要求中,其它特征和优点将是显而易见的。提供该概述是为了介绍在详细描述和附图中进一步描述的主题。因此,该概述不应被认为描述了基本特征,也不应被用来限制所要求保护的主题的范围。

附图说明

本说明书参考以下附图描述了用于瞬态噪声抑制的自适应能量限制的装置和技术。在所有附图中,相同的附图标记用于指代相同的特征和组件:

图1示出了示例会议环境,其中可以实施用于瞬态噪声抑制的自适应能量限制的各个方面。

图2示出了根据一个或多个方面的包括自适应能量限制器的相应实例的用户设备和会议设备的示例设备图。

图3示出了能够实施自适应能量限制的各个方面的组件的示例配置。

图4示出了根据一个或多个方面的用于自适应地限制音频信号的能量的示例方法。

图5A和图5B示出了基于由启用神经网络的语音活动检测器提供的瞬时语音似然性来缩放音频信号的示例方法。

图6示出了根据一个或多个方面限制音频信号的能量的示例曲线图。

图7示出了根据一个或多个方面的用于实施瞬态噪声抑制的自适应能量限制的组件的系统图。

具体实施方式

概述

音频会议或视频会议通常包括许多参与者,其中一个或几个参与者在任何给定时间活跃发言。当不发言时,其它参与者通常会产生噪声,这些噪声可能会被他们的麦克风拾取,并馈入到会议的音频中,使所有参与者都听到。会议参与者产生的噪声示例可能包括在键盘上打字、将咖啡杯放在桌子上、翻纸、移动椅子、关门等等。这些噪声中的一些具有瞬态特性,即,不同于静态或反复出现的噪声,通过常规的降噪技术不能抑制这些具有瞬态特性的噪声。此外,瞬态噪声的音频能量通常与会议参与者的话音相关联的能量水平一样高或更高。因此,这些瞬态噪声通常作为原始的不受抑制的能量被馈入到会议音频中,从而导致可能打扰发言者和听众、压制发言者的语音、触发残余回声抑制、错误地触发音频或视频切换方案等的噪声。

因为常规的降噪技术无法减轻瞬态噪声,所以会有多种负面后果影响会议呼叫参与者。通常,不受抑制的噪声会传到呼叫的另一端,干扰发言者和其它听众。当该不受抑制的噪声被传到呼叫中的当前发言者时,还可能触发残余回声抑制,该残余回声抑制减弱了(dampens)发言者的语音或影响后端发言者选择方案,例如top-3过滤(例如,传递具有最大能量的三个呼叫参与者的相应音频)。此外,会议系统可能错误地将有噪声的参与者优先于活跃发言的参与者,或者通过将发言者的视频馈送切换到产生噪声的参与者而中断视频切换方案。

一些常规技术涉及让当前没有发言的参与者手动静音他们相应的麦克风。但是,静音解决方案是不受欢迎且不方便的,因为这些解决方案会导致不自然的对话流,并且当参与者在发言前忘记取消麦克风静音时,通常会导致问题。在许多参与者轮流发言的大型会议室中,手动静音麦克风尤其令人沮丧,因为静音会非常频繁地发生。例如,每当有人想要与其它参与者讲话时,该人需要伸手去够遥控器或设备上的按钮来取消麦克风静音,然后还要记得在之后再次静音。因此,依赖于来自所有参与者的及时手动交互的手动静音是不方便的,并且在抑制瞬态噪声方面通常是无效的。

其它常规技术通常也不能防止瞬态噪声进入会议音频,或者以对呼叫流或品质的其它损害为代价来防止瞬态噪声进入会议音频。例如,一些电话包括噪声门,除非音频流中存在强大的能量,否则噪声门自动静音。但是,这些噪声门会导致品质不稳定的音频,并经常让高能噪声传入会议音频。其它降噪技术仅适用于平稳或轻微非平稳噪声(例如,风扇、交通、背景嘈杂音),而不适用于突发、非恒定且高能量的瞬态噪声。在其它情况下,键盘抑制会预测键盘声音何时出现,并选择性地抑制这些声音。这种抑制仅限于在主持会议的同一台膝上型计算机上打字的情况,并且仅适用于键盘噪声。因此,用于会议呼叫的常规噪声抑制技术不能抑制或限制瞬态噪声,而这种瞬态噪声经常干涉呼叫流和品质。

本文献描述了用于瞬态噪声抑制的自适应能量限制的装置和技术。如上所描述,会议呼叫的参与者可能会产生瞬态噪声,当允许该瞬态噪声进入会议音频时,通常会打扰发言者和其它参与者。瞬态噪声还可能干涉或降级对音频和视频特征的会议服务过程,例如呈现给其它参与者的音频流或视频流选择(例如,活跃发言者)。通常,自适应能量限制的方面基于参与者最近产生噪声或话音的历史来管理或控制参与者被允许贡献的最大能量水平。在各个方面,用户设备或会议系统的自适应能量限制器将音频信号的限制器上限设置为满量程,并接收音频信号的一部分。对于音频信号的该部分,自适应能量限制器确定最大幅度,并用神经网络评估该部分,以提供语音似然性估计。基于最大幅度和语音似然性估计,自适应能量限制器确定音频信号的该部分包括噪声。响应于确定音频信号的该部分包括噪声,自适应能量限制器降低限制器上限,并将限制器上限提供给限制器模块,以有效地限制音频信号的能量的数量。通过这样做,自适应能量限制器可以防止音频信号携带全能量瞬态噪声进入到会议音频或后续音频过程(例如视频会议的发言者选择)中。

举例来说,如果参与者发出噪声,自适应能量限制器将会逐渐降低允许传过的能量上限。通常,这将导致在未来由参与者产生的突然噪声变得不那么具有侵入性,并且更容易被其它会议服务算法忽略,例如用于视频会议的发言者选择。在一些方面,在大约10到15秒的中能或高能量噪声之后,音频能量的上限降低到最小水平,在此之后来自该参与者的音频能量(例如,噪声能量)将会非常有限。当该参与者确实开始发言时,自适应能量限制器可以将音频能量的上限重置为最大水平(例如,话音水平或满量程),以让该参与者的话音音频传到其它会议参与者。自适应能量限制器这样做得很快,使得由自适应能量限制器提供的瞬态噪声抑制对会议呼叫的话音音频几乎没有有害影响。替代地或附加地,如果参与者无声、安静或发出低能背景噪声,则自适应能量限制器可以维持或保持音频能量的上限为高,以便当参与者开始发言时不影响话音音频。

通常,用于瞬态噪声抑制的自适应能量限制的方面限制了瞬态噪声的能量,而不损害会议呼叫或语音呼叫的话音音频品质。例如,通过在音频或视频会议场景的上下文中使用噪声和/或话音的长期统计学性质,自适应能量限制器可以显著减少瞬态噪声的量或影响,同时最小程度地影响话音。换句话说,自适应噪声限制器不试图从并发噪声和话音中移除噪声,这原本是当试图移除噪声(特别是可能与话音混淆的噪声)时常规降噪技术的典型问题。

在自适应能量限制的各个方面,音频信号的幅度被测量一段时间,并且与统计学性质的其它所描述的利用一起,音频能量的限制器上限被配置成防止或抑制瞬态噪声进入会议呼叫。在一些情况下,实施神经网络来提供关于音频信号的统计学性质。根据各个方面,小的神经网络对于这样的任务具有足够的准确度,使得不需要特殊的加速硬件,并且话音品质不会受到神经网络或相关联的语音活动检测器(VAD)的准确度限制的影响。替代地或附加地,可以实施自适应能量管理器,以基于这里描述的音频信号评估来调整或管理音频信号的增益或子带增益。

这样,可以实施能量限制(或能量管理)的各个方面,以限制或减少音频信号能够通过会议呼叫带入到会议服务中或带出到会议呼叫参与者的能量的数量。换句话说,对于每个参与者,自适应能量限制器可以跟踪随着参与者继续制造噪声而累积的噪声债务。随着噪声债务的累积(或能量限制的降低),自适应能量限制器阻止或不允许该参与者将大量能量发送到呼叫中,直到该参与者证明他们正在发送话音(例如,通过发送统计学上的大量的话音音频)。自适应能量限制器还可以通过使用(例如,经由神经网络)瞬态噪声(例如,高能量)、元音(例如,中能量)和辅音(例如,低能量)的统计学能量差来有效地抑制瞬态噪声,以允许话音(例如,辅音)即使在瞬态噪声被降低20dB或更多时也在感知上不受影响地通过。自适应能量限制的方面可以通过使用音频信号能量的限制器上限和/或通过管理用于处理参与者的音频信号的子带增益来实现这种效果。

尽管任意数量的不同环境、系统、设备和/或各种配置可以实施所描述的用于瞬态噪声抑制的自适应能量限制的技术和装置的特征和概念,但是对于用于瞬态噪声抑制的自适应能量限制的各方面在以下示例环境、设备、配置、方法和系统的上下文中进行了描述。

示例环境

图1示出了示例环境100,其中可以实施用于瞬态噪声抑制的自适应能量限制的各个方面。在示例环境100中,用户设备102可以通过会议系统104传送音频和/或视频,其中对系统的访问由会议服务106(例如,基于云的会务或会议服务)提供。该示例中的用户设备102包括智能手机102-1、膝上型计算机1022、平板计算机102-3、智能手表102-4、电话102-5、会议桥102-6和视频会议显示器102-7。尽管被示为设备,但是用户设备可以被实施为任何合适的计算或电子设备,例如移动通信设备、计算设备、客户端设备、娱乐设备、游戏设备、移动游戏控制台、个人媒体设备、媒体回放设备、充电站、高级驾驶员辅助系统(ADAS)、销售点(POS)交易系统、健康监测设备、无人机、相机、可穿戴智能设备、导航设备、移动互联网设备(MID),具有无线因特网接入和浏览能力的因特网家用电器、物联网(IoT)设备、第五代新无线电(5G NR)用户装备和/或其它类型的用户设备。

通常,用户设备102的相应用户可以通过与会议服务106的数据或语音连接交换的音频和/或视频数据而与其它用户交互。在一些方面,参与由会议服务106促成的会议呼叫实例的每个用户设备102通过与会议服务的相应连接提供音频信号108和/或视频信号。例如,任何或所有用户设备102可以提供对应于由该设备的麦克风捕获的音频的音频信号108(或音频数据)的通道。在会议呼叫期间,参与者通常轮流发言,而其它不活跃或不发言的参与者则聆听或观看。然而,这些参与者中的一些参与者可能会选择移动椅子、写电子邮件或在计算机上做笔记。这种移动和打字活动可能会产生瞬态噪声,这种瞬态噪声可能包括具有短的脉冲状信号特性的声音或声波。瞬态噪声的其它潜在来源可以包括来自计算机鼠标的点击噪声、在桌子或工作表面上移动物品、关门、电话按键或电话铃声等。例如,如果两个参与者(每个参与者在会议或语音呼叫的相应端点处)位于开放式办公室中彼此靠近,参与者中的一个使用智能手机102-1,另一个使用膝上型计算机102-2,当使用膝上型计算机102-2的参与者开始打字时,可能在两个端点处都产生潜在的瞬态噪声。

在用于瞬态噪声抑制的自适应能量限制方面,会议服务106包括自适应能量限制器110(自适应限制器110)的实例,该自适应能量限制器可以限制或管理音频信号的能量以抑制各种形式的瞬态噪声。尽管参考会议服务106进行了说明,但是任何或所有用户设备102也可以包括自适应能量限制器110的实例。因此,自适应能量限制器110可以限制或管理发送到会议服务106、由会议服务106处理或由会议服务发送到其它用户设备102的音频信号的能量。自适应能量限制器110与神经网络112相关联或者可以访问神经网络112,该神经网络可以被实施为递归神经网络(RNN)。在该示例中,神经网络112包括语音活动检测器114(VAD 114),该语音活动检测器可以被配置为提供音频信号或音频的帧的语音似然性的指示。例如,自适应能量限制器110可以使用语音活动检测器114来获得音频的帧的语音似然性的指示。这种指示对于确定音频信号或音频的帧更可能是话音还是噪声可能是有用的。替代地或附加地,语音活动检测器114可以被实施为启用神经网络的语音活动检测器,该启用神经网络的语音活动检测器使用神经网络来确定或提供音频信号或音频帧的样本的语音似然性测量。

图2在200处示出了可以提供会议服务106的用户设备102和会议设备202的示例设备图。尽管每个设备被示出具有自适应能量限制器的实例,但是自适应能量限制的方面可以在一个设备、两个设备上实施,或者在设备之间协同实施。例如,用户设备102的自适应能量限制器110可以与会议设备202的自适应能量限制器110或神经网络112交互,以在用户设备102处设置限制器上限值。在示例性配置中示出,用户设备102或会议设备202还可以包括为了清楚或视觉简洁起见而从图2中省略的附加功能、组件或接口。替代地或附加地,用户设备102或会议设备202的任何相应组件可以整体或部分地实施为与其它组件集成或分离的硬件逻辑或电路。

在该示例中,用户设备102包括网络接口204,以用于通过各种类型的网络或通信协议交换数据,例如音频信号或视频流。通常,网络接口204可以被实施为用于发送或接收数据或信号的串行和/或并行接口、无线接口、有线接口或调制解调器中的任何一个或多个。在一些情况下,网络接口204提供用户设备102与通信网络之间的连接和/或通信链路,通过该连接和/或通信链路,其它用户设备102和会议设备202传送用于会议媒体通信的音频信号108、视频数据等。用户设备102还包括至少一个麦克风206,以用于从用户设备102的环境中捕获音频(例如,话音、声音或噪声),以及至少一个扬声器208,以用于基于用户设备102的音频数据生成音频或声音。在一些方面,麦克风捕获由用户生成的音频,例如话音,并将音频信号提供给用户设备102的音频电路(未示出),用于编码或其它信号处理。

用户设备102还包括处理器210和计算机可读存储介质212(CRM212)。处理器210可以是由多种材料例如硅、多晶硅、高介电常数电介质等组成的单核处理器或多核处理器。计算机可读存储介质212被配置为存储器,并因此不包括暂时信号或载波。CRM 212可以包括任何合适的存储器或存储设备,例如随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、非易失性随机存取存储器(NVRAM)、只读存储器(ROM)或能够用于存储用户设备102的设备数据214的闪存。

设备数据214可以包括用户数据、多媒体数据(例如,音频数据或视频数据)、应用216(例如,媒体会议客户端应用)、用户接口218和/或用户设备102的操作系统,它们能够由处理器210访问或执行,以使得能够进行音频或视频会议和/或与用户设备102的其它用户交互。用户接口218可以被配置成接收来自用户设备102的用户的输入,例如接收来自用户的输入,该输入可以定义和/或促进用于瞬态噪声抑制的自适应能量限制的一个或多个方面。用户接口218可以包括经由触摸输入接收输入信息的图形用户接口(GUI)。在其它情况下,用户接口218包括经由可听输入接收输入信息的智能助手。替代地或附加地,用户设备102的操作系统可以被维护为CRM 212上的固件或应用,并由处理器210执行。

CRM 212还包括自适应能量限制器110、神经网络112和语音活动检测器114。在各个方面,自适应能量限制器110用神经网络112和/或语音活动检测器114(VAD 114)来确定音频信号是否包括话音或噪声。基于该确定,自适应能量限制器110可以降低限制器上限,以限制噪声的能量,否则如果允许噪声以全能量通过,噪声会打扰会议呼叫或语音呼叫。自适应能量限制器110、神经网络112和/或语音活动检测器114的实施方式和使用是变化的,并且在整个公开中进行了描述。

用户设备102的方面和功能可以经由通过至少一个应用编程接口220(API 220)呈现的操作系统控制来管理。在一些方面,自适应能量限制器110或用户设备102的应用访问用户设备102的API 220或API服务,以控制音频或视频会议应用的方面和功能。例如,自适应能量限制器110可以访问用户设备102的低级音频处理器设置,以实施自适应能量限制的方面,例如设置最小限制器上限水平、调整音频增益设置、管理进入和外出音频信号的相应信号水平等。用户设备102的CRM 212还可以包括用户设备管理器222,该用户设备管理器可以整体或部分地实施为与用户设备102的其它组件集成或分离的硬件逻辑或电路。在至少一些方面,用户设备管理器222配置用户设备102的麦克风206和其它音频电路,以实施这里描述的瞬态噪声抑制技术。

用户设备102还包括显示器224,用于向用户显示和/或提供信息或视频馈送。例如,通过显示器224,用户设备102可以向用户提供来自由会议服务106启用的视频会议的视频馈送。替代地或附加地,用户设备102还可以包括相机(未示出),以使得能够从用户设备102生成用于多媒体会议的视频馈送。

会议设备202可以被实施为计算设备、服务器、基于云的硬件或用来向用户设备102提供会议服务106的其它资源。通常,会议设备202可以充当会议呼叫实例的多媒体数据或流的收集器和/或仲裁器。这样,会议设备202可以实施关于从用户设备102接收的入站(inbound)音频数据、内部多媒体处理操作或作为会议或语音呼叫的一部分发送到用户设备102的出站(outbound)音频数据的自适应能量限制的方面。

在该示例中,会议设备202包括网络接口226,用于通过各种类型的网络或通信协议交换数据,例如音频信号或视频流。通常,网络接口226可以被实施为用于发送或接收数据或信号的串行和/或并行接口、无线接口、有线接口或调制解调器中的任何一个或多个。在一些情况下,网络接口226提供会议设备202与通信网络之间的连接和/或通信链路,用户设备102通过该通信网络传送音频信号108、视频数据等以进行会议媒体通信。

在该示例中,会议设备202还包括处理器228或计算资源,以及计算机可读存储介质230(CRM 230)。计算机可读存储介质230被配置为存储器,因此不包括暂时信号或载波。CRM 230可以包括能够用于存储会议设备202的多媒体数据232的任何合适的存储器或存储设备,例如RAM、SRAM、DRAM、NVRAM、ROM或闪存。

会议设备202的多媒体数据232可以包括音频数据、音频信号或视频数据,这些数据有助于通过会议服务106的实例进行会议呼叫。多媒体数据232和会议服务106以及会议设备202的其它应用(例如,媒体会议服务器应用)和/或操作系统能够由处理器228访问或执行,以使得能够进行多个用户设备102的音频或视频会议。

在该示例中,CRM 230还包括自适应能量限制器110、神经网络112和语音活动检测器114的实例。如上面所提到的,自适应能量限制的方面可以由用户设备102、会议设备202或这两个设备的组合来实施。在各个方面,自适应能量限制器110用神经网络112和/或语音活动检测器114来确定一个或多个音频信号是否包括话音或噪声。基于该确定,会议设备202的自适应能量限制器110可以降低相应音频信号或音频馈送的限制器上限,以限制噪声能量,否则如果允许噪声以全能量通过,该噪声能量将会打扰会议呼叫或语音呼叫。自适应能量限制器110、神经网络112和/或语音活动检测器114的实施方式和使用是变化的,并且在整个公开中进行了描述。

会议设备202的方面和功能可以经由通过API库234的至少一个应用编程接口(API)呈现的系统控制来管理。在一些方面,自适应能量限制器110或会议设备202的应用访问API库234的API或库,以实施瞬态噪声限制的方面。例如,自适应能量限制器110可以实施为基于网络的实时通信库的一部分或与其结合。

图3在300处示出了能够实施自适应能量限制的各个方面的组件的示例配置。通常,图3的组件可以体现在用户设备102、会议设备202或它们的组合上。在一些方面,300处示出的组件被实施为一个设备的集成组件(例如,片上系统)和/或与存储处理器可执行指令的存储器相结合,以提供一个或多个组件的相应功能。因此,图3中所示的组件的配置是非限制性的,并且可以在任何合适的设备、设备的组合和/或作为与固件或软件相结合的硬件(例如,逻辑电路)来实现,以提供所描述的功能。

在一些方面,音频信号108被分割或分成对应于音频信号的相应部分的音频帧302。例如,音频帧302中的每一个可以对应于音频信号108的音频(例如,话音和/或噪声)的一部分、片段或持续时间。在一些情况下,音频帧302或音频的帧对应于音频的大约5毫秒到50毫秒的范围(例如,10毫秒的音频)。替代地或附加地,音频帧302可以从时域转换到频域,例如以使得能够进行频谱分析或其它基于频域的处理。

如图3所示,示例组件包括幅度检测器304和神经网络112,神经网络112包括或提供用于处理音频帧302的语音活动检测器114。通常,幅度检测器304测量或确定对应于音频帧的音频信号108的幅度。例如,幅度检测器304可以生成或提供音频帧或音频信号部分的最大幅度306的指示。在一些方面,自适应能量限制器110基于多个最大幅度306来确定或更新音频信号108或音频帧302的平均幅度308(例如,移动平均值)。

神经网络112可以被实施为在用户设备102的处理器上操作以提供音频帧302的语音似然性估计的网络。替代地或附加地,神经网络112可以被实施为递归神经网络(RNN)或具有存储器的机器学习模型(例如,RNNoise)。在一些方面,语音活动检测器114为音频帧中的一个或多个音频帧提供瞬时语音似然性310(IVL 310)。尽管被描述为启用神经网络的语音活动检测器,但是也可以使用其它类型的语音活动检测或语音分类。

例如,神经网络112和/或语音活动检测器114可以被实施为神经网络(例如,深度神经网络(DNN)),其包括输入层、输出层以及位于神经网络的输入层与输出层之间的一个或多个隐藏中间层。神经网络的任何或所有节点可以继而在神经网络的层之间完全连接或部分连接。语音活动检测器114可以用或通过任何类型的神经网络例如包括GoogleNet或类似卷积网络的卷积神经网络来实施。替代地或附加地,语音活动检测器114或机器学习的语音活动检测模型可以包括任何合适的递归神经网络(RNN)或其任何变体。通常,由自适应能量限制器采用的神经网络112和/或语音活动检测器114还可以包括任何其它监督学习、无监督学习、强化学习算法等。

在各个方面,与自适应能量限制器110相关联的神经网络112和/或语音活动检测器114可以被实施为具有节点之间的连接的递归神经网络(RNN),其中这些节点形成一个循环,以保留来自输入数据序列的前一部分的信息用于输入数据序列的后一部分(例如,由参与者生成的话音或噪声的前一音频的帧)。在其它情况下,神经网络112被实施为前馈神经网络,该前馈神经网络在输入数据序列之间不形成循环的节点之间具有连接。替代地,神经网络112可以实施为具有多层感知器的卷积神经网络(CNN),其中特定层中的每个神经元与相邻层的所有神经元连接。在自适应能量限制的各个方面,神经网络112和/或语音活动检测器114可以使用由参与者先前对噪声或话音的确定来预测或确定音频信号的后续帧是否包括可以被抑制的话音或噪声。

通常,神经网络112可以使得能够确定快速收敛到高统计学置信度的语音似然性估计,尤其是在存在元音的情况下。回顾一下,瞬态噪声通常比元音具有更强的全频带能量,并且比话音中的辅音更是强。因此,在利用由神经网络112提供的统计学置信度时,自适应能量限制器能够运用参与者的历史噪声或话音模式来区分噪声、话音的元音和辅音。换句话说,话音和噪声往往是突发的,也就是说,最近发言的参与者更有可能在不久的将来(例如,少于一秒)继续发言。替代地,最近产生噪声的参与者将来更有可能产生额外的噪声。在一些情况下,由自适应能量限制器引入的任何滞后对于会议呼叫参与者来说是察觉不到的,然而神经网络112能够在回想(retrospect)时(例如,几个100毫秒)比实时更准确地确定帧或信号的音频是噪声还是话音。

基于瞬时语音似然性310中一个或多个,自适应能量限制器110可以确定音频信号108或音频302的聚合话音似然性估计312(ASLE312)。聚合话音似然性估计312可以基于当前聚合话音似然性估计312和/或用于检测语音或噪声的阈值来配置或更新。例如,在一些情况下,自适应能量限制器110响应于瞬时语音似然性310超过当前聚合话音似然性估计312以及超过语音检测的阈值,增加聚合话音似然性估计312。在其它情况下,自适应能量限制器110可以响应于瞬时语音似然性310不超过当前聚合话音似然性估计312或不超过语音检测的阈值,降低聚合话音似然性估计312。

自适应能量限制器110还包括或提供限制器上限314,通过该限制器上限314可以限制音频信号108的能量,例如抑制瞬态噪声的能量。通常,限制器上限314被提供给音频信号限制器模块316,音频信号108在传输到其它音频组件或过程之前通过该音频信号限制器模块。音频信号限制器模块316可以按照由自适应能量限制器110设置的限制器上限314所规定的满量程(例如,未减小或未限制)或减小的量程或减小的幅度来传递音频信号。在图3的上下文中,基于由自适应能量限制器110提供的限制器上限314,音频信号限制器模块316限制或降低音频信号108的能量,以提供或生成能量受限的音频信号318。在各个方面,自适应能量限制器110限制被确定为噪声或包括噪声的音频信号的能量,以便抑制噪声和可能的未来噪声。能量受限的音频信号318然后可以在被包括在与音频或视频会议呼叫的其它参与者共享的会议音频322中之前,被发送到基于音频的处理320,用于后续处理或用于其它特征(例如,发言者选择)。

示例方法

根据用于瞬态噪声抑制的自适应能量限制的一个或多个方面,参考图4、图5A和图5B描述了示例方法400和500。通常,方法400和500示出了以这里所示的操作顺序或组合执行的操作(或动作)集合,但不一定限于此。此外,可以重复、组合、重新组织、跳过或链接这些操作中的一个或多个操作中的任何一个,以提供广泛的附加和/或替代方法。在以下讨论的部分中,可以参考图1的示例会议环境100、图2的示例设备、图4的示例组件、图7的示例系统和/或图1中详述的实体,参考这些仅作为示例。本公开中描述的技术和装置不限于在一个设备上操作的一个实体或多个实体的实施例或性能。

方法400是由用户设备102或会议设备202执行的方法。方法400限制音频信号的能量的数量,以减轻与会议环境或其它音频过程(例如,视频会议的发言者选择)中的瞬态噪声相关联的影响。在一些方面,方法400的操作由用户设备102或会议设备202的自适应限制器110、神经网络112和/或语音活动检测器114来实施或利用它们来实施。

在402处,音频信号的限制器上限被设置为满量程。在一些情况下,限制器上限或限制值在自适应能量限制器的初始化时或者响应于参与者的话音而被设置为满量程,其中对于参与者的话音,正在处理音频信号以抑制噪声。

在404处,接收音频信号的一部分。音频信号的该部分可以包括音频的帧、音频帧、音频信号片段等。在某些情况下,音频信号被接收并被分成音频的帧,以供自适应能量限制器进行分析。例如,音频的一帧可以对应于音频的大约5毫秒到50毫秒的范围。替代地或附加地,音频的帧可以从时域转换到频域,以使得能够进行频谱分析或其它基于频域的处理。

在406处,确定音频信号的该部分的最大幅度。可以为对应于音频的帧或音频持续时间(例如,10毫秒)的音频信号的该部分确定最大幅度。在一些情况下,将音频信号的最大幅度与阈值进行比较,以确定参与者是无声的、安静的或以其它方式没有产生噪声。可选地,如果音频信号是安静的或无声的,则方法400可以从操作406返回到操作404。这样,如果无声参与者开始发言和当无声参与者开始发言时,该无声参与者的话音能量将不会减少。

在408处,用神经网络评估音频信号的该部分,以提供语音似然性估计。在一些方面,用神经网络或启用神经网络的语音活动检测器评估音频信号的该部分或音频的帧,以提供音频信号的该部分或该音频帧的瞬时语音似然性。通常,瞬时语音似然性可以指示音频流是更可能是话音还是更可能是噪声,自适应能量限制器将抑制噪声。

在410处,基于最大幅度和语音似然性估计,确定音频信号的该部分包括话音还是噪声。例如,如果音频信号的该部分的最大幅度超过最大幅度的移动平均值(例如,最大平均值加上小的修正值),并且瞬时语音似然性小于0.5或50%(指示噪声),则可以确定音频的该部分包括噪声或者是噪声。替代地,如果音频信号该部分的最大幅度没有超过最大幅度的移动平均值(例如,最大平均值加上小的修正值)或者瞬时语音似然性大于0.5或50%,则可以确定音频该部分不是噪声或者是话音(例如,超过最大平均值并且IVL大于50%)。可选地,如果确定音频信号的该部分是参与者的话音或包括参与者的话音,则方法400可以从操作410返回到操作402。

在412处,响应于确定音频信号的该部分包括噪声,降低音频信号的限制器上限。在一些方面,基于聚合话音似然性估计,限制器上限降低特定速率或量。例如,如果聚合话音似然性估计较高,则上限被少量降低或缓慢地向最小限制器上限值降低。在其它情况下,当聚合话音似然性估计较低时,上限可以大幅度降低,或者快速向最小限制器上限值降低。替代地或附加地,最小限制器上限可以基于聚合话音似然性估计、音频信号的多个部分的相应幅度的平均值或音频信号的多个部分的相应最大幅度的平均值来配置,例如表示被估计为话音的当前能量的一部分。

在414处,限制器上限被提供给音频信号要经过的限制器模块。限制器模块基于限制器上限限制音频信号的能量的数量。通过限制音频信号被允许发送或携带到会议音频环境中的能量,自适应能量限制的方面可以防止全能量瞬态噪声进入会议音频并打扰参与者和/或其它基于音频的过程。

图5A和图5B的方法500是由用户设备102或会议设备202执行的方法。方法500将音频信号缩放到不超过限制器上限,这可以有效地防止音频信号携带全能量瞬态噪声进入到会议音频环境中。在一些方面,方法500的操作由用户设备102或会议设备202的自适应限制器110、神经网络112和/或语音活动检测器114来实施或利用它们来实施。

在502处,音频信号的限制器上限被设置为满量程(例如,1.0或100%)。限制器上限或限制值可以在自适应能量限制器的初始化时被设置为满量程,或者响应于参与者的话音被重置为满量程,对于该参与者的话音,音频信号正被处理以抑制噪声。

在504处,生成对应于音频信号的一部分的音频的帧。在一些情况下,音频信号被接收和/或分离、分割或以其它方式分成音频的帧,以供语音活动检测器和/或自适应能量限制器分析。在其它情况下,可以从音频编解码器或被配置为从音频信号提供帧的其它实体接收音频帧。例如,音频的一帧可以对应于音频的大约5毫秒到50毫秒的范围(例如,10毫秒)。替代地或附加地,音频的帧可以从时域转换到频域,以使得能够进行频谱分析或其它基于频域的处理。

在506处,用启用神经网络的语音活动检测器评估音频的帧,以提供瞬时语音似然性(IVL)。在一些方面,用神经网络或启用神经网络的语音活动检测器评估音频信号的该部分或音频的一帧,以提供音频信号的该部分或音频的该帧的瞬时语音似然性。通常,瞬时语音似然性可以指示音频流更可能是话音还是更可能是噪声,自适应能量限制器将抑制噪声。

在508处,从音频的帧中记录音频信号的最大幅度。可以对于对应于音频的一帧的音频信号持续时间或音频持续时间(例如,10毫秒)确定或记录最大幅度。在一些情况下,将音频信号的最大幅度与阈值进行比较,以确定参与者是无声的、安静的或者以其它方式没有产生噪声。在这种情况下,如果音频信号是安静的或无声的,则方法500可以返回到操作504。

在510处,基于记录的音频的帧的最大幅度,更新音频信号的最大幅度的移动平均值。最大幅度的移动平均值可以对应于任何合适数量的音频帧或音频持续时间,例如大约100毫秒到500毫秒的范围。

如图5B中的512处所示,操作514基于音频的帧的瞬时语音似然性(IVL)来确定聚合话音似然性估计(ASLE)。可以基于当前聚合话音似然性估计和/或用于检测语音(或噪声)的阈值来确定或配置聚合话音似然性估计。在一些情况下,响应于超过当前聚合话音似然性估计和语音检测阈值的瞬时语音似然性,增加聚合话音似然性估计。在其它情况下,响应于不超过当前聚合话音似然性估计或语音检测阈值的瞬时语音似然性,降低聚合话音似然性估计。

在516处,确定最大幅度是否超过移动平均值,并且瞬时语音似然性是否指示音频的帧是噪声。例如,如果音频信号的该部分的最大幅度超过最大幅度的移动平均值(例如,最大平均值加上小的修正值),并且瞬时语音似然性小于0.5或50%(指示噪声),则音频帧可以包括噪声或者是噪声。替代地,如果音频信号该部分的最大幅度没有超过最大幅度的移动平均值(例如,最大平均值加上小的修正值),或者瞬时语音似然性大于0.5或50%,则音频帧可能不包括噪声或者可能主要不是噪声。

可选地,在518处,响应于最大幅度不超过移动平均值和/或瞬时语音似然性不指示音频的帧是噪声,限制器上限不降低。可选地,在520处,基于聚合话音似然性估计(ASLE)降低限制器上限。限制器上限响应于超过移动平均值的最大幅度和指示音频的帧是噪声的IVL而降低。通常,限制器上限降低的量或速率是基于聚合话音似然性估计来确定的。

在522,限制器上限的当前值被提供给限制器模块,以将音频信号缩放到不超过当前值。限制器模块基于限制器上限来缩放通过限制器模块的音频信号的能量的数量。通过缩放或限制音频信号被允许发送或携带到会议音频环境中的能量,自适应能量限制的方面可以防止全能量瞬态噪声进入会议音频并打扰参与者和/或其它基于音频的过程。从操作522,方法500可以返回到操作504,以执行方法500的另一次迭代,从而进一步限制音频信号的能量,重置限制器上限或维持限制器上限。在一些方面,用于自适应能量限制的方法500或过程大约每5毫秒到50毫秒(例如,10毫秒)迭代或重复一次,以提供瞬态噪声的响应抑制。

举例来说,考虑图6,其中曲线图600示出了自适应能量限制的方面。在限制器模块的上下文中,音频信号的能量以满量程602传递,或者被限制到限制器上限的最小值604。在这个示例中,假设音频信号606是从持续产生中高水平噪声(没有话音)的参与者接收的。这里,自适应能量限制器110可以快速限制传递到会议音频环境的音频信号的能量,以防止音频信号606的噪声打扰会议呼叫的其它参与者。

作为另一个示例,考虑曲线图608,其包括会议呼叫的另一个参与者的音频信号610。这里,假设该参与者没有发言,但也没有发出太大的噪声。自适应能量限制器110逐渐限制音频信号610,直到参与者在612处开始发言。响应于检测到话音,自适应能量限制器110在614处将限制器上限重置为满量程602,并且直到参与者在616处停止发言才开始限制音频信号610的能量。

系统

图7示出了示例系统700的各种组件,该示例系统700可以被实施为参考图1至图6描述的任何类型的用户设备102或会议设备202,以实施用于瞬态噪声抑制的自适应能量限制。在一些方面,系统700被实施为用户装备设备或基站的组件或体现在用户装备设备或基站上。例如,系统700可以被实施为基于硬件的组件的系统,例如但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SoC)、系统级封装、复杂可编程逻辑器件(CPLD)、音频编解码器、音频处理器、协处理器、上下文集线器、通信协处理器、传感器协处理器等。

系统700包括实现系统数据704(例如,编码音频数据或音频信号)的有线和/或无线通信的通信设备702。系统数据704或其它系统内容可以包括系统的配置设置、存储在设备上的媒体内容和/或与设备用户相关联的信息。存储在系统700上的媒体内容可以包括任何类型的音频、视频和/或图像数据。系统700包括一个或多个数据输入706,经由该一个或多个数据输入706可以接收任何类型的数据、媒体内容和/或输入,例如人类话语、话音、与雷达场的交互、用户可选输入(显式或隐式)、消息、音乐、电视媒体内容、记录的视频内容以及从任何内容和/或数据源接收的任何其它类型的音频、视频和/或图像数据。

系统700还包括通信接口708,该通信接口可以被实施为串行和/或并行接口、无线接口、网络接口、调制解调器中的任何一个或多个,以及任何其它类型的通信接口。通信接口708提供系统700与通信网络之间的连接和/或通信链路,通过该通信网络,其它电子、计算和通信设备与系统700进行数据通信。

系统700包括一个或多个处理器710(例如,微处理器、控制器等中的任何一个),该一个或多个处理器710处理各种计算机可执行指令以控制系统700的操作,并且使得能够启用用于瞬态噪声抑制的自适应能量限制的技术,或者在其中可以体现上述技术。替代地或附加地,系统700可以用硬件、固件或固定逻辑电路中的任何一个或组合来实施,该硬件、固件或固定逻辑电路结合处理和控制电路来实施,该处理和控制电路总体上在712处标识。尽管未示出,但是系统700可以包括耦合设备内各种组件的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或组合,例如存储器总线或存储器控制器、外围总线、通用串行总线和/或利用各种总线架构中的任何一种的处理器或本地总线。

系统700还包括计算机可读介质714(CRM 714),例如一个或多个存储设备,该一个或多个存储设备能够实现持久和/或非暂时数据存储,因此不包括暂时信号或载波。CRM714的示例包括随机存取存储器(RAM)、非易失性存储器(例如,只读存储器(ROM)、闪存、EPROM、EEPROM等中的任何一个或多个),或者磁盘存储设备。磁盘存储设备可以被实施为磁或光存储设备,例如硬盘驱动器、可记录和/或可重写光盘(CD)、任何类型的数字多功能盘(DVD)等。系统700还可以包括大容量存储介质设备(存储介质)716或大容量存储设备接口。在该示例中,系统700还包括或可以实施为音频编解码器722,以支持音频信号或音频数据的编码或解码,例如对来自麦克风的音频进行编码,从而为会议服务或语音呼叫提供音频信号或音频数据。

计算机可读介质714提供数据存储机制来存储设备数据,以及各种系统应用718和与系统700的操作方面相关的任何其它类型的信息和/或数据。例如,操作系统720可以被维护为在处理器710上执行的具有计算机可读介质714的计算机应用。系统应用718可以包括系统管理器,例如任何形式的控制应用、软件应用、信号处理和控制模块、特定设备固有的代码、抽象模块或手势模块等。系统应用718还包括实施用于瞬态噪声抑制的自适应能量限制的系统组件和实用程序,例如自适应限制器110、神经网络112和语音活动检测器114。虽然未示出,但是自适应限制器110、神经网络112或语音活动检测器114的一个或多个元件可以全部或部分地通过硬件或固件来实施。

根据一个示例,本公开描述了用于瞬态噪声抑制的自适应能量限制的方面。在一些方面,自适应能量限制器将音频信号的限制器上限设置为满量程,并接收音频信号的一部分。对于音频信号的该部分,自适应能量限制器确定最大幅度,并用神经网络评估该部分,以提供语音似然性估计。基于最大幅度和语音似然性估计,自适应能量限制器确定音频信号的该部分包括噪声。响应于确定音频信号的该部分包括噪声,自适应能量限制器降低限制器上限,并将限制器上限提供给限制器模块,该限制器模块有效地限制音频信号的能量的数量。这可以有效地防止音频信号将全能量瞬态噪声带入到会议音频中。

尽管上述设备、系统和方法是在音频/视频会议环境中用于瞬态噪声抑制的自适应能量限制的上下文中描述的,但是所描述的设备、系统或方法是非限制性的,并且可以应用于其它上下文、用户设备部署或基于音频的通信环境。

除了以上描述之外,可以向用户提供控件,从而允许用户对于这里描述的系统、程序和/或特征是否以及何时能够收集用户信息(例如,音频、声音、语音、话音、用户偏好、用户当前位置)以及是否从服务器向用户发送内容和/或通信做出选择。此外,某些数据在存储或使用之前可能会以一种或多种方式进行处置,从而移除个人身份信息。例如,可以处理用户的身份,使得不能确定用户的个人可识别信息。例如,在获得位置信息的地方,可以泛化用户的地理位置(例如城市、邮政编码或州/省级别),从而不能确定用户的特定位置。因此,用户可以控制收集关于用户的什么信息(例如,音频),如何使用这些信息,以及向用户提供什么信息。

下面介绍几个示例:

示例1:一种方法,包括:将音频信号的限制器上限设置为满量程;接收所述音频信号的一部分;确定所述音频信号的所述部分的最大幅度;用神经网络评估所述音频信号的所述部分,以提供所述音频信号的所述部分的语音似然性估计;基于所述最大幅度和所述语音似然性估计,确定所述音频信号的所述部分包括噪声;响应于确定所述音频信号的所述部分包括噪声,降低所述限制器上限;以及向所述音频信号要经过的限制器模块提供所述限制器上限,以限制所述音频信号的能量的数量。

示例2:根据示例1的方法,其中,所述音频信号的所述部分是对应于所述音频信号的所述部分的音频的帧,并且所述方法还包括:在评估所述音频的帧之前,将所述音频的帧从时域转换到频域。

示例3:根据示例2的方法,其中,所述音频的帧是第一音频的帧,并且所述方法还包括:接收对应于所述音频信号的第二部分的第二音频的帧;用所述神经网络评估所述第二音频的帧,以提供所述第二音频的帧的相应语音似然性估计;基于所述相应语音似然性估计,确定所述第二音频的帧包括话音;以及将所述限制器上限重置为所述满量程。

示例4:根据示例2的方法,其中,所述音频的帧是第一音频的帧,并且所述方法还包括:接收对应于所述音频信号的第二部分的第二音频的帧;确定所述第二音频的帧的相应最大幅度;将所述第二音频的帧的所述相应最大幅度与阈值进行比较,所述阈值对应于音频的多个帧的相应最大幅度的平均值,所述音频的多个帧对应于所述音频信号的多个相应部分;以及响应于所述第二音频的帧的所述相应幅度不超过所述阈值,维持当前限制器上限。

示例5:根据示例2至4中的任一示例的方法,其中,所述音频的帧对应于范围从所述音频的大约10毫秒到所述音频的大约50毫秒的音频持续时间。

示例6:根据示例1至5中的任一示例的方法,其中,用所述神经网络评估所述音频信号的所述部分以提供所述语音似然性估计包括用启用神经网络的语音活动检测器(VAD)分析所述音频信号的所述部分以提供所述音频信号的所述部分的瞬时语音似然性(IVL)。

示例7:根据示例6的方法,其中,所述限制器上限降低预定义量,并且所述方法还包括:基于由所述启用神经网络的VAD提供的多个IVL来确定聚合话音似然性估计(ASLE);通过以下方式基于所述IVL来更新聚合话音似然性估计(ASLE):响应于所述IVL超过所述ASLE并超过语音检测阈值,增加所述ASLE;或者响应于所述IVL不超过所述ASLE或不超过所述语音检测阈值,降低ASLE;以及基于所述ASLE来设置所述限制器上限降低的所述预定义量。

示例8:根据示例7的方法,其中,所述限制器上限具有最小值,并且所述方法还包括基于所述ASLE来配置所述限制器上限的最小值。

示例9:根据示例8的方法,还包括基于所述ASLE和以下中的一个来配置所述限制器上限的最小值:所述音频信号的多个部分的相应幅度的平均值;或者所述音频信号的多个部分的相应最大幅度的平均值。

示例10:一种装置,包括:网络接口,所述网络接口用于通过数据网络接收或发送音频信号;限制器模块,所述限制器模块用于限制所述音频信号的能量;基于硬件的处理器,所述基于硬件的处理器与所述数据接口相关联;以及存储介质,所述存储介质存储处理器可执行指令,所述处理器可执行指令响应于由所述基于硬件的处理器执行,实施自适应能量限制器以:将所述音频信号的限制器上限设置为满量程;从所述音频信号提供对应于来自所述音频信号的音频持续时间的音频的帧;为所述音频的帧确定所述音频信号的最大幅度;用神经网络评估所述音频的帧,以提供所述音频的帧的语音似然性估计;基于所述最大幅度和所述语音似然性估计,确定所述音频的帧包括噪声;响应于确定所述音频的帧包括噪声,降低所述限制器上限;以及向所述限制器模块提供所述限制器上限,以降低所述音频信号的能量。

示例11:根据示例10的装置,其中,所述自适应能量限制器被进一步实施成:捕获音频的帧作为所述音频信号的部分;并且将所述音频的帧从时域转换到频域,以供所述神经网络进行评估。

示例12:根据示例11的装置,其中,所述音频的帧是第一音频的帧,并且所述自适应能量限制器被进一步实施成:捕获对应于所述音频信号的第二部分的第二音频的帧;将所述第二音频的帧从所述时域转换到所述频域;用所述神经网络评估所述音频信号的所述第二音频的帧,以提供所述第二音频的帧的相应语音似然性估计;基于所述相应语音似然性估计,确定所述第二音频的帧包括话音;并且将所述限制器上限重置为所述满量程。

示例13:根据示例11的装置,其中,所述音频的帧是第一音频的帧,并且所述自适应能量限制器被进一步实施为:捕获对应于所述音频信号的第二部分的第二音频的帧;确定所述第二音频的帧的相应最大幅度;将所述第二音频的帧的所述相应最大幅度与阈值进行比较,所述阈值对应于音频的多个帧的相应最大幅度的平均值,所述音频的多个帧对应于所述音频信号的多个相应部分;并且响应于所述第二音频的帧的相应幅度不超过所述阈值,将所述限制器上限维持在当前水平。

示例14:根据示例11至13中的任一示例的装置,其中,所述音频的帧对应于来自所述音频信号的音频信息的持续时间,所述持续时间的范围从大约5毫秒的音频信息到大约50毫秒的音频信息。

示例15:根据示例10至14中的任一示例的装置,其中,所述神经网络包括语音活动检测器(VAD),并且所述自适应能量限制器被进一步实施为使用所述神经网络的所述VAD来提供所述语音似然性估计以作为所述音频信号的所述部分的瞬时语音似然性(IVL)。

示例16:根据示例15的装置,其中,所述自适应能量限制器将所述限制器上限降低预定义量,并且所述自适应能量限制器进一步被实施为:基于由所述神经网络的所述VAD提供的多个IVL来确定聚合话音似然性估计(ASLE);通过以下方式基于所述IVL来更新聚合话音似然性估计(ASLE):响应于所述IVL超过所述ASLE并超过语音检测阈值,增加所述ASLE;或者响应于所述IVL不超过所述ASLE或不超过所述语音检测阈值,降低ASLE;以及基于所述ASLE来设置所述限制器上限降低的所述预定义量。

示例17:根据示例16的装置,其中,所述限制器上限具有最小值,并且所述自适应能量限制器进一步被实施为基于所述ASLE来配置所述限制器上限的最小值。

示例18:根据示例17的装置,其中,所述自适应能量限制器进一步被实施为基于所述ASLE和以下中的一个来配置所述限制器上限的最小值:所述音频信号的多个部分的相应幅度的平均值;或者所述音频信号的多个部分的相应最大幅度的平均值。

示例19:一种系统,包括:基于硬件的处理器,所述基于硬件的处理器可操作地与音频接口或数据接口相关联,通过所述音频接口或所述数据接口接收音频信号;以及存储介质,所述存储介质存储处理器可执行指令,所述处理器可执行指令响应于由所述基于硬件的处理器的执行,实施自适应能量限制器以:将所述音频信号的限制器上限设置为满量程;基于所述音频信号生成对应于来自所述音频信号的音频持续时间的音频的帧;为所述音频的帧确定所述音频信号的最大幅度;用神经网络评估所述音频的帧,以提供所述音频的帧的语音似然性估计;基于所述最大幅度和所述语音似然性估计,确定所述音频的帧包括噪声;响应于确定所述音频的帧包括噪声,降低所述限制器上限;并且向限制器模块提供所述限制器上限,以降低所述音频信号的能量。

示例20:根据示例19的系统,其中,所述系统被实现为以下项中的一个:音频会议系统、视频会议系统、专用集成电路、专用标准产品、片上系统、系统级封装、复杂可编程逻辑器件、音频编解码器或音频处理器。

27页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:记录状态评估方法、记录补偿方法和信息记录/回放设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!