音频信号的处理方法、装置及设备

文档序号:154830 发布日期:2021-10-26 浏览:38次 >En<

阅读说明:本技术 音频信号的处理方法、装置及设备 (Audio signal processing method, device and equipment ) 是由 郑峰 苏辉 于 2021-07-29 设计创作,主要内容包括:本申请实施例提供了一种音频信号的处理方法、装置及设备,其中方法包括:获取智能设备的第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号;其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。本申请实施例通过确定用于进行回音消除处理的目标音频帧,在确保了远场拾音有效的基础上,实现了回音消除。(The embodiment of the application provides a method, a device and equipment for processing an audio signal, wherein the method comprises the following steps: acquiring a first audio signal picked up by a first microphone and a second audio signal picked up by a second microphone of the intelligent device; the first audio signal and the second audio signal comprise an echo signal of an audio currently played by the intelligent equipment and a sound signal in the environment where the intelligent equipment is located; respectively performing framing processing on the first audio signal and the second audio signal according to preset framing parameters to obtain a corresponding first audio frame and a corresponding second audio frame; and according to a preset selection strategy, performing selection processing on the first audio frame and the second audio frame to obtain a target audio frame for echo cancellation processing. According to the embodiment of the application, the target audio frame for echo cancellation processing is determined, and echo cancellation is achieved on the basis that far-field sound pickup is effective.)

音频信号的处理方法、装置及设备

技术领域

本申请涉及信号处理技术领域,尤其涉及一种音频信号的处理方法、装置及设备。

背景技术

近年来,各种具有远场拾音功能及人机交互功能的设备逐渐走进大众视野,如智能音箱、网络摄像机(IP Camera,简称IPC)、儿童陪护机器人等。该设备在拾音的过程中,若设备自身同时也在播放音频,则可以采集到设备自身的播放音,即设备的回音。然而,采集的该设备的回音可能影响到用户语音的识别等处理。对此,现有的做法一是引入麦克风阵列,并通过暴力算法等提升总体信噪比,但是该做法的软硬件成本较高。现有做法二是不同时做设备的回音消除和远场拾音,如开启对讲(用户和设备同时发出声音)时默认用户为近场讲话场景,但是该方式降低了用户体验。现有做法三是增加非线性处理的力度,保证截幅破音状态下也可以获得较好的单讲体验,但是无法兼顾对讲时的回声消除效果。因此,对于该类设备而言,在实现远场声音的有效获取的同时,如何有效的消除设备的回音,是亟需解决的技术问题。

发明内容

本申请实施例的目的是提供一种音频信号的处理方法、装置及设备,以解决如何有效的消除设备回音的问题。

为解决上述技术问题,本申请实施例是这样实现的:

第一方面,本申请实施例提供了一种音频信号的处理方法,应用于包括第一麦克风和第二麦克风的智能设备,所述方法包括:

获取所述第一麦克风拾取的第一音频信号及所述第二麦克风拾取的第二音频信号;其中,所述第一音频信号和第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号;

根据预设的分帧参数,分别对所述第一音频信号和所述第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;

根据预设的选择策略,对所述第一音频帧和所述第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。

第二方面,本申请实施例提供了一种音频信号的处理装置,应用于包括第一麦克风和第二麦克风的智能设备,所述装置包括:

存储器,用于存储预设的分帧参数和选择策略;

处理器,用于获取所述第一麦克风拾取的第一音频信号及所述第二麦克风拾取的第二音频信号;根据所述分帧参数,分别对所述第一音频信号和所述第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;以及,根据所述选择策略,对所述第一音频帧和所述第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧;其中,所述第一音频信号和第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号。

第三方面,本申请实施例提供了一种智能设备,包括扬声器,所述智能设备还包括:与所述扬声器之间的声学路径相同的第一麦克风和第二麦克风;

所述第一麦克风,用于拾取第一音频信号;

所述第二麦克风,用于拾取第二音频信号;

其中,所述第一音频信号和所述第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号。

第四方面,本申请实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线;其中,处理器,通信接口,存储器通过总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序,实现上述音频信号的处理方法的步骤。

第五方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频信号的处理方法的步骤。

在本申请实施例中,获取智能设备的第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号;并根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。由此,通过获取两路音频信号,并基于预设的选择策略对该两路音频信号进行扬弃得到用于进行回音消除处理的目标音频帧,不仅具有较高的灵敏度,而且在没有牺牲用户体验以及确保远场拾音有效的情况下,确保了后续基于目标音频帧进行回音消除的效果,能够提升后续的音频检测等任务的准确性。并且,对于智能设备而言,仅需设置第一麦克风和第二麦克风两个麦克风即可,而无需布设由更多麦克风所构成的麦克风阵列,因此降低了软硬件成本,具有更高的实用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种音频信号的处理方法的第一种流程示意图;

图2为本说明书实施例提供的一种音频信号的处理方法的第二种流程示意图;

图3为本说明书实施例提供的一种音频信号的处理方法的第三种流程示意图;

图4为本说明书实施例提供的一种音频信号的处理方法的第四种流程示意图;

图5为本说明书实施例提供的一种音频信号的处理装置的模块组成示意图;

图6为本说明书实施例提供的一种智能设备的模块组成示意图;

图7为本说明书实施例提供的一种电子设备的组成示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1为本说明书一个或多个实施例提供的一种音频信号的处理方法的流程示意图,应用于包括第一麦克风和第二麦克风的智能设备,参见图1,该方法具体可以包括如下步骤:

步骤102,获取第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号;其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;

具体的,当智能设备处于多个声源同时发出声音的环境中时,其中,声源包括智能设备自身,即智能设备在播放音频的同时,智能设备所处环境中的其他声源(如用户、其他设备等)也在发出声音。智能设备通过其第一麦克风拾取第一音频信号,通过其第二麦克风拾取第二音频信号,并获取该第一音频信号和第二音频信号。可以理解的是,第一音频信号和第二音频信号是当前环境中各种声音信号的混合信号。为了便于区分,本申请中将拾取到的智能设备自身播放的音频所对应的信号称为回音信号;将拾取到的其他声源发出的声音所对应的信号称为声音信号,例如用户发出的声音所对应的信号、其他设备播放的音频所对应的信号等。

步骤104,根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;

为了在后续能够有效的进行回音消除处理,本申请中采用逐帧处理的方式对获取的第一音频信号和第二音频信号进行处理,即首先根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧。

需要指出的是,进行分帧处理的第一音频信号和第二音频信号是数字形式的信号。可选的,当第一麦克风和第二麦克风分别拾取到模拟形式的第一音频信号和第二音频信号时,对该模拟形式的第一音频信号和第二音频信号进行转换处理,得到数字形式的第一音频信号和第二音频信号;或者,当智能设备获取到第一麦克风和第二麦克风分别拾取的模拟形式的第一音频信号和第二音频信号时,对获取到的模拟形式的第一音频信号和第二音频信号进行转换处理,得到数字形式的第一音频信号和第二音频信号。

步骤106,根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。

本申请一个或多个实施例中,获取智能设备的第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号,其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;并根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。由此,通过获取两路音频信号,并基于预设的选择策略对该两路音频信号进行扬弃得到用于进行回音消除处理的目标音频帧,不仅具有较高的灵敏度,而且在没有牺牲用户体验以及确保远场拾音有效的情况下,确保了后续基于目标音频帧进行回音消除的效果,能够提升后续的音频检测等任务的准确性。并且,对于智能设备而言,仅需设置第一麦克风和第二麦克风两个麦克风即可,而无需布设由更多麦克风所构成的麦克风阵列,因此降低了软硬件成本,具有更高的实用性。

考虑到在实际应用中,声音强度通常随距离的平方衰减,例如,距离该具有远场拾音功能的设备5米处的用户正常说话时,声音传到该设备时声强已不足40dBSPL;但是为了使该用户听到的该设备的播放音足够响亮,该设备播放音的强度一般在70dBSPL以上,两者相差至少30dB。因此,在消除智能设备的回音信号时,要求麦克风拾取的音频信号的振幅不超过进行回音消除处理所对应的目标振幅,否则将会引入大量的非线性失真,影响回音消除的效果。但是,在麦克风拾取的音频信号的振幅不超过目标振幅时,拾取到的远场的音频信号会相当微弱,甚至与底噪混在一起无法分辨,从而影响到后续的语音增强、检测、识别等一系列处理的处理效果。基于此,为了在有效的实现远场拾音的基础上,实现回音消除,本申请实施例提供了一种包括第一麦克风和第二麦克风的智能设备,并预先对该智能设备的第一麦克风和第二麦克风进行校准处理。具体的,步骤102之前还可以包括以下步骤100:

步骤100,对第一麦克风和第二麦克风进行校准处理,得到第一麦克风的第一增益和第二麦克风的第二增益;其中,第一增益小于第二增益。

具体的,根据预设的第一响度,确定智能设备的扬声器的第三增益;通过第一麦克风拾取智能设备基于第三增益播放的第一测试音频的第四音频信号,根据第四音频信号调节第一麦克风的增益,得到符合第一预设条件的第一增益;以及,通过第二麦克风拾取远场的第二测试音频的第五音频信号,根据第五音频信号调节第二麦克风的增益,得到符合第二预设条件的第二增益。当第一麦克风与第二麦克风的灵敏度相同时,第一增益小于第二增益。

其中,第一预设条件包括对第四音频信号进行增强处理后的响度不超过第二响度的增益上限;第二预设条件包括对第五音频信号进行增强处理后的响度到达第三响度的增益下限。第一响度根据用户对播放响度的需求所确定;第二响度是进行回音消除后可接受的剩余回音的最大响度;第三响度是符合回音消除要求的最小响度。第二测试音频,可以是距离智能设备预设距离的用户所发出的音频,或者距离智能设备预设距离的其他设备所播放的音频。

由此,在智能设备实际工作过程中,若智能设备自身播放音频,那么第一麦克风基于相对较小的第一增益拾取到的回音信号是未超过后续回音消除处理所要求的振幅阈值的,但是拾取到的声音信号是不符合回音消除处理要求的,即振幅未到达回音消除处理要求的振幅阈值。而第二麦克风基于相对较大的第二增益拾取到的回音信号可能是符合回音消除处理要求的,但是拾取的回音信号可能是超过后续回音消除处理所要求的振幅阈值的,即是过幅的。基于此,本申请实施例中,采用逐帧处理的方式对获取到的音频信号进行处理。具体的,如图2所示,步骤102可以包括以下步骤102-2:

步骤102-2,获取第一麦克风拾取的第一音频信号、第二麦克风拾取的第二音频信号、以及指定存储区域中存储的智能设备当前播放的音频的第三音频信号;

为了准确的确定用于进行回音消除处理的目标音频帧,本申请一个或多个实施例中,智能设备在播放音频时,在指定存储区域中存储当前播放的音频的第三音频信号,并在获取到第一音频信号和第二音频信号时,从该指定存储区域中获取第三音频信号。

与步骤102-2对应的,如图2所示,步骤104可以包括以下步骤104-2:

步骤104-2,根据预设的帧长和帧移,分别对第一音频信号、第二音频信号和第三音频信号进行分帧处理,得到对应的第一音频帧、第二音频帧和第三音频帧。

其中,帧长和帧移可以在实际应用中根据需要自行设定,例如,帧长为20ms,帧移为10ms,以第一音频信号为例进行说明,则将第一音频信号的第1ms至第20ms之间的音频信号确定为第一个第一音频帧,将第10ms至第30ms之间的音频信号确定为第二个第一音频帧,将第20ms至第40ms之间的音频信号确定为第三个第一音频帧等,以此类推。

进一步的,与上述步骤102-2和步骤104-2对应的,如图2所示,步骤106可以包括以下步骤106-2至步骤106-10:

步骤106-2,将当前得到的第一音频帧、第二音频帧和第三音频帧,分别确定为当前第一音频帧、当前第二音频帧和当前第三音频帧;

步骤106-4,按照预设的保存方式将当前第二音频帧保存至缓存区中;

具体的,如图3所示,步骤106-4可以包括以下步骤106-42和步骤106-46:

步骤106-42,确定当前第二音频帧是否为首个第二音频帧,是则执行步骤106-44,否则执行步骤106-46;

步骤106-44,确定缓存区中用于保存第一数量的采样点的目标存储位置;将当前第二音频帧的各采样点保存至目标存储位置之后;

其中,第一数量可以在实际应用中根据需要自行设定,例如第一数量为2,则确定缓存区中用于保存2个采样点的目标存储位置,并将当前第二音频帧的各采样点保存至目标存储位置之后,既此时目标存储位置为空,没有任何数据。

步骤106-46,按照从后至前的顺序从缓存区当前保存的采样点中获取第一数量的第一目标采样点,将第一目标采样点保存至目标存储位置,并将当前第二音频帧的各采样点保存至第一目标采样点之后。

具体的,当当前第二音频帧是第二个第二音频帧时,由于当前目标存储位置为空,因此,可以直接将获取的第一目标采样点保存至目标存储位置;当当前第二音频帧是第二个第二音频帧之后的任意第二音频帧时,将目标存储位置当前保存的采样点替换为获取的第一目标采样点。其中,将目标存储位置当前保存的采样点替换为获取的第一目标采样点,可以首先删除目标存储位置当前保存的采样点,然后将获取的第一目标采样点保存至目标存储位置;还可以指直接使用获取的第一目标采样点覆盖目标存储位置当前保存的采样点。

步骤106-6,根据缓存区当前保存的数据,确定当前第二音频帧的振幅是否超过预设的振幅阈值,根据确定结果信息生成当前第二音频帧的第一标记;

具体的,如图3所示,步骤106-6可以包括以下步骤106-62:

步骤106-62,按照从前至后的顺序遍历缓存区当前保存的采样点,确定是否存在连续的第二数量的、振幅相等且大于预设的振幅阈值的第二目标采样点;若是,则确定当前第二音频帧的振幅超过预设的振幅阈值,生成表征超过振幅阈值的第一标记;若否,则确定当前第二音频帧的振幅未超过预设的振幅阈值,生成表征未超过振幅阈值的第一标记。

其中,第一标记的具体形式可以在实际应用中根据需要自行设定。例如将第一标记记为T1,当T1=1时,表征当前第二音频帧的振幅超过振幅阈值,当T1=0时,表征当前第二音频帧的振幅未超过振幅阈值。

步骤106-8,根据当前第一音频帧和当前第三音频帧,确定当前第二音频帧中的回音信号是否处于静音状态,根据确定结果信息生成第二音频帧的第二标记,将当前第二音频帧与第二标记关联保存;

具体的,如图3所示,步骤106-8可以包括以下步骤106-82至步骤106-88:

步骤106-82,确定当前第三音频帧是否处于静音状态,根据确定结果生成当前第三音频帧的第三标记,将第三标记与当前第三音频帧的各采样点对应保存;

具体的,对当前第三音频帧进行VAD(Voice Activity Detection,语音活动检测,又称语音端点检测,语音边界检测)处理,根据处理结果信息确定当前第三音频帧是否处于静音状态;并根据确定结果生成当前第三音频帧的第三标记,将第三标记与当前第三音频帧的各采样点对应保存。由于VAD处理的实现过程为现有技术,故这里不再详述。

进一步的,智能设备可以保存每个第三音频帧的个采样点及其对应的第三标记;在实际应用中,为了提升存储空间的利用率,本申请一个或多个实施例中,智能设备还可以保存最近播放的第四数量的第三音频帧的个采样点及其对应的第三标记。其中,第四数量例如为3,将当前第三音频帧记为r(i),则可以保存r(i-2)、r(i-1)、r(i)的各采样点及其对应的第三标记。相应的,将第三标记与当前第三音频帧的各采样点对应保存可以包括:确定当前保存的第三音频帧的数量是否达到预设数量,若是,则将最先保存的第三音频帧的采样点及其第三标记删除,并将当前生成的第三标记与当前第三音频帧的各采样点对应保存;若否,则将当前生成的第三标记与当前第三音频帧的各采样点对应保存。

步骤106-84,根据预设方式,确定当前第一音频帧与当前第三音频帧之间的延迟采样点的第三数量;

其中,预设方式例如为webrtc-delay-estimator算法,由于webrtc-delay-estimator算法是现有技术,故本申请中对于webrtc-delay-estimator算法的具体实现过程不再详述。

步骤106-86,根据第三数量、保存的各第三音频帧的采样点和第三标记,确定当前第二音频帧包括的回音信号是否处于静音状态;

具体的,按照从后至前的顺序,从保存的各第三音频帧的采样点中获取第三数量的采样点;确定获取的第三数量的采样点中最后一个采样点所在的目标第三音频帧;确定目标第三音频帧的第三标记是否表征目标第三音频帧处于静音状态;若是,则确定当前第二音频帧包括的回音信号处于静音状态;若否,则确定当前第二音频帧包括的回音信号未处于静音状态。

作为示例,第三数量为150,每个第三音频帧包括100个采样点,将第三标记记为T3,T3=0表征对应的第三音频帧处于静音状态,T3=1表征对应的第三音频帧未处于静音状态。根据保存的第三音频帧r(i-2)、r(i-1)、r(i),按照从后至前的顺序,可以确定获取的150的采样点中最后一个采样点所在的目标第三音频帧为r(i-1),则确定保存的r(i-1)的第三标记是否为0,若是,则确定当前第二音频帧包括的回音信号处于静音状态;若否,则确定当前第二音频帧包括的回音信号未处于静音状态。

步骤106-88,根据确定结果信息生成当前第二音频帧的第二标记,将当前第二音频帧与第二标记关联保存。

其中,第二标记的具体形式可以在实际应用中根据需要自行设定。例如将第二标记记为T2,当T2=1时,表征当前第二音频帧包括的回音信号未处于静音状态,当T1=0时,表征当前第二音频帧包括的回音信号未处于静音状态。

步骤106-10,根据第一标记和第二标记,确定当前用于进行回音消除处理的目标音频帧。

为了准确的确定目标音频帧,本申请一个或多个实施例中,每次确定目标音频帧之后,还包括:将保存的前一个目标音频帧和前一个目标音频帧的类型信息,替换为当前得到的目标音频帧和当前得到的目标音频帧的类型信息;其中,类型信息用于表征目标音频帧是第一音频帧还是第二音频帧。与之对应的,如图3所示,步骤106-10可以包括以下步骤106-10-2至步骤106-10-10:

步骤106-10-2,若确定第一标记表征当前第二音频帧的振幅超过振幅阈值、且第二标记表征当前第二音频帧包括的回音信号未处于静音状态,则将当前第一音频帧确定为当前用于进行回音消除处理的目标音频帧;

步骤106-10-4,若确定第一标记表征当前第二音频帧的振幅未超过振幅阈值、且第二标记表征当前第二音频帧包括的回音信号未处于静音状态,则从关联保存的第二音频帧和第二标记中,获取当前第二音频帧的前一个第二音频帧的第二标记;

步骤106-10-6,若获取的第二标记表征前一个第二音频帧包括的回音信号未处于静音状态,则获取保存的前一个目标音频帧的类型信息,将当前第一音频帧和当前第二音频帧中与获取的类型信息相匹配的音频帧,确定为当前用于进行回音消除处理的目标音频帧;若获取的第二标记表征前一个第二音频帧包括的回音信号处于静音状态,则将当前第二音频帧确定为当前用于进行回音消除处理的目标音频帧;

例如,当获取的第二标记表征前一个第二音频帧包括的回音信号未处于静音状态时,获取的前一个目标音频帧的类型信息表征前一个目标音频帧为第一音频帧,则将当前第一音频帧确定为当前用于进行回音消除处理的目标音频帧。

步骤106-10-8,若确定第一标记表征当前第二音频帧的振幅未超过振幅阈值、且第二标记表征当前第二音频帧包括的回音信号处于静音状态,则从关联保存的第二音频帧和第二标记中,获取当前第二音频帧的前一个第二音频帧的第二标记;

步骤106-10-10,若获取的第二标记表征前一个第二音频帧包括的回音信号处于静音状态,则获取保存的前一个目标音频帧的类型信息,将当前第一音频帧和当前第二音频帧中与获取的类型信息相匹配的音频帧,确定为当前用于进行回音消除处理的目标音频帧;若获取的第二标记表征前一个第二音频帧包括的回音信号未处于静音状态,则将当前第一音频帧确定为当前用于进行回音消除处理的目标音频帧。

由此,基于预设的选择策略,对分帧处理所得的音频帧进行上述处理,以对第一麦克风和第二麦克风拾取的两路音频信号进行扬弃,从而合并为一路,既确保了目标音频帧不过幅,又具有较高的灵敏度,为后续回音消除处理的进行提供了有效的数据依据,进而提升了音频检测等任务的准确性。

为了实现设备的回音消除,本申请一个或多个实施例中,如图4所示,步骤106之后还可以包括以下步骤108:

步骤108,根据预设的回音消除方式,对目标音频帧进行回音消除处理。

其中,回音消除方式可以在实际应用中根据需要自行设定,对此本申请中不做具体限定。

本说明书实施例中,获取智能设备的第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号,其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;并根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。由此,通过获取两路音频信号,并基于预设的选择策略对该两路音频信号进行扬弃得到用于进行回音消除处理的目标音频帧,不仅具有较高的灵敏度,而且在没有牺牲用户体验以及确保远场拾音有效的情况下,确保了后续基于目标音频帧进行回音消除的效果,能够提升后续的音频检测等任务的准确性。并且,对于智能设备而言,仅需设置第一麦克风和第二麦克风两个麦克风即可,而无需布设由更多麦克风所构成的麦克风阵列,因此降低了软硬件成本,具有更高的实用性。

基于相同的技术构思,本说明书一个或多个实施例还提供一种音频信号的处理装置,图5本说明书一个或多个实施例还提供一种音频信号的处理装置的模块组成示意图,如图5所示,该装置包括:

存储器201,用于存储预设的分帧参数和选择策略;

处理器202,用于获取所述第一麦克风拾取的第一音频信号及所述第二麦克风拾取的第二音频信号;根据所述分帧参数,分别对所述第一音频信号和所述第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;以及,根据所述选择策略,对所述第一音频帧和所述第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧;其中,所述第一音频信号和第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号。

可选地,所述处理器202具体用于:获取所述第一麦克风拾取的第一音频信号、所述第二麦克风拾取的第二音频信号、以及指定存储区域中存储的所述智能设备当前播放的音频的第三音频信号;以及,

根据预设的帧长和帧移,分别对所述第一音频信号、所述第二音频信号和所述第三音频信号进行分帧处理,得到对应的第一音频帧、第二音频帧和第三音频帧。

可选地,所述处理器202进一步具体用于:将当前得到的第一音频帧、第二音频帧和第三音频帧,分别确定当前第一音频帧、当前第二音频帧和当前第三音频帧;以及,

按照预设的保存方式将所述当前第二音频帧保存至缓存区中;

根据所述缓存区当前保存的数据,确定所述当前第二音频帧的振幅是否超过预设的振幅阈值,根据确定结果信息生成所述当前第二音频帧的第一标记;

根据所述当前第一音频帧和所述当前第三音频帧,确定所述当前第二音频帧包括的所述回音信号是否处于静音状态,根据确定结果信息生成所述当前第二音频帧的第二标记,将所述当前第二音频帧与所述第二标记关联保存;

根据所述第一标记和所述第二标记,确定当前用于进行回音消除处理的目标音频帧。

可选地,所述处理器202进一步具体用于:若所述当前第二音频帧是首个第二音频帧,则确定所述缓存区中用于保存第一数量的采样点的目标存储位置;将所述当前第二音频帧的各采样点保存至所述目标存储位置之后;

若所述当前第二音频帧是非首个第二音频帧,则按照从后至前的顺序从所述缓存区当前保存的采样点中获取所述第一数量的第一目标采样点,将所述第一目标采样点保存至所述目标存储位置,并将所述当前第二音频帧的各采样点保存至所述第一目标采样点之后。

可选地,所述处理器202进一步具体用于:按照从前至后的顺序遍历所述缓存区当前保存的采样点,确定是否存在连续的第二数量的、振幅相等且大于预设的振幅阈值的第二目标采样点;

若是,则确定所述当前第二音频帧的振幅超过预设的振幅阈值;

若否,则确定所述当前第二音频帧的振幅未超过预设的振幅阈值。

可选地,所述处理器202进一步具体用于:确定所述当前第三音频帧是否处于静音状态,根据确定结果生成所述当前第三音频帧的第三标记,将所述第三标记与所述当前第三音频帧的各采样点对应保存;

根据预设方式,确定所述当前第一音频帧与所述当前第三音频帧之间的延迟采样点的第三数量;

根据所述第三数量、保存的各第三音频帧的采样点和所述第三标记,确定所述当前第二音频帧包括的所述回音信号是否处于静音状态。

可选地,所述处理器202进一步具体用于:按照从后至前的顺序,从保存的各第三音频帧的采样点中获取所述第三数量的采样点;

确定所述第三数量的采样点中最后一个采样点所在的目标第三音频帧;

确定所述目标第三音频帧的所述第三标记是否表征所述目标第三音频帧处于静音状态;

若是,则确定所述当前第二音频帧包括的所述回音信号处于静音状态;

若否,则确定所述当前第二音频帧包括的所述回音信号未处于静音状态。

可选地,所述处理器202还用于:在得到用于进行回音消除处理的目标音频帧之后,将保存的前一个目标音频帧和所述前一个目标音频帧的类型信息,替换为当前得到的目标音频帧和当前得到的目标音频帧的类型信息;

相应地,所述处理器202进一步具体用于:若确定所述第一标记表征所述当前第二音频帧的振幅超过所述振幅阈值、且所述第二标记表征所述当前第二音频帧包括的所述回音信号未处于静音状态,则将所述当前第一音频帧确定为当前用于进行回音消除处理的目标音频帧;

若确定所述第一标记表征所述当前第二音频帧的振幅未超过所述振幅阈值、且所述第二标记表征所述当前第二音频帧包括的所述回音信号未处于静音状态,则从关联保存的第二音频帧和第二标记中,获取所述当前第二音频帧的前一个第二音频帧的第二标记;若获取的所述第二标记表征所述前一个第二音频帧包括的所述回音信号未处于静音状态,则获取保存的前一个目标音频帧的类型信息,将所述当前第一音频帧和所述当前第二音频帧中与获取的所述类型信息相匹配的音频帧,确定为当前用于进行回音消除处理的目标音频帧;若获取的所述第二标记表征所述前一个第二音频帧包括的所述回音信号处于静音状态,则将所述当前第二音频帧确定为当前用于进行回音消除处理的目标音频帧;

若确定所述第一标记表征所述当前第二音频帧的振幅未超过所述振幅阈值、且所述第二标记表征所述当前第二音频帧包括的所述回音信号处于静音状态,则从关联保存的第二音频帧和第二标记中,获取所述当前第二音频帧的前一个第二音频帧的第二标记;若获取的所述第二标记表征所述前一个第二音频帧包括的所述回音信号处于静音状态,则获取保存的前一个目标音频帧的类型信息,将所述当前第一音频帧和所述当前第二音频帧中与获取的所述类型信息相匹配的音频帧,确定为当前用于进行回音消除处理的目标音频帧;若获取的所述第二标记表征所述前一个第二音频帧包括的所述回音信号未处于静音状态,则将所述当前第一音频帧确定为当前用于进行回音消除处理的目标音频帧。

可选地,所述处理器202还用于:在获取所述第一麦克风拾取的第一音频信号及所述第二麦克风拾取的第二音频信号之前,对所述第一麦克风和所述第二麦克风进行校准处理,得到所述第一麦克风的第一增益和所述第二麦克风的第二增益;其中,所述第一增益小于所述第二增益。

可选地,所述处理器202具体用于:根据预设的第一响度,确定所述智能设备的扬声器的第三增益;以及,

通过所述第一麦克风拾取所述智能设备基于所述第三增益播放的第一测试音频的第四音频信号,根据所述第四音频信号调节所述第一麦克风的增益,得到符合第一预设条件的第一增益;其中,所述第一预设条件包括对所述第四音频信号进行增强处理后的响度不超过第二响度的增益上限;

通过所述第二麦克风拾取远场的第二测试音频的第五音频信号,根据所述第五音频信号调节所述第二麦克风的增益,得到符合第二预设条件的第二增益;其中,所述第二预设条件包括对所述第五音频信号进行增强处理后的响度到达第三响度的增益下限。

可选地,所述处理器202还用于:在得到用于进行回音消除处理的目标音频帧之后,根据预设的回音消除方式,对所述目标音频帧进行回音消除处理。

本说明书实施例提供的音频信号的处理装置,获取智能设备的第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号,其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;并根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。由此,通过获取两路音频信号,并基于预设的选择策略对该两路音频信号进行扬弃得到用于进行回音消除处理的目标音频帧,不仅具有较高的灵敏度,而且在没有牺牲用户体验以及确保远场拾音有效的情况下,确保了后续基于目标音频帧进行回音消除的效果,能够提升后续的音频检测等任务的准确性。并且,对于智能设备而言,仅需设置第一麦克风和第二麦克风两个麦克风即可,而无需布设由更多麦克风所构成的麦克风阵列,因此降低了软硬件成本,具有更高的实用性。

另外,对于上述装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。而且,应当注意的是,本发明的装置的各个部件中,根据其要实现的功能而对其中的部件进行了逻辑划分,但是,本发明不受限于此,可以根据需要对各个部件进行重新划分或者组合。

基于相同的技术构思,本说明书一个或多个实施例还提供一种智能设备,图6为本说明书一个或多个实施例提供的一种智能设备的组成示意图;如图6所示,该智能设备包括:扬声器301、与扬声器301之间的声学路径相同的第一麦克风302和第二麦克风303;

所述第一麦克风302,用于拾取第一音频信号;

所述第二麦克风303,用于拾取第二音频信号;

其中,所述第一音频信号和所述第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号。

可选地,所述第一麦克风302与所述第二麦克风303相对于所述扬声器301对称设置、且所述第一麦克风302与所述第二麦克风303之前的距离不大于预设距离。

可选地,第一麦克风302和第二麦克风303可以是模拟麦克风、数字麦克风中的任意一种,其声学特性和电学特性等可以根据需要自行设定。

可以理解的是,本申请中的智能设备具有远场拾音功能,还可以具有人机交互功能等。对于智能设备的具体类型本申请中不做具体限定,例如智能设备可以是智能音箱、智能机器人等。

本说明书实施例提供的智能设备,获取第一麦克风拾取的第一音频信号及第二麦克风拾取的第二音频信号,其中,第一音频信号和第二音频信号包括智能设备当前播放的音频的回音信号和智能设备所处环境中的声音信号;并根据预设的分帧参数,分别对第一音频信号和第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;根据预设的选择策略,对第一音频帧和第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。由此,通过获取两路音频信号,并基于预设的选择策略对该两路音频信号进行扬弃得到用于进行回音消除处理的目标音频帧,不仅具有较高的灵敏度,而且在没有牺牲用户体验以及确保远场拾音有效的情况下,确保了后续基于目标音频帧进行回音消除的效果,能够提升后续的音频检测等任务的准确性。并且,对于智能设备而言,仅需设置第一麦克风和第二麦克风两个麦克风即可,而无需布设由更多麦克风所构成的麦克风阵列,因此降低了软硬件成本,具有更高的实用性。

另外,对于上述设备实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

图7为本说明一实施例提供的一种电子设备的结构示意图,参见图7,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成音频信号的处理装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

网络接口、处理器和存储器可以通过总线系统相互连接。总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器可能包含高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器。

处理器,用于执行所述存储器存放的程序,并具体执行:

获取所述第一麦克风拾取的第一音频信号及所述第二麦克风拾取的第二音频信号;其中,所述第一音频信号和所述第二音频信号包括所述智能设备当前播放的音频的回音信号和所述智能设备所处环境中的声音信号;

根据预设的分帧参数,分别对所述第一音频信号和所述第二音频信号进行分帧处理,得到对应的第一音频帧和第二音频帧;

根据预设的选择策略,对所述第一音频帧和所述第二音频帧进行选择处理,得到用于进行回音消除处理的目标音频帧。

上述如本申请图5所示实施例揭示的音频信号的处理装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

基于相同的技术构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行图1至图4任一所对应的实施例提供的音频信号的处理方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:语音增强模型的训练方法及装置、语音增强方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!