适用于移动终端的音频处理方法、装置及存储介质

文档序号：1802617 发布日期：2021-11-05 浏览：18次 >En<

阅读说明：本技术 适用于移动终端的音频处理方法、装置及存储介质 (Audio processing method and device suitable for mobile terminal and storage medium ) 是由李好博魏耀都陈华于 2021-07-08 设计创作，主要内容包括：本发明提供一种适用于移动终端的音频处理方法、装置及存储介质,包括：实时获取声反馈回路特征；基于所述声反馈回路特征实时对输入的第一多路音频进行人声美化处理得到第二多路音频；基于所述声反馈回路特征实时对第二多路音频进行母带混缩处理得到单路音频输出。本发明提供的技术方案,能够根据声反馈回路特征进行混响、均衡的参数动态调整,减小不同环境下的音效听感差异。在动态调整中,会根据移动终端不同的位姿信息进行调整,使得本发明提供的方案适应性较强。并且,在进行人声美化的过程中分离出持有移动终端人的人声,抑制环境噪声以及其他人的声音,对音质进行补偿。(The invention provides an audio processing method, an audio processing device and a storage medium suitable for a mobile terminal, wherein the audio processing method comprises the following steps: acquiring the characteristics of an acoustic feedback loop in real time; carrying out human voice beautifying processing on the input first multi-channel audio in real time based on the characteristics of the acoustic feedback loop to obtain a second multi-channel audio; and carrying out master tape mixing and shrinking processing on the second multi-channel audio in real time based on the characteristics of the acoustic feedback loop to obtain single-channel audio output. The technical scheme provided by the invention can dynamically adjust the parameters of reverberation and balance according to the characteristics of the acoustic feedback loop, and reduce the difference of sound effect and audibility under different environments. In the dynamic adjustment, the adjustment can be performed according to different pose information of the mobile terminal, so that the scheme provided by the invention has stronger adaptability. In addition, the voice of the person holding the mobile terminal is separated in the voice beautifying process, environmental noise and other voice are suppressed, and voice quality is compensated.)

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种适用于移动终端的音频处理方法、装置及存储介质。

背景技术

随着科学技术和音乐文化的迅速发展，K歌(唱歌)的方式越来越多样化。基于移动终端进行K歌的方式具有方便、易操作的优点，最受大家青睐。当前的K歌软件大多具有人声美化的功能，但是其在进行人声美化时只能够进行被动美化，即每个人声的美化功能都是相似的，无法根据环境的差异而采取不同的美化方式。

发明内容

本发明实施例提供一种适用于移动终端的音频处理方法、装置及存储介质，能够基于不同的环境、场景下对人声采取不同的美化方式，更具有针对性。

本发明实施例的第一方面，提供一种适用于移动终端的音频处理方法，包括：

实时获取移动终端的声反馈回路特征；

基于所述声反馈回路特征实时对输入的第一多路音频进行人声美化处理得到第二多路音频；

基于所述声反馈回路特征实时对第二多路音频进行母带混缩处理得到单路音频输出。

可选地，在第一方面的一种可能实现方式中，基于所述声反馈回路特征对输入的第一多路音频进行人声美化处理得到第二多路音频包括：

获取声反馈回路特征中的环境混响脉冲响应，基于所述环境混响脉冲响应生成反向信号；

所述第一多路音频包括伴奏音频和单路人声信号，基于所述反向信号对单路人声信号进行信号抵消处理得到不具有环境混响的单路人声信号；

对抵消处理后的所述单路人声信号进行美化得到立体人声音频。

可选地，在第一方面的一种可能实现方式中，基于所述声反馈回路特征对第二多路音频进行母带混缩处理得到单路音频输出包括：

获取声反馈回路特征中的环境混响脉冲响应、声反馈回路频响曲线以及空间模态驻波频率；

将所述立体人声音频与伴奏音频混音处理得到单路的单路音频；

基于环境混响脉冲响应、声反馈回路频响曲线以及空间模态驻波频率对所述单路音频进行处理得到处理后的立体声音频。

可选地，在第一方面的一种可能实现方式中，根据声反馈回路频率响应、声反馈回路频响曲线的实时变化、回声跟踪的房间环境脉冲响应，计算出随时间变化的增强频率点序列以及增益量序列；

配置环境均衡滤波器组，所述环境均衡滤波器组用于将立体人声音频和伴奏音频的混合信号输入至所述滤波器组进行均衡补偿，补偿方式为基于所述增强频率点序列以及增益量序列进行补偿；

配置激励器，所述激励器用于产生相应的高次谐波对空间模态导致的损失频率进行补偿，补偿方式为基于所述增强频率点序列以及增益量序列进行补偿。

可选地，在第一方面的一种可能实现方式中，实时获取移动终端的声反馈回路特征：

控制移动终端的扬声器播放至少一种声反馈探测信号并对所述声反馈探测信号进行记录；

通过移动终端的麦克风采集声反馈探测信号并对采集的声反馈探测信号记录；

将播放的声反馈探测信号和采集的声反馈探测信号比对得到声反馈探测结果，所述声反馈探测结果包括声反馈回路特征。

可选地，在第一方面的一种可能实现方式中，将播放的声反馈探测信号和采集的声反馈探测信号比对得到声反馈探测结果包括：

对播放的声反馈探测信号和采集的声反馈探测信号分别在回声功率维度、频率响应维度以及环境混响维度进行比对得到声反馈探测结果；

所述声反馈探测结果包括回声功率信息、频率响应信息以及环境混响脉冲响应信息。

可选地，在第一方面的一种可能实现方式中，还包括：

实时获取移动终端的姿态信息、位置信息以及速度信息中的任意一种或多种；

基于所述姿态信息、位置信息以及速度信息得到移动终端当前时刻的位姿信息；

基于当前时刻的位姿信息更新所述声反馈探测结果。

本发明实施例的第二方面，提供一种适用于移动终端的音频处理装置，包括：

获取模块，用于实时获取移动终端的声反馈回路特征；

人声美化模块，用于基于所述声反馈回路特征实时对输入的第一多路音频进行人声美化处理得到第二多路音频；

母带混缩模块，用于基于所述声反馈回路特征实时对第二多路音频进行母带混缩处理得到单路音频输出。

可选地，在第二方面的一种可能实现方式中，所述人声美化模块还用于执行以下步骤，包括：

接收目标用户的音频特征；

提取所述第一多路音频中与目标用户的音频特征对应的音频信息作为只有目标用户人声的目标人声信息；

对所述目标人声信息进行音质增强处理后生成第二多路音频。

本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明提供的一种适用于移动终端的音频处理方法、装置及存储介质，能够根据声反馈回路特征进行混响、均衡的参数动态调整，减小不同环境下的音效听感差异。在动态调整中，会根据移动终端不同的位姿信息进行调整，使得本发明提供的方案适应性较强。并且，在进行人声美化的过程中分离出持有移动终端人的人声，抑制环境噪声以及其他人的声音，对音质进行补偿。

附图说明

图1为适用于移动终端的音频处理方法的第一种实施方式的流程图；

图2为人声美化处理和母带混缩处理的第一种实施方式的示意图；

图3为人声美化处理和母带混缩处理的第二种实施方式的示意图；

图4为声反馈回路特征的测量阶段的示意图；

图5为声反馈回路特征的跟踪阶段的示意图；

图6为适用于移动终端的音频处理方法的第一种实施方式的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种适用于移动终端的音频处理方法，如图1所示和图2所示，包括：

步骤S110、实时获取移动终端的声反馈回路特征。由于在不同环境、场景下，会对音频产生不同的影响，所以本发明会实时获取声反馈回路特征以适用于不同环境、场景。

步骤S120、基于所述声反馈回路特征实时对输入的第一多路音频进行人声美化处理得到第二多路音频。在得到声反馈回路特征后，先对输入的多路音频进行人声美化处理。因为在歌唱时，伴奏是不变的，主要对人声进行美化，所以需要在混音之前对人声进行处理，并且在对人声处理的过程中会实时根据声反馈回路特征进行调整，以防止该人声被在不同环境下被干扰。

步骤S130、基于所述声反馈回路特征实时对第二多路音频进行母带混缩处理得到单路音频输出。在得到美化后的人声后，对多路音频进行混音处理得到单路的音频输出，并且在混音的过程中会实时根据声反馈回路特征进行调整，以防止该单路音频被在不同环境下被干扰。

进一步的，如图3所示，基于所述声反馈回路特征对输入的第一多路音频进行人声美化处理得到第二多路音频包括：

获取声反馈回路特征中的环境混响脉冲响应，基于所述环境混响脉冲响应生成反向信号；

所述第一多路音频包括伴奏音频和单路人声信号，基于所述反向信号对单路人声信号进行信号抵消处理得到不具有环境混响的单路人声信号；

对抵消处理后的所述单路人声信号进行美化得到立体人声音频。

本发明提供的声反馈回路探测模块，可以将环境混响脉冲响应传递给人声美化模块。人声美化模块根据环境混响脉冲响应，产生反向信号，将录音信号中由于环境混响脉冲响应产生的信号抵消，得到纯净的干声(没有混响)即不具有环境混响的单路人声信号，之后进行传统的人声美化，例如均衡、压缩、混响等，得到带有音效的人声。本发明可以在第一多路音频中去除由于环境引入的混响对人声美化工作的干扰，提高了人声美化的效果。

进一步的，基于所述声反馈回路特征对第二多路音频进行母带混缩处理得到单路音频输出包括：

获取声反馈回路特征中的环境混响脉冲响应、声反馈回路频响曲线以及空间模态驻波频率；

将所述立体人声音频与伴奏音频混音处理得到单路的单路音频；

基于环境混响脉冲响应、声反馈回路频响曲线以及空间模态驻波频率对所述单路音频进行处理得到处理后的立体声音频。

声反馈回路探测模块将环境混响脉冲响应、声反馈回路频响曲线实时变化、移动端所处空间位置的空间模态驻波频率传递给母带混缩模块。母带混缩会将人声美化模块处理后的立体人声音频与伴奏音频混合一起，并且根据声反馈回路探测模块输入的特征对混合后的音频做处理，处理后会均衡掉由于环境混响导致的听感中某些频段被增强，同时也会补偿由于空间模态导致的频率损失，起到减小不同环境下的音效听感差异的作用。

进一步的，根据声反馈回路频率响应、声反馈回路频响曲线的实时变化、回声跟踪的房间环境脉冲响应，计算出随时间变化的增强频率点序列以及增益量序列。

配置环境均衡滤波器组，所述环境均衡滤波器组用于将立体人声音频和伴奏音频的混合信号输入至所述滤波器组进行均衡补偿，补偿方式为基于所述增强频率点序列以及增益量序列进行补偿。

根据声反馈回路频率响应、声反馈回路频响曲线实时变化、回声跟踪的房间环境脉冲响应，计算出随时间变化的增强频率点序列以及增益量序列，设计环境增益均衡级联滤波器组，此滤波器组的参数随时间变化而变化，作用频段与增强频率点序列一致，滤波器增益参数与环境脉冲响应导致的增益量序列相反。将人声和伴奏的混合信号经过此滤波器组，得到均衡补偿后的音频信号。

根据空间模态导致的损失频率，本发明采用传统激励器产生此频段的高次谐波，来在听感上模拟此频段能量的存在，补偿由于空间模态导致的频率损失。

进一步的，在步骤S110中包括：

控制移动终端的扬声器播放至少一种声反馈探测信号并对所述声反馈探测信号进行记录。在本发明中，如图4所示，可以预先配置声学探测信号库，声反馈探测信号即是声学探测信号库预先存储的信号。其中声学探测信号库存储有至少用于预测回声功率、频率响应以及环境混响的信号。

通过移动终端的麦克风采集声反馈探测信号并对采集的声反馈探测信号记录。在移动终端播放声反馈探测信号后，环境等因素会对声反馈探测信号进行增强和\或减弱，通过麦克风获取增强和\或减弱后的声反馈探测信号。

将播放的声反馈探测信号和采集的声反馈探测信号比对得到声反馈探测结果，所述声反馈探测结果包括声反馈回路特征。在本步骤中，将增强和\或减弱后的声反馈探测信号与原声反馈探测信号进行比对即能够得到声反馈探测结果，该声反馈探测结果能够反映声反馈探测信号的增强和\或减弱情况，其中声反馈探测结果包括声反馈回路特征。

更进一步的，将播放的声反馈探测信号和采集的声反馈探测信号比对得到声反馈探测结果包括：

对播放的声反馈探测信号和采集的声反馈探测信号分别在回声功率维度、频率响应维度以及环境混响维度进行比对得到声反馈探测结果。本发明提供的技术方案，能够在回声功率维度、频率响应维度以及环境混响维度上获取声反馈探测结果，进而达到对人声进行多维度处理的效果。

所述声反馈探测结果包括回声功率信息、频率响应信息以及环境混响脉冲响应信息。

在一种可能的实施方式中，还包括：

实时获取移动终端的姿态信息、位置信息以及速度信息中的任意一种或多种。如图5所示，本发明中的位姿信息包括使用者手持移动终端时移动终端的姿态信息，使用者和移动终端所处的位置以及使用者控制移动终端的速度，使得本发明在考虑发生声反馈的情况时更加的全面，进而保障本发明全方面抑制、避免啸叫的产生。

基于所述姿态信息、位置信息以及速度信息得到移动终端当前时刻的位姿信息。在每个时刻，姿态信息、位置信息以及速度信息中的一个或多个都可能会发生改变，所以当任意一个信息发生改变后都会对位姿信息进行调整。

基于当前时刻的位姿信息更新所述声反馈探测结果。通过以上方式，实现声反馈探测结果的动态更新，进而基于声反馈回路特征对音频进行动态处理。

本发明的实施例还提供一种用于移动终端的音频处理装置，如图6所示，包括：

获取模块，用于实时获取移动终端的声反馈回路特征；

人声美化模块，用于基于所述声反馈回路特征实时对输入的第一多路音频进行人声美化处理得到第二多路音频；

母带混缩模块，用于基于所述声反馈回路特征实时对第二多路音频进行母带混缩处理得到单路音频输出。

在一个实施例中，所述人声美化模块还用于执行以下步骤，包括：

接收目标用户的音频特征；

提取所述第一多路音频中与目标用户的音频特征对应的音频信息作为只有目标用户人声的目标人声信息；

对所述目标人声信息进行音质增强处理后生成第二多路音频。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

11页详细技术资料下载

适用于移动终端的音频处理方法、装置及存储介质

相关技术

网友询问留言