音频处理的方法、装置、电子设备和存储介质

文档序号：170864 发布日期：2021-10-29 浏览：40次 >En<

阅读说明：本技术 音频处理的方法、装置、电子设备和存储介质 (Audio processing method and device, electronic equipment and storage medium ) 是由鲍枫李娟娟李岳鹏于 2021-01-28 设计创作，主要内容包括：本申请涉及计算机技术领域,尤其涉及一种音频处理的方法、装置、电子设备和计算机可读存储介质。该方法包括获取待处理音频数据所对应的原始音频特征；调用第一网络模型对原始音频特征进行处理,得到第一音频特征,其中,第一音频特征包括至少一维特征；调用第二网络模型对原始音频特征以及第一音频特征进行处理,得到第二音频特征,其中,第二音频特征的特征数量大于第一音频特征的特征数量；根据第二音频特征以及原始音频特征,调用全连接网络模型获取待处理音频数据所对应的增益结果；根据增益结果以及待处理音频数据,生成去噪音频数据。该方法能够提升去噪效果,从而能够更准确地判断出音频中的语音,提升判断的准确性。(The present application relates to the field of computer technologies, and in particular, to an audio processing method and apparatus, an electronic device, and a computer-readable storage medium. The method comprises the steps of obtaining original audio characteristics corresponding to audio data to be processed; calling a first network model to process the original audio features to obtain first audio features, wherein the first audio features comprise at least one-dimensional features; calling a second network model to process the original audio features and the first audio features to obtain second audio features, wherein the feature quantity of the second audio features is larger than that of the first audio features; calling a full-connection network model to obtain a gain result corresponding to the audio data to be processed according to the second audio characteristic and the original audio characteristic; and generating de-noising audio data according to the gain result and the audio data to be processed. The method can improve the denoising effect, so that the voice in the audio can be judged more accurately, and the judgment accuracy is improved.)

技术领域

本申请涉及计算机技术领域，尤其涉及一种音频处理的方法、装置、电子设备和计算机可读存储介质。

背景技术

随着计算机技术的发展，网络会议逐渐被人们所接收，并且成为了远程会议的首选方案。在网络会议中，参会者在不发言时，通常会选择将自己的麦克风关闭来避免干扰当前的发言者。会议的主持者也可以通过权限控制功能等方式将部分或全部其他参会者禁言来保持会议秩序。

目前，用户在参与会议的过程中，麦克风的开启和关闭可以由会议程序来控制。在线会议程序将会监听用户的发言情况，并且在确定用户正在进行发言的情况下，主动开启麦克风来允许用户进行发言。

然而，目前用户的参会环境中通常存在噪声干扰，从而导致在线会议程序将周围环境的噪声误判为用户发言而打开麦克风，降低了对于用户发言判断的准确性以及用户的使用体验。

发明内容

基于上述技术问题，本申请提供一种音频处理的方法，以提升去噪效果，从而能够更准确地判断出音频中的语音，提升判断的准确性。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供一种音频处理的方法，包括：

获取待处理音频数据所对应的原始音频特征；

调用第一网络模型对所述原始音频特征进行处理，得到第一音频特征，其中，所述第一音频特征包括至少一维特征；

调用第二网络模型对所述原始音频特征以及所述第一音频特征进行处理，得到第二音频特征，其中，所述第二音频特征的特征数量大于所述第一音频特征的特征数量；

根据所述第二音频特征以及所述原始音频特征，调用全连接网络模型获取所述待处理音频数据所对应的增益结果；

根据所述增益结果以及所述待处理音频数据，生成去噪音频数据。

根据本申请实施例的一个方面，提供一种音频处理装置，包括：

获取模块，用于获取待处理音频数据所对应的原始音频特征；

调用模块，用于调用第一网络模型对所述原始音频特征进行处理，得到第一音频特征，其中，所述第一音频特征包括至少一维特征；

所述调用模块，还用于调用第二网络模型对所述原始音频特征以及所述第一音频特征进行处理，得到第二音频特征，其中，所述第二音频特征的特征数量大于所述第一音频特征的特征数量；

所述调用模块，还用于根据所述第二音频特征以及所述原始音频特征，调用全连接网络模型获取所述待处理音频数据所对应的增益结果；

生成模块，用于根据所述增益结果以及所述待处理音频数据，生成去噪音频数据。

在本申请的一些实施例中，基于以上技术方案，所述获取模块包括：

区间划分单元，用于将所述待处理音频数据划分为第一频率区间以及第二频率区间，其中，所述第一频率区间的最大频率小于所述第二频率区间的最小频率；

子带划分单元，用于针对所述第一频率区间以及所述第二频率区间的频率进行频率划分并且对所述第二频率区间的子带进行稀疏化处理，得到子带集合，其中所述第一频率区间所划分的子带数量大于所述第二频率区间所划分的子带数量，所述子带音频集合中包括各个子带所对应的音频片段数据；

特征计算单元，用于根据所述子带集合，计算所述原始音频特征。

在本申请的一些实施例中，基于以上技术方案，所述特征计算单元包括：

第一计算子单元，用于计算所述子带集合中各个子带的巴克频率倒谱系数，得到第一特征集合；

第二计算子单元，用于针对所述子带集合中的至少两个子带，计算子带之间的差分系数以及离散余弦变换值，得到第二特征集合；

特征确定子单元，根据所述第一特征集合以及所述第二特征集合，确定所述原始音频特征。

在本申请的一些实施例中，基于以上技术方案，所述调用模块包括：

模型调用单元，用于调用第三网络模型对所述原始音频特征、所述第一音频特征以及所述第二音频特征进行处理，得到第三音频特征，其中，所述第三音频特征的特征数量大于所述第二音频特征的特征数量；

所述模型调用单元，还用于根据所述第三音频特征，调用全连接网络模型，获取所述待处理音频数据所对应的增益结果。

在本申请的一些实施例中，基于以上技术方案，所述生成模块包括：

增益计算单元，用于根据所述增益结果以及所述待处理音频数据进行乘法计算，得到音频增益结果；

音频变换单元，用于对所述音频增益结果进行逆快速傅里叶变换，得到去噪音频数据。

在本申请的一些实施例中，基于以上技术方案，所述音频处理装置还包括：

所述获取模块，还用于获取待训练音频数据所对应的训练音频特征；

所述调用模块，还用于调用待训练模型所包括的第一网络模型，对所述训练音频特征进行处理，得到第一音频特征，其中，所述第一音频特征包括至少一维特征；

所述调用模块，还用于调用所述待训练模型所包括的第二网络模型，对所述训练音频特征以及所述第一音频特征进行处理，得到第二音频特征，其中，所述第二音频特征的维度大于所述第一音频特征的维度；

所述调用模块，还用于根据所述第二音频特征以及所述训练音频特征，调用所述待训练模型所包括的全连接网络模型，获取所述待处理音频数据所对应的增益结果；

训练模块，用于根据所述增益结果、所述待训练音频数据以及所述待处理音频数据所对应的无噪声音频数据，调整所述待训练模型的模型参数，得到音频处理模型。

在本申请的一些实施例中，基于以上技术方案，所述音频处理装置还包括：

采集模块，用于通过音频采集装置采集所述待处理音频数据；

识别模块，用于对所述去噪音频数据进行识别处理，获得音频识别结果；

切换模块，用于若所述音频识别结果指示所述待处理音频数据为人声语音，则控制所述音频采集装置传输音频数据，否则，控制所述音频采集装置停止音频数据传输。

根据本申请实施例的一个方面，提供一种电子设备，该电子设备包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，该处理器配置为经由执行可执行指令来执行如以上技术方案中的音频处理的方法。

根据本申请实施例的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时实现如以上技术方案中的音频处理的方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供音频处理的方法。

在本申请的一些实施例所提供的技术方案中，通过网络模型对待处理语音数据进行去噪处理，在处理的过程中，对于多个网络模型，通过将原始的输入特征以及前序网络模型的输出结果输入到后续的网络模型进行计算，可以在模型计算的过程中，充分考虑原始音频特征中的噪声特征情况，从而对噪声进行充分过滤，提升去噪效果，从而能够更准确地判断出音频中的语音，提升判断的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本申请实施例中会议应用程序的界面示意图；

图2为本申请实施例中一种音频处理的方法的流程图；

图3为本申请实施例中一种音频处理的方法的流程图；

图4为本申请实施例中一种音频处理的方法的流程图；

图5为本申请实施例中一种音频处理的方法的流程图；

图6为本申请实施例中的音频处理装置的算法结构图；

图7为本申请实施例中一种音频处理的方法的流程图；

图8为本申请实施例中一种音频处理的方法的流程图；

图9为本申请实施例中一种音频处理的方法的流程图；

图10示意性地示出了本申请实施例中音频处理装置的组成框图；

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

网络在线会议程序越来越成为远程会议的首选方式。参会者通过网络在线会议程序接入云会议服务器，并通过终端上扬声器和麦克风收听会议和发言。

可以理解的是，本申请实施例中的音频处理的方法以及相关装置可以应用在计算机、手机等语音通话设备，还可以应用在智能手机、智能电视等互联网设备，也可以应用在座机电话、远程会议摄像头等专用设备。应用在这些设备上的情况相似，均是通过麦克风采集用户的语音音频数据，并结合本申请实施例的音频处理的方法进行去噪处理，得到去除噪音后的音频。具体实现方式可以参考下面对本申请实施例应用在云会议上的详细描述。

请参阅图1，图1为本申请实施例中会议应用程序的界面示意图。该会议应用程序在终端(如计算机)上运行，计算机通过互联网连接到云会议服务器并收发视频、音频和文字信息来参与会议。该计算机具有内置麦克风或者外接麦克风。用户在连接到在线会议后，可以将会议应用程序中将麦克风切换到静音模式。此时，会议应用程序将不会向云会议服务器发送音频信号。然而，计算机上的麦克风并未被关闭，其将继续采集音频信息以便会议应用程序对用户的发言状况进行分析和判断。用户在参与会议的过程中需要发言时，可以直接开始发言，会议应用程序首先利用本申请中音频处理的方法对麦克风采集到的音频信息进行处理，过滤掉音频信息中的噪声(例如，鼠标和键盘操作的声音、其他应用或者手机消息的提示音、挪动桌面上的物体或桌椅的声音等)，然后通过语音活性检测(VoiceActivity Detection，VAD)的方式对去噪后的音频信息进行分析和判断。当检测到用户正在发言时，会议应用程序将会提示用户开启麦克风进入发言模式，或者直接开启麦克风，以便用户进行发言。

可以理解是，云会议服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。前述的终端除了可以是计算机(如笔记本电脑、台式计算机等)之外，还可以是智能手机、平板电脑、智能音箱、智能手表等，但并不局限于此。终端以及云会议服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中的音频处理的方法在具体实施时也可以通过机器学习的方式实现，并且可以具体应用于云会议。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。

目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。

在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，用户完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。

云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

本申请的方案适用于对语音音频信息中的噪声进行过滤，来得到去噪的语音信息来做后续的处理，以便提升语音信息操作的准确性。下面结合具体实施方式对本申请提供的技术方案做出详细说明。本实施例的方法可以应用于计算机终端，并且具体由音频处理装置来执行。

请参阅图2，图2为本申请实施例中一种音频处理的方法的流程图，该流程至少包括如下步骤S201至S205：

步骤S201，获取待处理音频数据所对应的原始音频特征。

在本申请实施例中，音频处理装置可以通过麦克风获取待处理音频数据。待处理音频数据中可以包括噪声数据以及语音数据。待处理音频数据的采样通常可以在16000HZ的频率下进行采样。根据预定的频带划分规则，音频处理装置对待处理音频数据进行子带划分，得到若干个子带。随后，针对每个子带计算其参数特征。

子带划分的数量和方式以及参数特征的选择可以采用各种适合的方式。具体地，子带可以采用巴克(bark)域的方式划分为多个bark带。针对各个bark带，可以计算带内的倒谱系数以及差分系数等参数作为参数特征。

步骤S202，调用第一网络模型，对原始音频特征进行处理，得到第一音频特征，其中，第一音频特征包括至少一维特征。

在本申请实施例中，音频处理装置将原始音频特征输入到第一网络模型中进行处理，得到第一音频特征。第一网络模型可以采用循环神经网络的模型，其是以序列数据为输入，在序列的演进方向进行递归且所有循环单元按链式连接的递归神经网络。第一网络模型即是其中一个循环单元，其中，第一网络模型可以采用长短期记忆人工神经网络(LongShort-Term Memory，LSTM)或者门控循环单元(Gated Recurrent Unit，GRU)等模型实现。第一网络模型接收原始音频特征作为输入，并且输出一个多维向量作为输出结果，即第一音频特征。步骤S203，调用第二网络模型，对原始音频特征以及第一音频特征进行处理，得到第二音频特征，其中，第二音频特征的特征数量大于第一音频特征的特征数量；

在本申请实施例中，音频处理装置将第一音频特征与原始音频特征合并为输入特征并且输入到第二网络模型中进行处理，得到第二音频特征。

具体地，第二网络模型也是循环神经网络模型中的一个循环单元，其与第一网络模型是同类型的神经网络模型，并且接收第一网络模型的输出结果以及原始音频特征作为输入。第二网络模型的输出结果(即第二音频特征)的维度通常大于第二网络模型的输出结果(即第一音频特征)的维度，以便更加凸显音频数据中的特征。具体地，若第一音频特征包括60个特征值，则第二音频特征所包括的特征值数量至少为61个或者更多，例如70个或者80个。这是因为，第二网络模型的输入数据中包括第一音频特征以及原始音频特征，第二音频特征的特征数量大于第一音频特征的特征数量能够确保第二音频特征具有足够尺寸容纳原始音频特征中的特征细节，提高原始音频特征在计算第二音频特征的过程的权重，从而提升模型的学习能力以及去噪效果。若第二音频特征的特征数量等于或者小于第一音频特征，则由于第二音频特征的大小不足，将导致原始音频特征在第二音频特征中的权重较低，学习能力下降，从而丢失原始音频特征中的特征细节，减弱去噪效果。

第二网络模型与第一网络模型所采用的激活函数种类可以相同，也可以不同，此处不做限定。

可以理解的是，在本申请中，通过网络模型处理得到的音频特征中的各个特征值可以是在预定范围内取值的数据。各个特征值是学习过程中的中间值，不一定对应于实际的物理意义，也不一定与待处理音频数据存在直接关联关系。各个特征值的取值范围根据对应的网络模型的所采用的函数而定。例如，若第一网络模型采用双曲正切函数，则第一网络模型所输出的第一音频特征将包括例如60个特征值，每个特征值均是在取值范围为0至1之间的值，并且每个特征值不一定具有实际的物理意义。

步骤S204，根据第二音频特征以及原始音频特征，调用全连接网络模型，获取待处理音频数据所对应的增益结果。

具体地，音频处理装置可以调用至少两个循环单元。在仅调用第一网络模型和第二网络模型的情况下，音频处理装置可以将第二网络模型输出的第二音频特征输入到全连接网络模型中进行处理，得到音频的增益结果。增益结果的维度数量与原始音频特征中子带的数量相同。例如，若待处理音频数据被划分为50个子带，则增益结果中的维度为50维。

在音频处理装置调用三个或三个以上的循环单元的情况下，音频处理装置将会根据第二音频特征以及原始音频特征，继续调用后续的循环单元进一步的处理，并将其输出结果以及之前的循环单元的输出结果作为下一个循环单元的输入，直至序列中的最后一个循环单元完成处理，得到最后的音频特征。之后，再采用全连接网络模型进行处理，得到增益结果。

可以理解的，各个循环单元的输出结构的维度数量应呈阶梯式上涨的趋势，以逐步充分地体现待处理音频数据中的语音特征与噪声特征，从而有利于取出噪声。

步骤S205，根据增益结果以及待处理音频数据，生成去噪音频数据。

具体地，在得到增益结果后，可以将增益结果与待处理音频数据进行去噪运算，得到去噪音频数据。例如，增益结果为包括M个维度，它们对应于待处理语音数据所划分出的M个子带。根据将子带的信号值与所对应的增益结果里的特征值进行去噪运算，则可以得到去噪的信号值，将计算所得到的各个信号值合并既可以的到去噪音频数据。

在本申请的实施例中，通过神经网络模型对待处理语音数据进行将在处理，在处理的过程中，对于神经网络模型中的各个循环单元，通过将原始的输入特征以及前序循环单元的输出结果输入到后续的循环单元进行计算，可以在模型计算的过程中，充分考虑原始音频特征中的噪声特征情况，从而对噪声进行充分过滤，提升去噪效果，从而能够更准确地判断出音频中的语音，提升判断的准确性。

在本申请的一个实施例中，为了在充分识别到语音特征的基础上，降低算法的资源消耗，提升计算效率，具体可以如图3所示，上述步骤S201获取待处理音频数据所对应的原始音频特征，可以包括如下步骤S301至S303，详细说明如下：

步骤S301，将待处理音频数据划分为第一频率区间以及第二频率区间，其中，第一频率区间的最大频率小于第二频率区间的最小频率；

步骤S302，针对第一频率区间以及第二频率区间的频率进行频率划分并且对第二频率区间的子带进行稀疏化处理，得到子带集合，其中第一频率区间所划分的子带数量大于第二频率区间所划分的子带数量，所述子带音频集合中包括各个子带所对应的音频片段数据；

步骤S303，根据子带集合，计算原始音频特征。

在本申请实施例中，待处理音频数据采用16000Hz进行采样，从而得到8000Hz带宽的宽带语音信号。音频处理装置将该待处理音频数据划分为第一频率区间以及第二频率区间。第一频率区间是根据人说话时的通常语音频率划分的，其通常可以包括相对低频的频带。例如，第一频率区间可以为0至2000Hz。第二频率区间主要包括各类环境噪声所涉及的频率区间，其范围与第一频率区间不重叠，例如可以为2000Hz至8000Hz。

第一频率区间和第二频率区间分别被划分为多个子带，每个子带对应于一个音频片段数据。在本申请中，采用巴克(bark)域的方式划分频带。在获得待处理音频数据的多个特征参数之前，可以对待处理音频数据进行傅里叶变换，得到待处理音频数据的幅度谱，然后根据临界频带定义对当前待处理音频数据的幅度谱进行bark子带划分，得到的多个子带的特征参数。

示例性的，可以对待处理音频数据进行短时傅里叶变换，并计算当前音频信号片段的幅度谱。待处理音频数据为含噪音频信号，由纯净的人声语音信号s(t)，和不相关的噪声w(t)组成，例如，w(t)可以为环境中的噪声。待处理音频数据的时域表达式满足：x(t)＝s(t)+w(t)，其中，t表示时间。对上述表达式的两边分别进行短时傅里叶变换可得当前音频信号片段的频域表达式满足：X(k)＝S(k)+W(k)，其中X(k)表示含噪音频信号的幅度谱、S(k)表示人声语音信号的幅度谱，W(k)表示噪声幅度谱，k表示频点，例如，可以对待处理音频数据进行512个频点的短时傅里叶变换。

第一频率区间可以直接被划分为预设数量的bark带，具体划分的数量通常取决于经验而定，例如，第一频率区间可以被划分为36个bark带。第二频率区间在划分bark带之前，首先进行稀疏化表示，从而适度将降低其中的噪声信号对结果的影响。第二频率区间的子带数量可以少于第一频率区间的子带的数量，以免对计算结果产生混淆。例如，第二频率区间可以被划分为28个子带。

第一频率区间和第二频率区间的子带所对应的音频片段构成子带集合，即64个子带。对于这64个子带中的每个子带计算可以计算其各类音频特征作为，得到原始音频特征，例如，语谱图、短时功率谱密度、基频、共振峰以及倒谱系数等。

在本实施例中，通过将待处理音频数据划分为两个不同区间，并且对其中涉及噪声的区间进行稀疏化处理，可以从而可以通过少量特征表示待处理音频数据中的噪声信号，由于针对低频区间所需要计算的特征较多，而针对高频区间所需要计算的特征数量较少，因此，可以在充分识别到语音特征的基础上，降低算法的资源消耗，提升计算效率。

在本申请的一个实施例中，为了使能够更加准确地判断出正常发言的语音以及非发言语音，具体可以如图4所示，上述步骤S303根据子带集合，计算原始音频特征，可以包括如下步骤S401至S403，详细说明如下：

步骤S401，计算子带集合中各个子带的巴克频率倒谱系数，得到第一特征集合；

步骤S402，针对子带集合中的至少两个子带，计算子带之间的差分系数以及离散余弦变换值，得到第二特征集合；

步骤S403，根据第一特征集合以及第二特征集合，确定原始音频特征。

音频处理装置可以计算各个子带内的参数特征。具体地，例如，待处理音频数据被划分为56个bark带，其中，对于较低频部分(0～1000Hz)，划分了32个bark带，对于较高频部分(1000～8000Hz)划分了24个bark带。对于56个bark带中的各个bark带，计算带内的巴克频率倒谱(Bark Frequency Cepstrum Coefficient,BFCC)系数，即bark域参数特征，由此得到56个特征，形成第一特征集合。

可以理解是，频带的划分方式以及其参数特征仅为示例，BFCC系数也可以采用其他参数，例如采用梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)，此处不做限制。

对于部分子带，音频处理装置可以计算其带内的BFCC系数的差分系数以及离散余弦变换值。具体地，例如，对于前1至6个bark带，可以计算BFCC系数的其带内的一阶差分系数和二阶差分系数，还可以计算带内信号互相关系数的离散余弦变换值，从而获得18个特征，形成第二特征集合。

一阶差分即为相邻两个子带的BFCC系数之差，可以用于体现相邻两个子带之间的关系。示例性的，子带BFCC系数的一阶差分可以根据如下公式获得：Y(b)＝X(b+1)-X(b)，其中X(b)为子带b的BFCC系数，Y(b)为一阶差分。BFCC系数的二阶差分即为相邻两个一阶差分的差值，表示的是相邻的一阶差分之间的关系，即前一阶差分与后一阶差分之间的关系，可以用于体现音频幅度谱的子带中相邻三个子带之间的动态关系。示例性的，BFCC系数的二阶差分可以根据如下公式获得：Z(b)＝Y(b+1)-Y(b)＝X(b+2)-2*X(b+1)+X(b)，其中X(b)为子带b的BFCC系数，Y(b)为一阶差分，Z(b)为二阶差分。

在一个实施例中，为了在没有语音的足够分辨率时不能在基频谐波之间能够很细致的抑制噪声。还可以加入后滤波方法：使用梳状滤波器在一个基频周期(pitch period)内消除间谐波噪声(inter-harmonic noise)。因此，原始音频特征可以加入用于梳状滤波器的基因周期(pitch period)的基频(pitch)以及能量参数作为额外特征。

由此，根据上述的第一特征集合以及第二特征集合以及额外特征，可以确定得到包括76个维度的原始音频特征。

可以理解的是，上述的对于第一特征集合、第二特征集合以及额外特征的数量仅为示例而非限制，本领域技术人员可以取决于具体实现而确定特征的数量。

在申请的实施例中，通过计算子带内的巴克频率倒谱系数、差分系数以及离散余弦变换值，确定原始音频特征，能够对待处理音频中的语音和噪声情况进行充分的表示，由于在巴克域中能够更加真实地反应人耳对信号产生的感觉，从而能够更加准确地判断出正常发言的语音以及非发言语音，从而提升对于发言判断的准确性。

在本申请的一个实施例中，为了能够更充分地过滤待处理音频数据中噪声数据，具体可以如图5所示，上述步骤S204根据第二音频特征以及原始音频特征，调用全连接网络模型，获取待处理音频数据所对应的增益结果，可以包括如下步骤S501至S502，详细说明如下：

步骤S501，调用第三网络模型，对原始音频特征、第一音频特征以及第二音频特征进行处理，得到第三音频特征，其中，第三音频特征的特征数量大于第二音频特征的特征数量；

步骤S502，根据第三音频特征，调用全连接网络模型，获取待处理音频数据所对应的增益结果。

在本申请实施例中，音频处理装置调用三个网络模型。为了便于介绍，请参阅图6，图6为本申请实施例中的音频处理装置的算法结构图。具体地，三个网络模型均采用GRU模型实现。例如，假定原始音频特征中包括基于56个子带计算得到的76个特征。音频处理装置将76个特征的特征值输入到第一GRU模型中。第一GRU模型采用双曲正切(tanh)函数作为激活函数，并且其输出的第一音频特征包括60个特征。然后第一输出结果的60个特征以及原始音频特征中的76个特征被输出到第二GRU模型中，该模型采用ReLU函数作为激活函数，并且输出的第一音频特征包括70个特征。类似地，音频处理装置调用第三GRU模型，其也采用双曲正切(tanh)函数作为激活函数，对原始音频特征中的76个特征、第一音频特征的60个模型以及第二音频特征的70个特征进行处理，并且输出的第三音频特征包括130个特征。可以理解的是，按照GRU模型的序列顺序，其输出的特征数量逐渐增大，以便保留更多的细节特征，从而对语音信号和噪声信号的表示将更加具体，进而准确计算增益，提升去噪效果。

在得到第三音频特征的130个特征后，音频处理装置将其输入到全连接模型中。在本实施例中，全连接模型采用Sigmoid函数作为计算函数，根据输入的130个特征计算得到56个子带所对应的56个特征值，作为其输出的增益结果。

类似于关于第一网络模型以及第二网络模型所描述的，第三网络模型所输出的第三音频特征的特征数量大于第二音频特征的特征数量，并且第三音频特征中的各个特征值也不一定具有实际的物理意义，具体请参阅上文关于第一音频特征以及第二音频特征的相关描述，此处不再赘述。

应注意的是，上述所采用的GRU模型可以采用其他神经网络模型代替，例如长短期记忆人工神经网络模型或循环神经网络模型。各个GRU模型的激活函数也可以使用其他同类激活函数替换。各个GRU模型的输出结果的维度也可以取决于输入值以及实现的具体情况而定，只要符合按照模型序列逐渐增大的趋势即可。对于神经网络模型的种类、激活函数的种类以及输出结果的维度，此处均不做限制。

在本申请实施例中，音频处理装置具体调用三个网络模型单元，能够对提升音频处理装置的去噪能力，同时维持音频处理装置的量化体积满足实时通信的需求，以提升后续的语音检测算法的准确率，从而提升用户体验。

在本申请的一个实施例中，为了能够获取去噪音频数据，具体可以如图7所示，上述步骤S205，根据增益结果以及待处理音频数据，生成去噪音频数据，可以包括如下步骤S701至S702，详细说明如下：

步骤S701，根据增益结果以及待处理音频数据进行乘法计算，得到音频增益结果；

步骤S702，对音频增益结果进行逆快速傅里叶变换，得到去噪音频数据。

具体地，对于待处理音频数据的每个子带，增益结果中将包括的对应的增益特征值。将子带的频率与增益特征值进行乘法运算以对其中的噪声引号进行过滤，并且对其中的语音信号进行放大，从而进行去噪操作。将各个子带与相应增益特征值的所得到的计算结果合并，即可以得到音频增益结果。

然后，对音频增益结果进行逆快速傅里叶变换，从而将音频增益结果的数据从频率转换到时域中，从而得到去噪音频数据。

在本申请实施例中，利用增益结果对待处理音频数据进行去噪，有效消除外在噪声因素的影响，提升所产生的去噪音频数据的品质及效果。

在本申请的一个实施例中，音频处理模型包括所述第一网络模型、所述第二网络模型以及所述全连接网络模型，为了能够获得训练好的音频处理模型，具体可以如图8所示，上述步骤S201，获取待处理音频数据所对应的原始音频特征之前，可以包括如下步骤S801至S805，详细说明如下：

步骤S801，获取待训练音频数据所对应的训练音频特征；

步骤S802，调用待训练模型所包括的第一网络模型，对训练音频特征进行处理，得到第一音频特征，其中，第一音频特征包括至少一维特征；

步骤S803，调用待训练模型所包括的第二网络模型，对训练音频特征以及第一音频特征进行处理，得到第二音频特征，其中，第二音频特征的维度大于第一音频特征的维度；

步骤S804，根据第二音频特征以及训练音频特征，调用待训练模型所包括的全连接网络模型，获取待处理音频数据所对应的增益结果；

步骤S805，根据增益结果、待训练音频数据以及待处理音频数据所对应的无噪声音频数据，调整待训练模型的模型参数，得到音频处理模型。

音频处理模型包括多个子模型，具体包括第一网络模型、第二网络模型以及全连接网络模型。在一个实施例中，音频处理模型可以包括更多的网络模型，例如第三网络模型，各个网络模型按照序列顺序连接并且将前序模型的输出结果以及原始的输入结果作为自己的输入特征。序列中最后一个模型将输出结果输入到全连接网络模型中，以得到最后的增益结果。音频处理模型所包括的网络模型的数量可以取决于具体实现而定，本申请不做限制。

具体地，待训练音频数据中包括含噪声的音频数据。可以根据采集的大量的音频信号的基频信息和多个子带的特征参数构建神经网络的训练集，原始含噪数据训练集满足：X(b)＝S(b)+W(b)，和目标增强数据训练集满足：X'(b)＝g(b)*S(b)+W(b)，用于参数训练。算法的目的就是让这个目标增强因子g(b)达到最优。其中，b为子带索引号，X(b)表示原始含噪幅度谱，X'(b)表示人声增强后的含噪幅度谱，S(b)表示不含噪的人声幅度谱，W(b)表示噪声幅度谱。损失函数与目标的增强结果与待训练音频模型输出的增强结果之间的关系相关，例如可以为L(p(x),p`(x))＝(p(x)-p`(x))²,其中，p(x)表示目标增强结果，p`(x)表示待训练音频模型输出的增强结果。目标增强结果可以根据待处理音频数据以及所对应的无噪声音频数据计算得到。在神经网络中，通常用损失函数来度量神经网络拟合的程度，即损失函数极小化，意味着拟合程度最好，对应的模型参数即为最优参数。

因此，音频处理模型的训练过程中，首先根据上述的参数特征计算的方式，对待训练音频数据进行子带划分和计算，得到训练音频特征。随后，根据待训练模型中的循环单元的数量，将前序单元的输出结果以及原始的训练音频特征作为输入，计算输出结果。对于两层结构的待训练模型，首先调用待训练模型所包括的第一网络模型，对训练音频特征进行处理，得到第一音频特征，其中，第一音频特征包括至少一维特征，然后调用待训练模型所包括的第二网络模型，对训练音频特征以及第一音频特征进行处理，得到第二音频特征，其中，第二音频特征的维度大于第一音频特征的维度。

随后，将第二网络模型的输出通过全连接模型得到最后的增益结果。并且根据待训练音频数据以及其所对应的无噪声音频数据得到目标增益结果。根据目标增益结果与待训练模型输出的增益结果进行损失函数的计算，并根据损失结果调整待训练模型的模型参数，得到音频处理模型。

对于待训练模型的训练过程可以迭代执行，具体地，可以设定多个训练批次，每个批次输入一定数量的待训练音频数据作为训练数据集合。在迭代训练的过程中，可以通过自适应矩估计优化器(Adaptive Moment Estimation Optimizer)进行损失值的迭代训练。

在本实施例中，利用待训练音频数据对待训练模型进行训练，得到音频处理模型，有利于提升方案的可行性。

在本申请的一个实施例中，为了能够控制音频采集装置的状态以便用户发言，具体可以如图9所示，上述方法可以包括如下步骤S901至S903，详细说明如下：

在步骤S201获取待处理音频数据所对应的原始音频特征之前，方法还包括：

步骤S901，通过音频采集装置采集待处理音频数据；

在步骤S205根据增益结果以及待处理音频数据，生成去噪音频数据之后，方法还包括：

步骤S902，对去噪音频数据进行识别处理，获得音频识别结果；

步骤S903，若音频识别结果指示待处理音频数据为人声语音，则控制音频采集装置传输音频数据，否则，控制音频采集装置停止音频数据传输。

音频采集装置可以是任意种类的麦克风，或者具有音频采集功能的其他装置。具体地，在用户通过会议应用程序参与云会议服务器之后，会议应用程序将会通过麦克风获取待处理音频数据。用户可以将麦克风切换至静音状态，此时，会议应用程序不会向云会议服务器发送音频数据来发言，但仍会通过麦克风采集待处理音频数据，以供会议应用程序的后台程序分析用户是否正进行发言。

当用户进行发言时，会议应用程序将会利用上述实施例中的音频处理装置对采集到的待处理音频数据进行去噪声处理，得到去噪音频数据。然后，在步骤S902中，可以利用VAD算法或其他类型的检测算法对去噪音频数据进行人声识别，得到音频识别结果。

若音频识别结果中指示待处理音频数据中包括人声语音，则可以判断用户当前正在发音，可以将麦克风切换到通话状态。麦克风在通话状态下会通过会议应用程序向远程的云会议服务器发送音频数据，以便允许用户发言。否则，若音频识别结果中指示待处理音频数据中不包括人声语音，则将麦克风保持在静音状态。在静音状态下，麦克风将停止传输音频数据。在一个实施例中，若麦克风已经处于通话状态，则可以不做任何处理。在一个实施例中，在对去噪音频数据进行识别处理之前，或者在通过麦克风采集待处理音频数据之前，还可以首先监听麦克风的状态，若处于通话状态，则不作任何操作，若处于静音状态，则开始执行上述步骤。

可以理解的是，上文中所提及的麦克风的状态指的是会议应用程序等应用环境中对于麦克风设定的状态，而并非麦克风自身的开关状态。静音状态和通话状态用于区分会议应用程序是否向远程服务器发送音频数据，在这两个状态下，麦克风均处于通电运行的状态并且可以采集音频数据。

在本实施例中，通过本申请实施例中的方法对收集到的音频进行去噪,然后再根据去噪的音频进行人声语音的判断，并且根据判断结果控制音频设备是否传输音频数据，可以使得用户在忘记打开音频设备时，应用能够代替用户打开音频设备进行发言，避免用户重复发言内容，提高应用的可用性。

应当注意，尽管在附图中以特定顺序描述了本申请中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

以下介绍本申请的装置实施，可以用于执行本申请上述实施例中的音频处理的方法。图10示意性地示出了本申请实施例中音频处理装置的组成框图。如图10所示，音频处理示装置1000主要可以包括：

获取模块1001，用于获取待处理音频数据所对应的原始音频特征；

调用模块1002，用于调用第一网络模型对所述原始音频特征进行处理，得到第一音频特征，其中，所述第一音频特征包括至少一维特征；

所述调用模块，还用于根据所述第二音频特征以及所述原始音频特征，调用全连接网络模型获取所述待处理音频数据所对应的增益结果；

生成模块1003，用于根据所述增益结果以及所述待处理音频数据，生成去噪音频数据。

在本申请的一些实施例中，基于以上技术方案，所述获取模块1001包括：

特征计算单元，用于根据所述子带集合，计算所述原始音频特征。

在本申请的一些实施例中，基于以上技术方案，所述特征计算单元包括：

第一计算子单元，用于计算所述子带集合中各个子带的巴克频率倒谱系数，得到第一特征集合；

第二计算子单元，用于针对所述子带集合中的至少两个子带，计算子带之间的差分系数以及离散余弦变换值，得到第二特征集合；

特征确定子单元，根据所述第一特征集合以及所述第二特征集合，确定所述原始音频特征。

在本申请的一些实施例中，基于以上技术方案，所述调用模块1002包括：

所述模型调用单元，还用于根据所述第三音频特征，调用全连接网络模型，获取所述待处理音频数据所对应的增益结果。

在本申请的一些实施例中，基于以上技术方案，所述生成模块1003包括：

增益计算单元，用于根据所述增益结果以及所述待处理音频数据进行乘法计算，得到音频增益结果；

音频变换单元，用于对所述音频增益结果进行逆快速傅里叶变换，得到去噪音频数据。

在本申请的一些实施例中，基于以上技术方案，所述音频处理装置1000还包括：

所述获取模块1001，还用于获取待训练音频数据所对应的训练音频特征；

所述调用模块1002，还用于调用待训练模型所包括的第一网络模型，对所述训练音频特征进行处理，得到第一音频特征，其中，所述第一音频特征包括至少一维特征；

所述调用模块1002，还用于调用所述待训练模型所包括的第二网络模型，对所述训练音频特征以及所述第一音频特征进行处理，得到第二音频特征，其中，所述第二音频特征的维度大于所述第一音频特征的维度；

所述调用模块1002，还用于根据所述第二音频特征以及所述训练音频特征，调用所述待训练模型所包括的全连接网络模型，获取所述待处理音频数据所对应的增益结果；

在本申请的一些实施例中，基于以上技术方案，所述音频处理装置1000还包括：

采集模块，用于通过音频采集装置采集所述待处理音频数据；

识别模块，用于对所述去噪音频数据进行识别处理，获得音频识别结果；

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图11示出的电子设备的计算机系统1100仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(Central Processing Unit，CPU)1101，其可以根据存储在只读存储器(Read-Only Memory，ROM)1102中的程序或者从储存部分1108加载到随机访问存储器(Random Access Memory，RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU1101、ROM1102以及RAM 1103通过总线1104彼此相连。输入/输出(Input/Output，I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1107；包括硬盘等的储存部分1108；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入储存部分1108。

特别地，根据本申请的实施例，各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

25页详细技术资料下载

音频处理的方法、装置、电子设备和存储介质

相关技术

网友询问留言