音频数据获取方法、装置、电子设备及存储介质

文档序号：1355681 发布日期：2020-07-24 浏览：7次 >En<

阅读说明：本技术 音频数据获取方法、装置、电子设备及存储介质 (Audio data acquisition method and device, electronic equipment and storage medium ) 是由陈翔宇董培张晨于 2020-03-26 设计创作，主要内容包括：本公开关于一种音频数据获取方法、装置、电子设备及存储介质,属于语音处理技术领域。本公开提供的方案,通过电子设备的音频电路组件来获取针对电子设备的互动过程所产生的第一音频数据,通过麦克风组件以外录的方式,来获取针对该互动过程的第二音频数据,以第一音频数据作为参考信号,从第二音频数据中消除第一音频数据,以得到包含环境噪音的语音数据,再对环境噪音进行噪音消除处理,得到包含干净人声的语音数据,可以有效减少噪音,避免环境噪音对用户观看直播造成影响,优化直播音质,提高用户体验。(The disclosure relates to an audio data acquisition method, an audio data acquisition device, electronic equipment and a storage medium, and belongs to the technical field of voice processing. The scheme that this disclosure provided, audio circuit subassembly through electronic equipment obtains the produced first audio data of interactive process to electronic equipment, mode through the microphone subassembly is excepted to record, obtain the second audio data to this interactive process, regard as reference signal with first audio data, eliminate first audio data from the second audio data, in order to obtain the speech data who contains ambient noise, carry out noise elimination processing to ambient noise again, obtain the speech data who contains clean human voice, can effectively the noise reduction, avoid ambient noise to watch live to the user and cause the influence, optimize live tone quality, improve user experience.)

技术领域

本公开涉及语音处理技术领域，尤其涉及一种音频数据获取方法、装置、电子设备及存储介质。

背景技术

随着科技的不断发展和人民生活水平的不断提高，直播行业开始蓬勃发展，其中，游戏直播作为一种颇受欢迎的直播类型，受到了越来越多的人的关注。在直播过程中，直播音质会直接影响到用户的观看体验，音质较高的直播更容易吸引更多的用户，因此，亟需一种音频数据获取方法，来提高直播时所使用的音频数据的音质。

目前在获取用于游戏直播的音频数据时，主要是通过电子设备的麦克风组件，来采集外放的游戏音效和主播人声，得到用于直播的音频数据。

通过麦克风组件对游戏音效和主播人声进行采集时，会有一定程度的失真，而且在进行游戏直播时，需要频繁点击屏幕来进行游戏，导致手指点击屏幕的声音也会被麦克风组件采集到，由此产生的噪声也会极大地影响直播音质，导致直播音质差，进而导致作为直播观众的用户体验较差。

发明内容

本公开提供一种音频数据获取方法、装置、电子设备及存储介质，以至少解决相关技术中噪声影响直播音质、导致用户体验较差的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频数据获取方法，该方法包括：

获取针对电子设备的互动过程的第一音频数据和第二音频数据，该第一音频数据为在该互动过程中通过音频电路组件所获取的音频数据，该第二音频数据为在该互动过程中通过该电子设备的麦克风组件采集得到的音频数据；

从该第二音频数据中消除该第一音频数据，得到第三音频数据，该第三音频数据为包含环境噪音的语音数据；

对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据；

基于该第一音频数据和该第四音频数据，生成用于直播的音频数据。

在一种可能的实现方式中，该对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据包括：

获取该第三音频数据的第一频谱特征；

将该第一频谱特征输入噪音消除模型，该噪音消除模型由包含环境噪音的语音数据和消除噪音后的语音数据训练得到；

通过该噪音消除模型，从该第一频谱特征中消除噪音频谱特征，得到第二频谱特征；

基于该第二频谱特征，生成第四音频数据。

在一种可能的实现方式中，该方法还包括：

获取第一样本音频数据和第二样本音频数据，该第一样本音频数据为作为样本的包含环境噪音的语音数据，该第二样本音频数据为作为样本的消除环境噪音后的语音数据；

基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型。

在一种可能的实现方式中，该基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型包括：

获取该第一样本音频数据的第一样本频谱特征以及该第二样本音频数据的第二样本频谱特征；

将该第一样本频谱特征和该第二样本频谱特征输入至该初始模型；

通过该初始模型，对该第一样本频谱特征进行处理，得到第三样本频谱特征；

基于该第二样本频谱特征和该第三样本频谱特征，对该初始模型的模型参数进行调整，直至调整后的模型符合预设条件，将符合预设条件的模型作为该噪音消除模型。

在一种可能的实现方式中，该基于该第一音频数据和该第四音频数据，生成用于直播的音频数据包括：

对该第一音频数据和该第四音频数据进行混音处理，得到用于直播的音频数据。

在一种可能的实现方式中，该环境噪音包括屏幕操作噪声。

根据本公开实施例的第二方面，提供一种音频数据获取装置，该装置包括：

音频数据获取单元，被配置为执行获取针对电子设备的互动过程的第一音频数据和第二音频数据，该第一音频数据为在该互动过程中通过音频电路组件所获取的音频数据，该第二音频数据为在该互动过程中通过该电子设备的麦克风组件采集得到的音频数据；

音频数据消除单元，被配置为执行从该第二音频数据中消除该第一音频数据，得到第三音频数据，该第三音频数据为包含环境噪音的语音数据；

噪音消除单元，被配置为执行对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据；

生成单元，被配置为执行基于该第一音频数据和该第四音频数据，生成用于直播的音频数据。

在一种可能的实现方式中，该装置还包括：

频谱特征获取单元，被配置为执行获取该第三音频数据的第一频谱特征；

输入单元，被配置为执行将该第一频谱特征输入噪音消除模型，该噪音消除模型由包含环境噪音的语音数据和消除噪音后的语音数据训练得到；

频谱特征消除单元，被配置为执行通过该噪音消除模型，从该第一频谱特征中消除噪音频谱特征，得到第二频谱特征；

该生成单元，还配置为执行基于该第二频谱特征，生成第四音频数据。

在一种可能的实现方式中，该装置还包括：

样本音频数据获取单元，被配置为执行获取第一样本音频数据和第二样本音频数据，该第一样本音频数据为作为样本的包含环境噪音的语音数据，该第二样本音频数据为作为样本的消除环境噪音后的语音数据；

训练单元，被配置为执行基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型。

在一种可能的实现方式中，该装置还包括：

样本频谱特征获取单元，被配置执行获取该第一样本音频数据的第一样本频谱特征以及该第二样本音频数据的第二样本频谱特征；

该输入单元，还被配置为执行将该第一样本频谱特征和该第二样本频谱特征输入至该初始模型；

处理单元，被配置为执行通过该初始模型，对该第一样本频谱特征进行处理，得到第三样本频谱特征；

调整单元，被配置为执行基于该第二样本频谱特征和该第三样本频谱特征，对该初始模型的模型参数进行调整，直至调整后的模型符合预设条件，将符合预设条件的模型作为该噪音消除模型。

在一种可能的实现方式中，该装置还包括：

混音处理单元，被配置为执行对该第一音频数据和该第四音频数据进行混音处理，得到用于直播的音频数据。

在一种可能的实现方式中，该环境噪音包括屏幕操作噪声。

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

一个或多个处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行该指令，以实现上述音频数据获取方法。

根据本公开实施例的第四方面，提供一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述音频数据获取方法。

根据本公开实施例的第五方面，提供一种应用程序产品，该应用程序产品存储有一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述音频数据获取方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过电子设备的音频电路组件来获取针对电子设备的互动过程所产生的第一音频数据，通过麦克风组件以外录的方式，来获取针对该互动过程的第二音频数据，以第一音频数据作为参考信号，从第二音频数据中消除第一音频数据，以得到包含环境噪音的语音数据，再对环境噪音进行噪音消除处理，得到包含干净人声的语音数据，可以有效减少噪音，避免环境噪音对用户观看直播造成影响，优化直播音质，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频数据获取方法的实施环境示意图；

图2是根据一示例性实施例示出的一种音频数据获取方法的流程图；

图3是根据一示例性实施例示出的一种音频数据获取方法的流程图；

图4是根据一示例性实施例示出的一种音频数据获取系统的系统框图；

图5是根据一示例性实施例示出的一种初始模型训练方法的流程图；

图6是根据一示例性实施例示出的一种音频数据获取装置的框图；

图7是根据一示例性实施例示出的一种电子设备700的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种音频数据获取方法的实施环境示意图，参见图1，该实施环境具体包括：电子设备101和服务器102。

电子设备101可以为智能手机、智能手表、台式电脑、手提电脑、MP3播放器、MP4播放器和膝上型便携计算机等设备中的至少一种。电子设备101上可以安装并运行有直播软件，用户可以通过电子设备101录制音频数据和视频数据来进行直播。电子设备101可以通过音频电路组件来获取第一音频数据，通过麦克风组件来获取第二音频数据，电子设备101还可以从第一音频数据中消除第二音频数据，以得到包含环境噪音的语音数据，作为第三音频数据，电子设备101还可以对第三音频数据进行噪音消除处理，得到不包含噪音的第四音频数据，基于第一音频数据和第四音频数据，生成用于直播的音频数据。电子设备101还可以根据电子设备101上显示的画面或者电子设备101所采集的图像数据，生成用于直播的视频数据。此外，电子设备101可以通过无线网络或有线网络与服务器102相连，进而可以将生成的用于直播的音频数据和视频数据发送给服务器102。

电子设备101可以泛指多个电子设备中的一个，本实施例仅以电子设备101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述电子设备可以仅为几个，或者上述电子设备为几十个或几百个，或者更多数量，本公开实施例对电子设备的数量和设备类型均不加以限定。

服务器102可以为一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。服务器102可以通过无线网络或有线网络与电子设备101和其他电子设备相连，服务器102可以接收电子设备101发送的音频数据和视频数据，并将接收到的音频数据和视频数据一起发送给其他电子设备，以便用户可以通过其他电子设备来观看直播。可选地，上述服务器的数量可以更多或更少，本公开实施例对此不加以限定。当然，目标服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是根据一示例性实施例示出的一种音频数据获取方法的流程图，参见图2，应用于电子设备，该方法具体步骤包括：

在步骤S201中，获取针对电子设备的互动过程的第一音频数据和第二音频数据，该第一音频数据为在该互动过程中通过音频电路组件所获取的音频数据，该第二音频数据为在该互动过程中通过该电子设备的麦克风组件采集得到的音频数据。

在步骤S202中，从该第二音频数据中消除该第一音频数据，得到第三音频数据，该第三音频数据为包含环境噪音的语音数据。

在步骤S203中，对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据。

在步骤S204中，基于该第一音频数据和该第四音频数据，生成用于直播的音频数据。

本公开实施例提供的方案，通过音频电路组件获取针对电子设备的互动过程的第一音频数据，通过麦克风组件获取针对电子设备的互动过程的第二音频数据，从第二音频数据中消除第一音频数据，得到包含环境噪音的语音数据，作为第三音频数据，对第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据，可以有效减少噪音，避免环境噪音对用户观看直播造成影响，优化直播音质，提高用户体验。

在一种可能的实现方式中，该对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据包括：

获取该第三音频数据的第一频谱特征；

将该第一频谱特征输入噪音消除模型，该噪音消除模型由包含环境噪音的语音数据和消除噪音后的语音数据训练得到；

通过该噪音消除模型，从该第一频谱特征中消除噪音频谱特征，得到第二频谱特征；

基于该第二频谱特征，生成第四音频数据。

在一种可能的实现方式中，该方法还包括：

基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型。

在一种可能的实现方式中，该基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型包括：

获取该第一样本音频数据的第一样本频谱特征以及该第二样本音频数据的第二样本频谱特征；

将该第一样本频谱特征和该第二样本频谱特征输入至该初始模型；

通过该初始模型，对该第一样本频谱特征进行处理，得到第三样本频谱特征；

在一种可能的实现方式中，该基于该第一音频数据和该第四音频数据，生成用于直播的音频数据包括：

对该第一音频数据和该第四音频数据进行混音处理，得到用于直播的音频数据。

在一种可能的实现方式中，该环境噪音包括屏幕操作噪声。

上述图2所示仅为本公开的基本流程，下面基于一种具体实现方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种音频数据获取方法的流程图，参见图3，该方法包括：

在步骤S301中，电子设备获取针对电子设备的互动过程的第一音频数据和第二音频数据，该第一音频数据为在该互动过程中通过音频电路组件所获取的音频数据，该第二音频数据为在该互动过程中通过该电子设备的麦克风组件采集得到的音频数据。

需要说明的是，在获取用于直播的音频数据时，电子设备可以通过音频电路组件直接获取原始播放音频数据，作为第一音频数据，如游戏原始播放声音等。电子设备可以通过麦克风组件采集直播过程中扬声器外放的声音，如主播人声等，根据麦克风组件采集到的声音生成音频数据，得到第二音频数据，但由于周围环境中可能存在噪音，电子设备在通过麦克风组件进行声音采集时，也会采集到噪音，例如，在游戏直播中，主播在进行游戏时可能需要频繁地点击屏幕，因此在通过麦克风组件进行声音采集时，还可能采集到手指点击屏幕的声音，也即是屏幕操作噪声，因此该第二音频数据中可以包括主播人声和诸如屏幕操作噪声的环境噪音等多种声音。

在一种可能的实现方式中，用户可以通过在电子设备的可视化界面上触发录制按钮，电子设备响应于用户的触发操作，通过音频电路组件获取第一音频数据，通过麦克风组件采集声音，得到第二音频数据。

需要说明的是，由于第一音频数据是通过内录方式，直接由音频电路组件从电子设备内部获取到的，因此该第一音频数据中不包含环境噪音等杂音，而第二音频数据时通过外录方式，由麦克风组件对扬声器和周围环境中的声音进行录制得到的，因此该第二音频数据中可能包含多种环境噪音，该环境噪音可以包括屏幕操作噪声，这些环境噪音会对该第二音频数据的音质造成影响，导致音频数据的音质较差。

在步骤S302中，电子设备从该第二音频数据中消除该第一音频数据，得到第三音频数据，该第三音频数据为包含环境噪音的语音数据。

在一种可能的实现方式中，电子设备可以获取第一音频数据的频谱特征和第二音频数据的频谱特征，并以第一音频数据的频谱特征作为参考，从第二音频数据的频谱特征中消去与该第一音频数据的频谱特征相同的部分，得到第三音频数据的频谱特征，并基于第三音频数据的频谱特征，生成第三音频数据。

例如，在游戏直播中，电子设备可以获取游戏原始播放声音的频谱特征和麦克风组件录制的声音的频谱特征，以游戏原始播放声音的频谱特征作为参考，从麦克风组件录制的声音的频谱特征中消去游戏播放声音的频谱特征，得到包含环境噪音的语音数据的频谱特征，基于包含环境噪音的语音数据的频谱特征，生成包含环境噪音的语音数据，如包含环境噪音的主播人声等。其中，由于游戏原始播放声音是通过内录方式获取到的，不包含环境噪音，因此以该游戏原始播放声音作为参考，可以将麦克风组件录制的声音中的游戏原始播放声音全部去除，使得留下的声音都是环境噪音和主播人声等，便于后续对环境噪音进行处理。

需要说明的是，上述过程可以通过回声消除模块实现。

在步骤S303中，电子设备获取该第三音频数据的第一频谱特征。

需要说明的是，电子设备可以先获取该第三音频数据的时域特征，再对该时域特征进行时频转换，得到该第三音频数据的第一频谱特征。其中，在获取该第三音频数据的时域特征时可以采用加窗分帧等技术来实现，在此不作赘述。

在一种可能的实现方式中，在获取第三音频数据的第一频谱特征前，电子设备可以对该第三音频数据进行预处理，如预滤波、数字化、预加重等，再获取预处理后的音频数据的频谱特征作为第一频谱特征。通过对第三音频数据进行预处理，可以使处理后的音频数据更加满足进行特征提取的需求，提高处理精确度，保证后续处理过程的准确性。

在步骤S304中，电子设备将该第一频谱特征输入噪音消除模型，该噪音消除模型由包含环境噪音的语音数据和消除环境噪音后的语音数据训练得到。

需要说明的是，该噪音消除模型用于对输入特征进行降噪处理，该噪音消除模型可以由包含环境噪音的语音数据和消除环境噪音后的语音数据预先训练得到，具体训练过程可以参见下述步骤S501至步骤S505，此处不再赘述。

在步骤S305中，电子设备通过该噪音消除模型，从该第一频谱特征中消除噪音频谱特征，得到第二频谱特征。

在一种可能的实现方式中，电子设备可以通过该噪音消除模型的隐层，对第一频谱特征中的各个频谱特征进行加权处理，通过赋予噪音频谱特征较低的权值，以实现从第一频谱特征中消去噪音频谱特征，得到第二频谱特征的目的。

在步骤S306中，电子设备基于该第二频谱特征，生成第四音频数据。

在一种可能的实现方式中，电子设备可以对该第二频谱特征进行傅里叶逆变换，再通过重叠相加法，来进行音频数据的恢复，得到第四音频数据。

通过上述步骤S303至步骤S306，可以有效去除第三音频数据中的环境噪音，如主播点击屏幕的声音等，提高音频数据的音质，以便用户在观看直播时可以得到较好的听觉体验。

在步骤S307中，电子设备对该第一音频数据和该第四音频数据进行混音处理，得到用于直播的音频数据。

在一种可能的实现方式中，电子设备可以将第一音频数据和第四音频数据输入至混音模块，以便在时域上，对第一音频数据和第四音频数据进行叠加，实现混音处理，得到用于直播的音频数据，作为推流使用。由于第一音频数据是直接从电子设备获取到的原始播放音频数据，而第四音频数据是经过噪音消除后得到的干净的语音数据，因而对第一音频数据和第四音频数据进行混音处理后得到的音频数据中，既包括如游戏原始播放声音、背景音乐等的第一音频数据，还包括如主播人声等的第二音频数据，进而可以构成用于直播的完整的音频数据。

需要说明的是，本公开实施例提供的方案，可以通过音频数据获取系统来实现，参见图4，图4是根据一示例性实施例示出的一种音频数据获取系统的系统框图，该音频数据获取系统可以包括麦克风组件、回声消除模块、噪音消除模块、混音模块等，通过麦克风组件和电子设备内部的音频电路组件，即可以实现上述步骤S301中第一音频数据和第二音频数据的获取，通过回声消除模块，即可以实现上述步骤S302中第三音频数据的获取，通过噪音消除模块，即可以实现上述步骤S303至步骤S306，来获取到第四音频数据，通过混音模块，即可以实现上述步骤S307，来得到用于直播的音频数据，具体实现过程可以参见上述各个步骤中对应的内容，此处不再赘述。

本公开实施例提供的方案，通过电子设备的音频电路组件来获取针对电子设备的互动过程所产生的第一音频数据，通过麦克风组件以外录的方式，来获取针对该互动过程的第二音频数据，以第一音频数据作为参考信号，从第二音频数据中消除第一音频数据，以得到包含环境噪音的语音数据，再对环境噪音进行噪音消除处理，得到包含干净人声的语音数据，可以有效减少噪音，避免环境噪音对用户观看直播造成影响，优化直播音质，提高用户体验。

上述图3所示的实施例中所用到的噪音消除模型，可以由包含环境噪音的语音数据和消除环境噪音后的语音数据训练得到，具体的训练过程可以参见图5，图5是根据一示例性实施例示出的一种初始模型训练方法的流程图，该方法包括：

在步骤S501中，电子设备获取第一样本音频数据和第二样本音频数据，该第一样本音频数据为作为样本的包含环境噪音的语音数据，该第二样本音频数据为作为样本的消除环境噪音后的语音数据。

需要说明的是，在获取样本音频数据时，电子设备可以通过音频电路组件直接获取原始播放声音，通过麦克风组件采集直播过程中扬声器外放的声音，进而可以从麦克风组件采集到的声音中消除原始播放声音，得到作为样本的包含环境噪音的语音数据，也即是，第一样本音频数据，具体实现过程与上述步骤S301至步骤S302同理，此处不再赘述。此外，电子设备还可以预先对消除噪音后的语音数据进行采集，作为第二样本音频数据。可选地，电子设备还可以维护有一个音频数据数据库，用于存储第一样本音频数据和第二样本音频数据，电子设备可以直接从该音频数据数据库中，获取到第一样本音频数据和第二样本音频数据，本公开实施例对具体采用哪种方式不加以限定。

在步骤S502中，电子设备获取该第一样本音频数据的第一样本频谱特征以及该第二样本音频数据的第二样本频谱特征。

需要说明的是，该步骤S502与上述步骤S303同理，此处不再赘述。

在步骤S503中，电子设备将该第一样本频谱特征和该第二样本频谱特征输入至初始模型。

需要说明的是，电子设备可以将第一样本频谱特征作为待处理的频谱特征，将该第二样本频谱特征作为参照，以便对该初始模型的模型参数进行调整。

在步骤S504中，电子设备通过该初始模型，对该第一样本频谱特征进行处理，得到第三样本频谱特征。

需要说明的是，该步骤S504与上述步骤S305同理，此处不再赘述。

在步骤S505中，电子设备基于该第二样本频谱特征和该第三样本频谱特征，对该初始模型的模型参数进行调整，直至调整后的模型符合预设条件，将符合预设条件的模型作为噪音消除模型。

在一种可能的实现方式中，电子设备可以以第二样本频谱特征作为参照，根据第三样本频谱特征与第二样本频谱特征的差别，对初始模型的模型参数进行调整，得到调整后的初始模型，继续对下一个第一样本频谱特征进行处理，重复上述过程，直至调整后的模型符合预设条件，将最终得到的模型作为噪音消除模型。通过多次对初始模型的模型参数进行调整，可以有效提高初始模型消除噪音的能力以及模型参数的准确性，进而可以将最终调整后得到的符合预设条件的初始模型作为噪音消除模型。

其中，该预设条件可以为第三样本特征的准确性满足迭代截止条件，还可以为迭代次数达到预设次数等，本公开实施例对此不加以限定。

本公开实施例提供的方案，通过第一样本音频数据和第二样本音频数据来对初始模型进行训练，得到噪音消除模型，进而可以通过该噪音消除模型来对包含环境噪音的语音数据进行处理，减少环境噪音，得到干净的语音数据，优化音频数据音质，提高用户的听觉体验。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图6是根据一示例性实施例示出的一种音频数据获取装置的框图，参见图6，该装置包括：

音频数据获取单元601，被配置为执行获取针对电子设备的互动过程的第一音频数据和第二音频数据，该第一音频数据为在该互动过程中通过音频电路组件所获取的音频数据，该第二音频数据为在该互动过程中通过该电子设备的麦克风组件采集得到的音频数据；

音频数据消除单元602，被配置为执行从该第二音频数据中消除该第一音频数据，得到第三音频数据，该第三音频数据为包含环境噪音的语音数据；

噪音消除单元603，被配置为执行对该第三音频数据中的环境噪音进行噪音消除处理，得到第四音频数据；

生成单元604，被配置为执行基于该第一音频数据和该第四音频数据，生成用于直播的音频数据。

本公开实施例提供的装置，通过电子设备的音频电路组件来获取针对电子设备的互动过程所产生的第一音频数据，通过麦克风组件以外录的方式，来获取针对该互动过程的第二音频数据，以第一音频数据作为参考信号，从第二音频数据中消除第一音频数据，以得到包含环境噪音的语音数据，再对环境噪音进行噪音消除处理，得到包含干净人声的语音数据，可以有效减少噪音，避免环境噪音对用户观看直播造成影响，优化直播音质，提高用户体验。

在一种可能的实现方式中，该装置还包括：

频谱特征获取单元，被配置为执行获取该第三音频数据的第一频谱特征；

输入单元，被配置为执行将该第一频谱特征输入噪音消除模型，该噪音消除模型由包含环境噪音的语音数据和消除噪音后的语音数据训练得到；

频谱特征消除单元，被配置为执行通过该噪音消除模型，从该第一频谱特征中消除噪音频谱特征，得到第二频谱特征；

该生成单元，还配置为执行基于该第二频谱特征，生成第四音频数据。

在一种可能的实现方式中，该装置还包括：

训练单元，被配置为执行基于该第一样本音频数据和该第二样本音频数据，对初始模型进行训练，得到该噪音消除模型。

在一种可能的实现方式中，该装置还包括：

样本频谱特征获取单元，被配置执行获取该第一样本音频数据的第一样本频谱特征以及该第二样本音频数据的第二样本频谱特征；

该输入单元，还被配置为执行将该第一样本频谱特征和该第二样本频谱特征输入至该初始模型；

处理单元，被配置为执行通过该初始模型，对该第一样本频谱特征进行处理，得到第三样本频谱特征；

在一种可能的实现方式中，该装置还包括：

混音处理单元，被配置为执行对该第一音频数据和该第四音频数据进行混音处理，得到用于直播的音频数据。

在一种可能的实现方式中，该环境噪音包括屏幕操作噪声。

需要说明的是，上述实施例提供的音频数据获取装置在获取直播时所用的音频数据时，仅以上述各功能单元的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元完成，即将电子设备的内部结构划分成不同的功能单元，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频资源获取装置与音频资源获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是根据一示例性实施例示出的一种电子设备700的框图。该电子设备700可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备700还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。

通常，电子设备700包括有：一个或多个处理器701和一个或多个存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器701所执行以实现本公开中方法实施例提供的音频数据获取方法。

在一些实施例中，电子设备700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它电子设备进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置电子设备700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在电子设备700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在电子设备700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitti ng Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备的前面板，后置摄像头设置在电子设备的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位电子设备700的当前地理位置，以实现导航或LBS(LocationB ased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioni ng System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为电子设备700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，电子设备700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以电子设备700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测电子设备700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对电子设备700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在电子设备700的侧边框和/或显示屏705的下层。当压力传感器713设置在电子设备700的侧边框时，可以检测用户对电子设备700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置电子设备700的正面、背面或侧面。当电子设备700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在电子设备700的前面板。接近传感器716用于采集用户与电子设备700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与电子设备700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对电子设备700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器702，上述指令可由电子设备700的处理器701执行以完成上述音频数据获取方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种应用程序产品，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器701执行，以完成上述实施例中提供的音频数据获取方法的方法步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

21页详细技术资料下载

音频数据获取方法、装置、电子设备及存储介质

相关技术

网友询问留言