一种音频处理方法、装置及电子设备

文档序号：193390 发布日期：2021-11-02 浏览：35次 >En<

阅读说明：本技术 一种音频处理方法、装置及电子设备 (Audio processing method and device and electronic equipment ) 是由张家隆于 2020-04-30 设计创作，主要内容包括：本发明公开了一种音频处理方法、装置及电子设备,该方法包括：获取待处理的目标音频；获取选定的特征向量,其中,特征向量包括影响音频的评分的至少一个特征；获取特征向量与评分之间的映射函数；根据映射函数和目标音频的特征向量的向量值,获得目标音频的预测评分。(The invention discloses an audio processing method, an audio processing device and electronic equipment, wherein the method comprises the following steps: acquiring target audio to be processed; obtaining a selected feature vector, wherein the feature vector comprises at least one feature that affects a score of the audio; acquiring a mapping function between the feature vector and the score; and obtaining the prediction score of the target audio according to the mapping function and the vector value of the feature vector of the target audio.)

一种音频处理方法、装置及电子设备

技术领域

本发明涉及互联网技术领域，更具体地，涉及一种音频处理方法、一种音频处理装置、一种电子设备、及一种计算机可读存储介质。

背景技术

随着科技的飞速发展，弹唱成为了一种新的唱歌娱乐方式。用户可以在清唱的同时，通过点击对应的和弦按键，来播放对应的和弦，为用户进行伴奏，并生成音频。

在现有技术中，通常需要后台运营人员对用户通过弹唱工具所生成的音频内容进行评分，挑选出优质的内容和达人，用于后续内容消费。

但是，由后台运营人员对音频进行打分的方式，缺少客观同一的标准，使得得到的评分结果较为主观，且成本较高。

发明内容

本发明的一个目的是提供一种自动为音频打分的新技术方案。

根据本发明的第一方面，提供了一种音频处理方法，包括：

获取待处理的目标音频；

获取选定的特征向量，其中，所述特征向量包括影响音频的评分的至少一个特征；

获取所述特征向量与评分之间的映射函数；

根据所述映射函数和所述目标音频的所述特征向量的向量值，获得所述目标音频的预测评分。

可选的，所述至少一个特征包括：梅尔频率倒谱系数，过零率，短时能量，短时自相关函数，短时平均幅度差，语谱图，谱熵，基频，共振峰中的至少一项。

可选的，所述获取所述特征向量与评分之间的映射函数包括：

获取训练样本，其中，每条所述训练样本为音频，且被标记为对应的实际评分；

根据所述训练样本的所述特征向量的向量值与实际评分，训练得到所述映射函数。

可选的，所述获取训练样本包括：

获取至少一个初始音频，其中，每条所述初始音频被标记为对应的实际评分；

将实际评分为指定评分的初始音频，作为参考音频；

根据所述参考音频，确定参考用户；

获取所述参考用户所生成的其他音频，作为扩展音频；

将所述扩展音频标记为所述指定评分；

将已标记的所述扩展音频和所述初始音频，作为所述训练样本。

可选的，所述根据所述参考样本，确定参考用户包括：

确定生成每一所述参考音频的用户，作为目标用户；

对于每一所述目标用户，确定生成参考音频的第一数量和生成初始音频的第二数量；

对于每一所述目标用户，确定第一数量和第二数量的比值；

根据所述比值，从所述目标用户中选取所述参考用户。

可选的，所述根据所述参考样本，确定参考用户包括：

确定生成每一所述参考音频的用户，作为目标用户；

对于每一所述目标用户，确定生成参考音频的第一数量；

根据所述第一数量，从所述目标用户中选取所述参考用户。

可选的，所述根据所述训练样本的所述特征向量的向量值与实际评分，训练得到所述映射函数包括：

以所述映射函数的待定系数为变量，分别根据每一所述训练样本的所述特征向量的向量值，确定每一所述训练样本的评分预测表达式；

根据每一所述训练样本的所述评分预测表达式以及每一所述训练样本的实际评分，构建损失函数；

根据所述损失函数确定所述待定系数，完成本次对所述映射函数的训练。

可选的，所述根据每一所述训练样本的所述评分预测表达式以及每一所述训练样本的实际评分，构建损失函数包括：

对于每一所述训练样本，根据所述评分预测表达式以及所述实际评分，确定对应的损失表达式；

将每一所述训练样本的损失表达式求和，得到所述损失函数。

可选的，还包括：

获取所述目标音频的实际评分；

将所述目标音频作为新的训练样本，并根据所述实际评分标记所述新的训练样本；

根据所述新的训练样本的所述特征向量的向量值及所述新的训练样本的实际评分，修正所述映射函数。

可选的，还包括：

根据预设的训练周期，执行训练所述映射函数的步骤。

可选的，还包括：

将所述目标音频的所述预测评分提供至生成所述目标音频的客户端中进行展示。

可选的，还包括：

根据所述预测评分，确定所述目标音频是否为优质音频；

在所述目标音频为优质音频的情况下，将所述目标音频添加至推荐列表中。

根据本发明的第二方面，提供了一种音频处理装置，其中，包括：

音频获取模块，用于获取待处理的目标音频；

特征获取模块，用于获取选定的特征向量，其中，所述特征向量包括影响音频的评分的至少一个特征；

函数获取模块，用于获取所述特征向量与评分之间的映射函数；

评分预测模块，用于根据所述映射函数和所述目标音频的所述特征向量的向量值，获得所述目标音频的预测评分。

根据本发明的第三方面，提供了一种电子设备，包括：

根据本发明第二方面所述的装置；或者，

处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据本发明第一方面所述的方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现如本发明第一方面所述的方法。

在本发明的实施例中，可以根据特征向量和映射函数来获得目标音频的预测评分，无需人工打分，就可以自动获得目标音频的预测评分，可以降低人工成本。而且，由于映射函数是根据大量的训练样本训练得到，从而利用该映射函数确定预测目标音频的评分时，可以提高获得的预测评分的准确性，且可以使得预测评分的结果更加客观。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1a是显示可用于实现本发明的实施例的电子设备的硬件配置的一个例子的框图。

图1b是显示可用于实现本发明的实施例的电子设备的硬件配置的另一个例子的框图。

图2示出了本发明的实施例的音频处理方法的应用场景的示意图。

图3示出了本发明的实施例的音频处理方法的流程示意图。

图4示出了本发明的实施例的获取训练样本的步骤的流程示意图。

图5示出了本发明的实施例的音频处理装置的框图。

图6示出了本发明的实施例的电子设备的一个例子的框图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1a和图1b是可用于实现本发明任意实施例的音频处理方法的电子设备1000的硬件配置的框图。

在一个实施例中，如图1a所示，电子设备1000可以是服务器1100。

服务器1100提供处理、数据库、通讯设施的计算机。服务器1100可以是整体式服务器或是跨多计算机或计算机数据中心的分散式服务器。服务器可以是各种类型的，例如但不限于，网络服务器，新闻服务器，邮件服务器，消息服务器，广告服务器，文件服务器，应用服务器，交互服务器，数据库服务器，或代理服务器。在一些实施例中，每个服务器可以包括硬件，软件，或用于执行服务器所支持或实现的合适功能的内嵌逻辑组件或两个或多个此类组件的组合。例如，服务器例如刀片服务器、云端服务器等，或者可以是由多台服务器组成的服务器群组，可以包括上述类型的服务器中的一种或多种等等。

本实施例中，服务器1100可以如图1a所示，包括处理器1110、存储器1120、接口装置1130、通信装置1140、显示装置1150、输入装置1160。

在该实施例中，服务器1100还可以包括扬声器、麦克风等等，在此不做限定。

处理器1110可以是专用的服务器处理器，也可以是满足性能要求的台式机处理器、移动版处理器等，在此不做限定。存储器1120例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1130例如包括各种总线接口，例如串行总线接口(包括USB接口)、并行总线接口等。通信装置1140例如能够进行有线或无线通信。显示装置1150例如是液晶显示屏、LED显示屏触摸显示屏等。输入装置1160例如可以包括触摸屏、键盘等。

在该实施例中，服务器1100的存储器1120用于存储指令，该指令用于控制处理器1110进行操作以至少执行根据本发明任意实施例的音频处理方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图1a中示出了服务器1100的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，服务器1100只涉及存储器1120和处理器1110。

在一个实施例中，电子设备1000可以是操作人员使用的PC机、笔记本电脑等终端设备1200，在此不做限定。

本实施例中，参照图1b所示，终端设备1200可以包括处理器1210、存储器1220、接口装置1230、通信装置1240、显示装置1250、输入装置1260、扬声器1270、麦克风1280等等。

处理器1210可以是移动版处理器。存储器1220例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1230例如包括USB接口、耳机接口等。通信装置1240例如能够进行有线或无线通信，通信装置1240可以包括短距离通信装置，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意装置，通信装置1240也可以包括远程通信装置，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意装置。显示装置1250例如是液晶显示屏、触摸显示屏等。输入装置1260例如可以包括触摸屏、键盘等。用户可以通过扬声器1270和麦克风1280输入/输出语音信息。

在该实施例中，终端设备1200的存储器1220用于存储指令，该指令用于控制处理器1210进行操作以至少执行根据本发明任意实施例的音频处理方法。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

尽管在图1b中示出了终端设备1200的多个装置，但是，本发明可以仅涉及其中的部分装置，例如，终端设备1200只涉及存储器1220和处理器1210和显示装置1250。

<应用场景>

图2为本发明实施例的音频处理方法的应用场景的示意图。

本实施例的语音处理方法具体可以应用于KTV场景，弹唱场景，录唱场景，直播场景，虚拟主播场景等为用户演唱打分的场景中。

如图2所示，用户A可以通过其客户端输入语音，用户A的客户端根据用户A输入的语音，生成目标音频，并将目标音频提供至电子设备1000中。电子设备1000获取选定的特征向量、及特征向量与评分之间的映射函数，根据映射函数和目标音频的特征向量的向量值，得到目标音频的预测得分。电子设备1000可以是将目标音频的预测得分返回至用户A的客户端中进行展示。

通过本发明实施例的方法，无需人工打分，就可以自动获得目标音频的预测评分，可以降低人工成本。而且，由于映射函数是根据大量的训练样本训练得到，从而利用该映射函数确定预测目标音频的评分时，可以提高获得的预测评分的准确性，且可以使得预测评分的结果更加客观。

例如，在KTV、弹唱、录唱等场景中，用户可以通过客户端A输入演唱语音，客户端A再根据用户的演唱语音生成目标音频，并将目标音频提供至电子设备1000中。电子设备1000获取选定的特征向量、及特征向量与评分之间的映射函数，根据映射函数和目标音频的特征向量的向量值，得到目标音频的预测得分。电子设备1000在得到预测得分的情况下，可以是将该预测得分返回至用户的客户端A。客户端A在得到该预测得分的情况下，可以在界面中展示该预测得分，供用户进行查看。

再例如，在直播场景中，主播可以通过客户端B输入演唱语音，客户端B再根据主播的演唱语音生成目标音频，并将目标音频提供至电子设备1000中。电子设备1000获取选定的特征向量、及特征向量与评分之间的映射函数，根据映射函数和目标音频的特征向量的向量值，得到目标音频的预测得分。电子设备1000在得到预测得分的情况下，可以是将该预测得分返回至用户的客户端B。客户端B在得到该预测得分的情况下，可以在界面中展示该预测得分，供主播进行查看。

在一个例子中，电子设备1000还可以是将预测评分返回至该主播的直播间内的用户的客户端中，以供直播间内的用户也可以查看主播的演唱语音的预测得分。

再例如，在虚拟主播场景中，配音人员以通过客户端C输入演唱语音，客户端C再根据配音人员的演唱语音生成目标音频，并将目标音频提供至电子设备1000中。电子设备1000获取选定的特征向量、及特征向量与评分之间的映射函数，根据映射函数和目标音频的特征向量的向量值，得到目标音频的预测得分。电子设备1000在得到预测得分的情况下，可以是将该预测得分返回至用户的客户端C。客户端C在得到该预测得分的情况下，可以在界面中展示该预测得分，供配音人员进行查看。

在一个例子中，电子设备1000还可以是将预测评分返回至观看该演唱语音所对应的视频的用户的客户端中，以供观看该视频的用户也可以查看配音人员的演唱语音的预测得分。

<方法实施例>

在本实施例中，提供一种音频处理方法。该音频处理方法可以是由电子设备实施。该电子设备可以是如图1a所示的服务器1100，或者是如图1b所示终端设备1200。

根据图3所示，本实施例的音频处理方法可以包括如下步骤S1000～S4000：

步骤S1000，获取待处理的目标音频。

在本发明的一个实施例中，该目标音频可以是由用户的客户端所得到的至少包含用户输入的语音的音频。

其中，该客户端可以是指定的应用程序，例如弹唱类或者是唱歌类的应用程序。

在一个例子中，该目标音频可以是由用户的客户端同时采集用户输入的语音和客户端所播放的伴奏所得到的。

在另一个例子中，该目标音频可以是根据用户输入的语音，和客户端所生成的伴奏进行合成得到的。

步骤S2000，获取选定的特征向量。

其中，特征向量包括影响音频的评分的至少一个特征。

该特征向量X包括影响音频的评分的至少一个特征x_j，j的取值为1至n的自然数，n表示特征向量X具有的特征的总数。

在本发明的一个实施例中，该至少一个特征x_j可以是用来衡量对应音频在音色，音准，节奏和弦等多个维度的特征，可以包括：梅尔频率倒谱系数，过零率，短时能量，短时自相关函数，短时平均幅度差，语谱图，谱熵，基频，共振峰中的至少一项。

梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)，是利用Mel频率与Hz频率成非线性对应关系,计算得到的Hz频谱特征。其中，Mel频率是基于人耳听觉特性提出来的。

过零率(zero-crossing rate,ZCR)是指一个信号的符号变化的比率，例如信号从正数变成负数或反向。这个特征在语音对比、语音识别和音乐信息检索(musicinformation retrieval)领域得到广泛使用，是对敲击声音的进行分类的主要特征。

短时能量就是计算较短时间内的语音能量。这里的较短时间，通常指的是一帧。也就是说，一帧时间内的语音能量就是短时能量。

短时自相关函数是在信号的第N个样本点附近用短时窗截取一段信号，做自相关计算所得到的结果。由于语音信号是非平稳的信号，所以对信号的处理都使用短时自相关函数。

短时平均幅度差可以用于基音周期的检测。

语谱图就是语音频谱图，一般是通过处理接收的时域信号得到频谱图。语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。

谱熵描述了功率谱和熵率之间的关系。

基频即为基音的频率，决定整个音的音高。在声音中，基频是指一个复音中基音的频率。在构成一个复音的若干个音中，基音的频率最低，强度最大。基频的高低决定一个音的高低。平常所谓语音的频率，就是指基音的频率。

共振峰，当声门处准周期脉冲激励进入声道时会引起共振特性，产生一组共振频率，这一组共振频率称为共振峰频率或简称共振峰。

本实施例中，x_j可以是能够影响音频的评分的特征，例如，该至少一个特征可以包括梅尔频率倒谱系数，过零率，短时能量，短时自相关函数，短时平均幅度差，语谱图，谱熵，基频和共振峰，在此，特征向量X可以具有9个特征，即n＝9，此时，可以将特征向量X表示为X＝(x₁,x₂,x₃,x₄,x₅,x₆,x₇,x₈,x₉)。当然，特征向量X中还可以包括与音频评分相关的其他特征。

步骤S3000，获取特征向量与评分之间的映射函数。

该映射函数F(x)的自变量即为特征向量X，因变量F(x)即为由特征向量X决定的预测评分。

在本发明的一个的实施例中，获取特征向量与评分之间的映射函数包括如下所示的步骤S3100～S3200：

步骤S3100，获取训练样本。

其中，每条训练样本均为音频，且被标记为对应的实际评分。

在本发明的一个实施例中，每个训练样本可以均为经过人工评分得到。

在本发明的一个实施例中，获取训练样本包括如图4所示的步骤S3110～S3160：

步骤S3110，获取至少一个初始音频。

其中，每条初始音频被标记为对应的实际评分。

在本发明的一个实施例中，初始音频可以是由多个用户所生成的。具体的，可以是用户通过各自的客户端中的弹唱工具，通过录制用户的语音所生成的。该初始音频的生成方式可以参照前述的目标音频的生成方式，在此不再赘述。

该初始音频的实际评分可以是由后台运营人员进行人工打分所得到的。

在一个例子中，每条初始音频的实际评分可以是具体的分数，也可以是用于区分优质音频和非优质音频的第一分数和第二分数。其中，第一分数和第二分数可以是根据应用场景或具体需求所设定的数值，例如，第一分数可以是1，第二分数可以是0。

步骤S3120，将实际评分为指定评分的初始音频，作为参考音频。

该指定评分可以是预先根据应用场景或具体需求所设定的。在实际评分包括用于表示对应音频为优质音频的第一分数，和用于表示对应音频为非优质音频的第二分数的实施例中，该指定评分例如可以是第一分数，也可以是第二分数。

步骤S3130，根据参考音频，确定参考用户。

在本实施例中，根据参考音频所确定的参考用户，还可以生成其他实际评分为指定评分的音频。

在本发明的一个实施例中，根据参考样本，确定参考用户可以包括如下所示的步骤S3131-a～S3134-a：

步骤S3131-a，确定生成每一参考音频的用户，作为目标用户。

步骤S3132-a，对于每一目标用户，确定生成参考音频的第一数量和生成初始音频的第二数量。

具体的，可以是将每一目标用户所生成的参考音频的数量，作为对应目标用户的第一数量，将每一目标用户所生成的初始音频的数量，作为对应目标用户的第二数量。

步骤S3133-a，对于每一目标用户，确定第一数量和第二数量的比值。

具体的，可以是分别计算每一目标用户的第一数量和第二数量的比值，作为对应目标用户的比值。

步骤S3134-a，根据比值，从目标用户中选取参考用户。

在本发明的一个实施例中，可以是选取比值超过预设的第一阈值的目标用户，作为参考用户。其中，第一阈值可以是预先根据应用场景或具体需求设定，该第一阈值例如可以但不限于是90％。

在本发明的另一个实施例中，还可以是按照比值，对所有目标用户进行升序排序或降序排序，并获取每个目标用户的排序值。选取排序值在设定范围内的目标用户，作为参考用户。其中，该设定范围可以是根据排序方式(升序或降序)，以及应用场景或具体需求设定。例如，在排序方式为降序的情况下，该设定范围可以是1～3，那么，可以是选取比值最大的3个目标用户，作为参考用户。

在本发明的另一个实施例中，根据参考样本，确定参考用户包括如下所示的步骤S3131-b～S3133-b：

步骤S3131-b，确定生成每一参考音频的用户，作为目标用户。

步骤S3132-b，对于每一目标用户，确定生成参考音频的第一数量。

步骤S3133-b，根据第一数量，从目标用户中选取参考用户。

在本发明的一个实施例中，可以是选取第一数量超过预设的第二阈值的目标用户，作为参考用户。其中，第二阈值可以是预先根据应用场景或具体需求设定，该第二阈值例如可以但不限于是90％。

在本发明的另一个实施例中，还可以是按照第一数量，对所有目标用户进行升序排序或降序排序，并获取每个目标用户的排序值。选取排序值在设定范围内的目标用户，作为参考用户。其中，该设定范围可以是根据排序方式(升序或降序)，以及应用场景或具体需求设定。例如，在排序方式为降序的情况下，该设定范围可以是1～3，那么，可以是选取第一数量最大的3个目标用户，作为参考用户。

步骤S3140，获取参考用户所生成的其他音频，作为扩展音频。

在本实施例中，其他音频，可以是除初始音频以外的音频。

步骤S3150，将扩展音频标记为指定评分。

步骤S3160，将扩展音频和初始音频，作为训练样本。

通过前述的步骤S3130所选取的参考用户，可以认为其生成的其他音频的实际评分也为指定评分。因此，可以直接将扩展音频标记为指定评分，并将已经标记好的初始音频和扩展音频均作为训练样本。

在本实施例中，为了降低人工标记成本，通过筛选出能够生成实际评分为指定评分的参考用户，将其生成的其他音频作为扩展音频，并将其标记为指定评分，将已标记的扩展音频也作为训练样本，这样，可以扩展样本数量。

步骤S3200，根据训练样本的特征向量的向量值与实际评分，训练得到映射函数。

在本发明的一个实施例中，可以根据预设的训练周期，执行训练映射函数的步骤S3100～S3200。该训练周期可以根据具体应用场景或者应用需求设置，例如，可以设置为1天。

在本实施例中，基于训练样本的特征向量的向量值与训练样本对应的实际评分，可以通过各种拟合手段获得映射函数F(x)，例如，可以利用任意的多元线性回归模型获得映射函数F(x)，在此不做限定。

在一个例子中，该多元线性回归模型可以是简单的反映该映射函数F(x)的多项式函数，其中，多项式函数的各阶系数未知，通过将该训练样本的特征向量的向量值与训练样本对应的实际评分代入该多项式函数，便可以确定多项式函数的各阶系数，进而获得映射函数F(x)。

在另一个例子中，可以利用各种回归模型，例如分类模型，以该训练样本的特征向量的向量值与训练样本对应的实际评分作为准确样品进行多轮训练，每一轮都学习上一轮拟合后的残差，迭代T轮，即可将残差控制在很低的值，以使得最终得到的映射函数F(x)具有非常高的精确度。该分类模型例如是svm、GBDT、CNN等，在此不做限定。

在本发明的一个实施例中，根据训练样本的特征向量的向量值与实际评分，训练得到映射函数可以包括如下所示的步骤S3210～S3230：

步骤S3210，以映射函数的待定系数为变量，分别根据每一训练样本的特征向量的向量值，确定每一训练样本的评分预测表达式。

假设映射函数中特征向量X包括n个特征x₁,x₂,......,x_n，在确定第k个训练样本对于n个特征的取值后，以待定系数集合中包括一个常数权重b以及n个特征权重a₁,a₂,......,a_n为变量，可以获取第k个训练样本的评分预测表达式是Y_k:

步骤S3220，根据每一训练样本的评分预测表达式以及每一训练样本的实际评分，构建损失函数。

在本发明的一个实施例中，根据每一训练样本的评分预测表达式以及每一训练样本的实际评分，构建损失函数可以包括如下所示的步骤S3221～S3222：

步骤S3221，对于每一训练样本，根据评分预测表达式以及实际评分，确定对应的损失表达式。

假设收集到的训练样本数为m，对其中第k个训练样本，获取的实际评分是y_k，评分预测表达式以为Y_k，对应的损失表达式为(y_k-Y_k)²(k＝1,...,m)；其中，

步骤S3222，将每一训练样本的损失表达式求和，得到损失函数。

本实施例中，损失函数可以为：

其中，

步骤S3230，根据损失函数确定待定系数，完成本次对映射函数的训练。

在本发明的一个实施例中，根据损失函数确定待定系数，完成本次对映射函数的训练可以进一步包括如下所示的步骤S3231～S3233：

步骤S3231，设置待定系数集合中的常数权重以及每个特征权重的初始值为预设数值范围内的随机数。

假设待定系数集合{b,a₁,a₂,......,a_n}包括一个常数权重b以及n个特征权重a₁,a₂,......,a_n，可以设置初始值为预设数值范围的随机数。该预设数值范围可以根据应用场景或者应用需求设置，例如，设置预设数值范围为0-1，使得常数权重b以及n个特征权重a₁,a₂,......,a_n的初始值均是0-1之间的随机数。

步骤S3232，将设置初始值后的常数权重以及每个特征权重代入损失函数中，进行迭代处理。

在本实施例中，该步骤S3232中将设置初始值后的常数权重以及每个特征权重代入损失函数中，进行迭代处理可以进一步包括如下步骤S3232-1～S3232-2：

步骤S3232-1，分别对常数权重以及每个特征权重，根据本次迭代前的常数权重或该特征权重的取值、收敛参数以及代入本次迭代前的待定系数集合的损失函数，获取对应的迭代后该常数权重或该特征权重的取值。

收敛参数是控制迭代处理收敛速度的相关参数，可以根据应用场景或者应用需求设置，例如，设置为0.01。

步骤S3232-2，根据常数权重以及每个特征权重迭代后的取值，得到本次迭代后的待定系数集合。

假设本次迭代是第k+1次迭代(k的初始值为0，随着每次迭代加1)，本次迭代后的待定系数集合为{b,a₁,a₂,...,a_n}^(k+1)。

步骤S3233，当迭代处理得到的待定系数集合符合收敛条件时，终止迭代处理，确定待定系数集合的常数权重以及每个特征权重的取值，否则，继续迭代处理。

收敛条件可以根据具体的应用场景或者应用需求设置。

例如，收敛条件是迭代处理的次数大于预设的次数阈值。该预设的次数阈值可以根据工程经验或者实验仿真结果设置，例如，可以设置为300。对应地，假设迭代处理的次数为k+1，次数阈值是itemNums，对应的收敛条件为：k≥itemNums。

又例如，收敛条件是迭代处理得到的待定系数集合的迭代结果值小于预设的结果阈值。该迭代结果值是根据迭代处理得到的待定系数集合代入的损失函数与对应的常数权重或者每个特征权重求偏导的结果确定。

在一个例子中，收敛条件是满足上述两个例子中任意一个收敛条件，具体收敛条件在上述两个例子中已经描述，在此不再赘述。

假设第k+1次迭代处理得到的待定系数集合{b,a₁,a₂,...,a_n}^(k+1)符合收敛条件时，终止迭代处理，得到对应所有a_i ^(k+1)(i＝1,...,n)以及b^(k+1)取值，否则，继续迭代处理，直到待定系数集合符合收敛条件。

根据本发明该实施例，其可以根据大量的训练样本训练得到映射函数，从而利用该映射函数确定预测音频的评分时，可以提高获得的预测评分的准确性。

步骤S4000，根据映射函数和目标音频的特征向量的向量值，获得目标音频的预测评分。

向量值具体可以为目标音频的特征向量的取值。

本实施例中，根据步骤S3000获得特征向量与行驶里程间的映射函数，根据特征向量的向量值，便可将向量值代入映射函数F(x)中，以便获得目标音频的预测评分。

根据本发明该实施例，无需人工打分，就可以自动获得目标音频的预测评分，可以降低人工成本。而且，由于映射函数是根据大量的训练样本训练得到，从而利用该映射函数确定预测目标音频的评分时，可以提高获得的预测评分的准确性，且可以使得预测评分的结果更加客观。

在训练样本的实际评分包括用于表示对应音频为优质音频的第一分数，和用于表示对应音频为非优质音频的第二分数的实施例中，映射函数的输出结果，可以是表示目标音频为优质音频的概率。

在本发明的一个例子中，可以是将该映射函数所输出的概率直接作为目标音频的预测评分。例如，该映射函数的输出结果为0.23，那么，该目标音频的预测评分可以为0.23。

在本发明的另一个例子中，还可以是根据第一分数和第二分数将该映射函数所输出的概率进行归一化处理后，再乘以100，得到该目标音频的预测评分。例如，第一分数为1，第二分数为0，该映射函数的输出结果为0.89，那么，该目标音频的预测评分可以为89。再例如，第一分数为2，第二分数为1，该映射函数的输出结果为1.96，那么，该目标音频的预测评分可以为96。

在本发明的一个实施例中，该方法还可以包括：将该预测评分提供至生成该目标音频的客户端中进行展示，供生成该目标音频的用户查看。

在本发明的一个实施例中，该方法还可以包括：

根据预测评分，确定目标音频是否为优质音频；在目标音频为优质音频的情况下，将目标音频添加至推荐列表中。

其中，该推荐列表中的音频可以是按照预设的方式提供至每个用户的客户端中。该预设方式可以预先根据应用场景或具体需求设定。例如，该预设方式例如可以为按照评分由高到低的方式，按照播放次数由高到低的方式，按照每个用户的偏好，和随机方式中的至少一种。

在本发明的一个实施例中，在目标音频为优质音频的情况下，可以将目标音频作为对应歌曲的示范音频，以供其他用户学习。

在本发明的一个实施例中，该方法还可以包括：

获取目标音频的实际评分；

将目标音频作为新的训练样本，并根据实际评分标记新的训练样本；

根据新的训练样本的特征向量的向量值及新的训练样本的实际评分，修正映射函数。

在本实施例中，目标音频的实际评分，可以是后台运营人员对目标音频进行人工打分所得到的。

根据本发明该实施例，将标记为对应的实际评分的目标音频作为新的训练样本，去修正映射函数，即增加这些新的训练样本，重新训练映射函数，可以使得映射函数的评分预测结果越来越准确。

<装置实施例>

在本实施例中，提供一种音频处理装置5000，如图5所示，包括音频获取模块5100、特征获取模块5200、函数获取模块5300和评分预测模块5400。该音频获取模块5100用于获取待处理的目标音频；该特征获取模块5200用于获取选定的特征向量，其中，特征向量包括影响音频的评分的至少一个特征；该函数获取模块5300用于获取特征向量与评分之间的映射函数；该评分预测模块5400用于根据映射函数和目标音频的特征向量的向量值，获得目标音频的预测评分。

在本发明的一个实施例中，至少一个特征包括：梅尔频率倒谱系数，过零率，短时能量，短时自相关函数，短时平均幅度差，语谱图，谱熵，基频，共振峰中的至少一项。

在本发明的一个实施例中，函数获取模块5300可以用于：

获取训练样本，其中，每条训练样本为音频，且被标记为对应的实际评分；

根据训练样本的特征向量的向量值与实际评分，训练得到映射函数。

在本发明的一个实施例中，获取训练样本包括：

获取至少一个初始音频，其中，每条初始音频被标记为对应的实际评分；

将实际评分为指定评分的初始音频，作为参考音频；

根据参考音频，确定参考用户；

获取参考用户所生成的其他音频，作为扩展音频；

将扩展音频标记为指定评分；

将已标记的扩展音频和初始音频，作为训练样本。

在本发明的一个实施例中，根据参考样本，确定参考用户包括：

确定生成每一参考音频的用户，作为目标用户；

对于每一目标用户，确定生成参考音频的第一数量和生成初始音频的第二数量；

对于每一目标用户，确定第一数量和第二数量的比值；

根据比值，从目标用户中选取参考用户。

在本发明的一个实施例中，根据参考样本，确定参考用户包括：

确定生成每一参考音频的用户，作为目标用户；

对于每一目标用户，确定生成参考音频的第一数量；

根据第一数量，从目标用户中选取参考用户。

在本发明的一个实施例中，根据训练样本的特征向量的向量值与实际评分，训练得到映射函数包括：

以映射函数的待定系数为变量，分别根据每一训练样本的特征向量的向量值，确定每一训练样本的评分预测表达式；

根据每一训练样本的评分预测表达式以及每一训练样本的实际评分，构建损失函数；

根据损失函数确定待定系数，完成本次对映射函数的训练。

在本发明的一个实施例中，根据每一训练样本的评分预测表达式以及每一训练样本的实际评分，构建损失函数包括：

对于每一训练样本，根据评分预测表达式以及实际评分，确定对应的损失表达式；

将每一训练样本的损失表达式求和，得到损失函数。

在本发明的一个实施例中，该音频处理装置5000还可以包括：

用于获取目标音频的实际评分的模块；

用于将目标音频作为新的训练样本，并根据实际评分标记新的训练样本的模块；

用于根据新的训练样本的特征向量的向量值及新的训练样本的实际评分，修正映射函数的模块。

在本发明的一个实施例中，该音频处理装置5000还可以包括：

用于根据预设的训练周期，执行训练映射函数的步骤的模块。

在本发明的一个实施例中，该音频处理装置5000还可以包括：

用于将目标音频的预测评分提供至生成目标音频的客户端中进行展示的模块。

在本发明的一个实施例中，该音频处理装置5000还可以包括：

用于根据预测评分，确定目标音频是否为优质音频的模块；

用于在目标音频为优质音频的情况下，将目标音频添加至推荐列表中的模块。

本领域技术人员应当明白，可以通过各种方式来实现音频处理装置5000。例如，可以通过指令配置处理器来实现音频处理装置5000。例如，可以将指令存储在ROM中，并且当启动设备时，将指令从ROM读取到可编程器件中来实现音频处理装置5000。例如，可以将音频处理装置5000固化到专用器件(例如ASIC)中。可以将音频处理装置5000分成相互独立的单元，或者可以将它们合并在一起实现。音频处理装置5000可以通过上述各种实现方式中的一种来实现，或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。

在本实施例中，音频处理装置5000可以具有多种实现形式，例如，音频处理装置5000可以是任何的提供音频处理服务的软件产品或者应用程序中运行的功能模块，或者是这些软件产品或者应用程序的外设嵌入件、插件、补丁件等，还可以是这些软件产品或者应用程序本身。

<电子设备>

在本实施例中，还提供一种电子设备6000。该电子设备6000可以是如图1a所示的服务器1100，也可以是如图1b所示终端设备1200。

在一方面，该电子设备6000可以包括前述的音频处理装置5000，用于实施本发明任意实施例的音频处理方法。

在另一方面，如图6所示，电子设备6000还可以包括处理器6100和存储器6200，该存储器6200用于存储可执行的指令；该处理器6100用于根据指令的控制运行电子设备6000执行根据本发明任意实施例的音频处理方法。

在本实施例中，该电子设备6000可以是智能音箱、耳机、手机、平板电脑、掌上电脑、台式机、笔记本电脑等终端设备，也可以是服务器。例如，电子设备6000可以是具有音频处理功能的电子产品。

<计算机可读存储介质>

在本实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实现如本发明任意实施例的音频处理方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

22页详细技术资料下载

一种音频处理方法、装置及电子设备

相关技术

网友询问留言