音频搜索方法、装置及设备

文档序号：135826 发布日期：2021-10-22 浏览：23次 >En<

阅读说明：本技术 音频搜索方法、装置及设备 (Audio searching method, device and equipment ) 是由夏朱荣张士伟唐铭谦于 2020-04-13 设计创作，主要内容包括：本申请公开了一种音频搜索方法、装置及设备。其中,该方法包括：将原始多媒体文件输入至神经网络模型,输出待搜索音频特征,其中,上述神经网络模型是使用多组数据通过机器学习训练生成的模型,上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段,得到查询结果,其中,上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。本申请解决了现有技术中的音频搜索方法的通用性和搜索效率较差的技术问题。(The application discloses an audio searching method, device and equipment. Wherein, the method comprises the following steps: inputting an original multimedia file into a neural network model, and outputting audio features to be searched, wherein the neural network model is generated by using multiple groups of data through machine learning training, and the multiple groups of data comprise: a plurality of different types of instrument audio samples and sound source separation results; inquiring the audio segments similar to the audio features to be searched from a preset retrieval area to obtain an inquiry result, wherein the inquiry result comprises the following steps: the audio clip and the time range corresponding to the audio clip. The method and the device solve the technical problems of poor universality and poor search efficiency of the audio search method in the prior art.)

音频搜索方法、装置及设备

技术领域

本申请涉及音频处理技术领域，具体而言，涉及一种音频搜索方法、装置及设备。

背景技术

基于多媒体人工智能技术生成的视频数据，在收集视频素材时，除视频结构化维度之外，还需要针对某种特定的乐器音频收集相关素材。

现有技术中普遍采用的音频搜索方法是对检索库中所有音频进行音源分离，即每种乐器一个神经网络模型抽取对应的乐器音频，进而在进行乐器检索时，直接查找音频信号强度不低于某个阈值的对应音频源文件。

但是，上述现有技术存在如下缺点：如果待检索的特定乐器没有相对应的分离网络，如遇到未知的音频信号则无法进行音频检索工作，通用性差；需要多个神经网络模型对检索库进行刷库操作，泛化能力较差。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种音频搜索方法、装置及设备，以至少解决现有技术中的音频搜索方法的通用性和搜索效率较差的技术问题。

根据本申请实施例的一个方面，提供了一种音频搜索方法，包括：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

根据本申请实施例的另一方面，还提供了一种音频搜索方法，包括：获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

根据本申请实施例的另一方面，还提供了一种音频搜索方法，包括：获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

根据本申请实施例的另一方面，还提供了一种音频搜索装置，包括：生成模块，用于将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；搜索模块，用于从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

根据本申请实施例的另一方面，还提供了一种存储介质，上述存储介质包括存储的程序，其中，在上述程序运行时控制上述存储介质所在设备执行任意一项上述的音频搜索方法。

根据本申请实施例的另一方面，还提供了一种音频搜索设备，包括：处理器；以及存储器，与上述处理器连接，用于为上述处理器提供处理以下处理步骤的指令：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

在本申请实施例中，通过将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

容易注意到的是，本申请实施例通过使用多组数据通过机器学习训练生成泛化能力强的神经网络模型，即仅配置一个神经网络模型，可以有效增强音频搜索方法的通用性，可以避免通过多个音频分离模型对检索库进行刷库的操作。即使在遇到未知的乐器音频样本时，将原始多媒体文件输入至该神经网络模型，得到对应的待搜索音频特征，仍可以从预设检索区域中查询得到与该待搜索音频特征相似的音频片段，得到可信的查询结果。

由此，本申请实施例达到了增强音频搜索方法的通用性和搜索效率的目的，从而实现了提高音频搜索结果可信性的技术效果，进而解决了现有技术中的音频搜索方法的通用性和搜索效率较差的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现音频搜索方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种音频搜索方法的流程图；

图3是根据本申请实施例的一种音频搜索方法的场景示意图；

图4是根据本申请实施例的一种音频搜索方法的场景示意图；

图5是根据本申请实施例的另一种音频搜索方法的流程图；

图6是根据本申请实施例的又一种音频搜索方法的流程图；

图7是根据本发明实施例的一种音频搜索装置的结构示意图；

图8是根据本发明实施例的一种音频搜索设备的结构示意图；

图9是根据本申请实施例的另一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

音源分离：是指音源分离是指从混合的音乐信号中分离出单个或者多个需要的音频信号的过程。

音频搜索：是指通过构建音频之间的相似度量，对指定查询音频在音频库中找到最相似的音频的过程。

实施例1

根据本申请实施例，提供了一种音频搜索方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现音频搜索方法的计算机终端(或移动设备)的硬件结构框图，如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的音频搜索方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频搜索方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的一种音频搜索方法，图2是根据本申请实施例的一种音频搜索方法的流程图，如图2所示，上述音频搜索方法包括如下方法步骤：

步骤S202，将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；

步骤S204，从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

作为一种可选的实施例，上述预设检索区域包括以下之一：音频特征库、视频特征库。上述原始多媒体文件包括如下至少之一：原始音频文件、原始视频文件或原始图片。

本申请中所提出的乐器音频搜索的方法实施例，可以但不限于适用于以下应用场景：例如，在电影或电视剧中搜索音频片段/视频片段的应用场景；在观看主播直播过程中，根据原始音频文件、原始视频文件或原始图片搜索主播展示商品的应用场景。

可选的，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，例如，音频特征模型；上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果。在本申请一种可选的实施例中，可以预先使用多组数据，即多种不同类型的乐器音频样本以及音源分离结果，通过机器学习训练生成上述神经网络模型。

通过将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

作为一种可选的实施例，基于上述神经网络模型，可以按照原始多媒体文件的时间进度对输入的原始多媒体文件进行时间分段，得到多个音频分段；将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征，对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征；并将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，即计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果，进而基于上述排序结果取TopN的音频片段，及该音频片段对应的时间范围作为最终输出的查询结果。

本申请实施例提供一种通用的乐器的音频搜索方法，基于给定某种乐器的原始多媒体文件，可以从音频库或者视频库中检索到相似的音频片段；通过本申请实施例中的音频数据扩充方法与多标签学习提升音频特征模型的泛化能力；通过训练泛化能力强的音频特征抽取模型，通用性显著增强，即使在遇到未知的乐器音频样本时，通过向量化召回的方式，亦可给出可信的查询结果；本申请中仅配置一个神经网络模型，可以有效增强音频搜索方法的通用性，进而可以避免通过多个音频分离模型对检索库进行刷库的操作。

作为一种可选的实施例，可以通过两个步骤训练生成上述神经网络模型，第一步骤是指以多分类为目标，训练得到神经网络模型，第二步骤是基于第一步骤训练得到的神经网络模型，对原训练数据进行组合交叉进行多标签学习，以进一步提高神经网络模型的泛化能力。

在一种可选的实施例中，上述方法还包括：

步骤S302，采用上述多组数据通过机器学习训练得到音频分类模型；

步骤S304，对上述多组数据进行组合交叉处理，得到第一混合数据；

步骤S306，对上述第一混合数据进行多标签训练，得到上述神经网络模型。

在第一步骤中，图3是根据本申请实施例的一种音频搜索方法的场景示意图，如图3所示，该第一步骤为多分类训练阶段，可以采用上述多组数据，即采用多种不同类型的乐器音频样本以及音源分离结果，通过机器学习训练得到音频分类模型；对上述多组数据进行组合交叉处理，例如，音频混合处理，得到第一混合数据；对上述第一混合数据进行多标签训练，得到上述神经网络模型，以实现对指定的乐器1或乐器2进行音频搜索处理。

需要说明的是，在上述第一步骤中，可以按照通用的音频分类模型训练方式，对上述第一混合数据进行多标签训练，得到神经网络模型，因而不再过多赘述具体的多标签训练过程。

在另一种可选的实施例中，上述方法还包括：

步骤S402，对上述第一混合数据和语言音频样本进行组合交叉处理，得到第二混合数据；

步骤S404，对上述第二混合数据进行多标签训练，调整上述神经网络模型。

在第二步骤中，仍如图3所示，该第二步骤为多标签训练阶段，通过对上述第一混合数据和语言音频样本进行组合交叉处理，得到第二混合数据；再对上述第二混合数据进行多标签训练，调整上述神经网络模型，以实现对指定的乐器1和/或乐器2进行音频搜索处理。

需要说明的是，在上述第二步骤中，由于实际应用场景中，并不存在单一音源的音频信号，因此在第一混合数据和语言音频样本的基础上进行组合交叉处理，得到第二混合数据，其中，交叉个数随机生成，并随机加入语言音频样本，例如，随机加入如图3所示的人的声音，以适应电影或电视剧综合场景，同时将训练目标改为交叉音轨对应的多标签；进而按照多标签训练的方式对第二混合数据进行训练，该训练方式仍可以为通用的音频分类模型训练方式，因而不再过多赘述。

在一种可选的实施例中，将上述原始多媒体文件输入至上述神经网络模型，输出上述待搜索音频特征包括：

步骤S502，按照时间进度对上述原始多媒体文件进行分段处理，得到多个音频分段；

步骤S504，将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征；

步骤S506，对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征。

作为一种可选的实施例，如图4所示，基于上述神经网络模型，可以按照原始多媒体文件的时间进度对输入的原始多媒体文件进行分段处理，得到多个音频分段，例如，可以但不限于为图4所示的音频分段1和音频分段2；并将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征，最终通过对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征。

通过本申请上述实施例，即使在遇到未知的乐器音频样本时，通过将原始多媒体文件输入至该神经网络模型，得到对应的待搜索音频特征，仍可以从预设检索区域中查询得到与该待搜索音频特征相似的音频片段，得到可信的查询结果。

在另一种可选的实施例中，从上述预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到上述查询结果包括：

步骤S602，将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，得到排序结果；

步骤S604，基于上述排序结果确定上述查询结果。

在一种可选的实施例中，将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，得到上述排序结果包括：

步骤S702，计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；

步骤S704，按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果。

在上述可选的实施例中，仍如图4所示，通过将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，即计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；再按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果，进而基于上述排序结果取TopN的音频片段，及该音频片段对应的时间范围作为最终输出的查询结果。

在另一种可选的实施例中，在搜索主播在直播过程中展示商品的应用场景中，用户在观看主播直播过程中，如果想要在电商平台中搜索主播在直播过程中展示的商品，且用户无法提供该商品的名称等详情信息，则可以根据图4所示的示意图，通过提供直播过程中获取的原始多媒体文件，确定搜索商品的详情信息，以实现在电商平台中搜索到对应的商品的技术效果。

例如，一位主播在直播间中展示一支水彩笔并详细讲解该水彩笔的产品类别、产品优点、使用说明等信息，用户想要在电商平台中搜索该水彩笔，则用户可以截取(录制)一段或者保存一份原始多媒体文件，由于该原始多媒体文件包括：讲解该水彩笔的原始音频文件、讲解该水彩笔的原始视频文件、该水彩笔的原始图片，仍如图4所示的处理流程，基于该原始多媒体文件即可以从上述预设检索区域中查询与上述待搜索音频特征相似的音频片段，确定搜索商品的详情信息，进而可以在电商平台中搜索到对应的商品，有效提高用户搜索商品的效率和直播平台的收益率。

本申请实施例还存在一种可选的实施例，在该可选的实施例中，上述音频搜索方法还包括：

步骤S710，从上述原始多媒体文件中提取与上述查询结果对应的辅助校验信息，其中，上述辅助校验信息包括以下至少之一：视频信息，图像信息；

步骤S712，采用上述辅助校验信息对上述查询结果进行校验。

在上述可选的实施例中，由于上述查询结果包括：音频片段和该音频片段对应的时间范围，在基于上述排序结果确定上述查询结果之后，还可以从上述原始多媒体文件中提取与上述查询结果对应的辅助校验信息，可选的的，根据该音频片段对应的时间范围从上述原始多媒体文件中提取辅助校验信息，例如，如果该音频片段对应的时间范围为11-13s，则提取该原始多媒体文件中时间范围处于11-13s的视频信息或图像信息。

通过将提取到的视频信息或图像信息与查询到的音频片段进行比对，可以达到校验查询结果的可信性的目的，例如，如果比对结果指示一致，则确定该查询结果的可信性较高，可以直接输出该查询结果；如果比对结果指示不一致，则确定该查询结果的可信性较低，可以重新从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到新的查询结果，并采用上述辅助校验信息对新的查询结果进行校验。

在上述运行环境下，本申请还提供了如图5所示的另一种可选的音频搜索方法的实施例，与图2所示的音频搜索方法相比，图5所示的音频搜索方法在实现的过程中无需使用多组数据通过机器学习训练生成神经网络模型，仍可以实现有效增强音频搜索方法的通用性的技术效果。

图5是根据本申请实施例的另一种音频搜索方法的流程图，如图5所示，上述可选的音频搜索方法包括如下方法步骤：

步骤S802，获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；

步骤S804，基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；

步骤S806，反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

在本申请实施例中，通过获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

通过本申请上述实施例，基于给定某种乐器的原始多媒体文件，可以根据个人用户输入的该原始多媒体文件的存储位置信息，从音频库或者视频库中检索到与原始多媒体文件相似的音频片段，并通过反馈音频搜索响应消息的方式将上述音频片段反馈给个人用户，可以达到反馈给个人用户可信的音频搜索结果的目的。

需要说明是，由于上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；因而图5所示的一种可选的音频搜索方法更加适用于个人用户，基于获取到的个人用户输入的音频搜索请求信息，例如，具体依赖原始多媒体文件的存储位置信息，获取与原始多媒体文件相似的音频片段，并将搜索到的搜索结果反馈给个人用户。

作为一种可选的实施例，基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到上述搜索结果包括：

步骤S902，对上述原始多媒体文件进行分类处理，提取待搜索音频特征，其中，上述待搜索音频特征用于表明上述原始多媒体文件的声源类型；

步骤S904，搜索与上述待搜索音频特征相似的音频片段，得到上述搜索结果。

在上述可选的实施例中，在获取音频搜索请求消息之后，根据音频搜索请求消息中携带的原始多媒体文件的存储位置信息确定原始多媒体文件，并将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果，并依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；进而可以基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征，确定该原始多媒体文件的声源类型。

在另一种可选的实施例中，对上述原始多媒体文件进行分类处理，提取上述待搜索音频特征包括：

步骤S1002，将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果；

步骤S1004，依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；

步骤S1006，基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

在上述可选的实施例中，可以将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，在对比结果指示原始多媒体文件与某一类型的乐器音频样本之间的相似度大于或等于预先设置的相似度阈值时，确定该原始多媒体文件与该类型的乐器音频样本所属分类相同，进而可以按照该类型的乐器音频样本所属分类，对原始多媒体文件进行分段处理，得到多个音频分段，从多个音频分段中提取上述待搜索音频特征。

在上述运行环境下，本申请还提供了如图6所示的又一种可选的音频搜索方法的实施例，与图2所示的上述音频搜索方法相比，该图6所示的音频搜索方法在实现的过程中无需使用多组数据通过机器学习训练生成神经网络模型，仍可以实现有效增强音频搜索方法的通用性的技术效果。

图6是根据本申请实施例的又一种音频搜索方法的流程图，如图6所示，上述可选的音频搜索方法包括如下方法步骤：

步骤S1102，获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；

步骤S1104，基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；

步骤S1106，反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

在本申请实施例中，通过获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

通过本申请上述实施例，基于给定某种乐器的原始多媒体文件，可以根据企业用户输入的音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息，从音频库或者视频库中检索到与原始多媒体文件相似的音频片段，并通过反馈音频调用响应信息的方式将上述音频片段反馈给企业用户，可以达到反馈给企业用户可信的音频搜索结果的目的。

需要说明是，由于上述音频调用请求消息中携带的信息至少包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；因而图6所示的一种可选的音频搜索方法更加适用于企业用户，基于获取到的个人用户输入的音频搜索请求信息，例如，具体依赖应用标识信息、应用授权信息和原始多媒体文件的存储位置信息，获取与原始多媒体文件相似的音频片段，并将搜索到的搜索结果反馈给企业用户。

可选的，上述应用标识信息用于标识该企业用户的APP标识，例如，搜狗音乐、谷歌音乐等等，上述应用授权信息用于表征该企业用户是否成功注册，在该应用标识信息和应用授权信息均验证通过，符合授权条件的情况下，则确定可以根据该企业用户的音频调用请求消息，无需依赖神经网络模型即可实现音频搜索。

在一种可选的实施例中，基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到上述搜索结果包括：

步骤S1202，对上述原始多媒体文件进行分类处理，提取待搜索音频特征，其中，上述待搜索音频特征用于表明上述原始多媒体文件的声源类型；

步骤S1204，搜索与上述待搜索音频特征相似的音频片段，得到上述搜索结果。

在上述可选的实施例中，在获取音频调用请求消息之后，根据音频调用请求消息中携带的原始多媒体文件的存储位置信息确定原始多媒体文件，并将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果，并依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；进而可以基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

在一种可选的实施例中，对上述原始多媒体文件进行分类处理，提取上述待搜索音频特征包括：

步骤S1302，将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果；

步骤S1304，依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；

步骤S1306，基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述音频搜索方法的装置实施例，图7是根据本发明实施例的一种音频搜索装置的结构示意图，如图7所示，该装置包括：生成模块50和搜索模块52，包括：

生成模块50，用于将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；搜索模块52，用于从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

此处需要说明的是，上述生成模块50和搜索模块52对应于实施例1中的步骤S202至步骤S204，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了另一种用于实施上述音频搜索方法的装置实施例，该音频搜索装置包括：第一获取模块60、第二获取模块62和反馈模块64，其中：

第一获取模块60，用于获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；第二获取模块62，用于基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；第一反馈模块64，用于反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

此处需要说明的是，上述第一获取模块60、第二获取模块62和反馈模块64对应于实施例1中的步骤S802至步骤S806，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了又一种用于实施上述音频搜索方法的装置实施例，该音频搜索装置包括：第三获取模块70、第四获取模块72和第二反馈模块74，其中：

第三获取模块70，获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；第四获取模块72，基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；第二反馈模块74，反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

此处需要说明的是，上述第三获取模块70、第四获取模块72和第二反馈模块74对应于实施例1中的步骤S1102至步骤S1106，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例3

根据本申请实施例，还提供了一种音频搜索设备的实施例，该音频搜索设备可以是计算设备群中的任意一个计算设备。图8是根据本发明实施例的一种音频搜索设备的结构示意图，如图8所示，该音频搜索设备包括：处理器600和存储器602，其中，

处理器600；以及存储器602，与上述处理器600连接，用于为上述处理器提供处理以下处理步骤的指令：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

需要说明的是，本实施例的优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

实施例4

根据本申请的实施例，还提供一种计算机终端的实施例，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：采用上述多组数据通过机器学习训练得到音频分类模型；对上述多组数据进行组合交叉处理，得到第一混合数据；对上述第一混合数据进行多标签训练，得到上述神经网络模型。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：对上述第一混合数据和语言音频样本进行组合交叉处理，得到第二混合数据；对上述第二混合数据进行多标签训练，调整上述神经网络模型。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：按照时间进度对上述原始多媒体文件进行分段处理，得到多个音频分段；将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征；对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，得到排序结果；基于上述排序结果确定上述查询结果。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：对上述原始多媒体文件进行分类处理，提取待搜索音频特征，其中，上述待搜索音频特征用于表明上述原始多媒体文件的声源类型；搜索与上述待搜索音频特征相似的音频片段，得到上述搜索结果。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果；依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

在本实施例中，上述计算机终端可以执行音频搜索方法中以下步骤的程序代码：获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

可选地，图9是根据本申请实施例的另一种计算机终端的结构框图，如图9所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器702、存储器704、以及外设接口706。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的音频搜索方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的音频搜索方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

可选的，上述处理器还可以执行如下步骤的程序代码：采用上述多组数据通过机器学习训练得到音频分类模型；对上述多组数据进行组合交叉处理，得到第一混合数据；对上述第一混合数据进行多标签训练，得到上述神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：对上述第一混合数据和语言音频样本进行组合交叉处理，得到第二混合数据；对上述第二混合数据进行多标签训练，调整上述神经网络模型。

可选的，上述处理器还可以执行如下步骤的程序代码：按照时间进度对上述原始多媒体文件进行分段处理，得到多个音频分段；将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征；对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，得到排序结果；基于上述排序结果确定上述查询结果。

可选的，上述处理器还可以执行如下步骤的程序代码：计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果。

可选的，上述处理器还可以执行如下步骤的程序代码：获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

可选的，上述处理器还可以执行如下步骤的程序代码：对上述原始多媒体文件进行分类处理，提取待搜索音频特征，其中，上述待搜索音频特征用于表明上述原始多媒体文件的声源类型；搜索与上述待搜索音频特征相似的音频片段，得到上述搜索结果。

可选的，上述处理器还可以执行如下步骤的程序代码：将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果；依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

可选的，上述处理器还可以执行如下步骤的程序代码：获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

本领域普通技术人员可以理解，图9所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例5

根据本申请的实施例，还提供了一种存储介质的实施例。可选地，在本实施例中，上述存储介质可以用于保存上述实施例1所提供的音频搜索方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将原始多媒体文件输入至神经网络模型，输出待搜索音频特征，其中，上述神经网络模型是使用多组数据通过机器学习训练生成的模型，上述多组数据包括：多种不同类型的乐器音频样本以及音源分离结果；从预设检索区域中查询与上述待搜索音频特征相似的音频片段，得到查询结果，其中，上述查询结果包括：上述音频片段、上述音频片段对应的时间范围。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：采用上述多组数据通过机器学习训练得到音频分类模型；对上述多组数据进行组合交叉处理，得到第一混合数据；对上述第一混合数据进行多标签训练，得到上述神经网络模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对上述第一混合数据和语言音频样本进行组合交叉处理，得到第二混合数据；对上述第二混合数据进行多标签训练，调整上述神经网络模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：按照时间进度对上述原始多媒体文件进行分段处理，得到多个音频分段；将上述多个音频分段输入至上述神经网络模型，获取与上述神经网络模型的输出层相邻的最后一个网络层中多个备选特征；对上述多个备选特征进行加权平均处理，输出上述待搜索音频特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述待搜索音频特征与上述预设检索区域中的多个音频特征进行相似性度量处理，得到排序结果；基于上述排序结果确定上述查询结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：计算上述待搜索音频特征与上述多个音频特征中每个音频特征之间的欧式距离，得到多个计算结果；按照上述欧式距离的大小对上述多个计算结果进行排序，得到上述排序结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取音频搜索请求消息，其中，上述音频搜索请求消息中携带的信息至少包括：原始多媒体文件的存储位置信息；基于上述音频搜索请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频搜索响应消息，其中，上述音频搜索响应消息中携带的信息至少包括：上述搜索结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对上述原始多媒体文件进行分类处理，提取待搜索音频特征，其中，上述待搜索音频特征用于表明上述原始多媒体文件的声源类型；搜索与上述待搜索音频特征相似的音频片段，得到上述搜索结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：将上述原始多媒体文件分别与多种不同类型的乐器音频样本进行相似度比对，得到比对结果；依据上述比对结果确定上述原始多媒体文件所属分类，得到分类结果；基于上述分类结果对上述原始多媒体文件进行分段处理，提取上述待搜索音频特征。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取音频调用请求消息，其中，上述音频调用请求消息中携带的调用参数包括：应用标识信息、应用授权信息、原始多媒体文件的存储位置信息；基于上述音频调用请求消息获取与上述原始多媒体文件相似的音频片段，得到搜索结果；反馈音频调用响应消息，其中，上述音频调用响应消息中携带的信息至少包括：上述搜索结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

27页详细技术资料下载

音频搜索方法、装置及设备

相关技术

网友询问留言