一种音频库的生成方法、装置、电子设备和存储介质

文档序号：1937565 发布日期：2021-12-07 浏览：11次 >En<

阅读说明：本技术 一种音频库的生成方法、装置、电子设备和存储介质 (Audio library generation method and device, electronic equipment and storage medium ) 是由张义飞康斌于 2021-04-25 设计创作，主要内容包括：本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种音频库的生成方法、装置、电子设备和存储介质,用以提高音频库的时效性,其中,方法包括：将待识别音频与第一音频库匹配失败后,将待识别音频与第二音频库进行匹配,其中,第二音频库是基于与第一音频库匹配失败的各个第二音频建立的,若匹配成功的第二音频中,存在累计匹配成功次数达到预设门限值的目标第二音频,则将目标第二音频转存至第一音频库。通过将与第一音频库匹配失败的待识别音频存入第二音频库,并在累计匹配次数达到预设门限值时,转存至第一音频库,提高了音频库的时效性,进而实现音频的精准推荐。(The application relates to the technical field of computers, in particular to the technical field of artificial intelligence, and provides a method and a device for generating an audio library, electronic equipment and a storage medium, which are used for improving timeliness of the audio library, wherein the method comprises the following steps: and matching the audio to be identified with a second audio library after the audio to be identified fails to be matched with the first audio library, wherein the second audio library is established based on each second audio failed to be matched with the first audio library, and if the target second audio with the accumulated matching success times reaching a preset threshold value exists in the successfully matched second audio, transferring the target second audio to the first audio library. The audio to be identified which is failed to be matched with the first audio library is stored in the second audio library, and when the accumulated matching times reach a preset threshold value, the audio is stored in the first audio library, so that the timeliness of the audio library is improved, and accurate recommendation of the audio is realized.)

技术领域

本申请涉及计算机技术领域，提供一种音频库的生成方法、装置、电子设备和存储介质。

背景技术

随着用户生成内容(User Generated Content，UGC)多媒体内容的快速发展，音频内容(简称为音频)成为了多媒体内容的重要组成部分，如，背景音乐(Background Music，BGM)；音频内容的使用，对于多媒体内容有着重要作用，如，多媒体内容的分类、推荐、再创作等等。

相关技术中通过预先构建音频库的方式，进行音频内容的使用，如，音频内容的识别等。然而，这种方式中，不能及时识别音频库中不存在的音频内容，特别是在大量的多媒体内容同时上传的情况下，难以及时识别新上传的音频内容，导致音频库的时效性较差。

发明内容

本申请实施例提供一种音频库的生成方法、装置、电子设备和存储介质，用以提高音频库的时效性，保证及时识别出音频库中不存在的音频内容。

第一方面，本申请实施例提供一种音频库的生成方法，包括：

将待识别音频与预设的第一音频库进行匹配，若匹配失败，则将所述待识别音频与预设的第二音频库进行匹配，获得目标匹配结果；其中，所述第二音频库是基于与所述第一音频库匹配失败的各个第二音频建立的；

若基于所述目标匹配结果，确定所述待识别音频与所述第二音频库中的至少一个第二音频匹配成功，且所述至少一个第二音频中，存在累计匹配成功次数达到预设门限值的目标第二音频，则获得所述目标第二音频；

将所述目标第二音频作为新的第一音频转存至所述第一音频库。

第二方面，本申请实施例提供一种音频库的生成装置，包括：

匹配单元，用于将待识别音频与预设的第一音频库进行匹配，若匹配失败，则将所述待识别音频与预设的第二音频库进行匹配，获得目标匹配结果；其中，所述第二音频库是基于与所述第一音频库匹配失败的各个第二音频建立的；

确定单元，用于若基于所述目标匹配结果，确定所述待识别音频与所述第二音频库中的至少一个第二音频匹配成功，且所述至少一个第二音频中，存在累计匹配成功次数达到预设门限值的目标第二音频，则获得所述目标第二音频；

转存单元，用于将所述目标第二音频作为新的第一音频转存至所述第一音频库。

可选的，所述确定所述待识别音频符合预设的音频检测条件时，所述确定单元用于：

将所述待识别音频，输入至已训练的目标音频检测模型，获得检测预测值；其中，所述目标音频检测模型是基于音频标注数据集，对待训练的音频检测模型进行训练后获得的；

确定所述检测预测值达到预设的预测门限值时，确定所述待识别音频符合所述音频检测条件。

可选的，在将待识别音频与预设的第一音频库进行匹配之前，所述匹配单元还用于：

获取待识别的多媒体内容，并从所述多媒体内容中，提取出所述待识别音频；

则在将所述第二音频作为新的第一音频转存至所述第一音频库之后，所述转存单元还用于：

将所述新的第一音频，作为所述多媒体内容的音频识别结果，并对应所述新的第一音频，记录所述多媒体内容的多媒体标识。

可选的，所述装置还包括关联单元，关联单元用于：

基于所述第一音频库中的每两个第一音频，生成相应的第一音频组；

针对获得的各个第一音频组，分别执行以下操作：

确定所述各个第一音频组中的一个音频组包含的两个第一音频；

获取所述两个第一音频各自对应的多媒体标识集合；其中，每个多媒体标识表征与相应的第一音频匹配成功的一个多媒体内容；

若获取的两个多媒体标识集合中，重复出现的多媒体标识的数目达到预设的数目门限值，则对应所述两个第一音频关联生成一个新的音频标识。

可选的，所述装置还包括推荐单元，所述推荐单元用于：

响应于客户端中触发的输入操作，基于所述第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从所述各个第一音频中，确定推荐音频集合；其中，每个多媒体标识表征与相应的第一音频匹配成功的一个多媒体内容；

在所述客户端中呈现所述推荐音频集合。

可选的，所述基于所述第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从所述各个第一音频中，确定推荐音频集合时，所述推荐单元具体用于：

获取所述第一音频库中包含的各个第一音频各自对应的多媒体标识集合，并基于获取的各个多媒体标识集合，获得所述各个第一音频各自对应的评估值；其中，每个评估值用于表征相应的第一音频的使用状态；

基于所述各个第一音频各自对应的评估值，对所述各个第一音频进行排序，得到目标序列，并从所述目标序列中，依次选取设定数量的第一音频，作为推荐音频集合。

可选的，所述基于获取的各个多媒体标识集合，获得所述各个第一音频各自对应的评估值时，所述推荐单元具体用于：

基于获取的所述各个第一音频中一个第一音频对应的多媒体标识集合，获取相应的各个多媒体内容的互动状态信息；

基于所述各个多媒体内容的互动状态信息，以及预设的互动状态信息与权重之间的映射关系，获得所述各个多媒体内容各自对应的权重；

基于所述各个多媒体内容各自对应的权重，获得所述一个第一音频的评估值。

可选的，所述将待识别音频与预设的第一音频库进行匹配时，所述匹配单元具体用于：

基于预设的音频指纹提取算法，对所述待识别音频进行音频指纹提取，获得所述待识别音频对应的待识别音频指纹；其中，所述待识别音频指纹用于表征所述待识别音频对应的音频特征；

基于所述音频指纹提取算法，对所述第一音频库中包含的各个第一音频进行音频指纹提取，获得所述各个第一音频各自对应的第一音频指纹；其中，每个第一音频指纹用于表征对应的一个第一音频的音频特征；

分别计算所述待识别音频指纹，与获得的各个第一音频指纹之间的相似度；

若所述各个第一音频指纹中，存在与所述待识别音频指纹的相似度，达到预设的相似度门限值的至少一个第一音频指纹，则确定所述待识别音频与所述第一音频库匹配成功。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述音频库的生成方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述音频库的生成方法的步骤。

本申请实施例中，将待识别音频与第一音频库匹配失败后，将待识别音频与第二音频库进行匹配，其中，第二音频库是基于与第一音频库匹配失败的各个第二音频建立的，若匹配成功的第二音频中，存在累计匹配成功次数达到预设门限值的目标第二音频，则将目标第二音频转存至第一音频库。

这样，由于待识别音频在与第一音频库匹配失败后，可以作为第二音频，存入第二音频库中，因此，提高了待识别音频的匹配成功率。此外，通过将目标第二音频转存至第一音频库，提高了第一音频库的时效性，保证了及时识别出第一音频库中不存在的音频，从而进一步提高了待识别音频的匹配成功率。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1A为本申请实施例中提供的一种可能的应用场景示意图；

图1B为本申请实施例中提供的另一种可能的应用场景示意图；

图1C为本申请实施例中提供的一种区块链示意图；

图1D为本申请实施例中提供的一种区块生成方法的流程图；

图2为本申请实施例中提供的一种音频库的生成方法的流程示意图；

图3A为本申请实施例中提供的一种待识别音频与第一音频库的匹配方法的流程示意图；

图3B为本申请实施例中提供的一种待识别音频与第一音频库的匹配过程的逻辑示意图；

图4为本申请实施例中提供的一种待识别音频与第二音频库匹配成功的情况的逻辑示意图；

图5为本申请实施例中提供的一种待识别音频与第二音频库匹配失败的情况的逻辑示意图；

图6为本申请实施例中提供的一种获取待识别音频的逻辑示意图；

图7A为本申请实施例中提供的一种多媒体标识集合的示意图；

图7B为本申请实施例中提供的一种第一音频库的示意图；

图8为本申请实施例中提供的一种基于第一音频库的音频推荐方法的流程示意图；

图9A为本申请实施例中提供的一种应用操作界面的示意图；

图9B为本申请实施例中提供的一种推荐音频集合的呈现示意图；

图10为本申请实施例中提供的一种热门音效库的生成示意图；

图11为本申请实施例中提供的一种检测装置的组成结构示意图；

图12为本申请实施例中提供的一种电子设备的硬件组成结构示意图；

图13为本申请实施例中提供的一种终端设备的硬件组成结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

下面对本申请实施例中涉及的部分概念进行介绍。

1、多媒体内容。本申请实施例中的多媒体内容包括但不限于是指包括两种或两种以上媒体的内容，媒体包括但不限于文字、数据、图像、动画、音频等。

2、音频内容。本申请实施例中的音频内容包括但不限于是背景音乐、特效声音等，其中，特效声音可以是笑声、欢呼声等。为了便于描述，下文中将音频内容，简称为音频。

3、音频指纹：将音频内容对应的音频变换为时频谱图，比如采用快速傅里叶变换(fastFourier transform，FFT)进行变换，基于时频谱图中时间-频率峰值的统计特征为音频内容构建表征其身份特征的音频指纹。当两个音频内容的音频指纹相似度超过相似度阈值时，可判定两个音频内容相同，音频指纹的形似程度反映了两个音频内容的相似度。

本申请实施例涉及人工智能(Artificial Intelligence，AI)和机器学习技术，基于人工智能中的语音技术和机器学习(Machine Learning，ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例在确定待识别音频符合预设的音频检测条件时，采用机器学习的音频检测模型。在本申请实施例中提出的训练音频检测模型的方法可分为两部分，包括训练部分和应用部分；其中，训练部分就涉及到机器学习这一技术领域，在训练部分中，通过机器学习这一技术训练音频检测模型，使用本申请实施例中给出的音频标注数据集作为训练数据集来训练音频检测模型，训练数据集中的训练数据输入至音频检测模型后，获取音频检测模型的输出结果，结合输出结果，通过优化算法不断调整模型参数；应用部分用于使用在训练部分训练获得的音频检测模型来对待识别音频进行检测，获得待识别音频的检查预测值。另外，还需要说明的是，本申请实施例中音频检测模型可以是在线训练也可以是离线训练，在此不做具体限定。

云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

随着UGC多媒体内容的快速发展，音频内容成为了多媒体内容的重要组成部分，如，BGM、特效声音等。音频内容的使用，对于多媒体内容有着重要作用，如，多媒体内容的分类、推荐、再创作等等。

相关技术中通过预先构建音频库的方式，进行音频内容的使用，如，音频内容的识别，进而基于音频内容的识别结果，进行热门音频的推荐、多媒体内容的推荐、多媒体内容的分类等等。然而，这种方式中，不能及时识别音频库中不存在的音频内容，特别是在大量的多媒体内容同时上传的情况下，难以及时识别新上传的音频内容，导致音频库的时效性较差。

由于音频库的时效性差，导致无法及时识别出音频库中不存在的音频内容的问题，本申请实施例中，构建热门音频库和临时音频库，在待识别音频与热门音频库匹配失败时，将待识别音频作为临时音频，存入临时音频库中，进而在该临时音频的累计匹配成功次数达到设定门限值时，将临时音频作为热门音频，存入热门音频库。

这样，由于在待识别音频与热门音频库匹配失败后，可以作为临时音频，存入临时音乐库中，因此，提高了待识别音频的匹配成功率。此外，通过将累计匹配成功次数达到设定门限值的临时音频，存入热门音频库，提高了热门音频库的时效性，保证了及时识别出热门音频库中不存在的音频，从而进一步提高了待识别音频的匹配成功率。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请实施例及实施例中的特征可以相互组合。

参阅图1A所示，其为本申请实施例中一种可能的应用场景示意图。在该应用场景中包括终端设备110、服务器120和数据存储节点130。终端设备110、服务器120和数据存储节点130之间通过通信网络进行通信。

在一种可能的实施方式中，通信网络是有线网络或无线网络。终端设备110、服务器120、数据存储节点130之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

用户通过终端设备110登录应用操作界面，终端设备110通过响应用户在应用操作界面触发的操作，向服务器120上部署的多媒体业务系统上传多媒体内容，使得服务器120基于终端设备110上传的多媒体内容，进行音频库的生成。例如，服务器基于终端设备110上传的多媒体内容，获得热门音频，建立热门音频库，以及获得临时音频，建立临时音频库。示例性的，终端设备110响应用户操作之后，还可以接收并呈现服务器120返回的推荐音频集合。

在本申请实施例中，应用可以是社交软件，例如即时通信软件、短视频软件，还可以是小程序、网页等，在此不做具体限定。其中，终端设备110上需要安装有应用，这里的应用可以是软件，也可以是网页、小程序等应用，服务器120则是与软件或是网页、小程序等相对应的服务器。

在本申请实施例中，终端设备110为用户使用的电子设备，该电子设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。各终端设备110通过无线网络与服务器120连接，服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

数据存储节点130通过通信网络与服务器120进行通信，数据存储节点130用于存储服务器120获得的热门音频，以及用于存储服务器120获得的临时音频。

在一种可能的实施方式中，数据存储节点130可以采用数据库的形式进行数据存储。热门音频、临时音频可以存储于同一数据库中，也可以存储于不同数据库，本申请对此不再限定。

在另一种可能的实施方式中，参阅图1B所示，数据存储节点130可以采用数据共享系统140的形式进行数据存储。

数据共享系统140是指用于进行节点与节点之间数据共享的系统，该数据共享系统中可以包括多个节点141，多个节点141可以是指数据共享系统中各个客户端。每个节点141在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通，数据共享系统中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。例如，当数据共享系统中的任意节点接收到输入信息时，数据共享系统中的其他节点便根据共识算法获取该输入信息，将该输入信息作为共享数据中的数据进行存储，使得数据共享系统中全部节点上存储的数据均一致。

对于数据共享系统中的每个节点，均具有与其对应的节点标识，而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识，以便后续根据其他节点的节点标识，将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为网际互连协议(Internet Protocol，IP)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1节点标识列表

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		……	……
节点N	119.123.789.258

数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成，参见图1C，区块链由多个区块组成，创始块中包括区块头和区块主体，区块头中存储有输入信息特征值、版本号、时间戳和难度值，区块主体中存储有输入信息；创始块的下一区块以创始块为父区块，下一区块中同样包括区块头和区块主体，区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值，并以此类推，使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联，保证了区块中输入信息的安全性。

在生成区块链中的各个区块时，参见图1D，区块链所在的节点在接收到输入信息时，对输入信息进行校验，完成校验后，将输入信息存储至内存池中，并更新其用于记录输入信息的哈希树；之后，将更新时间戳更新为接收到输入信息的时间，并尝试不同的随机数，多次进行特征值计算，使得计算得到的特征值可以满足下述公式：

SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET

其中，SHA256为计算特征值所用的特征值算法；版本号(version)为区块链中相关区块协议的版本信息；prev_hash为当前区块的父区块的区块头特征值；merkle_root为输入信息的特征值；ntime为更新时间戳的更新时间；nbits为当前难度，在一段时间内为定值，并在超出固定时间段后再次进行确定；x为随机数；TARGET为特征值阈值，该特征值阈值可以根据nbits确定得到。

这样，当计算得到满足上述公式的随机数时，便可将信息对应存储，生成区块头和区块主体，得到当前区块。随后，区块链所在节点根据数据共享系统中其他节点的节点标识，将新生成的区块分别发送给其所在的数据共享系统中的其他节点，由其他节点对新生成的区块进行校验，并在完成校验后将新生成的区块添加至其存储的区块链中。

参阅图2所示，其为本申请实施例中提供的一种音频库的生成方法的流程示意图，该音频库的生成方法应用于音频库的生成装置，该生成装置可以是服务器120，也可以是部署于服务器120中的装置，该方法的具体实施流程如下：

S201、生成装置将待识别音频与预设的第一音频库进行匹配，若匹配失败，则将待识别音频与预设的第二音频库进行匹配，获得目标匹配结果；其中，第二音频库是基于与第一音频库匹配失败的各个第二音频建立的。

具体的，执行S201时，可以采用但不限于以下步骤：

S2011、生成装置将待识别音频与预设的第一音频库进行匹配，获得第一匹配结果。

需要说明的是，本申请实施例中，第一音频库也可以称为热门音频库，第二音频库也可以称为临时音频库。

在一些实施例中，参阅图3A所示，为了提高匹配效率，执行S2011时，可以采用以下步骤：

S20111、生成装置基于预设的音频指纹提取算法，对待识别音频进行音频指纹提取，获得待识别音频对应的待识别音频指纹。

其中，待识别音频指纹用于表征待识别音频对应的音频特征。本申请实施例中，音频特征包括但不限于过零率、短时能量、短时平均幅度差、频谱图、短时功率谱密度、谱熵、基频、共振峰等中的一项或多项。以过零率为例，过零率是指每帧中一个信号的符号变化的次数，例如信号从正数变成负数或从负数变成正数。

本申请实施例中，音频指纹提取算法可以采用但不限于回声纹(echoprint)算法、关键点(landmark)算法、色度特征(chromaprint)算法等。

以待识别音频为BGM-A为例，生成装置采用echoprint算法，对BGM-A进行音频指纹提取，获得BGM-A对应的待识别音频指纹，其中，待识别音频指纹表征BGM-A的第一帧的过零率为9，第二帧的过零率为10。

S20112、生成装置基于音频指纹提取算法，对第一音频库中包含的各个第一音频进行音频指纹提取，获得各个第一音频各自对应的第一音频指纹。

其中，每个第一音频指纹用于表征对应的一个第一音频的音频特征。

例如，参阅图3B所示，假设，第一音频库中包含BGM1、BGM2、BGM3，生成装置对第一音频库中包含的BGM1、BGM2、BGM3进行音频指纹提取，获得BGM1、BGM2、BGM3各自对应的音频指纹。

S20113、生成装置分别计算待识别音频指纹，与获得的各个第一音频指纹之间的相似度。

需要说明的是，本申请实施例中，待识别音频指纹与各个第一音频指纹中的一个第一音频指纹之间的相似度，用于表征待识别音频指纹与该第一音频指纹中包含相同的音频指纹的帧数量。

例如，参阅图3B所示，生成装置分别计算待识别音频指纹，与BGM1、BGM2、BGM3的音频指纹之间的相似度，其中，待识别音频指纹与BGM1的音频指纹之间的相似度1的取值为50％，待识别音频指纹与BGM2的音频指纹之间的相似度2的取值为80％，待识别音频指纹与BGM3的音频指纹之间的相似度3的取值为90％。

S20114、生成装置判断各个第一音频指纹中，是否存在与待识别音频指纹的相似度，达到预设的相似度门限值的至少一个第一音频指纹，若是，执行S20115，否则执行S20116。

S20115、生成装置获得第一匹配结果，第一匹配结果表征待识别音频与预设的第一音频库匹配成功。

例如，假设，预设的相似度门限值为85％，此时，待识别音频指纹与BGM1、BGM2的音频指纹之间的相似度均未达到85％，待识别音频指纹与BGM3的音频指纹之间的相似度达到85％，生成装置确定BGM1、BGM2、BGM3的音频指纹中，存在与待识别音频指纹的相似度达到预设的相似度门限值的第一音频指纹，获得第一匹配结果，第一匹配结果表征BGM-A与第一音频库匹配成功。

S20116、生成装置获得第一匹配结果，第一匹配结果表征待识别音频与预设的第一音频库匹配失败。

例如，假设，预设的相似度门限值为95％，此时，待识别音频指纹与BGM1、BGM2、BGM3的第一音频指纹之间的相似度均未达到95％，生成装置确定BGM1、BGM2、BGM3的音频指纹中，不存在与待识别音频指纹的相似度达到预设的相似度门限值的第一音频指纹，获得第一匹配结果，第一匹配结果表征BGM-A与第一音频库匹配失败。

S2012、生成装置基于第一匹配结果，判断是否匹配成功，若是，则针对下一个待识别音频执行S2011，否则，执行S2013。

S2013、生成装置将待识别音频与预设的第二音频库进行匹配，获得目标匹配结果。

本申请实施例中，第二音频库是基于与第一音频库匹配失败的各个第二音频建立的。

由于待识别音频与预设的第二音频库的匹配过程，与待识别音频与预设的第一音频库的匹配过程相同，在此不再赘述。

S202、若生成装置基于目标匹配结果，确定待识别音频与第二音频库中的至少一个第二音频匹配成功，且至少一个第二音频中，存在累计匹配成功次数达到预设门限值的目标第二音频，则获得目标第二音频。

例如，假设，预设门限值为10，第二音频库中包含BGM4，生成装置基于目标匹配结果，确定BGM-A与第二音频库中的BGM4匹配成功，且BGM4的累计匹配成功次数达到10，则将BGM4作为目标第二音频。

又例如，假设，预设门限值为10，第二音频库中包含BGM4、BGM5，生成装置基于目标匹配结果，确定BGM-A与第二音频库中的BGM4、BGM5匹配成功，且BGM4的累计匹配成功次数达到10，则将BGM4作为目标第二音频。

S203、生成装置将目标第二音频作为新的第一音频转存至第一音频库。

例如，生成装置将BGM4作为一个新的第一音频转存至第一音频库。

下面，以一个具体的实施例，对S201-S203进行说明。

以待识别音频为BGM-B为例，参阅图4所示，若BGM-B与第一音频库匹配失败，则生成装置将BGM-B与第二音频库进行匹配，若BGM-B与第二音频库中的BGM-X匹配成功，且BGM-X的累计匹配成功次数达到预设门限值时，将BGM-X作为一个新的第一音频转存至第一音频库中。

在一些实施例中，若生成装置基于目标匹配结果，确定待识别音频与第二音频库匹配失败，则在确定待识别音频符合预设的音频检测条件时，将待识别音频作为一个新的第二音频转存至第二音频库。

具体的，可以采用但不限于以下两种方式确定待识别音频符合预设的音频检测条件：

方式A：

生成装置确定待识别音频符合预设的音频检测条件，包括以下操作中的至少一种：

操作a1、若待识别音频包含指定类型的音频片段，且音频片段的时长达到预设的时长门限值，则生成装置确定待识别音频符合音频检测条件。

本申请实施例中，待识别音频中可以包含但不限于以下类型的音频片段中一项或多项：语音、歌唱、音乐、无声、噪音、机器声、环境音等等。

例如，假设，指定类型的音频片段为音乐或歌唱类型的音频片段，预设的时长门限值为3分钟，BGM-A中包含语音类型的音频片段1和音乐类型的音频片段2，其中，音频片段2的时长为4分钟，此时，BGM-A中音频片段2的时长达到预设的时长门限值3分钟，生成装置确定BGM-A符合音频检测条件。

操作a2、若待识别音频包含指定类型的音频片段，且音频片段的时长比例达到预设的比例门限值，则生成装置确定待识别音频符合音频检测条件。

其中，时长比例用于表征音频片段的时长与待识别音频的总时长的比值。

例如，假设，指定类型的音频片段为音乐或歌唱类型的音频片段，预设的比例门限值80％，BGM-A中包含语音类型的音频片段1和音乐类型的音频片段2，其中，音频片段1的时长为1分钟，音频片段2的时长为4秒，此时，BGM-A中音频片段2的时长比例为80％，BGM-A中音频片段2的时长比例达到预设的比例门限值80％，生成装置确定BGM-A符合音频检测条件。

操作a3、若待识别音频包含的至少一个音频片段均为指定类型，则生成装置确定待识别音频符合音频检测条件。

例如，假设，指定类型的音频片段为音乐或歌唱类型的音频片段，BGM-A中包含歌唱类型的音频片段1和音乐类型的音频片段2，此时，BGM-A中包含的音频片段1和音频片段2均为指定类型，生成装置确定BGM-A符合音频检测条件。

又例如，假设，指定类型的音频片段为音乐或歌唱类型的音频片段，BGM-A中包含歌唱类型的音频片段1，此时，BGM-A中包含的音频片段1为指定类型，生成装置确定BGM-A符合音频检测条件。

需要说明的是，本申请实施例中，可以采用预设的音频事件检测算法，确定待识别音频是否符合预设的音频检测条件。音频事件检测算法可以采用但不限于人工神经网络(Artificial Neural Network，ANN)、隐马尔可夫模型(Hidden Markov Model，HMM)等。

在上述实施例中，在待识别音频与第二音频库匹配失败的情况下，可以将为符合时长或时长比例要求的待识别音频，以及未叠加语音、环境杂音(例如，风声、雨声等)等音频片段的待识别音频，作为新的一个第二音频，转存至第二音频库中。

方式B：为提高匹配效率，还可以结合机器学习技术，确定待识别音频符合预设的音频检测条件。具体的，生成装置确定待识别音频符合预设的音频检测条件，包括以下步骤：

b1、生成装置将待识别音频，输入至已训练的目标音频检测模型，获得检测预测值。

其中，目标音频检测模型是基于音频标注数据集，对待训练的音频检测模型进行训练后获得的。音频标注数据集表征已标注音频类型的训练数据集。

需要说明的是，本申请实施中，目标音频检测模型可以采用但不限于深度学习模型。检测预测值可以采用级别表示，也可以采用数值表示，本申请对此不作限制，下文中，仅以采用数值表示检测预测值为例进行说明。

例如，生成装置将BGM-A输入至已训练的目标音频检测模型，获得BGM-A的检测预测值为90。

b2、生成装置确定检测预测值达到预设的预测门限值时，确定待识别音频符合音频检测条件。

例如，假设，预设的预测门限值为85，BGM-A的检测预测值为90，生成装置确定BGM-A的检测预测值达到预设的预测门限值，确定BGM-A符合音频检测条件。

下面，以一个具体的实施例对待识别音频与第二音频库匹配失败的情况进行说明。

以待识别音频为BGM-X例，参阅图5所示，第一音频库中未包含第一音频，生成装置将BGM-X与第一音频库进行匹配，BGM-X与第一音频库匹配失败，则将BGM-X与第二音频库进行匹配。第二音频库中未包含第二音频，BGM-X与第二音频库匹配失败，生成装置确定BGM-X符合预设的音频检测条件时，将BGM-X加入第二音频库中。

在一些实施例中，为实现建立针对多媒体内容中包含的音频内容的音频库，在执行S201之前，生成装置获取待识别的多媒体内容，并从多媒体内容中，提取出待识别音频。

具体的，生成装置获取待识别的多媒体内容，并从待识别的多媒体内容中，提取出音频内容，以及在确定音频内容符合预设的匹配条件时，将音频内容作为待识别音频。

需要说明的是，本申请实施例中，可以采用但不限于音视频处理工具FFmpeg，从待识别的多媒体内容中，提取出音频文件。生成装置确定音频文件中符合预设的匹配条件时，采用上文中操作a1，操作a2中的至少一种，在此不再赘述。

例如，参阅图6所示，待识别的多媒体内容包含图像、文字、音频，生成装置获取待识别的多媒体内容，并从待识别的多媒体内容中，提取出音频内容，其中，音频内容中包含语音类型的音频片段、机器声类型的音频片段、音乐类型的音频片段。生成装置确定音频内容中包含音乐类型的音频片段，且音乐类型的音频片段的时长达到预设的时长门限值，将音频内容作为待识别音频。

进而，生成装置将第二音频作为新的第一音频转存至第一音频库之后，还包括：生成装置将新的第一音频，作为多媒体内容的音频识别结果，并对应新的第一音频，记录多媒体内容的多媒体标识。其中，多媒体标识可以采用但不限于序号(Identity Document，ID)表示。

以待识别音频为BGM-B为例，假设，BGM-B是从视频1中提取出的，生成装置将BGM-X作为新的第一音频转存至第一音频库之后，将BGM-X作为视频1的音频识别结果。

在上述实施例中，可以针对多媒体内容中包含的音频内容，建立相应的音频库，进而后续获取到多媒体内容时，可以基于音频库，进行音频内容的识别、多媒体内容的分类、多媒体内容的推荐等。

需要说明的是，上述实施例中仅以一个多媒体内容作为举例，生成装置还可以获取多媒体内容流，针对多媒体内容流中的每个多媒体内容，采用上述提取方式，获取各个待识别音频。

在一些实施例中，在音频的使用过程中，用户会对原始音频进行部分改动，例如，对原始音频部分加减速，在原始音频中插入其他片段，在原始音频中叠加一些其他的音频等等，因此，第一音频中可能存在大量的相似的第一音频。为了实现将相似的音频关联聚合，本申请实施例中，生成装置基于第一音频库中的每两个第一音频，生成相应的第一音频组，针对获得的各个第一音频组，分别执行以下操作：

生成装置确定各个第一音频组中的一个音频组包含的两个第一音频；获取两个第一音频各自对应的多媒体标识集合；若获取的两个多媒体标识集合中，重复出现的多媒体标识的数目达到预设的数目门限值，则对应两个第一音频关联生成一个新的音频标识。

其中，每个多媒体标识表征与相应的第一音频匹配成功的一个多媒体内容。

以第一音频库中的一个第一音频组(第一音频组1)为例，假设，第一音频组1包含BGM1和BGM2，预设的数目门限值为2，参阅图7A所示，生成装置确定第一音频组1中包含BGM1和BGM2，然后，生成装置获取BGM1对应的多媒体标识集合，以及获取BGM2对应的多媒体标识集合，其中，BGM1对应的多媒体标识集合中包含视频1、视频2、视频3、视频4、视频8、视频9的多媒体标识，BGM2对应的多媒体标识集合中包含视频3、视频4、视频6、视频7的多媒体标识。获取的两个多媒体标识集合中，重复出现的多媒体标识为视频3和视频4的多媒体标识，此时重复出现的多媒体标识的数目达到预设的数目门限值，参阅图7B所示，生成装置对应BGM1和BGM2关联生成一个新的音频标识BGM-1-2。

在一些实施例中，参阅图8所示，其为本申请实施例中提供的一种基于生成的第一音频库的音频推荐方法的流程示意图，该方法包括以下步骤：

S801、生成装置响应于客户端中触发的输入操作，基于第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从各个第一音频中，确定推荐音频集合。

客户端中触发的输入操作包括但不限于是针对音频推荐功能的选中操作等。例如，参阅图9A所示，生成装置响应于客户端中触发的针对控件901(“模板库”)的选中操作。

具体的，执行S801时，可以采用但不限于以下步骤，基于第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从各个第一音频中，确定推荐音频集合：

S8011、生成装置获取第一音频库中包含的各个第一音频各自对应的多媒体标识集合，并基于获取的各个多媒体标识集合，获得各个第一音频各自对应的评估值。其中，每个评估值用于表征相应的第一音频的使用状态。

具体的，执行S8011时，可以采用但不限于以下步骤：

S80111、生成装置基于获取的第一音频X对应的多媒体标识集合，获取相应的各个多媒体内容的互动状态信息。其中，第一音频X为各个第一音频中的任意一个第一音频。

本申请实施例中，互动状态信息包括但不限于以下信息中的一项或多项：点击次数、点赞次数、评论次数、转发次数等。

以第一音频X为BGM3为例，假设，BGM3对应多媒体标识集合1，多媒体标识集合1中包含视频1、视频2、视频3的多媒体标识。生成装置基于获取的BGM3对应的多媒体标识集合1，获取相应的视频1、视频2、视频3的点赞次数，其中，视频1的点赞次数为0，视频2的点赞次数为10，视频3的点赞次数为100。

S80112、生成装置基于各个多媒体内容的互动状态信息，以及预设的互动状态信息与权重之间的映射关系，获得各个多媒体内容各自对应的权重。

仍以第一音频X为BGM3为例，假设，预设的互动状态信息与权重之间的映射关系中，点赞次数为0的多媒体内容的权重为1，点赞次数为10的多媒体内容的权重为2，点赞次数为100的多媒体内容的权重为3。生成装置基于视频1、视频2、视频3的点赞次数，以及映射关系，获得视频1、视频2、视频3各自对应的权重，其中，视频1、视频2、视频3的权重分别为0、2、3。

S80113、生成装置基于各个多媒体内容各自对应的权重，获得第一音频X的评估值。

仍以第一音频X为BGM3为例，生成装置基于视频1、视频2、视频3各自对应的权重，获得BGM3的评估值为0+2+3＝5。

需要说明的是，本申请实施例中，预设的互动状态信息与权重之间的映射关系中，不同的互动状态信息的取值，可以对应相同的权重，也就是说，各个多媒体内容的权重相同。

仍以第一音频X为BGM3为例，假设，预设的互动状态信息与权重之间的映射关系表征各个多媒体内容的权重相同，那么，生成装置获得BGM3的评估值为1+1+1＝3。

需要说明的是，本申请实施例中，还可以将第一音频X对应的多媒体标识集合的数目，作为第一音频X的评估值，本申请对此不做限定，在此不再赘述。

S8022、生成装置基于各个第一音频各自对应的评估值，对各个第一音频进行排序，得到目标序列，并从目标序列中，依次选取设定数量的第一音频，作为推荐音频集合。

以第一音频为BGM1、BGM2、BGM3为例，假设，BGM1、BGM2、BGM3各自对应的评估值分别为1、2、3，设定数量为2，生成装置基于BGM1、BGM2、BGM3各自对应的评估值，对BGM1、BGM2、BGM3进行排序，得到目标序列：BGM3、BGM2、BGM1，并从目标序列中，依次选取BGM3、BGM2，作为推荐音频集合。

S802、生成装置在客户端中呈现推荐音频集合。

例如，参阅图9B所示，生成装置在客户端中呈现推荐音频集合，推荐音频集合中包含“化身孤岛的鲸”、“Lemon”、“大鱼”等音频。

在一些实施例中，为了便于后续对多媒体内容进行分类、推荐、再创作，第一音频库中还包含各个第一音频各自对应的音频知识信息，每个音频知识信息中包含对应的第一音频的音频标识，每个音频知识信息中还可以包含但不限于对应的第一音频的音频名称、音频标签、相关多媒体内容标签等中的一项或多项。例如，BGM1的音频知识信息中包含BGM1的音频标识、音频名称、音频标签、相关多媒体内容标签，其中，BGM1的音频名称为“大鱼”，BGM1的音频标签为“治愈”，BGM1的相关多媒体内容标签为“娱乐”。

每个多媒体内容存在对应的多媒体知识信息，每个多媒体知识信息中包含对应的多媒体内容的多媒体标识，每个多媒体知识信息中还可以包含但不限于对应的多媒体内容的多媒体名称、关键词、多媒体标签、音频名称等中的一项或多项。例如，视频1的多媒体知识信息为{是什么化成了蓝蓝的花蕾？，#春分文案#，大风吹}，其中，视频1的视频名称为“是什么化成了蓝蓝的花蕾？”，视频1的关键词为“春分文案”，视频1的音频名称为“大风吹”。

为了便于后续对多媒体内容进行分类、推荐，若待识别音频与第一音频库匹配成功，则生成装置可以将与待识别音频匹配成功的第一音频的音频知识信息，添加至待识别音频所属的多媒体内容的多媒体知识信息中。

为了进一步完善第一音频库，本申请实施例中，可以按照设定的统计间隔，针对第一音频库中包含的各个第一音频，将与各个第一音频匹配成功的多媒体内容的多媒体知识信息，添加至相应的第一音频的音频知识信息中。

在一些实施例中，生成装置可以定期对第二音频库进行清理，以便及时发现新的第一音频。作为一种举例，生成装置可以在第二音频库中包含的第二音频的数量超过预设的数量门限值时，按照各个第二音频的存入时间，对第二音频库进行清理。作为另一种举例，生成装置可以按照预设的清理时间间隔，按照各个第二音频的存入时间，对第二音频库进行清理。

下面，以多媒体内容为视频为例，对热门音效库的生成过程进行说明。

参阅图10所示，预设的热门音效库不包含任意一个音效，预设的临时音效库中不包含任意一个音效。

首先，生成装置获取待识别的视频1，并从视频1中提取出待识别音频音效-C，生成装置将音效-C与热门音效库进行匹配，匹配失败后，将音效-C与临时音效库进行匹配，再次匹配失败后，若音效-C符合预设的音频检测条件，将音效-C存入临时音效库。

然后，生成装置获取待识别的视频2，并从视频1中提取出待识别音频音效-D，生成装置将音效-D与热门音效库进行匹配，匹配失败后，将音效-D与临时音效库进行匹配，再次匹配失败后，若音效-D符合预设的音频检测条件，将音效-D存入临时音效库。

接着，生成装置获取待识别的视频3，并从视频3中提取出待识别音频音效-C-1，生成装置将音效-C-1与热门音效库进行匹配，匹配失败后，将音效-C-1与临时音效库进行匹配，音效-C-1与音效C匹配成功，更新音效C的累计匹配成功次数。

最后，生成装置获取待识别的视频4，并从视频4中提取出待识别音频音效-C-2，生成装置将音效-C-2与热门音效库进行匹配，匹配失败后，将音效-C-2与临时音效库进行匹配，音效-C-2与音效C匹配成功，更新音效-C的累计匹配成功次数。

生成装置在音效-C的累计匹配成功次数达到预设门限值时，将音效-C转存至热门音效库中。

基于相同的发明构思，本申请实施例提供一种音频库的生成装置。如图11所示，其为音频库的生成装置1100的结构示意图，可以包括：

匹配单元1101，用于将待识别音频与预设的第一音频库进行匹配，若匹配失败，则将待识别音频与预设的第二音频库进行匹配，获得目标匹配结果；其中，第二音频库是基于与第一音频库匹配失败的各个第二音频建立的；

确定单元1102，用于若基于目标匹配结果，确定待识别音频与第二音频库中的至少一个第二音频匹配成功，且至少一个第二音频中，存在累计匹配成功次数达到预设门限值的目标第二音频，则获得目标第二音频；

转存单元1103，用于将目标第二音频作为新的第一音频转存至第一音频库。

可选的，转存单元1103还用于：

若基于目标匹配结果，确定待识别音频与第二音频库匹配失败，则在确定待识别音频符合预设的音频检测条件时，将待识别音频作为一个新的第二音频转存至第二音频库。

可选的，确定待识别音频符合预设的音频检测条件时，确定单元1102用于执行以下操作中的至少一种：

若待识别音频包含指定类型的音频片段，且音频片段的时长达到预设的时长门限值，则确定待识别音频符合音频检测条件；

若待识别音频包含指定类型的音频片段，且音频片段的时长比例达到预设的比例门限值，则确定待识别音频符合音频检测条件；其中，时长比例用于表征音频片段的时长与待识别音频的总时长的比值；

若待识别音频包含的至少一个音频片段均为指定类型，则确定待识别音频符合音频检测条件。

可选的，确定待识别音频符合预设的音频检测条件时，确定单元1102用于：

将待识别音频，输入至已训练的目标音频检测模型，获得检测预测值；其中，目标音频检测模型是基于音频标注数据集，对待训练的音频检测模型进行训练后获得的；

确定检测预测值达到预设的预测门限值时，确定待识别音频符合音频检测条件。

可选的，在将待识别音频与预设的第一音频库进行匹配之前，匹配单元1101还用于：

获取待识别的多媒体内容，并从多媒体内容中，提取出待识别音频；

则在将第二音频作为新的第一音频转存至第一音频库之后，转存单元1103还用于：

将新的第一音频，作为多媒体内容的音频识别结果，并对应新的第一音频，记录多媒体内容的多媒体标识。

可选的，装置还包括关联单元1104，关联单元1104用于：

基于第一音频库中的每两个第一音频，生成相应的第一音频组；

针对获得的各个第一音频组，分别执行以下操作：

确定各个第一音频组中的一个音频组包含的两个第一音频；

获取两个第一音频各自对应的多媒体标识集合；其中，每个多媒体标识表征与相应的第一音频匹配成功的一个多媒体内容；

若获取的两个多媒体标识集合中，重复出现的多媒体标识的数目达到预设的数目门限值，则对应两个第一音频关联生成一个新的音频标识。

可选的，装置还包括推荐单元1105，推荐单元1105用于：

响应于客户端中触发的输入操作，基于第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从各个第一音频中，确定推荐音频集合；其中，每个多媒体标识表征与相应的第一音频匹配成功的一个多媒体内容；

在客户端中呈现推荐音频集合。

可选的，基于第一音频库中包含的各个第一音频的各自对应的多媒体标识集合，从各个第一音频中，确定推荐音频集合时，推荐单元1105具体用于：

获取第一音频库中包含的各个第一音频各自对应的多媒体标识集合，并基于获取的各个多媒体标识集合，获得各个第一音频各自对应的评估值；其中，每个评估值用于表征相应的第一音频的使用状态；

基于各个第一音频各自对应的评估值，对各个第一音频进行排序，得到目标序列，并从目标序列中，依次选取设定数量的第一音频，作为推荐音频集合。

可选的，基于获取的各个多媒体标识集合，获得各个第一音频各自对应的评估值时，推荐单元1105具体用于：

基于获取的各个第一音频中一个第一音频对应的多媒体标识集合，获取相应的各个多媒体内容的互动状态信息；

基于各个多媒体内容的互动状态信息，以及预设的互动状态信息与权重之间的映射关系，获得各个多媒体内容各自对应的权重；

基于各个多媒体内容各自对应的权重，获得一个第一音频的评估值。

可选的，将待识别音频与预设的第一音频库进行匹配时，匹配单元1101具体用于：

基于预设的音频指纹提取算法，对待识别音频进行音频指纹提取，获得待识别音频对应的待识别音频指纹；其中，待识别音频指纹用于表征待识别音频对应的音频特征；

基于音频指纹提取算法，对第一音频库中包含的各个第一音频进行音频指纹提取，获得各个第一音频各自对应的第一音频指纹；其中，每个第一音频指纹用于表征对应的一个第一音频的音频特征；

分别计算待识别音频指纹，与获得的各个第一音频指纹之间的相似度；

若各个第一音频指纹中，存在与待识别音频指纹的相似度，达到预设的相似度门限值的至少一个第一音频指纹，则确定待识别音频与第一音频库匹配成功。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在介绍了本申请示例性实施方式的音频库的生成方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

图12是根据一示例性实施例示出的一种电子设备1200的框图，该装置包括：

处理器1210；

用于存储处理器1210可执行指令的存储器1220；

其中，处理器1210被配置为执行指令，以实现本公开实施例中的音频库的生成方法，例如图2、图3A或图8中所示的步骤。

在示例性实施例中，还提供了一种包括操作的存储介质，例如包括操作的存储器1220，上述操作可由电子设备1200的处理器1210执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、便携式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

基于同一发明构思，参阅图13所示，本申请实施例还提供了一种终端设备1300，该终端设备1300可以为智能手机、平板电脑，手提电脑或PC等电子设备。

该终端设备1300包括显示单元1340、处理器1380以及存储器1320，其中，显示单元1340包括显示面板1341，用于显示由用户输入的信息或提供给用户的信息以及终端设备1300的各种操作界面等，在本申请实施例中主要用于显示终端设备1300中已安装的应用程序的操作界面、快捷窗口等。可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)或OLED(Organic Light-Emitting Diode，有机发光二极管)等形式来配置显示面板1341。

处理器1380用于读取计算机程序，然后执行计算机程序定义的方法，例如处理器1380读取应用，从而在该终端设备1300上运行应用，在显示单元1340上显示操作界面。处理器1380可以包括一个或多个通用处理器，还可包括一个或多个DSP(Digital SignalProcessor，数字信号处理器)，用于执行相关操作，以实现本申请实施例所提供的技术方案。

存储器1320一般包括内存和外存，内存可以为RAM，ROM，以及高速缓存(CACHE)等。外存可以为硬盘、光盘、USB盘、软盘或磁带机等。存储器1320用于存储计算机程序和其他数据，该计算机程序包括应用程序等，其他数据可包括操作系统或应用程序被运行后产生的数据，该数据包括系统数据(例如操作系统的配置参数)和用户数据。本申请实施例中程序指令存储在存储器1320中，处理器1380执行存储器1320中的程序指令，实现前文论述的音频库的生成方法。

此外，终端设备1300还可以包括显示单元1340，用于接收输入的数字信息、字符信息或接触式触摸操作/非接触式手势，以及产生与终端设备1300的用户设置以及功能控制有关的信号输入等。具体地，本申请实施例中，该显示单元1340可以包括显示面板1341。显示面板1341例如触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在显示面板1341上或在显示面板1341的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，显示面板1341可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。在本申请实施例中，若用户对操作界面中的控件进行选中操作，则在显示面板1341中的触摸检测装置检测到触摸操作，则将检测到的触摸操作对应的信号发送的触摸控制器，触摸控制器将信号转换成触点坐标发送给处理器1380，处理器1380根据接收到的触点坐标确定用户选中的控件。

其中，显示面板1341可以采用电阻式、电容式、红外线以及表面声波等多种类型实现。除了显示单元1340，终端设备1300还可以包括输入单元1330，输入单元1330可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。图13中是以输入单元1330包括图像输入设备1331和其它输入设备1332为例。

除以上之外，终端设备1300还可以包括用于给其他模块供电的电源1390、音频电路1360、近场通信模块1370和RF电路1310。终端设备1310还可以包括一个或多个传感器1350，例如加速度传感器、光传感器、压力传感器等。音频电路1360具体包括扬声器1361和麦克风1362等，例如用户可以使用语音控制，终端设备1300可以通过麦克风1362采集用户的声音，可以用户的声音进行控制，并在需要提示用户时，通过扬声器1361播放对应的提示音。

基于同一发明构思，本申请还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的音频库的生成方法。

在一些可能的实施方式中，本申请提供的音频库的生成方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在计算机设备上运行时，计算机程序用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的音频库的生成方法中的步骤，例如，计算机设备可以执行如图2、图3A或图8中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用CD-ROM并包括程序代码，并可以在计算装置上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

36页详细技术资料下载

一种音频库的生成方法、装置、电子设备和存储介质

相关技术

网友询问留言