乐曲识别方法、装置、电子设备及计算机可读存储介质

文档序号：193392 发布日期：2021-11-02 浏览：41次 >En<

阅读说明：本技术 乐曲识别方法、装置、电子设备及计算机可读存储介质 (Music recognition method, device, electronic equipment and computer readable storage medium ) 是由潘颂声曹偲朱一闻刘华平赵翔宇李鹏于 2021-08-03 设计创作，主要内容包括：本公开提供一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质；涉及人工智能技术领域。该乐曲识别方法应用于包括音频输入装置的终端设备,该方法包括：通过音频输入装置接收用户输入的音频；对音频进行分析并确定音频的面貌信息,面貌信息包括无效音频、低信噪比音频或高信噪比音频；当面貌信息指示音频为低信噪比音频时,根据低信噪比识别策略对音频进行识别,并输出低信噪比识别结果；当面貌信息指示音频为高信噪比音频时,根据高信噪比识别策略对音频进行识别,并输出高信噪比识别结果；基于低信噪比识别结果或高信噪比识别结果确定所识别到的乐曲。本公开可以针对各种场景和音频进行有效的识别,并输出准确率较高的匹配结果。(The present disclosure provides a music recognition method, a music recognition apparatus, an electronic device, and a computer-readable storage medium; relates to the technical field of artificial intelligence. The music piece recognition method is applied to a terminal device comprising an audio input device, and comprises the following steps: receiving audio input by a user through an audio input device; analyzing the audio and determining the face information of the audio, wherein the face information comprises invalid audio, low signal-to-noise ratio audio or high signal-to-noise ratio audio; when the face information indicates that the audio is the low signal to noise ratio audio, identifying the audio according to a low signal to noise ratio identification strategy, and outputting a low signal to noise ratio identification result; when the face information indicates that the audio is the high signal-to-noise ratio audio, identifying the audio according to a high signal-to-noise ratio identification strategy, and outputting a high signal-to-noise ratio identification result; the identified music piece is determined based on the low signal-to-noise ratio identification result or the high signal-to-noise ratio identification result. The method and the device can effectively identify various scenes and audios and output the matching result with high accuracy.)

技术领域

本公开涉及人工智能技术领域，具体而言，涉及基于人工智能技术的一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

伴随着文娱需求的日益增长，越来越多的用户试图通过音频片段来搜索心仪的乐曲。这种通过一段音频来识别对应的乐曲的方式可以被称为“听声识曲”。现有的用于听声识曲的主要方式可以包括：音频指纹识别、翻唱识别和哼唱识别。然而，在单独应用上述方式中的一种时，往往对于低信噪比的音频无法进行有效识别，或者对于例如现场演奏或大幅度改编的歌曲无法进行有效识别，从而造成识别准确率下降、匹配到错误的识别结果等，严重影响用户体验。

因此，需要一种改进的乐曲识别方法和装置，以至少能够针对各种场景和音频进行有效的识别，并输出准确率较高的匹配结果。

发明内容

鉴于此，需要一种乐曲识别方案，能够至少在一定程度上解决由低信噪比音频或大幅度改编的歌曲所造成的单一一种听声识曲技术识别准确率不良、匹配到错误的乐曲的问题。

在本上下文中，本公开的实施方式期望提供一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质。

根据本公开的第一方面，提供了一种乐曲识别方法，应用于包括音频输入装置的终端设备，其特征在于，所述方法包括：通过音频输入装置接收用户输入的音频；对所述音频进行分析并确定所述音频的面貌信息，所述面貌信息包括无效音频、低信噪比音频或高信噪比音频；当所述面貌信息指示所述音频为低信噪比音频时，根据低信噪比识别策略对所述音频进行识别，并输出低信噪比识别结果；当所述面貌信息指示所述音频为高信噪比音频时，根据高信噪比识别策略对所述音频进行识别，并输出高信噪比识别结果；基于所述低信噪比识别结果或所述高信噪比识别结果确定所识别到的乐曲。

可选地，所述对所述音频进行分析并确定所述音频的面貌信息，包括：对所述音频进行分帧处理，以得到多个音频帧；分别计算各音频帧属于有效音频帧的概率，当所述属于有效音频帧的概率大于或等于预设的第一阈值时，将对应的音频帧确定为有效音频帧；否则，将对应的音频帧确定为无效音频帧；统计有效音频帧的数量，并计算有效音频帧的数量与所述多个音频帧的数量的比值；当所述比值小于预设的第二阈值时，确定所述面貌信息为无效音频并停止对所述音频的识别。

可选地，所述方法还包括：当所述比值大于或等于所述第二阈值时，基于所述有效音频帧的数量计算所述属于有效音频帧的概率的均值；当所述均值大于或等于预设的第三阈值时，确定所述面貌信息为高信噪比音频；否则，确定所述面貌信息为低信噪比音频。

可选地，所述低信噪比识别策略包括多个识别子策略，所述根据低信噪比识别策略对所述音频进行识别，包括：按照预设的顺序依次调用所述多个识别子策略对所述音频进行识别，并基于预设的曲库依次确定通过各识别子策略识别到的至少一个识别子结果以及所述至少一个识别子结果与所述曲库中的对应乐曲之间的低信噪比相似度；当与所述多个识别子策略中的一个识别子策略对应的低信噪比相似度大于或等于预设的第四阈值时，将与该识别子策略对应的乐曲确定为识别到的乐曲并且停止调用识别子策略对所述音频进行识别。

可选地，所述高信噪比识别策略包括多个识别子策略，所述根据高信噪比识别策略对所述音频进行识别，包括：对所述音频进行场景分类处理，并根据场景分类的结果确定调用所述多个识别子策略中的一个或多个对所述音频进行识别；基于预设的曲库确定通过一个或多个识别子策略识别到的一个或多个识别子结果以及所述一个或多个识别子结果与所述曲库中的对应乐曲之间的一个或多个高信噪比相似度；将各高信噪比相似度与预设的第五阈值分别进行比对，并将与大于或等于所述第五阈值的高信噪比相似度对应的乐曲确定为识别到的乐曲。

可选地，各识别子策略分别与一音频类别以及一子策略阈值相对应，所述对所述音频进行场景分类处理，并根据场景分类的结果确定调用所述多个识别子策略中的一个或多个对所述音频进行识别，包括：基于分类模型确定所述音频分别属于各音频类别的分类概率；将各分类概率分别与所述各音频类别对应的子策略阈值进行比对；当大于或等于子策略阈值时，确定所述音频属于相应的音频类别，并确定调用相应的识别子策略对所述音频进行识别；当小于子策略阈值时，停止调用相应的识别子策略对所述音频进行识别。

可选地，所述方法还包括：根据与所述识别到的乐曲对应的低信噪比相似度或高信噪比相似度，对所述识别到的乐曲进行排序；以及对经排序的乐曲进行合并与去重复处理。

根据本公开的第二方面，提供一种乐曲识别装置，应用于包括音频输入装置的终端设备，其特征在于，所述装置包括：接收模块，用于通过音频输入装置接收用户输入的音频；音频分析模块，用于对所述音频进行分析并确定所述音频的面貌信息，所述面貌信息包括无效音频、低信噪比音频或高信噪比音频；音频识别模块，用于当所述面貌信息指示所述音频为低信噪比音频时，根据低信噪比识别策略对所述音频进行识别，并输出低信噪比识别结果；以及当所述面貌信息指示所述音频为高信噪比音频时，根据高信噪比识别策略对所述音频进行识别，并输出高信噪比识别结果；识别决策模块，用于基于所述低信噪比识别结果或所述高信噪比识别结果确定所识别到的乐曲。

可选地，所述音频分析模块用于：对所述音频进行分帧处理，以得到多个音频帧；分别计算各音频帧属于有效音频帧的概率，当所述属于有效音频帧的概率大于或等于预设的第一阈值时，将对应的音频帧确定为有效音频帧；否则，将对应的音频帧确定为无效音频帧；统计有效音频帧的数量，并计算有效音频帧的数量与所述多个音频帧的数量的比值；当所述比值小于预设的第二阈值时，确定所述面貌信息为无效音频并停止对所述音频的识别。

可选地，音频分析模块还用于：当所述比值大于或等于所述第二阈值时，基于所述有效音频帧的数量计算所述属于有效音频帧的概率的均值；当所述均值大于或等于预设的第三阈值时，确定所述面貌信息为高信噪比音频；否则，确定所述面貌信息为低信噪比音频。

可选地，所述低信噪比识别策略包括多个识别子策略，所述音频识别模块用于：按照预设的顺序依次调用所述多个识别子策略对所述音频进行识别，并基于预设的曲库依次确定通过各识别子策略识别到的至少一个识别子结果以及所述至少一个识别子结果与所述曲库中的对应乐曲之间的低信噪比相似度；当与所述多个识别子策略中的一个识别子策略对应的低信噪比相似度大于或等于预设的第四阈值时，将与该识别子策略对应的乐曲确定为识别到的乐曲并且停止调用识别子策略对所述音频进行识别。

可选地，所述高信噪比识别策略包括多个识别子策略，所述音频识别模块用于：对所述音频进行场景分类处理，并根据场景分类的结果确定调用所述多个识别子策略中的一个或多个对所述音频进行识别；基于预设的曲库确定通过一个或多个识别子策略识别到的一个或多个识别子结果以及所述一个或多个识别子结果与所述曲库中的对应乐曲之间的一个或多个高信噪比相似度；将各高信噪比相似度与预设的第五阈值分别进行比对，并将与大于或等于所述第五阈值的高信噪比相似度对应的乐曲确定为识别到的乐曲。

可选地，各识别子策略分别与一音频类别以及一子策略阈值相对应，所述音频识别模块用于：基于分类模型确定所述音频分别属于各音频类别的分类概率；将各分类概率分别与所述各音频类别对应的子策略阈值进行比对；当大于或等于子策略阈值时，确定所述音频属于相应的音频类别，并确定调用相应的识别子策略对所述音频进行识别；当小于子策略阈值时，停止调用相应的识别子策略对所述音频进行识别。

可选地，所述装置还包括排序与去重模块，所述排序与去重模块用于：根据与所述识别到的乐曲对应的低信噪比相似度或高信噪比相似度，对所述识别到的乐曲进行排序；以及对经排序的乐曲进行合并与去重复处理。

根据本公开的第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器被配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

根据本公开实施方式的乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质，一方面，将各种乐曲音频识别策略整合在一起并向用户提供仅一个查询入口，使得能够避免不熟悉听声识曲策略的用户选择不适合的识别策略，从而导致查询不到想要的乐曲；通过这种方式，降低了听声识曲的操作难度和用户的认知成本，并相应提升了客户体验。另一方面，通过分析出音频的面貌为无效音频或包括低信噪比音频和高信噪比音频的有效音频，并且根据有效音频的面貌信息来选用不同的识别策略，实现了对于不同特质的音频有针对性地启用不同的子识别系统，从而有效地减少了乐曲识别系统的整体运算量。再一方面，通过将乐曲识别策略细分为低信噪比识别策略和高信噪比识别策略，使得能够有区别性地设置相应的识别策略流程，从而针对不同的乐曲音频均能进行有效识别并同时实现了更精确的识别结果，提升了乐曲识别系统的整体识别准确率。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开实施例的乐曲识别方法的应用场景的示意图；

图2分别示意性示出了对应于纯噪声、低信噪比音乐和音乐原声的音频波形图；

图3示意性示出了根据本公开的一个实施例的乐曲识别方法的流程图；

图4示意性示出了根据本公开一个实施例的进行音频面貌分析的流程图；

图5示意性示出了根据本公开的一个实施例的低信噪比识别策略的流程图；

图6示出了实施根据本公开一个实施例的实施音频指纹识别的流程图；

图7示意性示出了根据本公开一个实施例的乐曲识别方法的包括对高信噪比音频进行场景分类的流程图；

图8示意性示出了根据本公开一个实施例的进行音频场景分类的流程图；

图9示意性示出了根据本公开的一个实施例的高信噪比识别策略的流程图；

图10示意性示出了根据本公开的一个实施例的乐曲识别装置的框图；

图11示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种乐曲识别方法、乐曲识别装置、电子设备及计算机可读存储介质。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

在与乐曲识别有关的相关技术中，用户通常采用音频指纹识别、翻唱识别和哼唱识别这三种方式来进行听声识曲。然而，这三种识别方式往往分别提供各自的识别入口，这会使得对于听声识曲策略不熟悉的用户感到困惑，无法得知应该从哪个识别入口进入较为适合当前想要识别的乐曲。另一方面，上述三种识别方式通常被单独使用来对乐曲进行识别，然而，单一一种识别方式往往具有较高的限制性。如图2所示，通过比对对应于纯噪声、低信噪比音乐和具有高信噪比的音乐原声的音频波形图201、202和203可以看出，若以信噪比维度对音频进行分类，不同类型的音频之间存在较为明显的差异，这也就造成单一一种乐曲识别方式往往不能较佳地适用于对各种类型的音频的识别。

例如，对于音频指纹识别方式，其对于低信噪比的音频通常不能进行有效识别；此外，对于较高清晰度的音频，如果该音频所对应的乐曲不在识别曲库中，但在进行音频指纹匹配时与识别曲库中的一首其它乐曲匹配成功，则会将该乐曲作为识别结果向用户报出，从而造成误识别，影响用户体验。以及，例如哼唱识别方式对于低信噪比的音频也无法进行有效识别等。

发明人发现，通过对输入的音频进行分析，确定其属于高信噪比音频还是低信噪比音频，针对高或低信噪比的音频，区别性地采用不同的识别策略，可以较好地解决上述问题，从而降低用户对识别策略的认知成本并提高乐曲识别的准确率。

基于上述内容，本公开的基本思想在于：在确定输入音频不属于纯噪声的无效音频的基础上，分析所输入的音频属于高信噪比音频还是低信噪比音频；同时将现有的多种乐曲识别策略相结合使用并设置相应的识别策略流程，使得针对高信噪比音频或低信噪比音频，分别采用不同的识别策略并设置不同的识别阈值，从而实现更准确的乐曲识别。

本公开技术方案能够将各种乐曲音频识别策略整合在一起并向用户提供仅一个查询入口，使得能够避免不熟悉听声识曲策略的用户选择不适合的识别策略，从而导致查询不到想要的乐曲；通过这种方式，降低了听声识曲的操作难度和用户的认知成本，并相应提升了客户体验。另一方面，通过分析出音频的面貌为无效音频或包括低信噪比音频和高信噪比音频的有效音频，并且根据有效音频的面貌信息来选用不同的识别策略，实现了对于不同特质的音频有针对性地启用不同的子识别系统，从而有效地减少了乐曲识别系统的整体运算量。再一方面，通过将乐曲识别策略细分为低信噪比识别策略和高信噪比识别策略，使得能够有区别性地设置相应的识别策略流程，从而针对不同的乐曲音频均能进行有效识别并同时实现了更精确的识别结果，提升了乐曲识别系统的整体识别准确率。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景概览

需要注意的是，下述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

图1示出了根据本公开实施例的乐曲识别方法的应用场景，其中，系统架构100可以包括终端设备101、102、103中的一个或多个、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路。可以以各种类型的连接接入网络104，例如以有线、无线通信链路或者光纤电缆等方式。终端设备101、102、103可以是包括音频输入装置的各种电子设备，例如包括但不限于包括用于采集音频的麦克风的台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

举例而言，在一种示例性实施例中，用户可以对终端设备101、102或103输入要识别的音频，而终端设备101、102或103可以自行分析并确定输入音频的面貌信息，并根据低信噪比识别策略或高信噪比识别策略对输入音频进行识别，并且将相应的识别结果通过网络104发送至服务器105，使得服务器105根据接收到的识别结果在识别曲库中进行匹配并最终将匹配到的乐曲通过网络104下发给终端设备101、102或103。另外，例如还可以终端设备101、102或103仅用于采集输入音频并将采集到的音频通过网络104上传至服务器105，而由服务器105完成上述分析面貌信息、对音频进行识别以及匹配识别到的乐曲等一系列操作。本领域技术人员应理解的是，上述应用场景仅是用于举例，本示例性实施例中并不以此为限。

通过本公开实施方式的乐曲识别方法，可以降低听声识曲的操作难度和用户的认知成本，并提升乐曲识别系统的整体识别准确率。

示例性方法

参考图3来描述根据本公开示例性实施方式的一个方面的乐曲识别方法。

本示例实施方式提供了一种乐曲识别方法，应用于包括音频输入装置的终端设备。参考图3所示，该乐曲识别方法可以包括以下步骤：

步骤S310.通过音频输入装置接收用户输入的音频；

步骤S320.对所述音频进行分析并确定所述音频的面貌信息，所述面貌信息包括无效音频、低信噪比音频或高信噪比音频；

步骤S330.当所述面貌信息指示所述音频为低信噪比音频时，根据低信噪比识别策略对所述音频进行识别，并输出低信噪比识别结果；

步骤S340.当所述面貌信息指示所述音频为高信噪比音频时，根据高信噪比识别策略对所述音频进行识别，并输出高信噪比识别结果；

步骤S350.基于所述低信噪比识别结果或所述高信噪比识别结果确定所识别到的乐曲。

在上述提供的乐曲识别方法中，可以通过例如为麦克风的音频输入装置接收用户输入的音频，并且可以基于VAD算法通过计算音频帧属于有效音频帧的概率来对音频的面貌信息进行分析，如果确定输入音频的面貌信息为纯噪声，也就是无效音频则结束识别流程；如果确定所输入的音频的面貌信息属于高信噪比音频或低信噪比音频，则针对高信噪比音频或低信噪比音频分别采用不同的识别策略。例如可以对高信噪比音频进行场景分类以确定该高信噪比音频适用于哪一种或哪几种乐曲识别方案，并调用相应的一种或多种识别方案来分别对高信噪比音频进行识别；或者可以将多种乐曲识别方案相结合并依照预设的顺序依次调用各乐曲识别方案来对低信噪比音频进行识别，从而针对不同面貌的输入音频可以实现有针对性的优化识别策略，并使得最终的识别结果可以不局限于单一一种乐曲识别策略。通过该乐曲识别方法，能够降低听声识曲的操作难度和用户的认知成本，有效地减少乐曲识别系统的整体运算量，以及提升乐曲识别系统的整体识别准确率。

下面，在另一实施例中，对上述步骤进行更加详细的说明。

在步骤S310中，通过音频输入装置接收用户输入的音频。

在本示例实施方式中，如上所述，用户可以对例如为台式计算机、便携式计算机、智能手机和平板电脑等的终端设备输入待识别的音频。为了采集或接收用户输入的音频，终端设备可以包括音频输入装置，例如用于采集音频的麦克风、拾音器等。而所输入的音频例如可以为一段乐曲原声、一段由用户或其他表演者所翻唱的歌曲或一段人声哼唱等。除此之外，所输入的音频例如还可以为一段用户或其他表演者进行的说唱等等，本示例实施方式对此不做特别限定。

在步骤S320中，对所述音频进行分析并确定所述音频的面貌信息，所述面貌信息包括无效音频、低信噪比音频或高信噪比音频。

在本示例实施方式中，例如可以按照如图4所示的流程对所输入的音频进行分析。其中，在S410，可以使用语音端点检测(VAD)算法对所输入的音频进行处理计算。举例来说，可以选用端到端的神经网络模型VAD算法，其中神经网络例如可以为常规的深度神经网络(DNN)或卷积神经网络(CNN)。

根据本公开的一个实施例，基于VAD算法，可以对所输入的音频进行分帧处理，例如可以以20毫秒为单位对输入的音频进行分帧，由于音频可被视为沿时间轴分布的一系列声音波形，因此例如可以将输入音频的处于时间轴上0到20ms的区间内的片段划分为一个音频帧，之后可以将20毫秒作为固定不变的时间窗长度，将该时间窗沿时间轴向后移动10毫秒，也就是说，可以移动该时间窗使其对应于时间轴上10到30ms的区间，并且将该区间内的音频片段划分为又一个音频帧，接下来再次移动时间窗。以此类推，则可以得到多个音频帧。

基于上述的分帧策略，可以对用于训练神经网络模型的训练音频进行分帧，得到多个训练音频帧。可以对各训练音频帧提取频谱特征，其中频谱特征例如可以包括梅尔频率倒谱系数(MFCC)、对数域梅尔频谱等。每个训练音频帧所提取的频谱特征为固定维数，并将所提取的频谱特征输入到神经网络模型中。而该神经网络模型的输出为该训练音频帧所对应的标签。其中训练音频帧可以被分为噪音和有效音频两类；如果该训练音频帧包含音乐或人声，则认为是有效音频，其标签的标注值为1，否则认为是噪音，其标签的标注值为0。之后使用交叉熵训练准则，学习率采用0.001，以及梯度下降算法对上述神经网络模型进行训练，当网络收敛到损失值不再下降为止，从而得到经训练的神经网络模型。

以上述的方式，可以对所输入的音频进行分帧，得到多个输入音频帧；并且可以以与训练音频帧相同的方式对各输入音频帧提取频谱特征，并且使用该经训练的神经网络模型根据各输入音频帧的频谱特征计算各输入音频帧属于噪音的概率p_n和有效音频帧的概率p_s，使得满足p_n+p_s＝1。用这种方式遍历所有输入音频帧，并判断各输入音频帧属于有效音频帧的概率p_s是否大于或等于预设的第一阈值，其中该第一阈值依照经验一般可以设置为0.2。如果满足p_s≥0.2，则判定对应的输入音频帧属于有效音频帧，反之则判定对应的输入音频帧属于噪音。在实际应用中，第一阈值的值还可以根据实际需求被设置为介于0到1之间的其他的值，而不限于上述的示例值。

在S420中，可以统计有效音频帧的数量，并计算该数量与所有音频帧的数量的比值，并且将该比值与预设的第二阈值进行比较。在S430中，如果比值小于该第二阈值，则判定所输入的音频的面貌信息属于无效音频，也就是说所输入的音频的主要成分为噪音。此时例如可以对用户反馈文字提示“无法查找到对应的乐曲”并终止识别过程。其中，第二阈值可以根据实际需求灵活设置，例如当对所输入的音频有更高的要求时，可以将该第二阈值设置为0.08或更低；反之，则例如可以将该第二阈值设置为0.09或更高，本示例实施方式对此不做特别限定。

在上述实施例中，在对输入的音频进行识别之前，首先判断该音频是否属于无效音频，也就是说判断该音频的主要成分是否为噪音，如果是则终止识别流程。通过这种流程，有效地避免了浪费运算能力对无效音频进行识别处理，从而降低了乐曲识别系统的整体运算量。

根据本公开的一个实施例，如果比值大于或等于第二阈值，则在S440中，进一步基于有效音频帧的数量通过下述公式计算属于有效音频帧的概率p_s的均值

其中，n为大于等于1的自然数并代表有效音频帧的数量，而代表共n个有效音频帧中的第i个有效音频帧的概率p_s。

计算得到后，则在S450中，可以将该与预设的第三阈值p_v进行比较。如果满足也就是说，输入音频中的有效音频帧的数量达到了一定的水平，则在S470中，可以将所输入的音频的面貌信息确定为高信噪比音频，反之，则在S460中，可以将所输入的音频的面貌信息确定为低信噪比音频。其中，第三阈值p_v可以根据实际需求而灵活设置，举例来说，如果期望对乐曲的识别有更高的准确率，则p_v可以取较小的值，如0.5；而如果期望识别有更高的召回率，则p_v可以取较大的值，如0.8；本示例实施方式对此不做特别限定。

通过上述实施例，在输入音频为有效音频的前提下，可以将输入音频的面貌信息进一步细化为高信噪比音频或低信噪比音频，从而使得后续能够根据输入音频的面貌信息有针对性地采用相应的识别策略流程，有助于提升乐曲识别系统的整体识别准确率。

在步骤S330中，当所述面貌信息指示所述音频为低信噪比音频时，根据低信噪比识别策略对所述音频进行识别，并输出低信噪比识别结果。

在本示例实施方式中，如果所输入的音频的面貌信息被确定为低信噪比音频，则启动相应的低信噪比识别流程来对音频进行识别，即，调用预设的低信噪比识别策略来对输入的音频进行识别，并从而得到低信噪比识别结果。

根据本公开的一个实施例，低信噪比识别策略例如可以包括音频指纹识别策略、翻唱识别策略和哼唱识别策略等多个识别子策略。除上述列举的三种识别子策略之外，低信噪比识别策略根据实际需求例如还可以包括说唱识别策略、方言识别策略等其他类型的识别子策略。在本公开的实施例中，以包括音频指纹识别策略、翻唱识别策略和哼唱识别策略这三种识别子策略为例进行说明；并且在本公开后续的说明中，出于简洁性与易读性的考虑，以子策略1来指代音频指纹识别策略、以子策略2来指代翻唱识别策略以及以子策略3来指代哼唱识别策略。

当调用低信噪比识别策略来对输入的音频进行识别时，可以按照“音频指纹识别——翻唱识别——哼唱识别”的顺序依次调用上述三个识别子策略来进行识别。在通常情况下，从音频指纹识别到翻唱识别再到哼唱识别，识别准确率依次降低，因此设置“音频指纹识别——翻唱识别——哼唱识别”的识别顺序可以保证低信噪比识别策略所输出的识别结果尽可能准确。例如如图5所示，在S510，可以调用子策略1来对所输入的音频进行识别，并基于预设的曲库确定所识别到的至少一个识别子结果，并且可以确定该至少一个识别子结果与曲库中的对应乐曲之间的低信噪比相似度。举例来说，可以提取输入音频中的音频指纹并与预设曲库中的候选乐曲进行音频指纹匹配，如果输入音频分别与候选乐曲A和B中的一段的匹配率超过预设的阈值，则可以确定分别与候选乐曲A和B对应的两个识别子结果，并且可以根据上述匹配率确定出这两个识别子结果分别与曲库中的候选乐曲A和B的低信噪比相似度，例如分别为0.53和0.56。

在S520，可以将该低信噪比相似度与预设的第四阈值进行比较。该第四阈值可以为一大于0而小于1的数值，并且可以根据实际需求进行设置；例如，当对识别准确度的要求较高时，则可以将该第四阈值设置成相对较大的数值，而当需要尽可能报出若干个识别候选项以供用户参考时，则可以将该第四阈值设置成相对较小的数值。在上述所举的例子中，如果将第四阈值设为0.6，则所识别出的两个识别子结果与候选乐曲A和B的低信噪比相似度不足，不能将候选乐曲A和B作为最终的识别结果；而如果将第四阈值设为0.4，则所识别出的两个识别子结果与候选乐曲A和B之间具有足够高的低信噪比相似度，于是可以将候选乐曲A和B作为最终识别到的乐曲结果。因此，如果低信噪比相似度大于或等于上述第四阈值，则转至S580，可以将通过子策略1识别到的识别子结果所对应的乐曲作为最终识别到的乐曲，即低信噪比识别结果，并且停止调用后续的识别子策略对输入音频进行识别。

如果低信噪比相似度小于上述第四阈值，则在S530，可以调用子策略2来对所输入的音频进行识别，并基于预设的曲库得到相应的至少一个识别子结果以及与候选乐曲之间的低信噪比相似度。

在S540，可以将该低信噪比相似度继续与第四阈值进行比较，如果低信噪比相似度大于或等于第四阈值，则转至S580，可以将通过子策略2识别到的识别子结果所对应的乐曲作为最终识别到的乐曲，即低信噪比识别结果，并且停止调用后续的识别子策略对输入音频进行识别。

如果低信噪比相似度小于第四阈值，则在S550，可以调用子策略3来对所输入的音频进行识别，并基于预设的曲库得到相应的至少一个识别子结果以及与候选乐曲之间的低信噪比相似度。

在S560，可以将该低信噪比相似度继续与第四阈值进行比较，如果低信噪比相似度大于或等于第四阈值，则转至S580，可以将通过子策略3识别到的识别子结果所对应的乐曲作为最终识别到的乐曲，即低信噪比识别结果，并且终止乐曲识别的过程。

如果低信噪比相似度小于第四阈值，则转至S570，调用子策略1、子策略2和子策略3均识别失败，无法识别到符合要求的结果，则例如可以返回诸如“无法查找到对应的乐曲”之类的文字提示，以向用户反馈识别失败。

通过上述实施例，当确定音频的面貌信息为低信噪比音频时，通过设置专用于低信噪比音频的识别策略流程，即依次调用子策略1、子策略2和子策略3进行识别，实现了能够对通常难于识别的低信噪比音频进行有效识别并输出尽可能精确的识别结果，进而提升了乐曲识别系统的整体识别准确率。

在上述三种识别子策略中，以子策略1为一示例来说明应用其对输入音频进行识别的过程。如图6所示，在S610，可以提取输入音频的音频指纹。其中，音频指纹是指一段音频中独一无二的数据特征，可以通过特定的算法将音频指纹以标识符的形式提取出来，该特定的算法例如可以包括但不限于shazam算法、Landmark算法等等。

在提取出输入音频的音频指纹之后，在S620，可以在候选旋律库中检索与所提取出的音频指纹相匹配的音频指纹。

在检索到相匹配的音频指纹后，在S630，可以将输入音频的各时间帧中的音频指纹序列与候选旋律的音频指纹序列沿时间轴进行匹配，并且统计出输入音频与候选旋律的音频指纹序列在各个时间点相匹配的次数。

在S640，可以根据音频指纹匹配的次数查找出各候选歌曲并形成列表，并且该列表中还可以包括与各候选歌曲相对应的匹配次数。

在S650，可以根据输入音频的信噪比情况(信噪比较高或信噪比较低)来确定选择较高的匹配次数判别阈值还是较低的匹配次数判别阈值，并根据所选用的判别阈值对各候选歌曲进行判别，从而确定各候选歌曲所对应的匹配次数是高于还是低于所选用的判别阈值。

在S660，可以选择出匹配次数高于判别阈值的各候选歌曲作为最终的识别结果并输出识别到的歌曲列表。

类似地，其余两种识别子策略2和3可以按照各自的实现方式来被实施并对输入音频进行识别，本示例实施方式对此不做特别说明。

在步骤S340中，当所述面貌信息指示所述音频为高信噪比音频时，根据高信噪比识别策略对所述音频进行识别，并输出高信噪比识别结果。

在本示例实施方式中，如果所输入的音频的面貌信息被确定为高信噪比音频，则启动相应的高信噪比识别流程来对音频进行识别，即，调用预设的高信噪比识别策略来对输入的音频进行识别，并从而得到高信噪比识别结果。

根据本公开的一个实施例，高信噪比识别策略例如也可以包括音频指纹识别策略、翻唱识别策略和哼唱识别策略等多个识别子策略，并且也可以如上所述包括其他类型的识别子策略。本示例仍以包括音频指纹识别策略(子策略1)、翻唱识别策略(子策略2)和哼唱识别策略(子策略3)这三种识别子策略为例进行说明，但在实际应用中所涉及的识别子策略可以不限于所列举的上述三种识别子策略。

在应用高信噪比识别策略对输入音频进行识别时，首先需对输入音频进行场景分类处理，也就是说，确定输入音频是属于音频指纹类别、翻唱类别或哼唱类别中的哪一种或哪几种。如图7所示，针对用户所输入的音频，在S710，可以首先以在上文所说明的方式分析输入音频的音频面貌信息，当确定输入音频的面貌信息为低信噪比音频时，则可以转至S730，调用如上所述的低信噪比识别策略来对输入音频进行识别决策；而当确定输入音频的面貌信息为高信噪比音频时，则可以相应地转至S720，对输入音频进行场景分类处理，从而确定输入音频是否属于音频指纹类别、翻唱类别或哼唱类别中的一种或多种。在确定了输入音频的场景分类后，则可以转至S730，采用相应的高信噪比识别策略来对输入音频进行识别决策，并最终输出识别结果。

由于高信噪比音频的音频面貌较好，因此分类识别的准确性一般较高。场景分类的过程可以实现为机器学习分类过程，可以采用音频信号或频谱特征作为输入，而输入音频属于各类别的概率作为输出。例如可以基于循环神经网络(RNN)来构建分类器，并使用带标注的数据进行有监督训练。现参照图8来对输入音频的场景分类过程进行说明。

在S810，可以输入用于对基于RNN的分类模型进行训练的训练音频。

在S820，可以对训练音频进行频谱特征提取，并且用标签(x1,x2,x3)对提取的频谱特征进行标注。其中，标签x1、x2、x3例如可以分别对应于音频指纹类别、翻唱类别和哼唱类别，并且标签x1、x2、x3的取值为0或1，每个音频同时只属于一个类别。也就是说，对于一训练音频，对其进行标注的标签的形式可以为(1,0,0)、(0,1,0)或(0,0,1)中的一种，分别代表该训练音频属于音频指纹类别、翻唱类别或者哼唱类别。

在S830，可以将经标注的频谱特征数据作为RNN的输入数据，并基于RNN进行有监督训练，输出数据为训练音频属于音频指纹类别、翻唱类别或哼唱类别的概率(y1,y2,y3)，其中y1、y2或y3的取值范围为大于0且小于1。完成训练之后，得到经训练的分类模型。

在S840，可以输入待分类音频，即面貌信息为高信噪比音频的音频。

在S850，可以对待分类音频进行频谱特征提取，并将所提取的频谱特征输入经训练的分类模型。

在S860，通过应用经训练的分类模型，可以结合RNN对待分类音频进行分类计算，并最终输出待分类音频属于音频指纹类别、翻唱类别或哼唱类别的概率(y1,y2,y3)。例如，对于一待分类音频，经过分类模型的分类计算后，所输出的概率可以是(0.7,0.3,0.2)，代表该待分类音频属于音频指纹类别的概率y1为0.7，属于翻唱类别的概率y2为0.3，而属于哼唱类别的概率y3为0.2。

由于音频本身具备时间分布特性，而RNN适于处理在不同时刻的、彼此之间存在关联关系的序列型输入，因此以上以RNN作为一种示例性实施方式对音频场景分类过程进行了说明。需要说明的是，除RNN之外，还可以基于深度神经网络(DNN)来构建分类模型并实现场景分类，本示例实施方式对此不做特别限定。

如图9所示，在S910通过上述方式对输入音频进行场景分类并得到输入音频属于各类别的概率之后，在S920，可以将各概率分别与各音频类别的预设的子策略阈值相比较。其中，各音频类别可以分别对应于一识别子策略和一子策略阈值，例如，音频指纹类别可对应于子策略1和音频指纹阈值，翻唱类别可对应于子策略2和翻唱识别阈值，以及哼唱类别可对应于子策略3和哼唱识别阈值。其中各子策略阈值可以根据实际需求而彼此独立地设置，举例来说，例如可以根据各识别子策略的识别准确度而将音频指纹阈值、翻唱识别阈值和哼唱识别阈值分别设置为0.6、0.3和0.3。在这种情况下，例如根据上述示例分类模型所输出的概率是(0.7,0.3,0.2)，则将各概率与各音频类别的子策略阈值相比较可以得出：输入音频属于音频指纹类别的概率y1大于音频指纹阈值、属于翻唱类别的概率y2等于翻唱识别阈值、以及属于哼唱类别的概率y3小于哼唱识别阈值。于是，可以确定输入音频属于音频指纹类别并同时属于翻唱类别，但不属于哼唱类别。

在这种情况下，于是在S930和S940，可以相应地调用子策略1和子策略2来对输入音频进行识别，而停止调用子策略3来进行识别。需要说明的是，如果在另一示例中，例如属于哼唱类别的概率y3为0.4并且大于哼唱识别阈值0.3，则相应地可以在S950，调用子策略3来对输入音频进行识别。

在识别的过程中，基于预设的曲库可以确定出调用子策略1以及子策略2所识别到的一个或多个识别子结果，并且可以确定该一个或多个识别子结果与曲库中的对应乐曲之间的一个或多个高信噪比相似度。举例来说，例如利用音频指纹识别和翻唱识别可以分别确定出与候选乐曲C和D对应的两个识别子结果，并且可以确定出这两个识别子结果分别与曲库中的候选乐曲C和D的高信噪比相似度为0.78和0.57。

在S960，可以将上述高信噪比相似度与预设的第五阈值进行比较。该第五阈值可以为一大于0而小于1的数值，并且可以根据实际需求进行设置。在上述所举的例子中，例如可以将第五阈值设为0.6，则此时可以得出0.78>0.6，即利用子策略1所得到的识别子结果与候选乐曲C之间具有足够高的高信噪比相似度；而0.57<0.6，即利用子策略2所得到的识别子结果与候选乐曲D之间的高信噪比相似度不足，于是可以将候选乐曲C作为最终识别到的乐曲结果，即高信噪比识别结果。

通过上述实施例，当确定音频的面貌信息为高信噪比音频时，通过设置专用于高信噪比音频的识别策略流程，即根据输入音频分别属于音频指纹类别、翻唱类别或哼唱类别的概率来确定调用子策略1、子策略2或子策略3中的一种或多种来进行识别，实现了能够根据输入音频的实际类别而有针对性地选择适合的而不是全部识别子策略来进行识别，从而有效地减少了乐曲识别系统的整体运算量，并且同时在输入音频可能属于多于一个类别时调用相应的识别子策略来进行识别还保证了识别结果的精确性，进而提升了乐曲识别系统的整体识别准确率。

在步骤S350中，基于所述低信噪比识别结果或所述高信噪比识别结果确定所识别到的乐曲。

在本示例实施方式中，在通过上文所述的方式确定低信噪比识别结果或高信噪比识别结果之后，则可以将该低信噪比识别结果或高信噪比识别结果作为最终识别到的目标乐曲向用户报出乐曲的相关信息。

根据本公开的一个进一步的实施例，如图9所示，在S970，可以根据所确定的低信噪比相似度或高信噪比相似度，对相应的识别到的乐曲例如进行相似度从高到低的排序，举例来说，例如根据低信噪比识别策略识别到乐曲E、F、G，相应的低信噪比相似度分别为0.4、0.6、0.5，则可以将识别到的乐曲排序为F、G、E；而根据高信噪比识别策略，例如通过子策略1识别到乐曲H、I，相应的高信噪比相似度分别为0.6、0.8，而同时通过子策略3识别到乐曲I、J，相应的高信噪比相似度分别为0.4、0.3，则可以将识别到的乐曲排序为I(0.8)、H、I(0.4)、J。

在S980，还可以对经排序的乐曲进行合并与去重复处理，例如在上述举例的情况下，则可以将根据高信噪比识别策略识别到的乐曲最终合并与去重复为I、H、J，即，将I(0.4)的识别结果作为重复结果去除。而如果根据低信噪比识别策略或高信噪比识别策略识别到的乐曲之间不存在重复的情况，则可以略过该合并与去重复处理的步骤。

最后在S990，则可以基于经过排序和去重复处理的识别结果，向用户输出识别到的乐曲列表，使得用户能够在乐曲列表中挑选想要的乐曲。

通过上述实施例，能够将相似度较高的识别结果优先反馈给用户并且能够去除识别结果中重复的结果，使得所报出的识别结果简洁易读，并能够使用户直观快速地找到所需的结果，提高了识别系统的用户友好度并因而提升了用户体验。

示例性装置

在介绍了本公开示例性实施方式的乐曲识别方法之后，接下来，参考图10对根据本公开示例性实施方式的乐曲识别装置进行描述。其中，装置实施例部分可以继承方法实施例中的相关描述，使得装置实施例可以获得方法实施例相关具体描述的支持。

参考图10所示，该乐曲识别装置1000可以应用于包括音频输入装置的终端设备，该乐曲识别装置1000可以包括接收模块1010、音频分析模块1020、音频识别模块1030以及识别决策模块1040，其中：

接收模块1010可以用于通过音频输入装置接收用户输入的音频；

音频分析模块1020可以用于对所述音频进行分析并确定所述音频的面貌信息，所述面貌信息包括无效音频、低信噪比音频或高信噪比音频；

音频识别模块1030可以用于当所述面貌信息指示所述音频为低信噪比音频时，根据低信噪比识别策略对所述音频进行识别，并输出低信噪比识别结果；以及当所述面貌信息指示所述音频为高信噪比音频时，根据高信噪比识别策略对所述音频进行识别，并输出高信噪比识别结果；以及

识别决策模块1040可以用于基于所述低信噪比识别结果或所述高信噪比识别结果确定所识别到的乐曲。

由于本公开实施方式的乐曲识别装置的各个功能模块与上述方法发明实施方式中对应相同，因此在此不再赘述。

示例性设备

接下来，将对本公开的示例性实施方式的电子设备进行描述。其中，本公开的示例性实施方式的电子设备包括上述乐曲识别装置。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本公开的电子设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“方法”部分中描述的根据本公开各种示例性实施方式的乐曲识别方法中的步骤。例如，所述处理单元可以执行如图3所述的步骤S310至步骤S350。

下面参照图11来描述根据本公开的这种实施方式的电子设备1100。图11显示的电子设备1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，计算机系统1100包括中央处理单元(CPU)1101，其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中，还存储有系统操作所需的各种程序和数据。CPU1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

以下部件连接至I/O接口1105：包括键盘、鼠标等的输入部分1106；包括诸如阴极射线管(CRT)显示器、液晶显示器(LCD)等以及扬声器等的输出部分1107；包括硬盘等的存储部分1108；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1110上，以便于从其上读出的计算机程序根据需要被安装入存储部分1108。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1109从网络上被下载和安装，和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时，执行本申请的方法和系统中限定的各种功能。

示例性程序产品

在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“方法”部分中描述的根据本公开各种示例性实施方式的乐曲识别方法中的步骤，例如，所述终端设备可以执行如图3所述的步骤S310至步骤S350。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光盘、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。另外，随着技术的发展，可读存储介质也应进行相应解读。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了乐曲识别装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

26页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：烟雾报警声识别方法及系统

乐曲识别方法、装置、电子设备及计算机可读存储介质

相关技术

网友询问留言