多媒体数据处理方法、装置、设备及存储介质

文档序号：172950 发布日期：2021-10-29 浏览：31次 >En<

阅读说明：本技术 多媒体数据处理方法、装置、设备及存储介质 (Multimedia data processing method, device, equipment and storage medium ) 是由冯鑫于 2021-09-22 设计创作，主要内容包括：本申请实施例公开了一种多媒体数据处理方法、装置、设备及存储介质,涉及人工智能相关的机器学习技术,其中,方法包括：获取与目标视频数据匹配的目标音频数据；对所述目标音频数据进行音频特征提取,得到所述目标音频数据的音频特征信息；根据所述目标音频数据的音频特征信息,对所述目标音频数据进行副歌识别,得到所述目标音频数据的副歌片段；从所述目标视频数据中提取出关键视频片段,将所述关键视频片段与所述目标音频数据的副歌片段进行融合,得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。通过本申请能够有效提高副歌片段的获取效率以及准确度,进而,提高多媒体数据的获取效率。(The embodiment of the application discloses a multimedia data processing method, a device, equipment and a storage medium, which relate to machine learning technologies related to artificial intelligence, wherein the method comprises the following steps: acquiring target audio data matched with the target video data; performing audio feature extraction on the target audio data to obtain audio feature information of the target audio data; according to the audio characteristic information of the target audio data, performing refraining identification on the target audio data to obtain a refraining segment of the target audio data; extracting a key video clip from the target video data, and fusing the key video clip with the refrain clip of the target audio data to obtain multimedia data comprising the key video clip and the refrain clip of the target audio data. Through the method and the device, the obtaining efficiency and the obtaining accuracy of the refrain fragment can be effectively improved, and further the obtaining efficiency of the multimedia data is improved.)

技术领域

本申请涉及人工智能中的机器学习技术领域，尤其涉及一种多媒体数据处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，人们可以随时随地进行多媒体数据（如短视频）的录制与发布，并且还可以观看其他人发布的多媒体数据。通常用户在创作多媒体数据时，需要选择一个与视频数据的主题相符合的背景音乐，然后，将背景音乐与视频数据进行融合，得到多媒体数据。背景音乐可以用于强化多媒体数据的主题，例如，该多媒体数据为一个舞蹈视频数据，通过背景音乐可以增强舞蹈的节奏感，进而使得观看者能通过背景音乐来更加直观的理解用户上传的多媒体数据的主题。由于音频数据的副歌片段具有较强的节奏感以及概括性，因此，越来越多的用户选择音频数据的副歌片段作为背景音乐。目前，主要是通过手动方式剪辑出音频数据的副歌片段，需要用户多次对音频数据进行剪辑处理，才能得到音频数据的副歌片段，导致音频数据的副歌片段的获取效率比较低，进而使多媒体数据的获取效率比较低。同时，受人耳主观感受的影响，不同用户对音频数据的副歌片段的理解具有一定的偏差，导致获取到的副歌片段的准确度比较低。

发明内容

本申请实施例所要解决的技术问题在于，提供一种多媒体数据处理方法、装置、设备及存储介质，能够有效提高副歌片段的获取效率以及准确度，进而，提高多媒体数据的获取效率。

本申请实施例一方面提供一种多媒体数据处理方法，包括：

获取与目标视频数据匹配的目标音频数据；

对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

从所述目标视频数据中提取出关键视频片段，将所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。

本申请实施例一方面提供一种多媒体数据处理装置，包括：

获取模块，用于获取与目标视频数据匹配的目标音频数据；

提取模块，用于对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

识别模块，用于根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

融合模块，用于从所述目标视频数据提取出关键视频片段，对所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。

本申请一方面提供了一种计算机设备，包括：处理器及存储器；

其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行如下步骤：

获取与目标视频数据匹配的目标音频数据；

对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令当被处理器执行时，以执行如下步骤：

获取与目标视频数据匹配的目标音频数据；

对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

本申请实施例一方面提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请中，当需要生成目标视频数据的多媒体数据时，计算机设备可以获取与该目标视频数据的匹配的目标音频数据，对目标音频数据进行音频特征提取，得到目标音频数据的音频特征信息，然后，通过目标音频数据的音频特征信息自动识别出目标音频数据的副歌片段，不需要人工参数与，提高获取目标音频数据的副歌片段的效率和准确度。同时，由于目标音频数据的音频特征信息用于反映目标音频数据的频率参数以及能量参数，即目标音频数据的音频特征信息用于反映目标音频数据的曲谱信息，任一音频数据均包括曲谱信息，可见，本申请中，基于音频特征信息的副歌片段识别方法可适用于多种识别副歌片段的场景，可避免基于歌词的副歌识别方法的准确度比较低的问题（由于部分音频数据不包括歌词）。在获取到目标音频数据的副歌片段后，计算机设备可以提取目标视频数据的关键视频片段，将关键视频片段和目标音频数据的副歌片段进行融合，得到多媒体数据，可以增强多媒体数据的节奏感以及主题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种多媒体数据处理系统的架构示意图；

图2是本申请提供的一种多媒体数据处理系统中的各个设备之间进行数据交互的场景示意图；

图3是本申请提供的一种多媒体数据处理方法的流程意图；

图4是本申请提供的一种获取目标音频数据中的各帧音频数据的音频特征信息的场景示意图；

图5是本申请提供的一种获取目标音频数据中的各帧音频数据的音频特征信息的又一场景示意图；

图6是本申请提供的一种基于副歌识别模型获取目标音频数据的副歌片段的场景示意图；

图7是本申请提供的一种对目标音频数据中的各帧音频数据的候选置信度进行平滑处理的场景示意图；

图8是本申请提供的一种多媒体数据处理方法的又一流程意图；

图9是本申请实施例提供的一种多媒体数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在用户创作多媒体数据时，为了强化媒体数据的主题，并增强多媒体数据的节奏感，通常选择音频数据的副歌片段作为视频数据的背景音乐，然后，对背景音乐和视频数据进行融合，得到多媒体数据。如果通过手动方式剪辑出音频数据的副歌片段，需要用户多次对音频数据进行剪辑处理，才能得到音频数据的副歌片段，导致音频数据的副歌片段的获取效率比较低。同时，受人耳主观感受的影响，不同用户对音频数据的副歌片段的理解具有一定的偏差，导致获取到的副歌片段的准确度比较低。基于此，本申请利用人工智能相关的机器学习技术，对目标音频数据进行音频特征进行提取，得到目标音频数据的音频特征信息，根据目标音频数据的音频特征信息，从目标音频数据中自动识别出目标音频数据的副歌片段；使识别目标音频数据的副歌片段的方式更加智能化、自动化，不需要人工参与，提高音频数据的副歌片段的获取效率，进而提高多媒体数据的获取效率。同时，可以避免受人耳主观感受的影响，导致获取到的副歌片段的准确度比较低的问题，提高获取副歌片段的准确度，进而增强多媒体数据的主题和节奏感。

所谓的人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，上述机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了便于更清楚理解本申请，首先介绍实现本申请的多媒体数据处理方法的多媒体数据处理系统，如图1所示，多媒体数据处理系统中包括如图1所示，该多媒体数据处理系统中包括服务器以及终端。

其中，终端可以是指面向用户的设备，终端中可包括用于播放多媒体数据、将拍摄视频数据、制作的音频数据上传至多媒体数据应用平台（即多媒体数据应用程序）上；此处多媒体数据平台可以是指多媒体网站平台（如论坛、贴吧）、社交应用平台、购物应用平台、内容交互平台（如视频应用平台）等等。服务器可以是指用于提供多媒体数据后台服务的设备，具体可以用于对终端中的音频数据和视频数据进行处理，得到多媒体数据，将多媒体数据上传至多媒体数据平台，以供用户在多媒体数据平台中播放多媒体数据。

其中，服务器可以是独立的一个物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，同时，终端以及服务器的数量可以为一个或多个，本申请在此不做限制。其中，上述多媒体数据处理数据系统所适用的业务场景具体可以包含：视频节目点播场景、视频教学场景、视频直播场景、自媒体视频播放场景等，这里将不对该多媒体数据处理系统所适用的业务场景进行一一列举。

本申请中，所谓的多媒体数据是指用户获取信息以及传播信息的通道，具体可以是指短视频或非短视频，短视频是指播放时长小于播放时长阈值的视频数据，非短视频是指播放时长大于或等于播放时长阈值的视频数据；即多媒体数据包括音频数据的副歌片段和视频数据的关键视频片段。音频数据的副歌片段可以是指音频数据的高潮部分，具有较强的节奏感以及概括性，副歌片段通常由音频数据中一句或一段重复的歌词及音乐段落构成。通常出现在几段主歌片段之间，即由第一节主歌片段唱到副歌片段后，连接第二节主歌片段再返回副歌片段，如此类推。有些副歌片段在重复时，每段的歌词完全相同，但是也有一些音频数据在副歌片段的重复部分中，会对歌词做出一定的改动。许多音频数据均是以副歌片段，或是重复副歌片段的最后一句歌词作为结尾。音频数据的主歌片段是指音频数据中高潮（副歌片段）之前的部分，主歌的作用是将音频数据的旋律慢慢推上高潮的同时，将歌曲所表达的故事背景表述清楚。

同理，视频数据的关键视频片段可以是指能够反映视频数据的主要内容的视频片段。主要内容可以能够反映视频数据的主要思想，或者，能够调动用户观看视频数据的兴趣的视频片段，即主要内容也可以称为视频数据的精彩集锦。此处精彩集锦是指视频数据中精彩画面（即精彩图像）的集合，可以是视频数据中的一帧或多帧图像。例如，在视频节目点播场景中，这里的关键视频片段可以是指用户在视频节目列表中所选取的自己兴趣的视频节目片段，例如，这里的视频节目片段可以为用户感兴趣的电视剧片段或电影片段等。又例如，在自媒体视频播放场景，这里的关键视频片段可以是指用户所感兴趣的短视频，包括美食短视频、旅游短视频以及生活日常短视频等等。再例如，在视频直播场景中，这里的关键视频片段可以是指用于感兴趣的直播视频数据片段，包括：购物直播视频数据片段、会议直播视频数据片段以及体育赛事视频直播数据片段等等。

为便于理解，进一步的，请参见图2，是本申请实施例提供的一种数据交互的场景示意图。如图2中，该数据交互过程包括如下步骤1-3：

（1）服务器获取目标视频数据的关键视频片段。服务器可以从终端中获取目标视频数据；该目标视频数据可以是指需要剪辑生成多媒体数据（如短视频）的视频数据，该目标视频数据可以是指由终端拍摄得到的，或者，该目标视频数据可以是由终端从互联网中获取到的。在一种实现方式中，服务器可以对该目标视频数据进行颜色特征提取，得到该目标视频数据的颜色特征信息，根据该目标视频数据的颜色特征信息，从目标视频数据中提取关键视频片段；如关键视频片段是指颜色特征信息比较丰富的视频片段。在另一种实施方式中，服务器可以对该目标视频数据中对象的会话内容进行识别，得到各对象的会话内容，根据各个对象的会话内容，提取目标视频数据中的关键视频片段；如关键视频数据片段是指包括经典语句的视频片段。

（2）服务器获取目标音频数据的副歌片段。服务器可以获取该目标视频数据的主题信息，根据该目标视频数据的主题信息，获取与该目标视频数据匹配的目标音频数据；此处主题信息用于描述该目标视频数据所表达的主要内容，例如，该主题信息可以是指该目标视频数据的标题，或者，主题信息可以是指该目标视频数据的会话内容中的关键词。如图2中，在获取到与目标视频数据关联的目标音频数据后，服务器可以对音频数据进行音频特征提取，得到该音频数据的音频特征信息；音频特征信息可以是指用于反映目标音频数据的频谱特征的信息，频谱特征包括能量参数（或幅度参数）以及频率参数，能量参数与目标音频数据的响度相关，频率参数与目标音频数据的音调相关。因此，可以称该音频特征信息用于反映目标音频数据的响度、音调、响度和音调中的一种，音调是指用于反映声音的高低的参数，音调主要与目标音频数据的频率有关，目标音频数据的频率高，则音调也高；反之，目标音频数据的频率低，则音调也低。响度是指反映声音强弱的参数，响度与目标音频数据的幅度有关。目标音频数据的振动幅度越大，则能量越大，响度也越大，反之，目标音频数据的振动幅度越小，则能量越小，响度也越小。服务器在获取到目标音频数据的音频特征信息后，可以根据该目标音频数据的音频特征信息，对该目标音频数据进行副歌识别，得到该目标音频数据的副歌片段。

（3）服务器根据目标音频数据的副歌片段和目标视频数据的关键视频片段生成多媒体数据。在服务器获取到目标音频数据的副歌片段后，可以将目标音频数据的副歌片段与目标视频数据的关键视频片段进行融合，得到多媒体数据。具体的，可以获取关键视频片段的播放时长以及副歌片段的播放时长，如果关键视频片段的播放时长与副歌片段的播放时长相同，可以将该关键视频片段和副歌片段进行对齐，得到多媒体数据。如果关键视频片段的播放时长与副歌片段的播放时长不相同，可以对副歌片段进行缩放处理，得到处理后的副歌片段，采用处理后的副歌片段与关键视频片段进行对齐，得到多媒体数据。在获取到多媒体数据后，服务器可以将该多媒体数据发送至多媒体数据应用平台，各个终端可以从多媒体数据应用平台中下载、播放该多媒体数据。

需要说明的是，上述生成多媒体数据的过程可以由图1中的服务器来执行，也可以由图1中的任一终端来执行，当然，也可以由服务器和终端共同执行，本申请对此不做限定。终端生成多媒体数据的过程，以及终端和服务器共同生成多媒体数据的过程，可以参考图2中服务器生成多媒体数据的过程，重复之处不再赘述。特别地，当由终端和服务器共同生成多媒体数据时，服务器和终端分别执行生成多媒体数据的不同步骤，通过由终端和服务器构成的分布式系统生成多媒体数据，可有效降低各个设备的多媒体数据处理压力，提高生成多媒体数据的效率。例如，服务器可以对目标音频数据进行音频特征提取，得到目标音频数据的音频特征信息，根据目标音频数据的音频特征信息，对目标音频数据进行副歌识别，得到目标音频数据的副歌片段，将该目标音频数据的副歌片段发送至终端。终端可以从目标视频数据中提取出关键视频片段，将该关键视频片段和副歌片段进行融合，得到多媒体数据。

综上，本申请通过目标音频数据的音频特征信息，从目标音频数据中识别出目标音频数据的副歌片段；提取目标视频数据的关键视频片段，将关键视频片段和副歌片段进行融合，得到多媒体数据。可自动识别出目标音频数据的副歌片段，不需要人工参与，提高音频数据的副歌片段的获取效率，进而提高多媒体数据的获取效率。同时，可以避免受人耳主观感受的影响，导致获取到的副歌片段的准确度比较低的问题，提高获取副歌片段的准确度，进而增强多媒体数据的主题和节奏感。

进一步地，请参见图3，是本申请实施例提供的一种多媒体数据处理方法的流程示意图。如图3所示，该方法可由计算机设备来执行，该计算机设备可以是指图1中的终端，或者，该计算机设备可以是指图1中的服务器，或者，该计算机设备包括图1中的终端和服务器，即该方法可以由图1中的终端和服务器共同执行。该多媒体处理方法可以包括如下步骤S101~S104：

S101、获取与目标视频数据匹配的目标音频数据。

本申请中，计算机设备可以获取目标视频数据的主题信息，以及候选音频数据的旋律，将候选音频数据中旋律与目标视频数据的主题信息匹配的候选音频数据，确定为与目标视频数据匹配的目标音频数据。例如，该目标视频数据为体育赛事视频直播数据，则该目标音频数据可以是指旋律比较激昂的歌曲；再例如，该目标视频数据为旅游短视频，则该目标音频数据可以是指旋律比较轻快的古典音乐。

S102、对上述目标音频数据进行音频特征提取，得到上述目标音频数据的音频特征信息。

可选的，计算机设备可以通过对目标音频数据进行频域变换，以获取目标音频数据的音频特征信息，具体的，步骤S102可以包括如下步骤s11~s14：

s11、对上述目标音频数据进行分帧处理，得到多帧音频数据；

s12、将上述多帧音频数据进行频域变换，得到上述多帧音频数据中各帧音频数据的频域信息；

s13、对上述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到上述各帧音频数据的音频特征信息；

s14、将上述各帧音频数据的音频特征信息确定为上述目标音频数据的音频特征信息。

在步骤s11~s14中，如图4所示，为了获取目标音频数据的更加细粒度的音频特征信息，计算机设备可以获取分帧参数，可以按照该分帧参数对该目标音频数据进行分帧处理，得到多帧音频数据；该分帧参数包括帧长和帧移，该分帧参数可以是指根据目标音频数据动态确定的，或者，该分帧参数可以是手动设置的。各个帧音频数据属于时域信号，时域信号比较复杂，难以获取到目标音频数据的音频特征信息，频域信号比较简单，容易获取到目标音频数据的音频特征信息。因此，计算机设备可以将该多帧音频数据进行频域变换，得到多帧音频数据中各帧音频数据的频域信息，各帧音频数据的频域信息用于反映目标音频数据的幅度参数以及频率参数。进一步，可以对上述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到上述各帧音频数据的音频特征信息，将该各帧音频数据的音频特征信息确定为该目标音频数据的音频特征信息。通过对目标音频数据进行分帧处理，有利于获取目标音频数据更加细粒度的音频特征信息，有利于为识别副歌片段提供更加丰富的信息量；通过对各帧音频数据进行频域变换，可降低获取目标音频数据的音频特征信息的难度。

例如，如图4所示，假设该目标音频数据为播放时长为4分钟的歌曲，帧长为100ms，帧移为10ms，计算机设备可以从目标音频数据的开始位置到第100ms的音频片段作为第一音频帧，将目标音频数据的第110ms到第210ms的音频片段作为第二音频帧，以此类推。在获取到目标音频数据的多帧音频数据后，计算机设备可以采用窗函数（如汉明窗）对多帧音频数据进行加窗处理，得到处理后的多帧音频数据；对处理后的多帧音频数据进行傅里叶变换，得到各帧音频数据的频域信息。各帧音频数据的频域信息用于反映各帧音频数据的相位参数和幅度参数，即各个帧音频数据的频域信息用于反映各帧音频数据的幅度与相位之间的关系。进一步，可以对各帧音频数据的频域信息进行音频特征提取，得到各帧音频数据的音频特征信息，将各帧音频数据的音频特征信息确定为目标音频数据的音频特征信息。

可选的，上述步骤s13可以包括如下步骤s21~s22：

s21、根据上述多帧音频数据中各帧音频数据的频域信息，确定上述各帧音频数据的能量信息。

s22、对上述各帧音频数据的能量信息进行过滤处理，得到上述各帧音频数据的音频特征信息。

在步骤s21~s22中，计算机设备可以根据该多帧音频数据中各帧音频数据的频域信息，生成该各帧音频数据的能量谱曲线，该能量谱曲线用于反映各帧音频数据的频率参数与能量参数之间的关系，可以从该能量谱曲线获取各帧音频数据的能量信息。由于目标音频数据中包括噪声，为了避免噪声干扰，计算机设备可以对各帧音频数据的能量信息进行过滤处理，得到各帧音频数据的音频特征信息。通过对各帧音频数据的能量信息进行处理，可避免噪声干扰，提高识别副歌片段的准确度，同时，避免后续对无效的噪声处理，可节省计算机设备的处理资源。

例如，如图5中，计算机设备可以根据该多帧音频数据中各帧音频数据的频域信息，生成该各帧音频数据的能量谱曲线，该能量谱曲线用于反映各帧音频数据的频率参数与能量参数之间的关系。由于人耳能够感受到的频率有限，即通常称人耳不能感受到的频率对应的音频数据称为噪声，因此，计算机设备可以根据人耳听觉特征生成滤波器，采用该滤波器对各帧音频数据的能量谱进行过滤处理，得到各帧音频数据的音频特征信息；也就是说，将频率属于滤波器以内的音频帧的能量信息保留，过滤掉频率属于滤波器以外的音频帧的能量信息。上述滤波器可以是指mel滤波器，如图5所示，该滤波器相当于一个三角带滤波组，可用于对音频数据进行频率滤波。

S103、根据上述目标音频数据的音频特征信息，对上述目标音频数据进行副歌识别，得到上述目标音频数据的副歌片段。

在步骤S102和步骤S103中，目标音频数据的音频特征信息用于反映目标音频数据的频率参数和能量参数；同时，目标音频数据的副歌片段的音频特征信息与目标音频数据的主歌片段的音频特征信息之间的差异比较大。例如，目标音频数据的副歌片段的频率、能量均比较高，而目标音频数据的主歌片段的频率、能量均比较低。因此，计算机设备可以对该目标音频数据进行音频特征提取，得到该目标音频数据的音频特征信息，根据该目标音频数据的音频特征信息，对该目标音频数据进行副歌识别，得到该目标音频数据的副歌片段，可提高获取目标音频数据的副歌片段的准确度，可灵活应用于多种获取副歌片段的场景。

需要说明的是，按照目标音频数据是否包括歌词进行分类，目标音频数据的类型包括纯音乐类型和非纯音乐类型，纯音乐类型是指目标音频数据不包括歌词，仅包括音频（即曲谱），非纯音乐类型是指目标音频数据包括歌词和音频。因此，如果通过对目标音频数据的歌词进行分析，以获取目标音频数据的副歌片段，这种方式仅适用于提取非纯音乐类型的目标音频数据的副歌片段，那么，如果该目标音频数据属于纯音乐类型，这种方式会导致获取到的副歌片段准确度比较低，或者，不能获取到副歌片段。基于此，本申请中，由于每种类型的目标音频数据均具有音频特征信息，因此，通过对目标音频数据的音频特征信息进行分析，以获取目标音频数据的副歌片段，适用场景更加广泛，并可提高获取目标音频数据的副歌片段的准确度。

需要说明的是，计算机设备可以采用方式a或方式b获取目标音频数据的副歌片段，方式a：通过对各帧音频数据的能量参数和频率参数进行分析，获取目标音频数据的副歌片段；方式b：通过副歌识别模型获取目标音频数据的副歌片段。

可选的，上述各帧音频数据的音频特征信息包括上述各帧音频数据的能量参数与频率参数，当计算设备采用方式a获取目标音频数据的副歌片段时，上述步骤S103可包括如下步骤s31~s33：

s31、从上述多帧音频数据中，确定出频率参数大于频率阈值，且能量参数大于能量阈值的多个目标音频帧。

s32、确定上述多个目标音频帧中的目标音频帧之间在上述目标音频数据中的位置关系。

s33、根据上述多个目标音频帧中具有连续相邻位置关系的目标音频帧，生成上述目标音频数据的副歌片段。

在步骤s31~s33中，通常副歌片段的频率比较高、能量也比较高，且副歌片段的播放时长与目标音频数据的播放时长相关。因此，计算机设备可以从该多帧音频数据中，确定频率参数大于频率阈值，且能量参数大于能量阈值的多个目标音频帧。获取该多个目标音频帧中的各个目标音频帧在目标音频数据中的位置关系；该位置关系包括连续相邻位置关系和非连续相邻位置关系，连续相邻位置关系是指帧数大于帧数阈值的目标音频帧之间的位置相邻，非连续相邻位置关系是指帧数小于帧数阈值的目标音频之间的位置相邻，或者，目标音频帧之间的位置不相邻。例如，该帧数阈值为10帧，假设目标音频帧中第10帧到第25帧在目标音频数据中的位置均是相邻的，则称第10帧到第25帧的目标音频帧之间具有连续相邻位置关系。如果目标音频帧中第10帧到第15帧在目标音频数据中的位置均是相邻的，则称第10帧到第25帧的目标音频帧之间具有非连续相邻位置关系。因此，可以根据上述多个目标音频帧中具有连续相邻位置关系的目标音频帧，生成上述目标音频数据的副歌片段；具体的，可以按照目标音频帧在目标音频数据中的位置，依次将该多个目标音频帧中具有连续相邻位置关系的目标音频帧进行拼接，得到该目标音频数据的副歌片段。通过根据各帧音频帧的频率参数、能量参数、各帧音频数据之间的位置关系等多维度的信息，识别目标音频数据的副歌片段，也就是说，本方案综合考虑了各帧音频数据的前后帧音频数据（即相邻音频帧）的频率参数和能量参数，可有效提高识别副歌片段的准确度。

可选的，当计算设备采用方式b获取目标音频数据的副歌片段时，上述步骤S103可包括如下步骤s41~s43：

s41、调用副歌识别模型的编码层对上述各帧音频数据的音频特征信息进行编码，得到上述各帧音频数据的编码值。

s42、调用上述副歌识别模型的置信度识别层对上述各帧音频数据的编码值进行识别，得到上述各帧音频数据属于副歌片段中的音频帧的置信度。

s43、调用上述副歌识别模型的副歌识别层根据上述各帧音频数据所属的置信度，从上述多帧音频数据中确定出上述目标音频数据的副歌片段。

在步骤s41~s43中，如图6中，该副歌识别模型可以包括特征提取层、编码层、置信度识别层、副歌识别层，特征提取层用于提取目标音频数据的音频特征信息，编码层用于将音频特征信息进行编码，得到编码值，置信度识别层用于基于各帧音频数据的编码值，确定各帧音频数据属于副歌片段中的音频帧的置信度，副歌识别层用于基于各帧音频数据的置信度，识别出目音频数据的副歌片段。特别的，如图6所示，编码层、置信度识别层、副歌识别层可以是指基于注意力机制attention的网络，当然，可以是指其他种类的网络，本申请对此不做限定。计算机设备可以通过调用该副歌识别模型获取目标音频数据的副歌片段；具体的，计算机设备可以调用该副歌识别模型的特征提取层提取目标音频数据的音频特征信息，调用该编码层对目标音频数据中的各帧音频数据的音频特征信息进行编码，得到各帧音频数据的编码值。进一步，可以调用置信度识别层对各帧音频数据的编码值进行识别，得到各帧音频数据属于副歌片段中的音频帧的置信度，该置信度用于反映各帧音频数据属于副歌片段中的音频帧的概率，即置信度越高，表明该音频帧属于副歌片段中的音频帧的概率比较高；反之，置信度越低，表明该音频帧属于副歌片段中的音频帧的概率比较低。因此，计算机设备可以根据副歌识别层根据上述各帧音频数据所属的置信度，从上述多帧音频数据中确定出上述目标音频数据的副歌片段。通过副歌识别模型对各帧音频数据的音频特征信息进行分析，可自动获取到目标音频数据的副歌片段，不需要人工参与，提高获取副歌片段的效率以及准确度，并可节省资源。

需要说明的是，为了提高副歌识别模型的准确度，计算机设备可以对初始副歌识别模型进行训练，得到上述副歌识别模型。具体的，计算机设备可以获取样本音频数据，以及该样本音频数据的标注副歌片段，该样本音频数据的标注副歌片段可以由多个用户对样本音频数据进行标注得到的。采用初始副歌识别模型对样本音频数据进行副歌预测，得到样本音频数据的预测副歌片段，根据该预测副歌片段和标注副歌片段对初始副歌识别模型进行调整，将调整后的初始副歌识别模型作为副歌识别模型。由于该样本音频数据的标注副歌片段可以由多个用户对样本音频数据进行标注得到的，可避免个别用户的理解偏差，导致获取到的副歌片段的准确度比较低的问题；因此，通过样本音频数据的标注副歌片段对初始副歌识别模型进行训练，可以提高副歌识别模型的准确度。

进一步，上述根据该预测副歌片段和标注副歌片段对初始副歌识别模型进行调整，包括：计算机设备可以根据该预测副歌片段和标注副歌片段，确定初始副歌识别模型的识别误差，若该识别误差未处于收敛状态，则根据该识别误差对初始副歌识别模型进行调整，得到调整后的初始副歌识别模型；如果该识别误差处于收敛状态，则将该初始副歌识别模型作为副歌识别模型。

可选的，上述s42可包括如下步骤s51~s53：

s51、调用副歌识别模型的编码层根据上述各帧音频数据的音频特征信息，生成上述各帧音频数据的音频特征向量。

s52、根据上述各帧音频数据的音频特征向量，确定上述各帧音频数据属于副歌片段中的音频帧的候选置信度。

s53、对上述候选置信度进行平滑处理，得到上述各帧音频数据属于副歌片段中的音频帧的置信度。

在步骤s51~s53中，计算机设备可以调用编码层根据各帧音频数据的音频特征信息生成各帧音频数据的音频特征向量，即该音频特征向量是包括音频帧的频域参数和能量参数的二维向量，进一步，可以根据该音频特征向量确定各帧音频数据属于副歌片段中的音频帧的候选置信度。由于候选置信度中存在异常值，导致难以获取到准确的副歌片段；因此，计算机设备可以对候选置信度进行平滑处理，得到各帧音频数据属于副歌片段中的音频帧的置信度。通过对候选置信度进行平滑处理，可以提高置信度的准确度，进而，提高获取副歌片段的准确度。

可选的，上述s52可包括如下步骤s61~s62：

s61、将上述音频特征向量之间的内积，确定为上述各帧音频数据的音频权重。

s62、根据上述音频权重与上述音频特征向量之间的点乘，得到上述各帧音频数据属于副歌片段中的音频帧的候选置信度。

在步骤s61~s62中，计算机设备可以获取音频特征向量之间的内积，将该内积确定为各帧音频数据的音频权重，该音频权重用于反映音频帧属于副歌片段中的音频帧的相似度。进一步，根据该音频权重和音频特征向量之间的点乘，得到各帧音频数据属于副歌片段的候选置信度。音频特征向量之间的内积体现了音频帧与前后音频帧之间的关系，因此，通过根据音频特征向量之间的内积，确定音频帧的候选置信度，可以提高候选置信度的准确度，进而，提高获取副歌片段的准确度。

可选的，计算机设备可以通过对音频帧的置信度进行调整，以实现对各帧音频数据的候选置信度进行平滑处理；具体的，上述s53可包括如下步骤s71~s73：

s71、获取上述多帧音频数据中音频帧的帧长，根据上述帧长生成多个音频检测时间段。

s72、统计上述多个音频检测时间段中各个音频检测时间段内的音频帧的总候选置信度。

s73、根据上述总候选置信度对上述各个音频检测时间段内的音频帧的候选置信度进行调整，得到上述各帧音频数据属于副歌片段中的音频帧的置信度。

在步骤s71~s73中，计算机设备可以获取该多帧音频数据中音频帧的帧长，此处各帧音频数据的音频帧的长度均相同，可以根据帧长生成多个音频检测时间段，例如，帧长为0.1s，则音频检测时间段可以包括[0，1]s，[1，2]s，[2，3]s，等等。进一步，可以统计各个音频检测时间段内的音频帧的总候选置信度，若总候选置信度大于候选置信度阈值，则将该音频检测时间段内的音频帧的候选置信度调整为第一候选置信度；如果总候选置信度小于或等于候选置信度阈值，则将该音频检测时间段内的音频帧的候选置信度调整为第二候选置信度；第一候选置信度大于第二候选置信度。通过根据总候选置信度对各个音频检测时间段内的音频帧的候选置信度进行调整，可以避免异常候选置信度，导致获取到的副歌片段的准确度比较低的问题，提高副歌片段的获取准确度。

需要说明的是，计算机设备可以根据上述总候选置信度确定各个音频检测时间段内的音频帧的平均候选置信度，根据平均候选置信度对各个音频检测时间段内的音频帧的候选置信度进行调整，得到该各帧音频数据属于副歌片段中的音频帧的置信度。例如，如图7所示，计算机设备可以计算各个音频检测时间段内的音频帧的总候选置信度，根据总候选置信度和音频检测时间段内的音频帧数，确定音频检测时间段内的音频帧的平均候选置信度。如果平均候选置信度大于候选置信度阈值，将音频检测时间段内的音频帧的候选置信度调整为第一候选置信度；如果平均候选置信度小于或等于候选置信度阈值，将音频检测时间段内的音频帧的候选置信度调整为第二候选置信度。假设该候选置信信息度阈值为0.8，如图7中，如果音频检测时间段内的音频帧的平均候选置信度大于0.8，可以将该音频检测时间段内的音频帧的候选置信度均调整为1；如果音频检测时间段内的音频帧的平均候选置信度小于或等于0.8，可以将该音频检测时间段内的音频帧的候选置信度均调整为0。

可选的，计算机设备可以根据音频帧的置信度、以及音频帧之间的位置关系确定出副歌片段，具体的，上述s43可包括如下步骤s81~s83：

s81、调用上述副歌识别模型从上述多帧音频数据中确定出置信度大于置信度阈值的多个候选音频帧。

s82、确定上述多个候选音频帧中的候选音频帧之间在上述目标音频数据中的位置关系。

s83、根据上述多个候选音频帧中具有连续相邻位置关系的候选音频帧，生成上述目标音频数据的副歌片段。

在步骤s81~s83中，如图7中，计算机设备可以调用副歌识别层从多帧音频数据中确定出置信度大于置信度阈值的多个候选音频帧；获取多个候选音频帧之间在目标音频数据中的位置关系；该位置关系包括连续相邻位置关系和非连续相邻位置关系，连续相邻位置关系是指帧数大于帧数阈值的目标音频帧之间的位置相邻，非连续相邻位置关系是指帧数小于帧数阈值的目标音频之间的位置相邻，或者，目标音频帧之间的位置不相邻。因此，计算机设备可以根据上述多个候选音频帧中具有连续相邻位置关系的候选音频帧，生成上述目标音频数据的副歌片段。通过根据各帧音频数据的置信度，以及位置关系等多维度信息，识别目标音频数据的副歌片段，可有效提高识别副歌片段的准确度。

S104、从上述目标视频数据中提取出关键视频片段，将上述关键视频片段与上述目标音频数据的副歌片段进行融合，得到包括上述关键视频片段和上述目标音频数据的副歌片段的多媒体数据。

本申请中，计算机设备可以从该目标视频数据中提取出关键视频片段，该关键视频片段可以是指用于反映目标视频数据的主要内容的视频片段，进一步，可以将目标音频数据的副歌片段作为关键视频片段的背景音乐，将该目标音频数据的副歌片段与关键视频片段进行融合，得到包括关键视频片段和目标音频数据的副歌片段的多媒体数据。

进一步地，请参见图8，是本申请实施例提供的一种多媒体数据处理方法的流程示意图。如图8所示，该方法可由计算机设备来执行，该计算机设备可以是指图1中的终端，或者，该计算机设备可以是指图1中的服务器，或者，该计算机设备包括图1中的终端和服务器，即该方法可以由图1中的终端和服务器共同执行。该多媒体处理方法可以包括如下步骤S201~S206：

S201、获取与目标视频数据匹配的目标音频数据。

S202、对上述目标音频数据进行音频特征提取，得到上述目标音频数据的音频特征信息。

S203、根据上述目标音频数据的音频特征信息，对上述目标音频数据进行副歌识别，得到上述目标音频数据的副歌片段。

需要说明的是，本申请中对步骤S201的解释说明可以参考图3中对步骤S101的解释说明，对步骤S202的解释说明可以参考图3中对步骤S102的解释说明，对步骤S203的解释说明可以参考图3中对步骤S103的解释说明，重复之处不再赘述。

S204、提取上述目标视频数据中每帧视频数据的颜色特征信息。

S205、根据上述颜色特征信息，从上述目标视频数据中确定出关键视频片段。

步骤S204~S205中，视频数据的颜色特征信息包括亮度、饱和度、色度等等；由于关键视频片段中的关键视频帧的颜色特征信息比较丰富；因此，计算机设备可以提取该目标视频数据中每帧视频数据的颜色特征信息，根据该颜色特征信息，才能够该目标视频数据中确定出关键视频片段。通过每种视频数据的颜色特征信息，提取目标视频数据的关键视频片段，提高提取关键视频片段的准确度，有利于用户快速地获取目标视频数据的主要内容，突出目标视频数据的主题。

S206、将上述关键视频片段与上述目标音频数据的副歌片段进行融合，得到包括上述关键视频片段和上述目标音频数据的副歌片段的多媒体数据。

可选的，计算机设备可以根据关键视频片段的播放时长，以及副歌片段的播放时长，对关键视频片段和副歌片段进行融合，得到多媒体数据，具体的，上述步骤S206可以包括如下步骤s91~s93：

s91、获取上述关键视频片段的第一播放时长，以及上述目标音频数据的副歌片段的第二播放时长。

s92、若上述第一播放时长与上述第二播放时长不相同，则根据上述第一播放时长对上述目标音频数据的副歌片段进行缩放处理，得到处理后的副歌片段；将上述处理后的副歌片段与上述关键视频片段进行对齐，得到包括上述关键视频片段和上述目标音频数据的副歌片段的多媒体数据。

s93、若上述第一播放时长与上述第二播放时长相同，则将上述副歌片段与上述关键视频片段进行对齐，得到包括上述关键视频片段和上述目标音频数据的副歌片段的多媒体数据。

在步骤s91~s93中，计算机设备可以获取关键视频片段的第一播放时长，以及目标音频数据的副歌片段的第二播放时长，如果第一播放时长与第二播放时长不相同，表明副歌片段的播放时长大于或小于关键视频片段的播放时长，因此，可以根据第一播放时长对副歌片段进行缩放处理，得到处理后副歌片段，采用处理后的副歌片段与关键视频片段进行对齐，得到多媒体数据。若上述第一播放时长与上述第二播放时长相同，则将上述副歌片段与上述关键视频片段进行对齐，得到多媒体数据。通过根据第一播放时长对副歌片段进行缩放处理，使处理后的副歌片段的播放时长与关键视频片段的播放时长相同，有利于提高多媒体数据的播放效果。

可选的，上述步骤s92可以包括如下步骤s94和s95：

s94、若上述第二播放时长大于上述第一播放时长，则根据上述第一播放时长对上述目标音频数据的副歌片段进行切割处理，得到处理后的副歌片段。

s95、若上述第二播放时长小于上述第一播放时长，则根据上述第一播放时长对上述目标音频数据的副歌片段进行扩展处理，得到处理后的副歌片段。

在步骤s94和s95中，若上述第二播放时长大于上述第一播放时长，可以以副歌片段的开始时间为起点，切割出播放长度为第一播放时长的副歌子片段，将该第一副歌子片段作为处理后的副歌片段。若上述第二播放时长小于上述第一播放时长，则根据上述第一播放时长从副歌片段中截取第二副歌子片段，将第二副歌子片段添加在副歌片段的中间位置，或者添加至该副歌片段的结束位置，得到处理后的副歌片段，即保持副歌片段的起始位置处的音频不变。由于副歌片段的起始位置处的音频更能够抓住观众的兴趣点，同时，副歌片段中的音频帧之间具有平滑过渡特征，因此，保持副歌片段的起始位置处的音频不变，有利于抓住观众的兴趣点，使副歌片段将关键视频片段的情节平滑地推向高潮。

本申请中，当需要生成目标视频数据的多媒体数据时，计算机设备可以获取与该目标视频数据的匹配的目标音频数据，对目标音频数据进行音频特征提取，得到目标音频数据的音频特征信息，然后，通过目标音频数据的音频特征信息自动识别出目标音频数据的副歌片段，不需要人工参数与，提高获取目标音频数据的副歌片段的效率和准确度。同时，由于目标音频数据的音频特征信息用于反映目标音频数据的频率参数以及能量参数，即目标音频数据的音频特征信息用于反映目标音频数据的曲谱信息，任一音频数据均包括曲谱信息，可见，本申请中，基于音频特征信息的副歌片段识别方法可适用于多种识别副歌片段的场景，可避免基于歌词的副歌识别方法的准确度比较低的问题（由于部分音频数据不包括歌词）。在获取到目标音频数据的副歌片段后，计算机设备可以提取目标视频数据的颜色特征信息，根据颜色特征信息提取目标视频数据的关键视频片段，将关键视频片段和目标音频数据的副歌片段进行融合，得到多媒体数据，可以增强多媒体数据的节奏感以及主题。

请参见图9，是本申请实施例提供的一种多媒体数据处理装置的结构示意图。上述多媒体数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该多媒体数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该多媒体数据处理装置可以包括：获取模块901、提取模块902、识别模块903以及融合模块904。

获取模块，用于获取与目标视频数据匹配的目标音频数据；

提取模块，用于对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

识别模块，用于根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

可选的，所述提取模块对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息，包括：

对所述目标音频数据进行分帧处理，得到多帧音频数据；

将所述多帧音频数据进行频域变换，得到所述多帧音频数据中各帧音频数据的频域信息；

对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息；

将所述各帧音频数据的音频特征信息确定为所述目标音频数据的音频特征信息。

可选的，所述提取模块对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息，包括：

根据所述多帧音频数据中各帧音频数据的频域信息，确定所述各帧音频数据的能量信息；

对所述各帧音频数据的能量信息进行过滤处理，得到所述各帧音频数据的音频特征信息。

可选的，所述各帧音频数据的音频特征信息包括所述各帧音频数据的能量参数与频率参数，所述识别模块根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：

从所述多帧音频数据中，确定出频率参数大于频率阈值，且能量参数大于能量阈值的多个目标音频帧；

确定所述多个目标音频帧中的目标音频帧之间在所述目标音频数据中的位置关系；

根据所述多个目标音频帧中具有连续相邻位置关系的目标音频帧，生成所述目标音频数据的副歌片段。

可选的，所述识别模块根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：

调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值；

调用所述副歌识别模型的置信度识别层对所述各帧音频数据的编码值进行识别，得到所述各帧音频数据属于副歌片段中的音频帧的置信度；

调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度，从所述多帧音频数据中确定出所述目标音频数据的副歌片段。

可选的，所述识别模块调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值，包括：

调用副歌识别模型的编码层根据所述各帧音频数据的音频特征信息，生成所述各帧音频数据的音频特征向量；

根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度；

对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度。

可选的，所述识别模块根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度，包括：

将所述音频特征向量之间的内积，确定为所述各帧音频数据的音频权重；

根据所述音频权重与所述音频特征向量之间的点乘，得到所述各帧音频数据属于副歌片段中的音频帧的候选置信度。

可选的，所述识别模块对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度，包括：

获取所述多帧音频数据中音频帧的帧长，根据所述帧长生成多个音频检测时间段；

统计所述多个音频检测时间段中各个音频检测时间段内的音频帧的总候选置信度；

根据所述总候选置信度对所述各个音频检测时间段内的音频帧的候选置信度进行调整，得到所述各帧音频数据属于副歌片段中的音频帧的置信度。

可选的，所述识别模块调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度，从所述多帧音频帧中确定出所述目标音频数据的副歌片段，包括：

调用所述副歌识别层从所述多帧音频数据中确定出置信度大于置信度阈值的多个候选音频帧；

确定所述多个候选音频帧中的候选音频帧之间在所述目标音频数据中的位置关系；

根据所述多个候选音频帧中具有连续相邻位置关系的候选音频帧，生成所述目标音频数据的副歌片段。

可选的，所述融合模块对所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据，包括：

获取所述关键视频片段的第一播放时长，以及所述目标音频数据的副歌片段的第二播放时长；

若所述第一播放时长与所述第二播放时长不相同，则根据所述第一播放时长对所述目标音频数据的副歌片段进行缩放处理，得到处理后的副歌片段；将所述处理后的副歌片段与所述关键视频片段进行对齐，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据；

若所述第一播放时长与所述第二播放时长相同，则将所述副歌片段与所述关键视频片段进行对齐，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据。

可选的，所述融合模块根据所述第一播放时长对所述目标音频数据的副歌片段进行缩放处理，得到处理后的副歌片段，包括：

若所述第二播放时长大于所述第一播放时长，则根据所述第一播放时长对所述目标音频数据的副歌片段进行切割处理，得到处理后的副歌片段；

若所述第二播放时长小于所述第一播放时长，则根据所述第一播放时长对所述目标音频数据的副歌片段进行扩展处理，得到处理后的副歌片段。

可选的，所述融合模块从所述目标视频数据中提取出关键视频片段，包括：

提取所述目标视频数据中每帧视频数据的颜色特征信息；

根据所述颜色特征信息，从所述目标视频数据中确定出关键视频片段。

根据本申请的一个实施例，图3所示的多媒体数据处理方法所涉及的步骤可由图9所示的多媒体数据处理装置中的各个模块来执行。例如，图3中所示的步骤S101可由图9中的获取模块901来执行，图3中所示的步骤S102可由图9中的提取模块902来执行；图3中所示的步骤S103可由图9中的识别模块903来执行；图3中所示的步骤S104可由图9中的融合模块904来执行。

同理，图8所示的多媒体数据处理方法所涉及的步骤可由图9所示的多媒体数据处理装置中的各个模块来执行。例如，图8中所示的步骤S201可由图9中的获取模块901来执行，图8中所示的步骤S202可由图9中的提取模块902来执行；图8中所示的步骤S203可由图9中的识别模块903来执行；图8中所示的步骤S204~S206可由图9中的融合模块904来执行。

根据本申请的一个实施例，图9所示的多媒体数据处理装置的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，多媒体数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3以及图8中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图9中所示的多媒体数据处理装置，以及来实现本申请实施例的多媒体数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图10，是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取与目标视频数据匹配的目标音频数据；

对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息；

根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段；

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现对所述目标音频数据进行音频特征提取，得到所述目标音频数据的音频特征信息，包括：

对所述目标音频数据进行分帧处理，得到多帧音频数据；

将所述多帧音频数据进行频域变换，得到所述多帧音频数据中各帧音频数据的频域信息；

对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息；

将所述各帧音频数据的音频特征信息确定为所述目标音频数据的音频特征信息。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现对所述多帧音频数据中各帧音频数据的频域信息进行音频特征提取，得到所述各帧音频数据的音频特征信息，包括：

根据所述多帧音频数据中各帧音频数据的频域信息，确定所述各帧音频数据的能量信息；

对所述各帧音频数据的能量信息进行过滤处理，得到所述各帧音频数据的音频特征信息。

可选的，所述各帧音频数据的音频特征信息包括所述各帧音频数据的能量参数与频率参数，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：

从所述多帧音频数据中，确定出频率参数大于频率阈值，且能量参数大于能量阈值的多个目标音频帧；

确定所述多个目标音频帧中的目标音频帧之间在所述目标音频数据中的位置关系；

根据所述多个目标音频帧中具有连续相邻位置关系的目标音频帧，生成所述目标音频数据的副歌片段。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述目标音频数据的音频特征信息，对所述目标音频数据进行副歌识别，得到所述目标音频数据的副歌片段，包括：

调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值；

调用所述副歌识别模型的置信度识别层对所述各帧音频数据的编码值进行识别，得到所述各帧音频数据属于副歌片段中的音频帧的置信度；

调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度，从所述多帧音频数据中确定出所述目标音频数据的副歌片段。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现调用副歌识别模型的编码层对所述各帧音频数据的音频特征信息进行编码，得到所述各帧音频数据的编码值，包括：

调用副歌识别模型的编码层根据所述各帧音频数据的音频特征信息，生成所述各帧音频数据的音频特征向量；

根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度；

对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述各帧音频数据的音频特征向量，确定所述各帧音频数据属于副歌片段中的音频帧的候选置信度，包括：

将所述音频特征向量之间的内积，确定为所述各帧音频数据的音频权重；

根据所述音频权重与所述音频特征向量之间的点乘，得到所述各帧音频数据属于副歌片段中的音频帧的候选置信度。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现对所述候选置信度进行平滑处理，得到所述各帧音频数据属于副歌片段中的音频帧的置信度，包括：

获取所述多帧音频数据中音频帧的帧长，根据所述帧长生成多个音频检测时间段；

统计所述多个音频检测时间段中各个音频检测时间段内的音频帧的总候选置信度；

根据所述总候选置信度对所述各个音频检测时间段内的音频帧的候选置信度进行调整，得到所述各帧音频数据属于副歌片段中的音频帧的置信度。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现调用所述副歌识别模型的副歌识别层根据所述各帧音频数据所属的置信度，从所述多帧音频帧中确定出所述目标音频数据的副歌片段，包括：

调用所述副歌识别层从所述多帧音频数据中确定出置信度大于置信度阈值的多个候选音频帧；

确定所述多个候选音频帧中的候选音频帧之间在所述目标音频数据中的位置关系；

根据所述多个候选音频帧中具有连续相邻位置关系的候选音频帧，生成所述目标音频数据的副歌片段。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现对所述关键视频片段与所述目标音频数据的副歌片段进行融合，得到包括所述关键视频片段和所述目标音频数据的副歌片段的多媒体数据，包括：

获取所述关键视频片段的第一播放时长，以及所述目标音频数据的副歌片段的第二播放时长；

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述第一播放时长对所述目标音频数据的副歌片段进行缩放处理，得到处理后的副歌片段，包括：

若所述第二播放时长大于所述第一播放时长，则根据所述第一播放时长对所述目标音频数据的副歌片段进行切割处理，得到处理后的副歌片段；

若所述第二播放时长小于所述第一播放时长，则根据所述第一播放时长对所述目标音频数据的副歌片段进行扩展处理，得到处理后的副歌片段。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现从所述目标视频数据中提取出关键视频片段，包括：

提取所述目标视频数据中每帧视频数据的颜色特征信息；

根据所述颜色特征信息，从所述目标视频数据中确定出关键视频片段。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3以及前文图8所对应实施例中对上述多媒体数据处理方法的描述，也可执行前文图9所对应实施例中对上述多媒体数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的多媒体数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3和图8对应实施例中对上述多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现前文图3和图8对应实施例中对上述多媒体数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节，请参照本申请方法实施例的描述。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁盘、光盘、只读存储器（Read-Only Memory，ROM）或随机存储器（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

33页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种带有束线功能的交换机及信息处理方法

多媒体数据处理方法、装置、设备及存储介质

相关技术

网友询问留言