动态生成音视频片段的处理方法、装置及电子设备

文档序号：1315135 发布日期：2020-07-10 浏览：11次 >En<

阅读说明：本技术 动态生成音视频片段的处理方法、装置及电子设备 (Processing method and device for dynamically generating audio and video clips and electronic equipment ) 是由王家万于 2020-02-04 设计创作，主要内容包括：本发明实施例提供了一种动态生成音视频片段的处理方法、装置及电子设备,其中方法包括：获取音视频片段,将所述音视频片段划分为多个音视频单元；对多个所述音视频单元进行检测以获取第一音视频单元,所述第一音视频单元为根据预定标准选择的音视频单元；基于所述第一音视频单元,获取与所述第一音视频单元相关联的至少一个第二音视频单元作为候选音视频单元；基于所获取的第一音视频单元以及所述候选音视频单元,生成第一音视频片段。本发明实施例通过获取与指定音视频单元相关联的音视频单元,并基于指定音视频单元及与其相关联的音视频单元生成音视频片段,以实现对指定音视频单元的扩展,从而便于对指定音视频单元所在场景的观看及分析。(The embodiment of the invention provides a processing method and a processing device for dynamically generating audio and video clips and electronic equipment, wherein the method comprises the following steps: acquiring audio and video clips, and dividing the audio and video clips into a plurality of audio and video units; detecting a plurality of audio and video units to obtain a first audio and video unit, wherein the first audio and video unit is selected according to a preset standard; acquiring at least one second audio/video unit associated with the first audio/video unit as a candidate audio/video unit based on the first audio/video unit; and generating a first audio and video clip based on the acquired first audio and video unit and the candidate audio and video unit. According to the embodiment of the invention, the audio and video unit associated with the appointed audio and video unit is obtained, and the audio and video clip is generated on the basis of the appointed audio and video unit and the audio and video unit associated with the appointed audio and video unit, so that the appointed audio and video unit is expanded, and the scene where the appointed audio and video unit is located is conveniently watched and analyzed.)

技术领域

本申请涉及一种动态生成音视频片段的处理方法、装置及电子设备，属于计算机技术领域。

背景技术

在音视频处理领域，通过预定检测标准可以筛选出所需要的指定音视频单元，但该指定音视频单元为不连续的音视频单元，从而不利于视频观看者的观看及分析处理。

发明内容

本发明实施例提供一种动态生成音视频片段的处理方法、装置及电子设备，以实现将指定音视频单元扩展为音视频片段，从而便于观看及分析处理。

为了实现上述目的，本发明实施例提供了一种动态生成音视频片段的处理方法，包括：

获取音视频片段，将所述音视频片段划分为多个音视频单元；

对多个所述音视频单元进行检测以获取第一音视频单元，所述第一音视频单元为根据预定标准选择的音视频单元；

基于所述第一音视频单元，获取与所述第一音视频单元相关联的至少一个第二音视频单元作为候选音视频单元；

基于所获取的第一音视频单元以及所述候选音视频单元，生成第一音视频片段。

本发明实施例还提供了一种动态生成音视频片段的处理装置，包括：

音视频单元划分模块，用于获取音视频片段，将所述音视频片段划分为多个音视频单元；

第一检测模块，用于对多个所述音视频单元进行检测以获取第一音视频单元，所述第一音视频单元为根据预定标准选择的音视频单元；

关联音视频单元获取模块，用于基于所述第一音视频单元，获取与所述第一音视频单元相关联的至少一个第二音视频单元作为候选音视频单元；

音视频片段生成模块，用于基于所获取的第一音视频单元以及所述候选音视频单元，生成第一音视频片段。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以执行上述的动态生成音视频片段的方法。

本发明实施例通过获取与指定音视频单元相关联的音视频单元，并基于指定音视频单元及与其相关联的音视频单元生成音视频片段，以实现对指定音视频单元的扩展，从而便于对指定音视频单元所在场景的观看及分析。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的

具体实施方式

。

附图说明

图1为本发明实施例的动态生成音视频片段的处理方法的应用场景示意图；

图2为本发明实施例的动态生成音视频片段的处理方法的流程示意图；

图3为本发明实施例的动态生成音视频片段的处理装置的结构示意图；

图4为本发明实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在本申请中，音视频片段和音视频单元可以包含音频、视频或音视频的组合。

在音视频处理领域，通过预定检测标准可以筛选出所需要的指定音视频单元，但该指定音视频单元为不连续的音视频单元，从而不利于视频观看者的观看及分析处理。以采集视频为例，例如，在监控房间的场景中，在视频中检测到某人出现在房间内的指定音视频单元。在这种情况下，该单独的音视频单元不能反映出某人是如何进入房间以及进入房间之后做了什么，从而不利于观看者对视频场景的观看及分析处理。

本发明实施例通过获取与指定音视频单元相关联的音视频单元作为候选音视频单元，并基于指定音视频单元及与其相关联的候选音视频单元生成音视频片段，从而便于观看。

具体的，对于视频监控设备拍摄到的音视频片段，可以将其划分为多个音视频单元，然后对多个音视频单元进行检测，以筛选出所需要的符合预定标准的指定音视频单元。例如，上述检测的预定标准可以为将音视频单元与参考单元进行比较，筛选出差异度大于预设阈值的音视频单元。在本申请实施例中，参考单元可以为预置的图片或者基于音视频片段中的音视频单元生成的图片。因此，所筛选出的指定音视频单元为在实际的场景中，音视频单元图像与参考单元对比，变化较大的音视频单元。另外，检测的预定标准还可以为，每隔预定数量音视频单元，筛选出一个指定音视频单元，例如，每间隔五个音视频单元筛选出一个指定音视频单元。

当检测到符合预设标准的指定音视频单元时，可以获取与该指定音视频单元相关联的音视频单元作为候选音视频单元，然后基于指定音视频单元以及与指定音视频单元相关联的候选音视频单元生成便于观看的音视频片段。在本申请实施例中，上述与指定音视频单元相关联的候选音视频单元可以包括音视频单元图像所反映的场景与指定音视频单元图像所反映场景具有一定的关联性的音视频单元。例如，与指定音视频单元相邻，在指定音视频单元之前和/或指定音视频单元之后的预设时间范围内或者预设数量的音视频单元。例如，在上述监控房间的场景中，当检测到某人出现在房间的指定音视频单元后，在该指定音视频单元之前的几秒的时间内的音视频单元或者若干数量的音视频单元能够反映出某人是如何进入房间，以及在该指定音视频单元之后的音视频单元将反映某人进入房间具体做了什么。因此，该指定音视频单元之前及之后的预设时间范围内或者预设数量的音视频单元可以作为与指定音视频单元相关联的候选音视频单元。

下面以获取与指定音视频单元相邻的预设数量的音视频单元作为候选音视频单元为例进行详细的说明。如图1所示，其为本发明实施例的动态生成音视频片段的处理方法的应用场景示意图。采集到的音视频片段被划分为多个音视频单元f1至fn。在音视频单元f1至fn检测的过程中，当检测到音视频单元f6为指定音视频单元(为方便描述，这里称为第一音视频单元)，可以根据对场景观看的需要，预设需要获取的相关联的音视频单元的数量。例如，在上述场景中，某人出现在房间之前的3个音视频单元以及之后3个音视频单元，能够反映其如何进入房间及进入后做了什么。那么，可以预设需要获取的相关联的音视频单元的数量为3个音视频单元，然后以第一音视频单元f6为基准，获取与第一音视频单元f6相邻的f6之前的3个音视频单元作为第二音视频单元，也就是音视频单元f3、f4、f5。另外，还可以获取与第一音视频单元f6相邻的f6之后的3个音视频单元作为第二音视频单元，也就是f7、f8、f9。将上述的第二音视频单元作为候选音视频单元，然后，基于第一音视频单元f6以及与其相关联的候选音视频单元f3至f5及f7至f9生成便于观看的第一音视频片段。例如，将音视频单元f3至f5作为第一音视频片段前半段的音视频单元，将音视频单元f7至f9作为第一音视频片段后半段的音视频单元，以及衔接前半段音视频单元及后半段音视频单元的第一音视频单元f6共同生成由音视频单元f3至f9组成的音视频片段(为区别于本发明实施例下面的音视频片段。这里将f3至f9的音视频片段称为音视频片段A)。

需要说明的是，在检测指定音视频单元的过程中，为了后续可能的对指定音视频单元的扩展所做的获取与其相关联的音视频单元，可以将之前判定为非指定音视频单元的音视频单元暂存在缓存空间内。例如可以保存预设的时间，或者也可以根据实际情况动态调整保存时间。

另外，上述示例中预设的所获取的指定音视频单元之前及指定音视频单元之后的相关联的音视频单元的数量根据实际的需要可以相同，也可以不同。例如，在上述场景中，在检测到某人出现在房间的指定音视频单元后，需要对其进入后的视频进行详细查看，那么就可以多获取该指定音视频单元之后的音视频单元。例如可以获取指定音视频单元之后5个音视频单元，在该指定音视频单元之前可以根据需要少量获取。例如可以获取指定音视频单元之前1个音视频单元。此外，获取的相关联音视频单元的预设数量还可以根据具体的场景动态的调整。

此外，上述的对指定音视频单元所做的扩展，也就是获取与其相关联的音视频单元作为候选音视频单元，并基于指定音视频单元以及候选音视频单元生成音视频片段的过程，可以根据实际场景的需要获取与指定音视频单元相邻的指定音视频单元之前的音视频单元作为候选音视频单元，也可以获取与指定音视频单元相邻的指定音视频单元之后的音视频单元作为候选音视频单元，并且还可以如上述示例中所描述的获取指定音视频单元之前以及之后的音视频单元作为候选音视频单元。例如，在上述的场景中，在检测到某人出现在房间内的指定音视频单元之后，当需要查看其进入房间之后做了什么，那么，可以只获取与指定音视频单元相邻的指定音视频单元之后的音视频单元作为候选音视频单元，并基于该指定音视频单元之后的候选音视频单元及指定音视频单元生成音视频片段。

上述示例中介绍了检测到指定音视频单元f6，并基于该指定音视频单元及与其相关联的候选音视频单元生成第一音视频片段，即音视频单元f3至f9的音视频片段A的过程。该示例反应了本发明实施例的最基本的原理。另外，在上述过程中，由于在第一音视频单元f6之后的与第一音视频单元f6相关联的第二音视频单元f7至f9中还有可能存在指定音视频单元(为便于描述，称为第三音视频单元，该第三音视频单元是通过预定标准选择的音视频单元)。由于第三音视频单元也是与第一音视频单元f6相关联的音视频单元，因此，与第三音视频单元相关联的音视频单元，与第一音视频单元f6也应该有一定的相关性。因此，可以将与第三音视频单元相关联的第四音视频单元音视频单元也作为候选音视频单元。

具体地，如图1所示，在检测到指定音视频单元f6之后，可以继续检测f6之后的与f6相关联的候选音视频单元f7至f9。当检测到指定音视频单元f8(为便于区分，这里称为第三音视频单元，该第三音视频单元是通过预定标准选择的音视频单元)时，为了观看到与第三音视频单元f8相关的视频场景，可以获取与第三音视频单元相关联的音视频单元作为第四音视频单元，并将第四音视频单元与第二音视频单元一起作为候选音视频单元。例如，与第三音视频单元相邻，在第三音视频单元之前和/或第三音视频单元之后3个音视频单元，由于与第三音视频单元相邻的第三音视频单元之前3个音视频单元为f5、f6、f7，f5和f7已经被确定第一音视频单元f6的候选音视频单元。因此，可以获取与第三音视频单元f8相邻的第三音视频单元之后3个音视频单元，在这三个音视频单元中，f9已经被确定为候选音视频单元，所以，可以获取与第二音视频单元相邻第二音视频单元之后的与第三音视频单元相关联的音视频单元，也就是f10、f11作为第四音视频单元，并与第二音视频单元一起作为候选音视频单元。

此外，在检测到指定音视频单元f6，并确定与f6相关联的第二音视频单元之后，由于第二音视频单元之后，与第二音视频单元相邻且间隔音视频单元数量较少的音视频单元范围内，还可能存在指定音视频单元(为便于区分，这里称为第五音视频单元，该第五音视频单元是通过预定标准选择的音视频单元)。由于该指定音视频单元与作为候选音视频单元的第二音视频单元间隔音视频单元数量较少，因此，该第五音视频单元也可能与第一音视频单元f6及作为候选音视频单元的第二音视频单元所在的场景具有相关性。例如，在上述场景中，在f3至f9的某人进入房间的音视频单元以外，检测到另一个人出现在房间内的指定音视频单元f13(第五音视频单元，该第五音视频单元是通过预定标准选择的音视频单元)，并且音视频单元f13与音视频单元f9间隔的音视频单元数量小于预设的阈值。从情景发展的角度，两个人先后出现在房间内的场景有很强的相关性。因此，为了观看者能观看较长时间的相关联的视频场景，可以继续获取f9至f13之间的音视频单元f10、f11、f12，并将音视频单元f10至f12作为第六音视频单元，将第五音视频单元、第六音视频单元与第二音视频单元一同作为候选音视频单元。

然后，基于第一音视频单元以及候选音视频单元生成观看时间更长的第一音视频片段，即音视频单元f3至f13组成的音视频片段(为方便描述，这里称为音视频片段B)。

需要说明的是，在上述的处理过程中，如果没有检测到第二音视频单元之后的符合预定标准的第五音视频单元f13，那么，将基于第一音视频单元，及由第二音视频单元和第四音视频单元组成的候选音视频单元生成第一音视频片段，即音视频单元f3至f11组成的音视频片段(为方便描述，这里称为音视频片段C)。

另外，在上述的检测过程中，还可以先对第二音视频单元之后的与第二音视频单元相邻的音视频单元进行检测，如果检测到上述的符合预定标准的第五音视频单元f13，那么，可以获取第二音视频单元与第五音视频单元之间的音视频单元f10、f11、f12作为第六音视频单元，并将第二音视频单元、第六音视频单元及第五音视频单元一起作为候选音视频单元，然后基于第一音视频单元与候选音视频单元生成第一音视频片段，即音视频单元f3至f13组成的音视频片段B。从而省去对第一音视频单元f6之后的第二音视频单元中指定音视频单元的检测，以节约处理资源，提升处理效率。如果没有检测到第五音视频单元，再对第一音视频单元f6之后的与第一音视频单元f6相关联的第二音视频单元进行检测，如果发现第三音视频单元f8，则获取第二音视频单元之后与第三音视频单元相关联的第四音视频单元f10、f11，并将第四音视频单元与第二音视频单元一起作为候选音视频单元，然后基于第一音视频单元、候选音视频单元生成第一音视频片段，即音视频单元f3至f11组成的音视频片段C。如果没检测到第三音视频单元，那么将基于第一音视频单元及候选音视频单元(第二音视频单元)生成第一音视频片段，即音视频单元f3至f9组成的音视频片段A。

另外，在上述的方案中，检测到的第一音视频单元，以及与其相关联的第二音视频单元可以先存储在缓存空间中，在预设的时间内，如果检测到第三音视频单元和/或第五音视频单元，则基于第一音视频单元以及由第二音视频单元、第四音视频单元和/或第六音视频单元及第五音视频单元组成的候选音视频单元生成音视频片段。如果没检测到第三音视频单元和/或第五音视频单元，则基于第一音视频单元及由第二音视频单元组成的候选音视频单元生成第一音视频片段。

此外，上述生成的第一音视频片段可能包含过多的音视频单元，也就是说生成的音视频片段长度过长，在这种情况下，生成的音视频片段并不利于观看。例如，在上述监控房间的场景中，如果检测到某人出现在房间的指定音视频单元，基于该音视频单元以及与其相关联的候选音视频单元生成了第一音视频片段，监控人员想查看第一音视频片段中某人是如何进入房间的相关场景，但由于所生成的第一音视频片段长度过长，因此，在查看过程中，不易找到重点，因此不利于监控人员查看。

于是，在这种情况下，如果所生成的第一音视频片段的长度超过预设的最大的音视频片段长度限制(所包含的音视频单元数大于预设的阈值)，那么，可以将该生成的第一音视频片段分为多个第二音视频片段。例如，可以分成两个音视频片段。

进一步地，上述对音视频片段的划分可以通过两种方式，一种方式为将第一音视频片段划分为固定长度的多个第二音视频片段。例如，上述场景中生成的f3至f13的音视频片段B包含的音视频单元数量大于预设的阈值(假设阈值为8)，需要将其划分为多个第二音视频片段，假设第二音视频片段的预设长度为5个音视频单元，那么，该音视频片段B可以划分为f3至f7的音视频片段、f8至f12的音视频片段，以及音视频单元f13。但是剩余的音视频单元f13并不利于观看，因此，在这种情况下，可以将音视频单元f13与f8至f12的音视频片段合并生成f8至f13的音视频片段(生成的f8至f13的音视频片段所包含的音视频单元数量小于阈值)。

此外，还可以将音视频片段划分为长度不固定的多个第二音视频片段，例如，可以根据场景的相关性划分，这里对场景的相关性的检测可以通过预设检测规则来实现。例如，可以预设音视频单元图像中出现人物甲为场景相关的音视频单元，然后，将连续的场景相关的音视频单元划分为一个音视频片段。例如，在上述f3至f13的音视频片段B中，可以通过对音视频单元图像特征进行检测，检测到f3至f9的音视频单元中都出现人物甲，那么，可以将f3至f9划分为一个第二音视频片段。此外，由于剩余的f10至f13的音视频单元数量小于音视频片段预设长度阈值(假设阈值为8)，因此，可以将其划分为一个第二音视频片段。

下面通过一些具体实施例来进一步说明本发明的技术方案。

实施例一

如图2所示，其为本发明实施例的动态生成音视频片段的处理方法的流程示意图，该方法包括如下步骤：

S201:获取音视频片段，将音视频片段划分为多个音视频单元。

S202:对多个音视频单元进行检测以获取第一音视频单元。

具体地，在本发明实施例中，第一音视频单元可以为根据预定标准选择的音视频单元。

进一步的，上述检测的预定标准可以为，例如，将音视频单元与参考单元进行比较，筛选出差异度大于预设阈值的音视频单元，其中，参考单元可以为预置的图片或者基于音视频片段中的音视频单元生成，从而，所筛选出的音视频单元为在实际的场景中，音视频单元图像变化较大的音视频单元。另外，检测的预定标准还可以为，例如，每隔预定数量音视频单元，筛选出一个音视频单元，例如，每间隔五个音视频单元筛选出一个音视频单元。

需要说明的是，在检测音视频单元的过程中，为了后续可能的对选择出的音视频单元的扩展所做的获取与其相关的音视频单元，可以将之前判定为不符合预定标准的音视频单元暂存在缓存空间内，例如可以保存预设的时间，或者也可以根据实际情况动态调整保存时间。

S203:基于第一音视频单元，获取与第一音视频单元相关联的至少一个第二音视频单元作为候选音视频单元。

上述的候选音视频单元可以包括音视频单元图像所反映的场景与筛选出的符合预定标准的音视频单元图像所反映场景具有一定的关联性的音视频单元。例如，在上述监控房间的场景中，当检测到某人出现在房间的音视频单元后，在该音视频单元之前的几秒的时间内的音视频单元或者若干数量的音视频单元能够反映出某人是如何进入房间，以及在该音视频单元之后的音视频单元将反映某人进入房间具体做了什么。从而，筛选出的符合预定标准的第一音视频单元之前及之后的预设时间范围内或者预设数量的音视频单元可以作为与其相关联的候选音视频单元。

因此，作为候选音视频单元的第二音视频单元可以包括第一音视频单元之前与第一音视频单元相邻的预设时间范围内或预设数量的至少一个音视频单元。还可以包括第一音视频单元之后与第一音视频单元相邻的预设时间范围内或预设数量的至少一个音视频单元。以及同时包括上述的第一音视频单元之前和之后的与第一音视频单元相邻的预设时间范围内或预设数量的音视频单元。

S204:基于所获取的第一音视频单元以及候选音视频单元，生成第一音视频片段。

上述介绍了基于第一音视频单元以及与其相关联的第二音视频单元生成第一音视频片段的过程。另外，在上述过程中，由于在第一音视频单元之后的与第一音视频单元相关联的第二音视频单元中还有可能存在符合预定检测标准的音视频单元，以及第二音视频单元之后，与第二音视频单元相邻且与第二音视频单元间隔音视频单元数较少的音视频单元中，也有可能存在符合预定检测标准的音视频单元，并且，上述符合预定检测标准的音视频单元，与第一音视频单元也应该有一定的相关性，因此，可以将与其相关联的音视频单元也作为候选音视频单元。

因此，本发明实施例还可以包括如下的步骤：

检测第一音视频单元之后的至少一个第二音视频单元中是否存在第三音视频单元，第三音视频单元为根据预定标准选择的音视频单元，

如果存在第三音视频单元，则获取第二音视频单元之后与第三音视频单元相关联的至少一个第四音视频单元，

将至少一个第四音视频单元以及至少一个第二音视频单元一起作为候选音视频单元。

具体地，如图1所示，在检测到第一音视频单元f6之后，可以继续检测f6之后的与f6相关联的候选音视频单元f7至f9，当检测到符合预定标准的音视频单元f8(为便于区分，这里称为第三音视频单元，该第三音视频单元是通过预定标准选择的音视频单元)时，为了观看到与第三音视频单元f8相关的视频场景，可以获取与第三音视频单元相关联的音视频单元作为第四音视频单元，并将第四音视频单元与第二音视频单元一起作为候选音视频单元，例如，与第三音视频单元相邻，在第三音视频单元之前和/或第三音视频单元之后3个音视频单元，由于与第三音视频单元相邻的第三音视频单元之前3个音视频单元为f5、f6、f7，f5和f7已经被确定第一音视频单元f6的候选音视频单元，因此，可以获取与第三音视频单元f8相邻的第三音视频单元之后3个音视频单元，其中，f9已经被确定为候选音视频单元，所以，可以获取与第二音视频单元相邻第二音视频单元之后的与第三音视频单元相关联的音视频单元，也就是f10、f11作为第四音视频单元，并与第二音视频单元一起作为候选音视频单元。

此外，由于第二音视频单元之后，与第二音视频单元相邻且与第二音视频单元间隔音视频单元数较少的音视频单元中，也有可能存在符合预定检测标准的音视频单元，因此本发明实施例还可以包括：

检测第二音视频单元之后的音视频单元中是否存在第五音视频单元，第五音视频单元为在第二音视频单元之后与第二音视频单元相邻的预设时间或预设音视频单元数量范围内，根据预定标准选择的音视频单元，

如果存在第五音视频单元，则获取第二音视频单元与第五音视频单元之间的至少一个第六音视频单元，

将至少一个第六音视频单元、第五音视频单元以及至少一个第二音视频单元一起作为候选音视频单元。

具体地，如图1所示，在上述场景中，在f3至f9的某人进入房间的音视频单元以外，如果检测到另一个人出现在房间内的音视频单元f13(第五音视频单元，该第五音视频单元是通过预定标准选择的音视频单元)，并且音视频单元f13与音视频单元f9间隔的音视频单元数量小于预设的阈值，从情景发展的角度，两个人先后出现在房间内的场景有很强的相关性，因此，为了观看者能观看较长时间的相关联的视频场景，可以继续获取f9至f13之间的音视频单元f10、f11、f12，将音视频单元f10至f12作为第六音视频单元，将第六音视频单元、第五音视频单元与第二音视频单元一同作为候选音视频单元。从而，可以基于第一音视频单元以及与其相关联的候选音视频单元，生成连续的第一音视频片段，即音视频单元f3至f13组成的音视频片段B。

需要说明的是，在上述的处理过程中，如果没有检测到第二音视频单元之后的第五音视频单元f13，那么，将基于第一音视频单元，及由第二音视频单元和第四音视频单元组成的候选音视频单元生成第一音视频片段，即音视频单元f3至f11组成的音视频片段C。

另外，在上述的检测过程中，还可以先对第二音视频单元之后的与第二音视频单元相邻的音视频单元进行检测，如果检测到上述的第五音视频单元f13，那么，可以获取第二音视频单元与第五音视频单元之间的音视频单元f10、f11、f12作为第六音视频单元，并将第二音视频单元、第五音视频单元及第六音视频单元一起作为候选音视频单元，然后基于第一音视频单元及候选音视频单元生成第一音视频片段，即音视频单元f3至f13组成的音视频片段B。从而省去对第一音视频单元f6之后的第二音视频单元的检测，以节约处理资源，提升处理效率。如果没有检测到第五音视频单元，再对第一音视频单元f6之后的与第一音视频单元f6相关联的第二音视频单元进行检测，如果发现第三音视频单元f8，则获取第二音视频单元之后与第三音视频单元相关联的第四音视频单元f10、f11，并将第四音视频单元与第二音视频单元一起作为候选音视频单元，然后基于第一音视频单元、候选音视频单元生成第一音视频片段即音视频单元f3至f11组成的音视频片段C，。如果没检测到第三音视频单元，那么将基于第一音视频单元及候选音视频单元(第二音视频单元)生成第一音视频片段，即音视频单元f3至f9组成的音视频片段A。

另外，在上述的方案中，检测到的第一音视频单元，以及与其相关联的第二音视频单元可以先存储在缓存空间中，在预设的时间内，如果检测到第三音视频单元和/或第五音视频单元，则基于第一音视频单元以及由第二音视频单元、第四音视频单元和/或第六音视频单元及第五音视频单元组成的候选音视频单元生成音视频片段，如果没检测到第三音视频单元和/或第五音视频单元，则基于第一音视频单元及由第二音视频单元组成的候选音视频单元生成第一音视频片段。

此外，本发明实施例还可以包括如下的步骤：

如果第一音视频片段包含的音视频单元数量大于预设阈值，则将第一音视频片段划分为多个第二音视频片段，其中，第二音视频片段包含的音视频单元数量小于预设阈值。

上述对音视频片段的划分可以通过两种方式，一种方式为将第一音视频片段划分为固定长度的多个第二音视频片段。例如，上述场景中生成的f3至f13的音视频片段B包含的音视频单元数量大于预设的阈值(假设阈值为8)，需要将其划分为多个第二音视频片段，假设第二音视频片段的预设长度为5个音视频单元，那么，该音视频片段B可以划分为f3至f7的音视频片段、f8至f12的音视频片段，以及音视频单元f13。但是剩余的音视频单元f13并不利于观看，因此，在这种情况下，可以将音视频单元f13与f8至f12的音视频片段合并生成f8至f13的音视频片段。

实施例二

如图3所示，其为本发明实施例的动态生成音视频片段的处理装置的结构示意图，该装置包括如下：

音视频单元划分模块301，用于获取音视频片段，将音视频片段划分为多个音视频单元。

第一检测模块302，用于对多个音视频单元进行检测以获取第一音视频单元，第一音视频单元可以为根据预定标准选择的音视频单元。

具体地，上述检测的预定标准可以为，例如，将音视频单元与参考单元进行比较，筛选出差异度大于预设阈值的音视频单元，其中，参考单元可以为预置的图片或者基于音视频片段中的音视频单元生成，从而，所筛选出的音视频单元为在实际的场景中，音视频单元图像变化较大的音视频单元。另外，检测的预定标准还可以为，例如，每隔预定数量音视频单元，筛选出一个音视频单元，例如，每间隔五个音视频单元筛选出一个音视频单元。

关联音视频单元获取模块303，用于基于第一音视频单元，获取与第一音视频单元相关联的至少一个第二音视频单元作为候选音视频单元。

音视频片段生成模块304，用于基于所获取的第一音视频单元以及候选音视频单元，生成第一音视频片段。

上述模块实现了基于第一音视频单元以及与其相关联的第二音视频单元生成第一音视频片段的过程。另外，由于在第一音视频单元之后的与第一音视频单元相关联的第二音视频单元中还有可能存在符合预定检测标准的音视频单元，以及第二音视频单元之后，与第二音视频单元相邻且与第二音视频单元间隔音视频单元数较少的音视频单元中，也有可能存在符合预定检测标准的音视频单元，并且，上述符合预定检测标准的音视频单元，与第一音视频单元也应该有一定的相关性，因此，可以将与其相关联的音视频单元音视频单元也作为候选音视频单元。

因此，该装置还可以包括如下模块：

第二检测模块，用于检测第一音视频单元之后的至少一个第二音视频单元中是否存在第三音视频单元，第三音视频单元为根据预定标准选择的音视频单元，

如果存在第三音视频单元，则获取第二音视频单元之后与第三音视频单元相关联的至少一个第四音视频单元，

将至少一个第四音视频单元以及至少一个第二音视频单元一起作为候选音视频单元。

具体地，由于第三音视频单元在作为候选音视频单元的第二音视频单元的范围内，因此，与第三音视频单元相关联的音视频单元也可能与第一音视频单元具有一定的相关性，因此，可以获取第二音视频单元之后与第三音视频单元相关联的音视频单元作为候选音视频单元。

第三检测模块，用于检测第二音视频单元之后的音视频单元中是否存在第五音视频单元，第五音视频单元为在第二音视频单元之后与第二音视频单元相邻的预设时间或预设音视频单元数量范围内，根据预定标准选择的音视频单元，

如果存在第五音视频单元，则获取第二音视频单元与第五音视频单元之间的至少一个第六音视频单元，

将至少一个第六音视频单元、第五音视频单元以及至少一个第二音视频单元一起作为候选音视频单元。

具体地，由于第五音视频单元在第二音视频单元之后与第二音视频单元相邻，并且间隔音视频单元数小于预设的范围(或者间隔时间小于预设的范围)，因此，第五音视频单元以及第五音视频单元与第二音视频单元之间的音视频单元与作为候选音视频单元的第二音视频单元也可能具有关联性，因此也可以作为候选音视频单元。

从而基于第一音视频单元以及候选音视频单元，可以生成包含相关联的音视频单元的连续的音视频片段。

此外，该装置还可以包括如下模块：

音视频片段划分模块：用于当第一音视频片段包含的音视频单元数量大于预设阈值时，则将第一音视频片段划分为多个第二音视频片段，其中，第二音视频片段包含的音视频单元数量小于预设阈值。

具体的，本发明实施例的动态生成音视频片段的装置中各模块实现其功能的具体过程可参见上述实施例一所示方法实施例中的相关描述，此处不再赘述。

实施例三

前面实施例描述了本发明实施例的流程处理及装置结构，上述的方法和装置的功能可借助一种电子设备实现完成，如图4所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器410和处理器420。

存储器410，用于存储程序。

除上述程序之外，存储器410还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器410可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器420，耦合至存储器410，用于执行存储器410中的程序，以执行前述实施例中所描述的动态生成音视频片段的处理方法的操作步骤。

此外，处理器420也可以包括前述实施例所描述的各种模块以执行动态生成音视频片段的处理，并且存储器410可以例如用于存储这些模块执行操作所需要的数据和/或所输出的数据。

进一步，如图所示，电子设备还可以包括：通信组件430、电源组件440、音频组件450、显示器460等其它组件。图中仅示意性给出部分组件，并不意味着电子设备只包括图中所示组件。

通信组件430被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件430经由广播信道接)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件440，为电子设备的各种组件提供电力。电源组件440可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件450被配置为输出和/或输入音频信号。例如，音频组件450包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器410或经由通信组件430发送。在一些实施例中，音频组件450还包括一个扬声器，用于输出音频信号。

显示器460包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然的本质脱离本发明各实施例技术方案的范围。

17页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：音频控制装置、音频播放系统及方法

动态生成音视频片段的处理方法、装置及电子设备

相关技术

网友询问留言