视频摘要的生成方法、设备和存储介质

文档序号：38511 发布日期：2021-09-24 浏览：20次 >En<

阅读说明：本技术 视频摘要的生成方法、设备和存储介质 (Video abstract generation method, device and storage medium ) 是由洪国伟林静旭于 2021-06-23 设计创作，主要内容包括：本公开提供了一种视频摘要的生成方法、设备和存储介质,属于视频处理技术领域。该方法包括：提取目标视频中每一视频帧的视觉特征,将每一视频帧的视觉特征输入至自注意力网络,以使自注意力网络依据视频帧之间的相对位置获得每一视频帧的自注意力特征。基于每一视频帧的自注意力特征,确定每一视频帧的重要性预测值。使用每一视频帧的重要性预测值,生成目标视频的视频摘要。采用本公开,能够自动生成视频的视频摘要,进而能够提升生成视频摘要的效率。(The disclosure provides a video abstract generation method, video abstract generation equipment and a storage medium, and belongs to the technical field of video processing. The method comprises the following steps: and extracting the visual features of each video frame in the target video, and inputting the visual features of each video frame into the self-attention network so that the self-attention network can obtain the self-attention features of each video frame according to the relative positions of the video frames. Based on the self-attention feature of each video frame, an importance prediction value of each video frame is determined. And generating a video abstract of the target video by using the importance prediction value of each video frame. By adopting the method and the device, the video abstract of the video can be automatically generated, and the efficiency of generating the video abstract can be improved.)

视频摘要的生成方法、设备和存储介质

技术领域

本公开涉及视频处理

技术领域

，特别涉及一种视频摘要的生成方法、设备和存储介质。

背景技术

随着网络技术、视频拍摄设备的发展和普及，视频的数量急剧增加，给浏览视频带来了巨大的挑战。为了便于浏览视频，视频摘要应运而生，视频摘要是通过分析原始视频获得的包含重要信息的视频帧。这样，视频摘要的内容相比原始视频比较少，能够使得浏览体验比较好。

相关技术中，在生成视频摘要时，是人工浏览视频，将包含重要信息的帧组合在一起，获得视频摘要。这样，人工浏览大量的视频，会导致生成视频摘要的效率比较低。

发明内容

本公开实施例提供了一种视频摘要的生成方法、设备和存储介质，能够提升生成视频摘要的效率。所述技术方案如下：

一方面，本公开提供了一种视频摘要的生成方法，所述方法包括：

提取目标视频中每一视频帧的视觉特征；

将所述每一视频帧的视觉特征输入至自注意力网络，以使所述自注意力网络依据所述视频帧之间的相对位置获得所述每一视频帧的自注意力特征；

基于所述每一视频帧的自注意力特征，确定所述每一视频帧的重要性预测值；

基于所述每一视频帧的重要性预测值，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述自注意力网络包括前向的自注意力网络和后向的自注意力网络；

所述将所述每一视频帧的视觉特征输入至自注意力网络，以使所述自注意力网络依据所述视频帧之间的相对位置获得所述每一视频帧的自注意力特征，包括：

将所述每一视频帧的视觉特征输入所述前向的自注意力网络，获得所述每一视频帧的第一自注意力特征，并将所述每一视频帧的视觉特征输入所述后向的自注意力网络，获得所述每一视频帧的第二自注意力特征；

将所述每一视频帧的第一自注意力特征和所述每一视频帧的第二自注意力特征对应叠加，获得所述每一视频帧的自注意力特征。

在一种可能的实现方式中，所述前向的自注意力网络利用公式得到所述每一视频帧的第一自注意力特征；

所述后向的自注意力网络利用公式得到所述每一视频帧的第二自注意力特征；

其中，n为所述目标视频中视频帧的数目，i、j为1至n中的任一数值，x_i为第i视频帧的视觉特征，x_j为第j视频帧的视觉特征，c_i1为所述第i视频帧的第一自注意力特征，a_ij1为所述前向的自注意力网络中的权重系数，α_ij ^V1为在所述前向的自注意力网络中所述第i视频帧与所述第j视频帧之间的相对位置，W^V1为所述前向的自注意力网络的线性变换参数；c_i2为所述第i视频帧的第二自注意力特征，a_ij2为所述后向的自注意力网络中的权重系数，α_ij ^V2为在所述后向的自注意力网络中所述第i视频帧与所述第j视频帧之间的相对位置，W^V2为所述后向的自注意力网络的线性变换参数。

在一种可能的实现方式中，a_ij1是基于前向掩码计算获得，a_ij2是基于后向掩码计算获得。

在一种可能的实现方式中，所述基于所述每一视频帧的重要性预测值，生成所述目标视频的视频摘要，包括：

将所述目标视频划分为多个镜头片段；

基于所述镜头片段中各个所述视频帧的重要性预测值，确定所述镜头片段的重要度；

基于每个所述镜头片段的重要度，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述基于每个所述镜头片段的重要度，生成所述目标视频的视频摘要，包括：

在所述多个镜头片段中选取至少一个目标镜头片段，所述至少一个目标镜头片段的长度总和为视频摘要的预设目标长度且所述至少一个目标镜头片段的重要度之和为最大值；

按照所述至少一个目标镜头片段在所述目标视频中的位置信息，将所述至少一个目标镜头片段拼接为所述目标视频的视频摘要。

在一种可能的实现方式中，所述基于所述镜头片段中各个所述视频帧的重要性预测值，确定所述镜头片段的重要度，包括：

计算所述镜头片段中各个所述视频帧的重要性预测值的平均值；

将所述镜头片段对应的平均值，确定为所述镜头片段的重要度。

这样，能够准确计算每个镜头片段的重要度。

在一种可能的实现方式中，所述预设目标长度为所述目标视频的长度和预设比值的乘积，所述预设比值小于1。

另一方面，本公开提供了一种视频摘要的生成装置，该装置包括：

提取模块，用于：

提取目标视频中每一视频帧的视觉特征；

将所述每一视频帧的视觉特征输入至自注意力网络，以使所述自注意力网络依据所述视频帧之间的相对位置获得所述每一视频帧的自注意力特征；

确定模块，用于基于所述每一视频帧的自注意力特征，确定所述每一视频帧的重要性预测值；

生成模块，用于基于所述每一视频帧的重要性预测值，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述自注意力网络包括前向的自注意力网络和后向的自注意力网络；

所述确定模块，用于：

将所述每一视频帧的第一自注意力特征和所述每一视频帧的第二自注意力特征对应叠加，获得所述每一视频帧的自注意力特征。

在一种可能的实现方式中，所述前向的自注意力网络利用公式得到所述每一视频帧的第一自注意力特征；

所述后向的自注意力网络利用公式得到所述每一视频帧的第二自注意力特征；

在一种可能的实现方式中，a_ij1是基于前向掩码计算获得，a_ij2是基于后向掩码计算获得。

在一种可能的实现方式中，所述生成模块，用于：

将所述目标视频划分为多个镜头片段；

基于所述镜头片段中各个所述视频帧的重要性预测值，确定所述镜头片段的重要度；

基于每个所述镜头片段的重要度，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述生成模块，用于：

按照所述至少一个目标镜头片段在所述目标视频中的位置信息，将所述至少一个目标镜头片段拼接为所述目标视频的视频摘要。

在一种可能的实现方式中，所述生成模块，用于：

计算所述镜头片段中各个所述视频帧的重要性预测值的平均值；

将所述镜头片段对应的平均值，确定为所述镜头片段的重要度。

在一种可能的实现方式中，所述预设目标长度为所述目标视频的长度和预设比值的乘积，所述预设比值小于1。

再一方面，本公开提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条计算机指令，所述计算机指令由所述处理器加载并执行以实现如第一方面所述的视频摘要的生成方法所执行的操作。

再一方面，本公开提供了一种计算机可读存储介质，所述存储介质中存储有至少一条计算机指令，所述计算机指令由处理器加载并执行以实现如第一方面所述的视频摘要的生成方法所执行的操作。

本公开实施例提供的技术方案带来的有益效果至少包括：

本公开实施例中，由于使用自注意力网络自动获得自注意力特征，并且自动获得每一视频帧的重要性预测值，进而自动生成目标视频的视频摘要，所以能够自动生成视频摘要，提升生成视频摘要的效率。而且，使用自注意力网络获得每一视频帧的自注意力特征时，使用了视频帧之间的相对位置，所以考虑到了视频帧的位置信息对自注意力特征的影响，使得在自动生成视频摘要时能够获得效果更好的视频摘要。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开一个示例性实施例提供的视频摘要的生成方法的流程示意图；

图2是本公开一个示例性的实施例提供的生成视频摘要的网络架构图；

图3是本公开一个示例性的实施例提供的视频摘要的生成装置的结构示意图；

图4是本公开一个示例性的实施例提供的计算机设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

本公开实施例提供的方法能够应用于视频处理技术中视频摘要生成的场景中。下面先对视频摘要生成的场景进行简单的介绍。

视频摘要，是通过分析原始视频的内容，从原始视频中提取出重要的、具有代表性的视频片段或者帧(此处帧也可以称为是概要图)，视频摘要也可以称为视频总结。传统视频摘要的生成方法中，人工浏览视频，将包含重要信息的帧组合在一起，获得视频摘要。人工浏览大量的视频，会导致生成视频摘要的效率比较低。

而本公开实施例中，使用自注意力网络自动获得自注意力特征，并且自动获得每一视频帧的重要性预测值，进而自动生成目标视频的视频摘要，所以能够自动生成视频摘要，提升生成视频摘要的效率。而且，使用自注意力网络获得每一视频帧的自注意力特征时，使用了视频帧之间的相对位置，所以考虑到了视频帧的位置信息对自注意力特征的影响，使得能够获得效果更好的视频摘要。

示例性的，视频摘要的生成方法能够应用于视频网站。这样，用户在视频网站浏览网页所提供的各种各样视频时，由于用户能够通过视频摘要快速了解视频内容，所以能够节省用户大量浏览时间，提高用户选择目标观看视频的效率。

示例性的，视频摘要的生成方法能够应用于短视频平台。这样，通过视频摘要的生成方法能够生成内容紧凑的短视频，推送给用户，提高短视频平台的用户的驻留率。

示例性的，视频摘要的生成方法能够应用于视频检索系统。这样，通过视频摘要的生成方法能够过滤原始视频中冗余的视频内容，提取到原始视频中重要的内容，减少无关内容的干扰，进而提高从原始视频中检索目标视频的准确度且缩短检索时间。

示例性的，视频摘要的生成方法能够应用于监控系统中。这样，通过视频摘要的生成方法能够生成监控视频的视频摘要，在有异常情况发生时，相关人员通过查看视频摘要便可以快速地了解监控视频的内容，从而减少浏览时间。

需要说明的是，视频摘要的生成方法并不局限于应用在上述示例性应用场景中，该方法所处理的原始视频可以是各种内容类型的视频，且生成的视频摘要可以用于与各种不同场景需求相关的后续处理流程，只要是符合本领域技术人员合理预期的应用场景都涵盖在本公开的保护范围内。

下面介绍视频摘要的生成方法的执行主体。视频摘要的生成方法的执行主体可以称为视频摘要生成装置，简称为生成装置，生成装置可以为硬件装置，如服务器、终端等计算机设备，或者也可以为部署在硬件装置上的软件装置。

示例性的，生成装置为硬件装置时，生成装置包括处理器、存储器和收发器等。处理器能用于执行视频摘要的生成方法，如确定后续提到的重要性预测值。存储器能用于存储执行视频摘要的生成方法中需要的数据以及产生的数据，如存储自注意力网络中的参数、生成的视频摘要等。收发器能用于接收以及发送数据。可选的，在生成装置为终端时，生成装置还可以进一步包括屏幕等输入输出部件等。

下面结合图1描述视频摘要的生成方法的流程，图1所示的流程可以由视频摘要生成装置执行。

步骤101，提取目标视频中每一视频帧的视觉特征。

在本实施例中，目标视频是任一视频，是本次生成装置生成视频摘要的视频。示例性的，目标视频可以是未经抽样处理的原始视频，或者目标视频可以是对原始视频进行抽样后获得的视频。例如，原始视频包括600帧，每隔15帧选取一个视频帧，生成装置在原始视频中选取到40帧，这40帧组成原始视频对应的目标视频。

生成装置将目标视频的每一视频帧分别输入至卷积神经网络，输出即为每一视频帧的视觉特征。每一视频帧的视觉特征的维度相同，示例性地，维度值可以记为dx。卷积神经网络为预先训练好的用于提取视觉特征的网络，如GoogLeNet等。

步骤102，将每一视频帧的视觉特征输入至自注意力网络，以使自注意力网络依据视频帧之间的相对位置获得每一视频帧的自注意力特征。

其中，相对位置指目标视频的各个视频帧之间的相对位置。自注意力网络为带相对位置编码的自注意力网络。自注意力网络能够确定各个视频帧之间的相对位置，并将该相对位置编码为相对位置编码。

在本实施例中，生成装置获取自注意力网络，将每一视频帧的视觉特征输入至自注意力网络。此处是目标视频的所有视频帧的视觉特征作为一个批次，输入至自注意力网络。该自注意力网络能够获取到每一视频帧在目标视频中的位置信息。自注意力网络基于每一视频帧在目标视频中的位置信息，确定目标视频的视频帧的相对位置。自注意力网络依据该相对位置对每一视频帧的视觉特征进行处理后，输出每一视频帧的自注意力特征。每一视频帧的自注意力特征的维度相同，示例性地，维度值可以记为dc维。

示例性的，自注意力网络按照视频帧在目标视频中的位置信息，将视频帧的视觉特征表示为有向的全连通图，有向的全连通图指目标视频中任意两个视频帧之间有边，且有方向的连通图，方向表示两个视频帧在目标视频中的顺序。第i帧与第j帧之间的边表示第i帧与第j帧的相对位置，使用表示，i和j取值为1至n的任一数值，n表示目标视频中包括的帧的数目。的维度为dc维。在此处假设最大的相对位置长度为m，m指示不管i和j的取值为多少，第i帧与第j帧的最大相对位置长度只能取m，如m为5，i与j分别为10、20，相对位置长度为5，而不是10。

分别被定义为：

其中，在式(1)中，clip(j-i,m)＝max(-m,min(m,j-i))，表示取-m和min(m,j-i)的最大值，min(m,j-i)表示取m和j-i的最小值。和是自注意力网络中的参数，该参数是在训练该自注意力网络时所需学习的相对位置的表示。p^K和p^V的维度为dc维。对于第i帧，从自注意力网络输出的第i帧的自注意力特征为：

其中，在式(2)中，W^V为自注意力网络中的线性变换参数，x_j为第j帧的视觉特征，w^Q和w^K为自注意力网络中的权重参数，x_i为第i帧的视觉特征，T表示转置，d_c为自注意力特征的维度，a_ij为自注意力网络中的权重系数，e_ij为未归一化的自注意力网络中的权重系数，e_ik的表达式与e_ij的表达式相同，k取值为1至n中的任一数值。

示例性的，自注意力网络包括前向的自注意力网络和后向的自注意力网络。前向的自注意力网络可以称为是前向的带相对位置编码的自注意力网络。后向的自注意力网络可以称为是后向的带相对位置编码的自注意力网络。获得每一视频帧的自注意力特征的处理如下。

将每一视频帧的视觉特征输入前向的自注意力网络，获得每一视频帧的第一自注意力特征，并将每一视频帧的视觉特征输入后向的自注意力网络，获得每一视频帧的第二自注意力特征；将每一视频帧的第一自注意力特征和每一视频帧的第二自注意力特征对应叠加，获得每一视频帧的自注意力特征。

在本实施例中，目标视频的所有视频帧的视觉特征作为一个批次，输入至前向的自注意力网络后，前向的自注意力网络将输入的视觉特征，按照视频帧在目标视频中的位置，表示为有向的全连通图。第i帧与第j帧之间的边表示第i帧与第j帧的相对位置，使用表示，在此处假设最大的相对位置长度为m，分别被定义为：

其中，在式(3)中，clip(j-i,m)＝max(-m,min(m,j-i))，表示取-m和min(m,j-i)的最大值，min(m,j-i)表示取m和j-i的最小值。和是前向的自注意力网络中的参数，该参数是在训练该自注意力网络时所需学习的相对位置的表示。p^K1和p^V1的维度为dc维。对于第i帧，从前向的自注意力网络，输出的第i帧的第一自注意力特征为：

其中，在式(4)中，W^V1为前向的自注意力网络中的线性变换参数。x_j为第j帧的视觉特征。w^Q1和w^K1为前向的自注意力网络中的参数。a_ij1为前向的自注意力网络中的权重系数，e_ij1为未归一化的前向的自注意力网络中的权重系数，e_ik1的表达式与e_ij1的表达式相同，k取值为1至n中的任一数值。x_i为第i帧的视觉特征。T表示转置。d_c为自注意力特征的维度。为前向掩码，使用前向掩码能得到后面视频帧对前面视频帧的依赖关系，N为元素全为1的向量。

目标视频的所有视频帧的视觉特征作为一个批次，输入至后向的自注意力网络后，后向的自注意力网络将输入的视觉特征，表示为有向的全连通图。第i帧与第j帧之间的边表示第i帧与第j帧的相对位置，使用表示，在此处假设最大的相对位置长度为m，分别被定义为：

其中，在式(5)中，clip(j-i,m)＝max(-m,min(m,j-i))，表示取-m和min(m,j-i)的最大值，min(m,j-i)表示取m和j-i的最小值。和是后向的自注意力网络中的参数，该参数是在训练该自注意力网络时所需学习的相对位置的表示。p^K2和p^V2的维度为dc维。对于第i帧，从后向的自注意力网络输出的第i帧的第二自注意力特征为：

其中，在式(6)中，W^V2为后向的自注意力网络中的线性变换参数。x_j为第j帧的视觉特征。w^Q2和w^K2为后向的自注意力网络中的参数。a_ij2为后向的自注意力网络中的权重系数，e_ij2为未归一化的后向的自注意力网络中的权重系数，e_ik2的表达式与e_ij2的表达式相同，k取值为1至n中的任一数值。x_i为第i帧的视觉特征。T表示转置。d_c为自注意力特征的维度。为后向掩码，使用后向掩码能够得到前面视频帧对后面视频帧的依赖关系，N为元素全为1的矩阵。

然后对于第i帧，生成装置将第一自注意力特征与第二自注意力特征相加，获得第i帧的自注意力特征。示例性的，在相加时，第一自注意力特征和第二自注意力特征均是向量，是将对应位置的向量相加。

由于使用前向掩码能得到后面视频帧对前面视频帧的依赖关系，使用后向掩码能够得到前面视频帧对后面视频帧的依赖关系，所以使用前向掩码和后向掩码能够得到双向依赖关系。

步骤103，基于每一视频帧的自注意力特征，确定每一视频帧的重要性预测值。

在本实施例中，生成装置将每一视频帧的自注意力特征，输入至回归网络中，获得每一视频帧的重要性预测值。回归网络之所以能够输出重要性预测值是由于训练数据对其训练，使得回归网络具备输出重要性预测值的功能。示例性的，回归网络依次包括全连接层、线性整流函数(rectified linear unit,ReLU)层、丢弃(Dropout)层、归一化层(LayerNormalization)、全连接层、Sigmoid函数等。

每一视频帧的重要性预测值大于0，且小于1。重要性预测值用于反映视频帧在目标视频中的重要性，示例性的，重要性预测值越接近于0，说明视频帧在目标视频中越不重要，重要性预测值越接近于1，说明视频帧在目标视频中越重要。此处视频帧在目标视频中越重要说明后续被选取为视频摘要的可能性越高。

示例性的，在将每一视频帧的自注意力特征输入至回归网络之前，将每一视频帧的自注意力特征输入全连接层进行降维处理。需要说明的是，该全连接层与上文描述的该回归网络的全连接层并非同一连接层，两者执行的处理操作并不相同，此处全连接层主要用于降维处理。降维处理后的结果输入至回归网络。例如，降维前，每一视频帧的自注意力特征的维度为2048维，降维后，每一视频帧的自注意力特征的维度为1024维，能够提升获得重要性预测值的效率，进而能够提升视频摘要的生成效率。

步骤104，基于每一视频帧的重要性预测值，生成目标视频的视频摘要。

在本实施例中，生成装置在获得每一视频帧的重要性预测值后，使用每一视频帧的重要性预测值和目标视频，确定出在目标视频中选取的内容。生成装置将选取的内容按照时间信息拼接在一起，获得目标视频的视频摘要。

示例性的，步骤104中，生成目标视频的视频摘要的处理为：

将目标视频划分为多个镜头片段；基于镜头片段中各个视频帧的重要性预测值，确定镜头片段的重要度；基于每个镜头片段的重要度，生成目标视频的视频摘要。

在本实施例中，生成装置将目标视频按照时序划分为多个镜头片段。示例性的，生成装置使用核时序分割(kernel temporal segmentation,KTS)技术将目标视频分割为多个镜头片段。

对于任一镜头片段，生成装置使用该镜头片段中各帧的重要性预测值，确定该镜头片段的重要度。然后生成装置获取或者计算视频摘要的预设目标长度，预设目标长度为目标视频的视频摘要的长度。生成装置使用每个镜头片段的重要度，将目标视频的多个镜头片段生成目标视频的符合预设目标长度的视频摘要。

示例性的，为了更合理的生成视频摘要，视频摘要的预设目标长度的计算方式为：将目标视频的长度和预设比值相乘，获得预设目标长度，其中，预设比值小于1。

在本实施例中，生成装置获取预先计算得出的目标视频的长度并且获取预先存储的预设比值，目标视频的长度为目标视频的时长，预设比值为小于1的数值，如15％等。示例性的，预设比值的大小可根据实际需要设定。如果要求视频摘要的长度比较短，则预设比值取值比较小，反之，如果要求视频摘要的长度比较长，则预设比值取值比较大。然后，生成装置将目标视频的长度与预设比值相乘，获得预设目标长度。

示例性的，计算每个镜头片段的重要度的方式为：计算镜头片段中各个视频帧的重要性预测值的平均值；将镜头片段对应的平均值，确定为镜头片段的重要度。

在本实施例中，对于每个镜头片段，生成装置计算该镜头片段中各视频帧的重要性预测值的平均值。生成装置将该平均值确定为该镜头片段的重要度。这样，能够准确确定出镜头片段的重要度。

示例性的，基于每个镜头片段的重要度和视频摘要的预设目标长度，生成目标视频的视频摘要的处理为：

在多个镜头片段中选取至少一个目标镜头片段，至少一个目标镜头片段的长度总和为视频摘要的预设目标长度且至少一个目标镜头片段的重要度之和为最大值；按照至少一个目标镜头片段在目标视频中的位置信息，将至少一个目标镜头片段拼接为目标视频的视频摘要。

在本实施例中，生成装置按照使得视频摘要的长度为预设目标长度，且最大化视频摘要包括的镜头片段的重要度之和的规则，在多个镜头片段中选取出镜头片段。生成装置按照选取的镜头片段在目标视频中的位置信息，将选取的镜头片段从前到后排序。按照该排序将选取的镜头片段拼接在一起，获得目标视频的视频摘要。

示例性的，选取镜头片段的过程可以看做为“0/1”背包，按照如下公式选取镜头片段：

其中，式(7)中，M表示镜头片段的数量，s_i表示第i个镜头片段的重要度，l_i表示第i个镜头片段的长度，L表示预设目标长度，u_i表示第i个镜头片段是否被选取，取值为0表示未被选取，取值为1，表示被选取。式(7)表示最大化且满足视频摘要的长度为预设目标长度。生成装置将u_i＝1的镜头片段按照位置信息拼接在一起，获得目标视频的视频摘要。

示例性的，生成装置在生成目标视频的视频摘要后，将目标视频的视频摘要添加在原始视频的开始位置处。

示例性的，图2还示出了获得重要性预测值的网络架构。在图2中，网络架构包括卷积神经网络、前向的带相对位置编码的自注意力网络、后向的带相对位置编码的自注意力网络、全连接层和回归网络。

在图2中，卷积神经网络是预先训练好的，本公开实施例还提供了训练网络架构中其它部分的过程。训练过程如下。

预先添加视频帧的标签，标签反映重要性，标签为0或1，0表示不是重要视频帧，1表示是重要视频帧。并且构建损失函数。在训练时，对于同一个视频帧，使得网络架构输出的重要性预测值与视频帧的标签之差无限接近，并在训练过程中更新网络架构中除卷积神经网络之外的部分的参数，最终获得训练完成的网络架构。

在本公开实施例中，自注意力网络在确定视频帧的自注意力特征时，由于在确定自注意力特征时考虑了相对位置，所以能够考虑到视频帧在目标视频中的位置信息对自注意力特征的影响，使得生成的视频摘要的效果更好。

而且由于设计了前向掩码和后向掩码，更能从前后两个方向获取到长时间的时序信息。此处时序信息指在确定每个视频帧的自注意力特征时，关注到与该视频帧相关的视频帧的时间范围，该时间范围越大，说明确定该视频帧的自注意力特征时能够看到的视频帧越多，使得确定的自注意力特征越准确。

而且由于可以分别计算每一视频帧的自注意力特征，进而能够分别获得每一视频帧的重要性预测值，所以能够充分利用处理器的性能进行并行计算。

基于相同的技术构思，本公开实施例还提供了一种视频摘要的生成装置的结构示意图，该装置能够实现本公开实施例图1所述的流程，如图3所示，该装置包括：

提取模块310，用于：

提取目标视频中每一视频帧的视觉特征；

将所述每一视频帧的视觉特征输入至自注意力网络，以使所述自注意力网络依据所述视频帧之间的相对位置获得所述每一视频帧的自注意力特征；

确定模块320，用于基于所述每一视频帧的自注意力特征，确定所述每一视频帧的重要性预测值；

生成模块330，用于基于所述每一视频帧的重要性预测值，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述自注意力网络包括前向的自注意力网络和后向的自注意力网络；

所述提取模块310，用于：

将所述每一视频帧的第一自注意力特征和所述每一视频帧的第二自注意力特征对应叠加，获得所述每一视频帧的自注意力特征。

在一种可能的实现方式中，

所述前向的自注意力网络利用公式得到所述每一视频帧的第一自注意力特征；

所述后向的自注意力网络利用公式得到所述每一视频帧的第二自注意力特征；

在一种可能的实现方式中，a_ij1是基于前向掩码计算获得，a_ij2是基于后向掩码计算获得。

在一种可能的实现方式中，所述生成模块330，用于：

将所述目标视频划分为多个镜头片段；

基于所述镜头片段中各个所述视频帧的重要性预测值，确定所述镜头片段的重要度；

基于每个所述镜头片段的重要度，生成所述目标视频的视频摘要。

在一种可能的实现方式中，所述生成模块330，用于：

按照所述至少一个目标镜头片段在所述目标视频中的位置信息，将所述至少一个目标镜头片段拼接为所述目标视频的视频摘要。

在一种可能的实现方式中，所述生成模块330，用于：

计算所述镜头片段中各个所述视频帧的重要性预测值的平均值；

将所述镜头片段对应的平均值，确定为所述镜头片段的重要度。

在一种可能的实现方式中，所述预设目标长度为所述目标视频的长度和预设比值的乘积，所述预设比值小于1。

上述对模块的划分是示意性的，仅仅是一种逻辑功能划分，实际实现时也可以有其它划分方式。

需要说明的是：上述实施例提供的生成装置在生成视频摘要时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的生成装置与视频摘要的生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本公开实施例提供的一种计算机设备的结构示意图，该计算机设备400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的视频摘要的生成方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中提取音频表征的方法。该计算机可读存储介质可以是非暂态的。例如，所述计算机可读存储介质可以是只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、光盘只读存储器(compact disc read-only memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

17页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种实现多人观看互动视频的方法及播放系统

视频摘要的生成方法、设备和存储介质

相关技术

网友询问留言