一种视频分类方法、装置、电子设备和存储介质

文档序号：1889365 发布日期：2021-11-26 浏览：12次 >En<

阅读说明：本技术 一种视频分类方法、装置、电子设备和存储介质 (Video classification method and device, electronic equipment and storage medium ) 是由黄剑辉于 2021-04-07 设计创作，主要内容包括：本申请公开了一种视频分类方法、装置、电子设备和存储介质；本申请实施例获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取,得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理,得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合,得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息,对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征,增强目标语义特征信息的表征力,有利于提高视频分类的准确度。(The application discloses a video classification method, a video classification device, electronic equipment and a storage medium; the method comprises the steps of obtaining video content information of a target video in at least one mode; performing semantic extraction on video content information of the target video in at least one modality to obtain semantic feature information of the target video in at least one modality; performing feature enhancement processing on the semantic feature information of the target video in at least one mode to obtain enhanced feature information of the target video; fusing the enhanced feature information with semantic feature information of the target video in at least one mode to obtain target semantic feature information of the target video; and classifying the target video based on the target semantic feature information. According to the embodiment of the application, the representation force of the target semantic feature information can be enhanced by strengthening the features related to the target video content, and the accuracy of video classification can be improved.)

技术领域

本申请涉及计算机技术领域，具体涉及一种视频分类方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，多媒体的应用越来越广泛，视频种类日益丰富，视频数量也急剧增长。人们可以观看的视频也越来越多样化，为了方便用户从海量的视频中快速获取想要观看的视频，视频播放平台通常会将该视频播放平台中的大量视频进行分类。视频分类对于实现视频的管理以及兴趣推荐具有十分重要的作用。此外，视频分类的技术在监控、检索以及人机交互等领域被广泛应用。

在目前的相关技术中，一般先对待分类视频进行视频帧抽取，得到多个目标视频图像，通过神经网络提取各个目标视频图像的图像特征信息，再将帧级别的图像特征信息变换为视频级别的视频特征信息，最后基于视频特征信息对视频进行分类。但是这样提取到的视频特征信息的表征力较弱，使得视频分类结果的准确度相对较低。

发明内容

本申请实施例提供一种视频分类方法、装置、电子设备和存储介质，可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

本申请实施例提供一种视频分类方法，包括：

获取目标视频在至少一个模态下的视频内容信息；

对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；

对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；

将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；

基于所述目标语义特征信息，对所述目标视频进行分类。

相应的，本申请实施例提供一种视频分类装置，包括：

获取单元，用于获取目标视频在至少一个模态下的视频内容信息；

提取单元，用于对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；

强化单元，用于对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；

融合单元，用于将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；

分类单元，用于基于所述目标语义特征信息，对所述目标视频进行分类。

可选的，在本申请的一些实施例中，所述强化单元具体可以用于对所述目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息，所述强化后特征信息中特征的特征值处于逻辑回归对应的预设数值范围。

可选的，在本申请的一些实施例中，所述强化单元可以包括融合子单元和强化子单元，如下：

所述融合子单元，用于对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息；

强化子单元，用于对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

可选的，在本申请的一些实施例中，所述融合后语义特征信息包括至少一个特征；

所述强化子单元具体可以用于当所述融合后语义特征信息中特征的特征值大于第一预设值时，对所述融合后语义特征信息中特征进行强化处理；当所述融合后语义特征信息中特征的特征值小于第二预设值时，对所述融合后语义特征信息中特征进行压缩处理；基于强化处理后的特征和压缩处理后的特征，得到所述目标视频的强化后特征信息。

可选的，在本申请的一些实施例中，所述至少一个模态包括图像模态和文本模态；

所述获取单元可以包括图像获取子单元和文本获取子单元，如下：

所述图像获取子单元，用于对目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息；

文本获取子单元，用于对目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述提取单元可以包括图像提取子单元、处理子单元、图像融合子单元和文本提取子单元，如下：

所述图像提取子单元，用于对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

处理子单元，用于基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；

图像融合子单元，用于将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；

文本提取子单元，用于对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息。

可选的，在本申请的一些实施例中，所述融合单元可以包括第一融合子单元、第二融合子单元和确定子单元，如下：

所述第一融合子单元，用于将所述强化后特征信息与所述目标视频在图像模态下的语义特征信息进行融合，得到第一特征信息；

第二融合子单元，用于将所述强化后特征信息与所述目标视频在文本模态下的语义特征信息进行融合，得到第二特征信息；

确定子单元，用于基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息。

可选的，在本申请的一些实施例中，所述确定子单元具体可以用于确定所述第一特征信息和所述第二特征信息对应的权重；基于所述权重，对所述第一特征信息和所述第二特征信息进行加权融合，得到所述目标视频的目标语义特征信息。

本申请实施例提供的一种电子设备，包括处理器和存储器，所述存储器存储有多条指令，所述处理器加载所述指令，以执行本申请实施例提供的视频分类方法中的步骤。

此外，本申请实施例还提供一种存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本申请实施例提供的视频分类方法中的步骤。

本申请实施例提供了一种视频分类方法、装置、电子设备和存储介质，可以获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的视频分类方法的场景示意图；

图1b是本申请实施例提供的视频分类方法的流程图；

图2a是本申请实施例提供的视频分类方法的另一流程图；

图2b是本申请实施例提供的视频分类方法的模型框架图；

图3a是本申请实施例提供的视频分类装置的结构示意图；

图3b是本申请实施例提供的视频分类装置的另一结构示意图；

图3c是本申请实施例提供的视频分类装置的另一结构示意图；

图3d是本申请实施例提供的视频分类装置的另一结构示意图；

图3e是本申请实施例提供的视频分类装置的另一结构示意图；

图4是本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种视频分类方法、装置、电子设备和存储介质。该视频分类装置具体可以集成在电子设备中，该电子设备可以是终端或服务器等设备。

可以理解的是，本实施例的视频分类方法可以是在终端上执行的，也可以是在服务器上执行，还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。

如图1a所示，以终端和服务器共同执行视频分类方法为例。本申请实施例提供的视频分类系统包括终端10和服务器11等；终端10与服务器11之间通过网络连接，比如，通过有线或无线网络连接等，其中，视频分类装置可以集成在服务器中。

其中，服务器11，可以用于：获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。其中，服务器11可以是单台服务器，也可以是由多个服务器组成的服务器集群或云服务器。本申请所公开的视频分类方法或装置，其中多个服务器可组成为一区块链，而服务器为区块链上的节点。

其中，终端10可以接收服务器11发送的目标视频的分类结果，并基于该分类结果进行推荐、搜索等业务。其中，终端10可以包括手机、智能电视、平板电脑、笔记本电脑、或个人计算机(PC，Personal Computer)等。终端10上还可以设置客户端，该客户端可以是应用程序客户端或者浏览器客户端等等。

上述服务器11对目标视频进行分类的步骤，也可以由终端10执行。

本申请实施例提供的视频分类方法涉及人工智能领域中的计算机视觉技术和自然语言处理。本申请实施例可以增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

其中，人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从视频分类装置的角度进行描述，该视频分类装置具体可以集成在电子设备中，该电子设备可以是服务器或终端等设备。

本申请实施例的视频分类方法可以应用于各种需要对视频进行分类的场景中，如视频推荐、视频搜索等场景。例如，某视频平台需要针对用户的喜好向用户推荐视频，通过本实施例提供的视频分类方法，可快速地对海量视频进行分类，基于分类结果进行推荐，且本实施例提供的视频分类方法通过强化与目标视频内容相关的特征，增强了目标语义特征信息的表征力，有利于提高视频推荐的准确度。

如图1b所示，该视频分类方法的具体流程可以如下：

101、获取目标视频在至少一个模态下的视频内容信息。

本实施例中，目标视频为待分类的视频，其视频类型不限，时长不限。比如，它可以是新闻类视频，历史向视频或者综艺视频等等，另外，目标视频也可以是直播的视频。

其中，视频内容信息是视频所包含的内容信息，因为视频蕴含有丰富的视觉、听觉和字幕信息，所以它有多种模态的信息，这些模态可以是图像模态、音频模态(也即语音模态)和文本模态等等，基于对各模态下的信息的分析处理，可以提取出该视频多模态的视频内容信息。

可选地，本实施例中，所述至少一个模态包括图像模态和文本模态；

步骤“获取目标视频在至少一个模态下的视频内容信息”，可以包括：

对目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息；

对目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息。

其中，该图像序列可以是通过对目标视频进行视频帧抽取，由抽取到的视频帧组成的。一些实施例中，可以对目标视频进行均匀抽帧，例如，可以将目标视频划分为等时长的视频片段，如以10s为划分单位，将目标视频划分为至少一个10s的视频片段，对每个视频片段抽取一帧图片。另一些实施例中，可以对目标视频进行关键帧抽取，具体地，可以通过各个视频帧之间的差值，来识别关键帧，进而对关键帧进行抽取。

其中，目标视频的文本序列可以包括视频标题、视频简介以及字幕等。字幕可以分为软字幕和硬字幕。软字幕是单独保存的字幕文件，它可以从视频数据流中直接提取出来；硬字幕为内嵌在视频中的字幕。对于硬字幕，可以通过对目标视频处理后得到的图像序列进行文字识别，提取图像序列中的字幕；或者，也可以对目标视频处理后的语音片段进行语音识别，将语音翻译为字幕。

可选的，在另一些实施例中，所述至少一个模态包括音频模态；步骤“获取目标视频在至少一个模态下的视频内容信息”还可以包括：对所述目标视频进行音频数据提取处理，得到所述目标视频的音频序列，所述音频序列为所述目标视频在音频模态下的视频内容信息。

102、对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息。

可选地，本实施例中，步骤“对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息”，可以包括：

对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；

将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；

对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息。

其中，步骤“对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息”，具体可以包括：

通过神经网络，对所述图像序列中的各个图像进行卷积运算和池化运算，得到所述图像序列中的各个图像的图像语义特征信息。

其中，该神经网络可以是残差网络(ResNet，Residual Network)，也可以是密集连接卷积网络(DenseNet，Dense Convolutional Network)等，本实施例的神经网络并不仅限于上述列举的几种类型。

其中，步骤“基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理”中，具体可以通过长短期记忆网络(LSTM，Long Short-TermMemory)、双向长短期记忆网络(BiLSTM，Bi-directional Long Short-Term Memory)等对各个图像的图像语义特征信息进行处理，本实施例对此不作限制。

一些实施例中，步骤“将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息”，可以包括：对处理后的各个图像的图像语义特征信息进行加权变换，得到所述目标视频在图像模态下的语义特征信息。

其中，可以通过文本语义提取模型对文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息。该文本语义提取模型可以是文本卷积神经网络(TextCNN，Text Convolutional Neural Networks)、自注意模型(Self-Attention)、基于变压器的双向编码器表示(Bert，Bidirectional Encoder Representations from Transformers)和变压器的精简双向编码器表示(AlBert，ALite Bert)等等。但是应当理解的是，本实施例的文本语义提取模型并不仅限于上述列举的几种类型。

在一些实施例中，至少一个模态包括音频模态；可以提取所述目标视频的音频序列，再对所述音频序列中的各个音频帧进行语义提取，得到所述音频序列中的各个音频帧的音频内容特征信息，并将各个音频帧的音频内容特征信息进行融合，得到所述目标视频在音频模态下的语义特征信息。

103、对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

其中，目标视频在至少一个模态下的语义特征信息中可以包括与目标视频的分类强相关的特征，也可以包括与目标视频的分类弱相关的特征，弱相关的特征具体可以是与目标视频的主题信息不相干的特征，因为目标视频的主题信息与其分类密切相关，主题信息可以代表目标视频的所属类别。

其中，特征强化处理可以是强化语义特征信息中与目标视频分类强相关的特征，也就是说强化语义特征信息中与目标视频的主题信息相关性较强的特征。具体地，一些实施例中，特征强化处理还可以抑制语义特征信息中与目标视频的主题信息相关性较弱的特征。

可选地，本实施例中，步骤“对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息”，可以包括：

对所述目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息，所述强化后特征信息中特征的特征值处于逻辑回归对应的预设数值范围。

其中，逻辑回归(logistic regression)处理，即逻辑回归分析，常用于数据挖掘，它可以从目标视频至少一个模态下的语义特征信息中确定出与目标视频的分类相关性较强的特征，对相关性较强的特征进行强化处理，具体可以是对相关性较强的特征给予较大的权重，而对相关性较弱的特征给予较小的权重。

其中，该预设数值范围可以根据实际情况进行设置，本实施例对此不作限制。比如预设数值范围可以为零到一，即将目标视频在至少一个模态下的语义特征信息中特征的特征值映射到零到一的数值范围，这个映射过程可以是非线性的，也可以是线性的。

其中，步骤“对所述目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息”，具体可以包括：

通过预设门限函数，对所述目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到目标视频的强化后特征信息。

其中，该预设门限函数(gate function)具体可以是sigmoid函数，也可以是tanh函数等，本实施例对此不作限制。

其中，sigmoid函数，即S型生长曲线，它可以用作神经网络中的激活函数(Activation Function)或逻辑回归处理中，将变量映射到零到一的数值范围。tanh函数，即双曲正切，该函数可以用于深度学习领域的神经网络中作为激活函数使用。

对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息；

对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

其中，对目标视频的各个模态下的语义特征信息进行融合，具体可以是将目标视频的各个模态下的语义特征信息进行拼接处理，拼接顺序不限。

例如，目标视频在至少一个模态下的语义特征信息包括目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息，则步骤“对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息”，可以包括：

将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到目标视频的融合后语义特征信息。

在一些实施例中，目标视频在至少一个模态下的语义特征信息还可以包括目标视频在音频模态下的语义特征信息，则可以将目标视频在图像模态、文本模态、音频模态下的语义特征信息进行融合，得到目标视频的融合后语义特征信息。

其中，具体可以将目标视频在图像模态、文本模态、音频模态下的语义特征信息进行拼接处理，得到目标视频的融合后语义特征信息。需要说明的是，其拼接顺序在本实施例中不作限制。例如，可以是在图像模态下的语义特征信息的后面拼接文本模态下的语义特征信息，再在文本模态的语义特征信息的后面拼接音频模态下的语义特征信息；也可以于文本模态下的语义特征信息的后面拼接音频模态下的语义特征信息，再在音频模态的语义特征信息的后面拼接图像模态下的语义特征信息。

可选地，本实施例中，所述融合后语义特征信息包括至少一个特征；

步骤“对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息”，可以包括：

当所述融合后语义特征信息中特征的特征值大于第一预设值时，对所述融合后语义特征信息中特征进行强化处理；

当所述融合后语义特征信息中特征的特征值小于第二预设值时，对所述融合后语义特征信息中特征进行压缩处理；

基于强化处理后的特征和压缩处理后的特征，得到所述目标视频的强化后特征信息。

其中，第一预设值和第二预设值可以根据实际情况进行设置，本实施例对此不作限制，第二预设值不大于第一预设值，在一些实施例中，第二预设值可以等于第一预设值。

其中，强化处理可以对应较大的权重，压缩处理对应较小的权重。当融合后语义特征信息中特征的特征值大于第一预设值时，基于强化处理对应的权重，对所述融合后语义特征信息中特征进行强化处理，得到强化处理后的特征；当融合后语义特征信息中特征的特征值小于第二预设值时，基于压缩处理对应的权重，对所述融合后语义特征信息中特征进行压缩处理，得到压缩处理后的特征。

可选地，在一些实施例中，当融合后语义特征信息中特征的特征值大于第一预设值时，可以基于所述融合后语义特征信息中特征的特征值与第一预设值的差值，确定所述融合后语义特征信息中特征的强化幅度，再根据所述强化幅度，对所述融合后语义特征信息中特征进行强化处理。具体地，差值越大，强化幅度越高，反之，差值越小，强化幅度越低。同理，当融合后语义特征信息中特征的特征值小于第二预设值时，可以基于所述融合后语义特征信息中特征的特征值与第二预设值的差值，确定所述融合后语义特征信息中特征的压缩幅度，再根据所述压缩幅度，对所述融合后语义特征信息中特征进行压缩处理。具体地，差值越大，压缩幅度越高，反之，差值越小，压缩幅度越低。

104、将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息。

其中，可以将强化后特征信息分别与目标视频各模态下的语义特征信息进行融合，再基于各个融合结果，确定目标视频的目标语义特征信息。

可选地，本实施例中，步骤“将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息”，可以包括：

将所述强化后特征信息与所述目标视频在图像模态下的语义特征信息进行融合，得到第一特征信息；

将所述强化后特征信息与所述目标视频在文本模态下的语义特征信息进行融合，得到第二特征信息；

基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息。

其中，特征信息的融合方式可以有多种，本实施例对此不作限制。例如，融合方式可以是点乘运算等。

具体地，可以将强化后特征信息与目标视频在图像模态下的语义特征信息进行点乘运算，得到第一特征信息；将强化后特征信息与所述目标视频在文本模态下的语义特征信息进行点乘运算，得到第二特征信息；再基于第一特征信息与第二特征信息，得到目标视频的目标语义特征信息。

其中，步骤“基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息”，可以包括：

将第一特征信息和第二特征信息进行融合，得到目标视频的目标语义特征信息。

其中，第一特征信息和第二特征信息的融合方式不限，具体地，该融合方式可以是拼接处理，拼接顺序不限，比如在第一特征信息后面拼接第二特征信息，可以得到目标视频的目标语义特征信息；可选地，该融合方式还可以是加权运算等。

可选地，本实施例中，步骤“基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息”，可以包括：

确定所述第一特征信息和所述第二特征信息对应的权重；

基于所述权重，对所述第一特征信息和所述第二特征信息进行加权融合，得到所述目标视频的目标语义特征信息。

105、基于所述目标语义特征信息，对所述目标视频进行分类。

其中，可以基于目标语义特征信息，预测所述目标视频属于各预设类别的概率，进而确定所述目标视频的目标类别。具体地，可以将概率最大的类别作为目标视频的目标类别。

其中，可以通过分类器来预测目标视频属于各预设类别的概率，该分类器具体可以是支持向量机，也可以是全连接深度神经网络等等，本实施例对此不做限制。

本实施例中，具体可以采用视频分类模型，对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。

需要说明的是，该视频分类模型可以由多个标注的样本视频进行训练得到。其中，该标注信息可以是样本视频对应的目标类别，也可以是样本视频属于各预设类别的期望概率，本实施例对此不作限制。

该视频分类模型可以由其他设备进行训练后，提供给该视频分类装置，或者，也可以由视频分类装置自行进行训练。

若由该视频分类装置自行进行训练，则在步骤“采用视频分类模型，对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息”之前，还可以包括：

获取训练数据，所述训练数据包括样本视频以及所述样本视频属于各预设类别的期望概率；

通过视频分类模型，对所述样本视频在至少一个模态下的视频内容信息进行语义提取，得到所述样本视频在至少一个模态下的语义特征信息；对所述样本视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述样本视频的强化后特征信息；将所述强化后特征信息与所述样本视频在至少一个模态下的语义特征信息进行融合，得到所述样本视频的目标语义特征信息；

基于所述目标语义特征信息，确定所述样本视频属于各预设类别的预测概率；

基于所述样本视频对应的预测概率和期望概率，调整视频分类模型中的参数。

其中，该训练过程可以基于反向传播算法对视频分类模型的参数进行调整，以使样本视频属于预设类别的预测概率趋近于期望概率，具体地，可以使预测概率与期望概率的差值小于预设值，该预设值可以根据实际情况进行设置。

本实施例中，在基于目标语义特征信息，对目标视频进行分类之后，可以将分类后的目标视频应用于视频搜索、视频推荐等场景中，由于本申请的视频分类方法是通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，因此其分类结果更为准确，提高了视频搜索、视频推荐的准确度。

由上可知，本实施例电子设备可以获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

根据前面实施例所描述的方法，以下将以该视频分类装置具体集成在服务器举例作进一步详细说明。

本申请实施例提供一种视频分类方法，如图2a所示，该视频分类方法的具体流程可以如下：

201、服务器获取目标视频在至少一个模态下的视频内容信息。

步骤“获取目标视频在至少一个模态下的视频内容信息”，可以包括：

对目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息；

对目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息。

202、服务器对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息。

对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；

将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；

对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息。

203、服务器对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息。

其中，对目标视频的各个模态下的语义特征信息进行融合，具体可以是将目标视频的各个模态下的语义特征信息进行拼接处理，拼接顺序不限。

将所述目标视频在图像模态下的语义特征信息和在文本模态下的语义特征信息进行融合，得到目标视频的融合后语义特征信息。

204、服务器对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

其中，特征强化处理可以是强化融合后语义特征信息中与目标视频分类强相关的特征，也就是说强化融合后语义特征信息中与目标视频的主题信息相关性较强的特征。具体地，一些实施例中，特征强化处理还可以抑制融合后语义特征信息中与目标视频的主题信息相关性较弱的特征。

可选地，本实施例中，步骤“服务器对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息”，可以包括：

服务器对所述融合后语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息，所述强化后特征信息中特征的特征值处于逻辑回归对应的预设数值范围。

其中，具体可以通过sigmoid函数或tanh函数等，对所述融合后语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息。

步骤“对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息”，可以包括：

当所述融合后语义特征信息中特征的特征值大于第一预设值时，对所述融合后语义特征信息中特征进行强化处理；

当所述融合后语义特征信息中特征的特征值小于第二预设值时，对所述融合后语义特征信息中特征进行压缩处理；

基于强化处理后的特征和压缩处理后的特征，得到所述目标视频的强化后特征信息。

205、服务器将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息。

将所述强化后特征信息与所述目标视频在图像模态下的语义特征信息进行融合，得到第一特征信息；

将所述强化后特征信息与所述目标视频在文本模态下的语义特征信息进行融合，得到第二特征信息；

基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息。

206、服务器基于所述目标语义特征信息，对所述目标视频进行分类。

在一具体实施例中，如图2b所示，对待分类的目标视频进行视频帧抽取，得到目标视频的图像序列(即视频帧)；再通过图像语义构建模型(如ResNet网络)对图像序列中各个图像进行特征提取，得到目标视频在图像模态下的语义特征信息x1；同时，通过文本语义构建模型(如BERT)对目标视频的文本内容(如视频标题)进行语义提取，得到目标视频在文本模态下的语义特征信息x2，将x1和x2作为门限函数的输入，通过门限函数对x1和x2进行特征强化处理，得到目标视频的强化后特征信息；再将强化后特征信息分别与x1、x2进行融合，得到第一特征信息和第二特征信息；最后对第一特征信息和第二特征信息进行拼接处理，得到目标视频的目标语义特征信息；基于目标语义特征信息预测目标视频属于各预设类别的概率分布，对目标视频进行分类。

其中，门限函数具体可以用式子σ(w^T[x1，x2]+b)来表示，其中，w表示向量映射矩阵，b表示偏置常数，T表示转置，σ可以采用sigmoid函数，x1表示目标视频在图像模态下的语义特征信息，x2表示目标视频在文本模态下的语义特征信息，以[x1，x2]作为门限函数的输入，表示由图像模态和文本模态的特征信息共同构建强化后特征信息，进而基于强化后特征信息对x1和x2中的特征进行抑制或者强化。

其中，步骤“将x1和x2作为门限函数的输入，通过门限函数对x1和x2进行特征强化处理，得到目标视频的强化后特征信息”中，具体可以是先对x1和x2进行融合(如拼接处理)，得到融合后语义特征信息x，x作为输入代入门限函数σ(w^Tx+b)，得到强化后特征信息。

其中，步骤“将强化后特征信息分别与x1、x2进行融合，得到第一特征信息和第二特征信息”具体可以通过全连接层分别对x1、x2进行处理，再将强化后特征信息与处理后的x1进行点乘运算，得到第一特征信息，将强化后特征信息与处理后的x2进行点乘运算，得到第二特征信息。

本申请的视频分类方法可以通过门限函数对目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到目标视频的强化后特征信息，若该门限函数为sigmoid，强化后特征信息中特征的特征值可以处于[0，1]这个区间，强化后特征信息中特征的特征值越接近0，代表该特征被抑制得更严重，削弱对分类结果的影响力；相反，强化后特征信息中特征的特征值越接近1，代表该特征被强化得更多，增强对分类结果的影响力。因此门限函数抑制了与目标视频的主题内容不相关的特征信息，强化了与目标视频的主题内容更相关的特征信息，有利于增强目标视频各模态下的语义特征信息的语义交互。

由上可知，本实施例可以通过服务器获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息；对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

为了更好地实施以上方法，本申请实施例还提供一种视频分类装置，如图3a所示，该视频分类装置可以包括获取单元301、提取单元302、强化单元303、融合单元304和分类单元305，如下：

(1)获取单元301；

获取单元301，用于获取目标视频在至少一个模态下的视频内容信息。

可选的，在本申请的一些实施例中，所述至少一个模态包括图像模态和文本模态；

所述获取单元301可以包括图像获取子单元3011和文本获取子单元3012，参见图3b，如下：

所述图像获取子单元3011，用于对目标视频进行图像提取处理，得到所述目标视频的图像序列，所述图像序列为所述目标视频在图像模态下的视频内容信息；

文本获取子单元3012，用于对目标视频进行文本提取处理，得到所述目标视频的文本序列，所述文本序列为所述目标视频在文本模态下的视频内容信息。

(2)提取单元302；

提取单元302，用于对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息。

可选的，在本申请的一些实施例中，所述提取单元302可以包括图像提取子单元3021、处理子单元3022、图像融合子单元3023和文本提取子单元3024，参见图3c，如下：

所述图像提取子单元3021，用于对所述图像序列中的各个图像进行语义提取，得到所述图像序列中的各个图像的图像语义特征信息；

处理子单元3022，用于基于各个图像的前后图像的图像语义特征信息，对所述各个图像的图像语义特征信息进行处理；

图像融合子单元3023，用于将处理后的各个图像的图像语义特征信息进行融合，得到所述目标视频在图像模态下的语义特征信息；

文本提取子单元3024，用于对所述文本序列进行语义提取，得到所述目标视频在文本模态下的语义特征信息。

(3)强化单元303；

强化单元303，用于对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

可选的，在本申请的一些实施例中，所述强化单元303具体可以用于对所述目标视频在至少一个模态下的语义特征信息进行逻辑回归处理，得到所述目标视频的强化后特征信息，所述强化后特征信息中特征的特征值处于逻辑回归对应的预设数值范围。

可选的，在本申请的一些实施例中，所述强化单元303可以包括融合子单元3031和强化子单元3032，参见图3d，如下：

所述融合子单元3031，用于对所述目标视频在各个模态下的语义特征信息进行融合，得到所述目标视频的融合后语义特征信息；

强化子单元3032，用于对所述融合后语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息。

可选的，在本申请的一些实施例中，所述融合后语义特征信息包括至少一个特征；

所述强化子单元3032具体可以用于当所述融合后语义特征信息中特征的特征值大于第一预设值时，对所述融合后语义特征信息中特征进行强化处理；当所述融合后语义特征信息中特征的特征值小于第二预设值时，对所述融合后语义特征信息中特征进行压缩处理；基于强化处理后的特征和压缩处理后的特征，得到所述目标视频的强化后特征信息。

(4)融合单元304；

融合单元304，用于将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息。

可选的，在本申请的一些实施例中，所述融合单元304可以包括第一融合子单元3041、第二融合子单元3042和确定子单元3043，参见图3e，如下：

所述第一融合子单元3041，用于将所述强化后特征信息与所述目标视频在图像模态下的语义特征信息进行融合，得到第一特征信息；

第二融合子单元3042，用于将所述强化后特征信息与所述目标视频在文本模态下的语义特征信息进行融合，得到第二特征信息；

确定子单元3043，用于基于所述第一特征信息和所述第二特征信息，得到所述目标视频的目标语义特征信息。

可选的，在本申请的一些实施例中，所述确定子单元3043具体可以用于确定所述第一特征信息和所述第二特征信息对应的权重；基于所述权重，对所述第一特征信息和所述第二特征信息进行加权融合，得到所述目标视频的目标语义特征信息。

(5)分类单元305；

分类单元305，用于基于所述目标语义特征信息，对所述目标视频进行分类。

由上可知，本实施例可以由获取单元301获取目标视频在至少一个模态下的视频内容信息；通过提取单元302对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；通过强化单元303对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；由融合单元304将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；通过分类单元305基于所述目标语义特征信息，对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

本申请实施例还提供一种电子设备，如图4所示，其示出了本申请实施例所涉及的电子设备的结构示意图，该电子设备可以是终端或者服务器等，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，该电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例可以获取目标视频在至少一个模态下的视频内容信息；对所述目标视频在至少一个模态下的视频内容信息进行语义提取，得到所述目标视频在至少一个模态下的语义特征信息；对所述目标视频在至少一个模态下的语义特征信息进行特征强化处理，得到所述目标视频的强化后特征信息；将所述强化后特征信息与所述目标视频在至少一个模态下的语义特征信息进行融合，得到所述目标视频的目标语义特征信息；基于所述目标语义特征信息，对所述目标视频进行分类。本申请实施例可以通过强化与目标视频内容相关的特征，增强目标语义特征信息的表征力，有利于提高视频分类的准确度。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频分类方法中的步骤。例如，该指令可以执行如下步骤：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频分类方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频分类方面的各种可选实现方式中提供的方法。

以上对本申请实施例所提供的一种视频分类方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

25页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于单向监督注意力的多模态标签推荐方法

一种视频分类方法、装置、电子设备和存储介质

相关技术

网友询问留言