一种视频处理方法、装置、设备及介质

文档序号：1861311 发布日期：2021-11-19 浏览：20次 >En<

阅读说明：本技术 一种视频处理方法、装置、设备及介质 (Video processing method, device, equipment and medium ) 是由吴益灵李明磊李太松于 2020-05-14 设计创作，主要内容包括：本申请提供了一种视频处理方法,应用于人工智能领域,包括：获取视频数据,视频数据包括图像数据和音频数据,对音频数据进行语音识别,获得音频数据对应的文本数据以及文本数据中至少一个单词对应的语音在音频数据的时间戳,根据文本数据中至少一个单词对应的语音在音频数据的时间戳分割视频数据,得到至少一段数据,从而实现对视频的自动分割,提高分割效率,而且考虑了视频内容,具有较高分割精度。如此,可以提高标注效率和标注精度,降低标注成本。(The application provides a video processing method, which is applied to the field of artificial intelligence and comprises the following steps: the method comprises the steps of obtaining video data, wherein the video data comprise image data and audio data, carrying out voice recognition on the audio data, obtaining text data corresponding to the audio data and a time stamp of voice corresponding to at least one word in the text data in the audio data, and segmenting the video data according to the time stamp of the voice corresponding to at least one word in the text data in the audio data to obtain at least one section of data, so that automatic segmentation of videos is achieved, segmentation efficiency is improved, video content is considered, and high segmentation precision is achieved. Therefore, the marking efficiency and the marking precision can be improved, and the marking cost is reduced.)

一种视频处理方法、装置、设备及介质

技术领域

本申请涉及人工智能(artificial intelligence，AI)技术领域，尤其涉及一种视频处理方法、装置、设备以及计算机可读存储介质。

背景技术

随着人工智能的兴起，基于视频的物体检测、物体跟踪、动作分类等计算机视觉方向任务取得了重大进展。具体地，基于视频的物体检测、物体跟踪或动作分类等任务可以通过监督学习训练相应的模型而实现。监督学习需要大量标注数据，例如标注有物体的位置、物体的类别等信息的视频数据。

目前，业界比较主流的标注方法是标注人员观看整个视频，手动选择每个视频段的起止时间，然后对每个视频段进行标注。如此，导致需要花费大量的人力和时间，增加了标注成本。

基于此，业界亟需提供一种高效的视频处理方法，以减少标注视频所花费的人力和时间，降低标注成本。

发明内容

本申请提供了一种视频处理方法，解决了相关技术中需要花费大量的人力和时间进行标注的问题，提高了标注效率，降低了标注成本。本申请还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种视频处理方法。该方法由视频处理系统执行。视频处理系统可以部署于云环境、边缘环境或者端设备。视频处理系统包括多个部分，基于此，视频处理系统也可以分布式地部署于在不同环境中。例如，可以在云环境、边缘环境、端设备中的三个环境，或其中任意两个环境上分别部署视频处理系统的一部分。

具体地，视频处理系统获取视频数据，该视频数据包括图像数据和音频数据，接着视频处理系统对所述音频数据进行语音识别，获得所述音频数据对应的文本数据以及所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳，然后视频处理系统可以根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述视频数据，得到至少一段数据。

该方法一方面简化了用户操作，无需用户手动对视频数据进行分割，另一方面考虑了视频内容，具有较高的分割准确度。基于该方法所得的至少一段数据进行标注，可以提高标注效率以及标注精度，降低了标注成本。

在一些可能的实现方式中，考虑到文本是由句子组成的，在对视频数据进行分割时，视频处理系统还可以利用文本数据中句子的断句位置对视频数据进行分割。视频处理系统可以先确定所述文本数据中句子的断句位置，然后根据所述断句位置的单词(例如断句位置之前的单词)对应的语音在所述音频数据的时间戳分割所述视频数据。这种基于断句位置的单词分割视频数据的方式更符合真实场景，具有较高的分割精度。

在一些可能的实现方式中，用户还可以通过图形用户界面(graphical userinterface，GUI)对至少一段数据的起止时间进行修改。对应地，视频处理系统还可以通过GUI接收用户对所述至少一段数据的校正信息，所述校正信息用于对所述至少一段数据的起止时间的修改。如此，可以进一步提高视频分割精度。

在一些可能的实现方式中，用户还可以对分割所得的至少一段数据进行标注。对应地，视频处理系统可以接收用户对所述至少一段数据的标注信息，从而实现视频标注。该标注数据可以用于模型训练或模型测试，经过该标注数据训练的模型可以用于目标检测、目标识别等场景。

其中，所述标注信息包括所述图像数据中目标的位置信息、属性信息、动作信息和情感信息中的任意一种或多种。目标的位置信息是指目标在视频画面中的位置信息。目标的属性信息是描述目标的性质和/或特点的信息。具体地，目标的属性信息可以包括目标的类别信息、身份信息中的任意一种或多种。目标的动作信息是指目标实施的动作。目标的感情信息是指目标所表达出的情绪信息。

由于无需用户手动分割整个视频，简化了用户操作，减少了标注工作量，提高了标注效率。而且，该方法在分割视频时考虑了视频内容，因而分割的至少一段数据具有较高精度，从而提高了标注精度。

在一些可能的实现方式中，为了进一步简化用户操作，视频处理系统可以接收用户对所述至少一段数据中关键帧的标注信息，然后根据所述关键帧的标注信息确定所述至少一段数据中非关键帧的标注信息。如此，可以进一步提高标注效率。

在一些可能的实现方式中，考虑到不同场景的需求，视频处理系统可以根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述视频数据中的图像数据，或者对所述视频数据中的图像数据和音频数据均进行分割。

例如，在位置标注场景中，视频处理系统可以根据上述时间戳对图像数据进行分割，得到至少一段图像数据，每一段图像数据包括连续的图像帧。又例如，在情感标注场景或者其他多模态标注场景中，视频处理系统可以根据上述时间戳对图像数据和音频数据均进行分割，从而得到至少一段视频数据。

在一些可能的实现方式中，在对所述音频数据进行语音识别之前，视频处理系统还可以过滤所述音频数据中无语音的片段，避免用户在标注时聆听不相关的片段，节省用户时间和精力，提高标注效率。

第二方面，本申请提供了一种视频处理装置。所述装置包括：

通信模块，用于获取视频数据，所述视频数据包括图像数据和音频数据；

识别模块，用于对所述音频数据进行语音识别，获得所述音频数据对应的文本数据以及所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳；

分割模块，用于根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述视频数据，得到至少一段数据。

在一些可能的实现方式中，所述分割模块具体用于：

确定所述文本数据中句子的断句位置；

根据所述断句位置的单词对应的语音在所述音频数据的时间戳分割所述视频数据。

在一些可能的实现方式中，所述通信模块还用于：

通过图形用户界面(GUI)接收用户对所述至少一段数据的校正信息，所述校正信息用于对所述至少一段数据的起止时间的修改。

在一些可能的实现方式中，所述通信模块还用于：

接收用户对所述至少一段数据的标注信息，所述标注信息包括所述图像数据中目标的位置信息、属性信息、动作信息和情感信息中的任意一种或多种。

在一些可能的实现方式中，所述通信模块具体用于：

接收用户对所述至少一段数据中关键帧的标注信息；

所述装置还包括：

标注模块，用于根据所述关键帧的标注信息确定所述至少一段数据中非关键帧的标注信息。

在一些可能的实现方式中，所述装置还包括：

过滤模块，用于在对所述音频数据进行语音识别之前，过滤所述音频数据中无语音的片段。

在一些可能的实现方式中，所述分割模块具体用于：

根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述图像数据；或，

根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述图像数据和所述音频数据。

第三方面，本申请提供一种设备，所述设备包括处理器和存储器。所述处理器、所述存储器进行相互的通信。所述处理器用于执行所述存储器中存储的指令，以使得设备执行如第一方面或第一方面的任一种实现方式中的视频处理方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，所述指令指示设备执行上述第一方面或第一方面的任一种实现方式所述的视频处理方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面或第一方面的任一种实现方式所述的视频处理方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种视频处理系统的架构图；

图2为本申请实施例提供的一种视频处理系统的架构图；

图3为本申请实施例提供的一种视频处理方法的流程图；

图4为本申请实施例提供的一种界面示意图；

图5为本申请实施例提供的一种界面示意图；

图6为本申请实施例提供的一种视频处理装置的结构示意图；

图7为本申请实施例提供的一种设备的结构示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本申请实施例中所涉及到的一些技术术语进行介绍。

计算机视觉(computer vision，CV)指利用摄像机和计算机代替人眼对目标进行识别、跟踪和/或测量。其中，目标是指视频中特定的物体或者特定的物体的部位。在一些实现方式中，目标可以是人、猫、狗等动物，或者是这些动物的部位，例如人脸等部位。在另一些实现方式中，目标也可以是车辆或者车牌等等。在不同的应用场景中，需要识别、跟踪和/或测量的目标不相同。

针对计算机视觉方向的物体检测、物体跟踪、动作分类、情感识别等任务，通过对包括多帧数据的视频进行检测可以获得较好的效果。其中，视频可以以数字化的视频数据存储在磁盘、固态硬盘(solid state drive，SSD)、闪存(flash memory)等存储介质中，通过视频播放器进行播放。

视频数据至少包括音频数据。在一些实现方式中，视频数据还包括图像数据。需要说明，视频数据包括音频数据和图像数据时，该图像数据和音频数据可以是原生混合生成，例如通过摄像机等视频采集设备同时采集图像信号和音频信号生成。当然，视频数据也可以是后期混合生成，例如，通过摄像机采集图像信号，以及通过独立的音频采集设备如麦克风采集音频信号，然后将上述摄像机采集的图像信号和音频采集设备采集的音频信号混合生成视频。

基于视频进行物体检测、物体跟踪、动作分类或者情感识别可以通过监督学习(supervised learning)实现。所谓监督学习是指利用一组已知输出值的数据调整模型参数，使得模型达到所要求的性能。在基于视频进行物体检测、物体跟踪、动作分类或者情感识别时，已知输出值的数据是指标注有位置信息、属性信息、动作信息和情感信息中的任意一种或多种的视频数据(下文简称为标注数据)。其中，属性信息可以是类别信息，例如猫、狗、草地、足球等。属性信息也可以是身份信息，例如张三、李四等人物的姓名。

目前，标注数据主要是通过人工标注得到。具体地，标注人员观看整个视频，手动选择每个视频段的起止时间，然后对每个视频段进行标注。如此，导致需要花费大量的人力和时间，增加了标注成本。在一些实现方式中，还可以将视频按照时间分割成多个片段，但这种简单的分割方式并未考虑视频本身的内容，分割准确度较低，导致标注人员仍需要对各片段再次进行分割，操作繁琐，降低了标注效率，提高了标注成本。

有鉴于此，本申请实施例提供了一种视频处理方法。该视频处理方法可以通过视频处理系统实现。具体地，视频处理系统获取视频数据，对所述视频数据中的音频数据进行语音识别，获得文本数据以及所述文本数据中至少一个单词对应的语音在音频数据的时间戳，然后根据所述文本数据中至少一个单词对应的语音在音频数据的时间戳分割所述视频数据，得到至少一段数据。一方面简化了用户操作，无需用户手动对视频数据进行分割，另一方面考虑了视频内容，具有较高的分割准确度。基于该方法所得的至少一段数据进行标注，可以提高标注效率以及标注精度，降低了标注成本。

在一些实现方式中，视频处理系统不仅可以作为辅助模型训练或测试的系统，也可以应用于其他实际场景，如用于教育、娱乐等场景。例如，在儿童教育等应用中，视频处理系统可以对视频中的音频数据进行语音识别，得到文本数据以及文本数据中至少一个单词对应的语音在音频数据的时间戳，根据文本数据中至少一个单词对应的语音在音频数据的时间戳分割视频数据得到至少一段数据，然后对至少一段数据进行标注。在播放视频时，若用户(例如可以是儿童或者监护人)触发显示标注信息的操作时，可以通过图形用户界面(graphical user interface，GUI)显示标注信息，从而实现帮助儿童认识物理世界中的物体或物体的部位。

为了方便描述，下文以视频处理方法应用于模型训练或模型测试的场景进行示例说明。

如图1所示，视频处理系统可以部署在云环境，具体为云环境上的一个或多个计算设备(例如：中心服务器)。该视频处理系统也可以部署在边缘环境中，具体为边缘环境中的一个或多个计算设备(边缘计算设备)上，边缘计算设备可以为服务器、计算盒子等。所述云环境指示云服务提供商拥有的，用于提供计算、存储、通信资源的中心计算设备集群；所述边缘环境指示在地理位置上距离端设备(即端侧设备)较近的，用于提供计算、存储、通信资源的边缘计算设备集群。

在一些实现方式中，视频处理系统还可以部署在端设备上。端设备包括但不限于台式机、笔记本电脑、智能手机等用户终端。通过在这些用户终端上运行视频处理系统可以实现视频分割，基于分割所得的至少一段数据可以实现视频标注。端设备还可以作为视频提供设备，用于向视频处理系统提供视频数据以便进行视频分割。当端设备仅用用于提供视频数据时，端设备还可以是摄像头、雷达或者红外相机等设备。

视频处理系统部署在云环境或边缘环境时，视频处理系统可以以服务的形式提供给用户使用。具体地，用户可以通过浏览器访问云环境或边缘环境，在云环境或边缘环境中创建视频处理系统的实例，然后通过浏览器与视频处理系统的实例进行交互，实现视频分割。并且，可以进一步地基于分割所得的至少一段数据进行视频标注。

视频处理系统也可以部署在端设备，以客户端的形式提供给用户使用。具体地，端设备获取视频处理系统的安装包，通过运行该安装包，从而实现将视频处理系统的客户端安装在端设备中。端设备通过运行上述客户端，实现视频分割。并且，可以进一步地基于分割所得的至少一段数据进行视频标注。

如图2所示，视频处理系统包括多个部分(例如包括多个子系统，每个子系统包括多个单元)，因此，视频处理系统的各个部分也可以分布式地部署在不同环境中。例如，可以在云环境、边缘环境、端设备中的三个环境，或其中任意两个环境上分别部署视频处理系统的一部分。

为了使得本申请的技术方案更加清楚、易于理解，下面从视频处理系统的角度对视频处理方法进行介绍。

参见图3所示的视频处理方法的流程图，该方法包括：

S302：视频处理系统获取视频数据。

所述视频数据包括音频数据和图像数据。其中，音频数据中可以包括语音数据。语音是指人类通过发音器官(如喉头、声带)振动发出的声音，语音数据即为语音采集设备(包括具有音频采集功能的摄像机)采集人类通过发音器官发出的声音所形成的数据。音频数据中还可以包括非语音数据。本申请实施例中，非语音数据是指不包括语音的音频数据，例如仅包括背景音的音频数据，或者不包括任何声音的静音音频数据。

在一些实现方式中，视频处理系统可以通过视频采集设备如摄像机实时采集视频信号(至少包括音频信号)，从而得到视频数据。视频处理系统也可以从存储设备(包括本地存储设备和远端存储设备)获取视频数据。例如，视频处理系统可以从视频平台服务器以在线或离线方式获取视频数据。其中，以在线方式获取视频数据是指在线获取视频流。以离线方式获取视频数据是指缓存或下载整个视频的视频数据。

S304：视频处理系统对所述音频数据进行语音识别，获得文本数据以及所述文本数据中至少一个单词对应的语音的时间戳。

具体地，视频处理系统从视频数据中提取音频数据，然后可以通过自动语音识别(automatic speech recognition，ASR)模型对音频数据中的语音数据进行语音识别，从而得到与该语音数据对应的文本数据，以及文本数据中至少一个单词对应的语音的时间戳。

ASR模型包括声学模型(acoustic model，AM)和语言模型(language model，LM)。其中，声学模型以特征向量为输入，以音素信息为输出。语言模型以音素信息为输入，以单词或单词相互关联的概率值为输出。ASR模型可以先对音频数据进行特征提取，如提取线性预测倒谱系数(linear prediction cepstrum coefficient，LPCC)和/或梅尔倒谱系数(mel frequency cepstrum coefficient，MFCC)等特征，得到多维特征向量。其中，音频数据中的每一帧数据可以以波形方式呈现，ASR模型可以对每一帧音频数据对应的波形进行特征提取，从而得到特征向量。然后将特征向量输入声学模型得到音素信息，接着通过语言模型和字典确定单个字或词相互关联的概率值。基于该概率值可以输出语音数据对应的文本数据。

为了便于理解，下面结合具体示例进行说明。

在一个示例中，音频数据中包括“我喜欢看日出”，ASR模型对音频数据进行特征提取，得到特征向量[13454598……]，然后将该特征向量输入声学模型，可以得到音素“woxihuanrichu”，字典中包括音素和文字的对应关系，如窝：wo；我：wo；喜：xi；西：xi；换：huan；欢：huan；日：ri；处：chu；出：chu等等。语言模型可以基于输入的音素结合字典输出单个字或词相互关联的概率值。例如，语言模型可以输出如下概率值，我：0.0786，喜欢：0.0546，我喜欢：0.0898，看：0.0854，日出：0.1589，看日出：0.6785。基于上述概率值，ASR模型可以输出文本数据“我喜欢看日出”。

进一步地，ASR模型输出文本数据时，还可以获取单字形成的单词或者多字组合形成的单词对应的音频数据的帧序号，基于该帧序号确定文本数据中每个单词对应的语音的时间戳。

在一些实现方式中，ASR还可以通过对音频数据进行分析，识别出多人对话场景中不同人物的语音数据，分别对不同人物的语音数据进行语音识别，或者是对特定人物的语音数据进行语音识别。

考虑到音频数据中还可能存在非语音数据的情况，视频处理系统还可以在对所述音频数据进行语音识别之前，过滤所述音频数据中无语音的片段，保留音频数据中的语音数据，避免标注人员在标注时聆听非语音数据，缩短标注时间。

具体地，视频处理系统可以通过语音活性检测(voice activity detection，VAD)模型过滤非语音数据，保留语音数据。一个VAD模型通常包括两个部分，具体为特征提取和语音/非语音判决。VAD模型使用的特征提取可以是：基于能量的特征、频域特征、倒谱特征、谐波特征、长时特征。VAD模型使用的判别准则可以是：机器学习方法、阈值法等。

S306：视频处理系统根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述视频数据，得到至少一段数据。

文本数据中的单词和音频数据中的语音具有对应关系，视频处理系统可以根据单词对应的语音在音频数据的时间戳实现视频自动分割。需要说明的是，视频处理系统可以根据该时间戳对视频数据中的图像数据和音频数据一并进行分割，得到至少一段视频数据。视频处理系统也可以根据该时间戳对视频数据中的图像数据进行分割，得到至少一段图像数据。

例如，在位置标注场景中，视频处理系统可以根据该时间戳对视频数据中的图像数据进行分割即可。又例如，在情感标注场景中，视频处理系统可以根据该时间戳对视频数据中的图像数据和音频数据均进行分割，以便基于图像数据和音频数据共同确定情感信息。

考虑到文本是由句子组成的，在对视频数据进行分割时，视频处理系统还可以利用文件数据中句子的断句位置对视频数据进行分割。具体地，视频处理系统可以确定所述文本数据中句子的断句位置，根据所述断句位置的单词对应的语音在音频数据的时间戳分割所述视频数据，得到至少一段数据。

在具体实现时，视频处理系统可以通过句子边界检测(sentence boundarydetection，SBD)模型检测出文本数据的断句位置，然后根据断句位置的单词(例如可以是断句位置之前的单词)确定该单词对应的语音的时间戳，根据该时间戳分割视频数据，从而得到至少一段数据。例如，视频处理系统可以根据每个断句位置对应的时间戳分割视频数据，得到至少一段数据，每段数据对应一个句子。

其中，句子边界检测模型可以通过训练得到。具体地，视频处理系统可以构建一个初始检测模型，例如可以根据基于转换器的双向编码器表示(bidirectional encoderrepresentation from transformers，BERT)构建初始检测模型。对于文本数据中的每个单词，初始检测模型输出该词后是否是断句位置的标签。例如，如果是断句位置则输出1，不是断句位置则输出0。

在训练初始检测模型时，视频处理系统采用大规模带有标点的语料进行训练。其中，一个单词之后如果是句号、问号、惊叹号，则该单词之后的位置视为断句位置，由此可见语料中断句位置是已知的。视频处理系统将语料输入初始检测模型，初始检测模型可以输出单词后是否是断句位置的标签，基于预测的标签值和期望的标签值(根据已知的断句位置确定)以及损失函数(例如交叉熵损失函数)可以确定损失值，基于该损失值更新初始检测模型的参数，从而实现对初始检测模型的训练。经过训练的模型满足训练结束条件，如模型的损失值趋于收敛或者小于预设值时，可以停止训练。训练完成的模型可以作为句子边界检测模型，用于检测文本数据中句子边界(即断句位置)。

在一些实现方式中，视频处理系统还可以根据文本上下文将具有关联关系的多个句子划分为一段数据。例如，视频处理系统可以将一组对话的多个句子划分为一段数据，也即一段数据还可以对应多个句子。如此，可以得到包括人物沟通过程的一段数据，基于沟通过程的一段数据可以提供更为丰富、准确的信息，符合实际业务需求。

考虑到分割准确度问题，本申请实施例还在自动分割基础上，提供了一种人工校正机制。在一些实现方式中，视频处理系统可以输出分割所得的至少一段数据，用户(如标注人员)可以判断至少一段数据是否正确，例如判断至少一段数据是否包括完整的句子，若否，则用户可以修改上述至少一段数据的起止时间(即起始时间和终止时间中的至少一个)。

如图4所示，界面400展示了视频播放窗口402，该视频播放窗口402用于展示视频画面。视频播放窗口中还展示有播放进度条。视频处理系统根据断句位置的单词对应的语音的时间戳分割视频数据，得到至少一段数据后，可以通过滑块404显示各段数据在视频数据的起始时间和终止时间。如图4所示，一个双向箭头连接的两个滑块404即指示一段数据的起始时间和终止时间。需要说明的是，图4中一段时间的两个滑块没有双向箭头连接，表明该段时间不包括语音数据。用户可以通过拖动滑块404调整一段数据的起止时间。

对应地，视频处理系统可以通过GUI接收用户对所述至少一段数据的校正信息，该校正信息用于对所述至少一段数据的起止时间的修改。基于此，用户仅需通过少量修改操作，即可进一步提高分割准确度。

S308：视频处理系统接收用户对所述至少一段数据的标注信息。

其中，标注信息可以是图像数据中目标的位置信息、属性信息、动作信息和情感信息中的任意一种或多种。

目标的位置信息是指目标在视频画面中的位置信息。在具体实现时，视频处理系统可以通过包括所述目标的目标框的位置信息作为目标位置信息。目标框可以是矩形、圆形、椭圆形等形状，也可以是贴近目标轮廓的形状。以目标框为矩形框为例，目标位置信息可以通过矩形框的中心点的坐标(x0，y0)以及在坐标轴上的缩放系数(rx，ry)进行表征。

目标的属性信息是描述目标的性质和/或特点的信息。具体地，目标的属性信息可以包括目标的类别信息、身份信息中的任意一种或多种。例如，在物体检测场景中，可以标注一段数据中出现的各类物体，包括猫、狗、草地、足球等物体的类别。又例如，在人脸识别场景中，属性信息也可以是身份信息，例如张三、李四等人物的姓名。

目标的动作信息是指目标实施的动作。例如，在智能城市管理场景中，目标可以是人，目标的动作信息指示人是否实施打斗动作。又例如，在舞蹈教学场景中，目标的动作信息指示舞蹈老师实施的舞蹈动作。

目标的感情信息是指目标所表达出的情绪信息。需要说明的是，视频数据仅包括音频数据时，标注信息也可以是情感信息，例如发声人物所表达的感情信息，该感情信息可以通过语义、语气、语调等特征中的至少一种所确定。

具体地，视频处理系统可以通过播放器加载至少一段数据，例如加载至少一段视频段数据，以播放视频段。用户通过观看视频段，确定目标的位置信息、属性信息、动作信息和感情信息中的任意一种或多种，然后通过GUI标注上述信息。对应地，视频处理系统可以通过GUI接收上述标注信息。

如图5所示，用户触发界面400的播放控件从而播放视频时，用户还可以通过鼠标框选出视频画面中的人脸，从而标注出人脸的位置信息。对应地，视频处理系统通过该界面400接收标注信息(该示例中为人脸的位置信息)。

在一些实现方式中，视频处理系统也可以通过其他方式接收标注信息，例如，用户可以通过语音的方式标注上述信息，视频处理系统还可以通过音频采集设备如麦克风接收上述标注信息。

在对至少一段数据进行标注时，用户可以对每一帧均进行标注。在一些实现方式中，为了减少标注工作量，用户也可以仅对关键帧进行标注。其中，关键帧是指对一段数据中具有重要意义的帧，例如起始帧、终止帧或者视频画面中目标在运动或发生变化的关键动作所在帧。对应地，视频处理系统可以接收用户对至少一段数据中关键帧的标注信息，然后根据关键帧的标注信息确定至少一段数据中非关键帧的标注信息。该非关键帧具体是指一段数据中除关键帧之外的帧。

以标注人脸的位置信息为例，在针对各段数据中的人脸进行标注时，用户通过鼠标框选出起止帧中的人脸区域，然后通过鼠标框选出其他关键帧的人脸区域，针对除关键帧以外的非关键帧，图像处理系统根据关键帧的标注信息利用差值法进行计算，从而确定非关键帧的标注信息。进一步地，针对多模态情感分析场景，用户还可以标注语音和人脸对应的情感类别(如开心、悲伤、生气、惊讶、厌恶、害怕、无表情等情感类别)和情感正负值(valence)、情感强度值(arousal)。

对于每一段数据，例如每一个视频段数据，标注结果可以包括视频段数据的起止时间，每一帧的人脸矩形框位置、语音对应的文本、对应的表情类别和valence、arousal值，标注结果可以保存为Javascript对象简谱(javaScript object notation，json)格式。在一些实现方式中，标注结果也可以保存为其他格式，例如文本格式。

基于上述内容描述，本申请实施例提供了一种视频处理方法。该方法通过对视频数据中的音频数据进行语音识别，得到文本数据，然后利用文本数据中至少一个单词对应的语音在音频数据的时间戳分割视频数据，减少了用户在标注时手动分割视频数据的操作，提高了分割效率。而且，考虑了视频内容进行视频数据分割，具有较高准确度。基于上述方法所得的至少一段数据进行标注，可以减少标注工作量，提高标注效率以及标注准确度。

上文结合图1至图5对本申请实施例提供的视频处理方法进行了详细介绍，下面将结合附图对本申请实施例提供的装置、设备进行介绍。

参见图6所示的视频处理装置的结构示意图，该装置600包括：

通信模块602，用于获取视频数据，所述视频数据包括图像数据和音频数据；

识别模块604，用于对所述音频数据进行语音识别，获得所述音频数据对应的文本数据以及所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳；

分割模块606，用于根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述视频数据，得到至少一段数据。

在一些可能的实现方式中，所述分割模块606具体用于：

确定所述文本数据中句子的断句位置；

根据所述断句位置的单词对应的语音在所述音频数据的时间戳分割所述视频数据。

在一些可能的实现方式中，所述通信模块602还用于：

通过图形用户界面(GUI)接收用户对所述至少一段数据的校正信息，所述校正信息用于对所述至少一段数据的起止时间的修改。

在一些可能的实现方式中，所述通信模块602还用于：

接收用户对所述至少一段数据的标注信息，所述标注信息包括所述图像数据中目标的位置信息、属性信息、动作信息和情感信息中的任意一种或多种。

在一些可能的实现方式中，所述通信模块602具体用于：

接收用户对所述至少一段数据中关键帧的标注信息；

所述装置600还包括：

标注模块608，用于根据所述关键帧的标注信息确定所述至少一段数据中非关键帧的标注信息。

在一些可能的实现方式中，所述装置600还包括：

过滤模块610，用于在对所述音频数据进行语音识别之前，过滤所述音频数据中无语音的片段。

在一些可能的实现方式中，所述分割模块606具体用于：

根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述图像数据；或，

根据所述文本数据中至少一个单词对应的语音在所述音频数据的时间戳分割所述图像数据和所述音频数据。

根据本申请实施例的视频处理装置600可对应于执行本申请实施例中描述的方法，并且视频处理装置600的各个模块/单元的上述和其它操作和/或功能分别为了实现图3所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种设备700。该设备700可以是笔记本电脑、台式机等端侧设备，也可以是云环境或边缘环境中的计算机集群。该设备700具体用于实现如图6所示实施例中视频处理装置600的功能。

图7提供了一种设备700的结构示意图，如图7所示，设备700包括总线701、处理器702、通信接口703和存储器704。处理器702、存储器704和通信接口703之间通过总线701通信。总线701可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口703用于与外部通信。例如，获取视频数据，通过GUI接收用户对至少一段数据的校正信息，或者接收用户对至少一段数据的标注信息等等。

其中，处理器702可以为中央处理器(central processing unit，CPU)。存储器704可以包括易失性存储器(volatile memory)，例如随机存取存储器(random accessmemory，RAM)。存储器704还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。

存储器704中存储有可执行代码，处理器702执行该可执行代码以执行前述视频处理方法。

具体地，在实现图6所示实施例的情况下，且图6实施例中所描述的视频处理装置600的各模块为通过软件实现的情况下，执行图6中的识别模块604、分割模块606、标注模块608和过滤模块610功能所需的软件或程序代码存储在存储器704中。通信模块功能通过通信接口703实现。通信接口703接收视频数据，将其通过总线701传输至处理器702，处理器702执行存储器704中存储的各模块对应的程序代码，如识别模块604和分割模块606对应的程序代码，以执行对视频数据中的音频数据进行语音识别，获得音频数据对应的文本数据以及文本数据中至少一个单词对应的语音在音频数据的时间戳，根据文本数据中至少一个单词对应的语音在音频数据的时间戳分割视频数据，得到至少一段数据。

在一些可能的实现方式中，通信接口703还可以通过GUI接收用户对至少一个视频端数据的校正信息，以对至少一段数据的起止时间进行修改。

在一些可能的实现方式中，通信接口703还可以接收用户对至少一段数据的标注信息，该标注信息包括图像数据中目标的位置信息、属性信息、动作信息和情感信息中的任意一种或多种。

在一些可能的实现方式中，通信接口703可以接收用户对至少一段数据中关键帧的标注信息。对应地，处理器702还可以执行标注模块608对应的程序代码，以执行根据关键帧的标注信息确定至少一段数据中非关键帧的标注信息。

在一些可能的实现方式中，处理器702还可以执行过滤模块610对应的程序代码，以执行在对音频数据进行语音识别之前，过滤音频数据中无语音的片段的操作。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令，所述指令指示计算机执行上述应用于视频处理装置600的视频处理方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述视频处理方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述视频处理方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

20页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种音乐线上教学视频智能推荐方法及系统

一种视频处理方法、装置、设备及介质

相关技术

网友询问留言