生成视频摘要的方法、装置、设备、计算机可读存储介质

文档序号：142710 发布日期：2021-10-22 浏览：50次 >En<

阅读说明：本技术 生成视频摘要的方法、装置、设备、计算机可读存储介质 (Method, device and equipment for generating video abstract and computer readable storage medium ) 是由卞东海郑烨翰彭卫华徐伟建于 2021-06-25 设计创作，主要内容包括：根据本公开的示例实施例,提供了一种生成视频摘要的方法、装置、设备、计算机可读存储介质,涉及人工智能领域,尤其涉及知识图谱、深度学习、计算机视觉领域。具体实现方案为：获取视频中的至少一帧图像；确定至少一帧图像的内容信息,内容信息表示至少一帧图像中包含的主要内容；对内容信息进行结构化处理,以生成结构化信息；以及基于结构化信息生成视频的摘要。本公开的实施例能够高效地对各类视频自动生成视频摘要,可以节省大量人力投入。(According to the exemplary embodiments of the present disclosure, a method, an apparatus, a device, and a computer-readable storage medium for generating a video summary are provided, which relate to the field of artificial intelligence, and in particular to the fields of knowledge maps, deep learning, and computer vision. The specific implementation scheme is as follows: acquiring at least one frame of image in a video; determining content information of at least one frame of image, wherein the content information represents main content contained in the at least one frame of image; carrying out structuring processing on the content information to generate structured information; and generating a summary of the video based on the structured information. The embodiment of the disclosure can efficiently and automatically generate the video abstract for various videos, and can save a large amount of manpower input.)

技术领域

本公开涉及人工智能领域，具体地，涉及生成视频摘要的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

在许多场合，需要对视频的内容进行描述以生成视频的摘要，以便于后续的检索或者其他应用。以较流行的综艺类视频为例，娱乐行业在进行综艺类视频拆分、检索或者二次利用时，需要首先知道该视频中的主要内容。又比如在视频类网站中，需要对视频的重点内容进行介绍，以吸引用户点击进入浏览视频，因此会提供视频摘要以描述视频内容。视频摘要对视频的浏览量以及后续的二次利用都有着重要意义。

目前绝大部分是依靠人工的方式去观看每段视频，然后人工撰写视频摘要，导致耗时耗力。

发明内容

本公开提供了一种用于生成视频摘要的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的第一方面，提供了一种生成视频摘要的方法。该方法包括：获取视频中的至少一帧图像；确定至少一帧图像的内容信息，内容信息表示至少一帧图像中包含的主要内容；对内容信息进行结构化处理，以生成结构化信息；以及基于结构化信息生成视频摘要。

在本公开的第二方面中，提供了一种生成视频摘要的装置。该装置包括：图像获取模块，被配置为获取视频中的至少一帧图像；内容信息确定模块，被配置为确定至少一帧图像的内容信息，内容信息表示至少一帧图像中包含的主要内容；结构化信息生成模块，被配置为对内容信息进行结构化处理，以生成结构化信息；以及视频摘要生成模块，基于结构化信息生成视频的摘要。

在本公开的第三方面中，提供了一种电子设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

在本公开的第五方面中，提供了一种计算机程序产品，计算机程序在被处理器执行时实现根据本公开的第一方面的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的用于生成视频摘要的流程图；

图3示出了根据本公开的实施例的用于生成视频摘要的装置的框图；

图4示出了根据本公开的另一实施例的用于生成视频摘要的装置的框图；以及

图5示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如前面所提到的，需要对视频的内容进行描述以生成视频的摘要，以便于后续的检索或者其他应用。目前绝大部分是人工的方式去观看每段视频，然后人工对每段视频进行描述，生成视频摘要。这导致耗时耗力。此外，对于综艺类视频来说，由于涉及到的人物众多，如何对视频内容进行组织以获得对内容的适当描述也是个问题。

不仅如此，对于同一视频，不同的人进行观看，其获取到的信息都会有差异，甚至由于各种原因而相差甚远。即使获取到基本相同的信息，由于不同人的个人喜好、习惯等原因，所描述的视频摘要由此也会大相径庭。

此外，不同的用户有不同的喜好，针对同一个视频，不同的用户想要获取的信息是不相同的，而人工制作出来的视频摘要针对性较差，无法为每个用户提供针对性的相关视频信息。

以上种种困难，增加了高效地生成理想的视频摘要的难度。为了解决上述问题，本公开的实施例提供了生成视频摘要的改进方案。在该方案中，计算设备获取视频中的至少一帧图像。然后计算设备对获取的至少一帧图像进行分析，具体地，确定至少一帧图像的内容信息，内容信息表示至少一帧图像中包含的主要内容。之后，计算设备对内容信息进行结构化处理，以生成结构化信息。通过生成结构化信息，便于后续对该信息进行提取等各种处理。计算设备基于结构化信息生成视频摘要。通过该方案，本发明可以高效地对各类视频自动生成视频摘要，从而可以节省大量人力投入。同时可以根据用户的需求，有针对性地生成视频摘要。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。如图1所示，示例环境100中包含视频110、计算设备120和经计算设备120生成的视频摘要130。

在一些实施例中，视频110可以是任意视频。例如，视频110可以是计算设备本地存储的视频，也可以是外部输入的视频，例如，从网上下载的视频，比如综艺视频等等。计算设备120对视频110进行处理，生成视频摘要130。

在一些实施例中，计算设备120可以具备从视频中抽取图片的功能。例如，通过计算设备120中的视频软件自带的截图功能从视频中抽取图片。此外，在一些实施例中，计算设备120可以也可以用其他相关软件，直接从视频中抽取所需的图片。在一些实施例中，计算设备120还可以外接图像获取设备以获取视频中的图像(本文中也可称为图片)。之后计算设备120对抽取的图片进行分析，确定图片中的主要内容，对所述内容信息进行结构化处理，以生成结构化信息。之后可以基于预定的配置信息，获取所需要的结构化信息条目，生成视频摘要130。

在一些实施例中，计算设备120可以包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理PDA、媒体播放器等)、消费电子产品、小型计算机、大型计算机、云计算资源等。

应当理解，仅出于示例性的目的描述示例环境100的结构和功能并不旨在限制本文所描述主题的范围。本文所描述主题可以在不同的结构和/或功能中实施。

上文描述的技术方案仅用于示例，而非限制本发明。应理解，示例环境100还可以具有其他多种分时方式。为了更清楚地解释本公开方案的原理，下文将参考图2来更详细描述模型训练的过程。

图2示出了根据本公开的实施例的用于生成视频摘要的过程200的流程图。在某些实施例中，过程200可以在图1的计算设备120中实现。现参照图2并结合图1描述根据本公开实施例的用于生成视频摘要的过程200。为了便于理解，在下文描述中提及的具体实例均是示例性的，并不用于限定本公开的保护范围。

在202，计算设备120获取视频中的至少一帧图像。例如，计算设备120可以从存储在本地的或来自外部的视频110提取视频中的多帧图像(或称为画面)。如前面所提到的，计算设备120可以通过多种方式从视频110中提取图像。通过计算设备120自动从视频110中提取图像，免除了人工观看视频110的必要，而且与人工观看视频110相比，显著提高了效率。

在某些实施例中，可以以预定的周期对视频110进行帧识别，即，对视频110的画面进行抽取，以获取至少一帧图像。获取的图像用于后续的图像识别等操作。在一些实施例中，以秒为级别进行帧识别(即帧提取)。可以根据实际需要采用不同的时间级别进行帧识别。帧识别的频率越高，获得的图像越多，则能够获得该视频110的更多信息，便于更准确地描述该视频110。

此外，在某些实施例中，对获取的至少一帧图像进行归一化处理，以生成具有同样尺寸的归一化图像。例如可以使得所有视频110的尺寸都为1920x1080。此处仅为示例，当然可以根据需要设置视频110尺寸。通过将不同视频110归一化为具有同样的尺寸的视频110，能够方便后续的处理。例如，由于所有图像都具有同样的尺寸，可便于后续的图像识别中采用同样的判断标准，提高识别的准确度。

在204，计算设备120可以确定至少一帧图像的内容信息，内容信息表示至少一帧图像中包含的主要内容。主要内容是图像中容易被观看者关注的或者说感兴趣的部分。例如，图像中处于显著位置的人或物、处于运动姿态的人或动物，图像中的标题、字幕，等等。计算设备120可以感知图像中的内容，从而得到内容信息，即图像中所显示的各种信息。例如，图像中存在的人物、房屋、汽车等物体，以及各种动作、场景等等，均可以由计算设备120感知到。

在某些实施例中，确定至少一帧图像的内容信息包括：基于深度学习方法，识别至少一帧图像中的对象的信息；以及将识别的对象的信息作为内容信息。例如，计算设备120可以具备目标检测功能，用于感知图片中存在的对象，并对其进行分析、圈定。例如人物所在的位置信息，以及其他的一些物体信息：汽车、房屋所在的位置，以及一些其他显著的物体的位置。通过计算设备120识别至少一帧图像中的对象的信息，为后续生成视频110摘要提供视频110中的重要信息。以此方式，免除了人工观看视频110并从中获取信息的必要。

在某些实施例中，计算设备120具备OCR(Optical Character Recognition，光学字符识别)功能，用于对图片中的文字信息进行识别，包括标题、字幕、重点的描述等。例如，对于综艺类视频110，往往都是以对话的形式出现，获取到字幕信息是保证后续完整描述的关键。

在某些实施例中，计算设备120具备名人识别功能，主要用于识别图片中存在的名人。对于综艺类视频，通常会有知名人物参加。因此识别图片中存在的名人，并在视频摘要中对其进行描述，就变得很有意义。在某些实施例中，对于低置信度的识别结果，可以结合视频的标题来进一步确定是否保留。例如，在某些实施例中，由于各种原因(例如图像清晰度不够、人脸角度的原因)导致识别的名人的可信度低于预定的阈值，则可以结合视频的标题来进一步确定。因为视频的标题中通常会给出一些信息。通过与标题结合能够进一步确定低置信度的结果的可靠性，从而确定是保留还是丢弃该识别结果。

在某些实施例中，计算设备120具备人脸识别功能，主要用于识别图片中存在的人脸信息，对于低置信度的人脸，可以结合其他信息做进一步判断，例如人脸出现的时间、频次、位置信息等进行判断。

在某些实施例中，识别至少一帧图像中的对象包括识别图像中的人脸。在所识别的人脸的置信度高于阈值的情况下，将人脸确定为人脸。在所识别的人脸的置信度低于阈值的情况下，基于内容信息中的关于所识别的人脸的其他信息，确定是否将所识别的人脸确定为人脸。以此方式，通过将人脸识别的置信度与图像中其他信息相结合，能够更准确地识别人脸，减小误判的可能性。

在某些实施例中，确定至少一帧图像的内容信息包括：识别至少一帧图像中的人脸，生成人脸种子集合，人脸种子集合包括至少一帧图像中出现的对应于不重复的人的唯一人脸。并且基于人脸种子集合中各个人脸出现的时间点，确定各不重复的人在视频中出现的时间线。

在某些实施例中，计算设备120可以追踪视频110中各个人物出现的时间线信息。某些实施例中，通过追踪视频110中各个人物出现的时间线信息，可以了解各个人物在视频110的情景中的活动脉络，从而有助于描述视频110的情节等信息。

在某些实施例中，在追踪视频110中各个人物出现的时间线信息的过程中，生成人脸种子集合。生成人脸种子集合包括：识别至少一帧图像中的第一人脸，作为人脸种子集合中的第一种子。比如，首先从视频110开头开始(可以是其他方式)，获取到第一张人脸，作为第一种子人脸。之后，将后续识别的第二人脸与第一人脸进行匹配；在匹配的情况下，如果匹配成功，则将第二人脸则标记为第一人脸。在某些实施例中，为了生成优质的人脸种子集合，将第二人脸和第一人脸中可辨识度高的人脸作为第一人脸种子(下面进一步描述)。也就是说，在生成种子集的过程中，种子集合中的各个种子可以是动态更新的，而不是固定不变的。在不匹配的情况下，将第二人脸作为第二种子加入种子集合中。接着进行第三张人脸的识别与匹配。以此类推，重复上述过程，依次将后续识别的人脸与人脸种子集合中的所有种子人脸进行匹配。通过对不同时间点识别到的人脸两两匹配，最终会获取到一个人脸种子集合，这些人脸就是出现在视频中的且唯一的人脸，即，对于不同的人在该种子集中仅有一张识别的人脸。

如前面所提到的，为了生成优质的人脸种子集合，将识别的同一人的不同脸中的可辨识度高的脸作为人脸种子。对于高质人脸识别，种子人脸应该是具有代表性的人脸，比如正面，人脸大小合适等。所以需要按照人脸出现的角度、占视频的比例、是否完整、所在视频的位置等信息组合加权作为高质人脸的得分。然后按照得分进行人脸排序，将排在最前面的，即得分最高的人脸作为一个人脸种子。以此方式，能够获取优质的人脸种子。通过采用优质的人脸种子，后续的人脸识别中能够容易地将新识别的人脸与该优质人脸种子进行比较(即匹配操作)，提高识别的效率和可靠性。

在某些实施例中，将识别的人脸与名人识别进行对齐，即，将识别到的人脸和识别的名人相对应。在识别的人脸为非名人的情况下，也将人脸与人物相对应，以确定其相应的时间线等信息。在某些实施例中，将各个人脸出现的时间点进行整合，形成人物出现的时间线条。

在某些实施例中，生成视频摘要的方法还包括从视频中提取音频，并且对音频进行语音识别，生成语音的文本信息。例如，计算设备120从视频110中分离出音频部分，同时针对视频110时间较长的语音进行音频的分割。在某些实施例中，采用分时法进行分割。分时法就是简单地以预定的周期对视频110中的音频进行分割。例如，每5分钟分割一次，即将音频分割为5分钟一段的音频。分时法的优点是操作简单快捷。

在某些实施例中，采用频谱法进行分割。频谱法是指通过对观察信号的幅度随频率特性的变化(幅频特性)来确定信号性能的方法。有些情况下还包含信号的相位随频率特性的变化特性(相频特性)。因此，在某些实施例中，采用频谱法，通过观察音频信号的特性进行分割，可以确保分割的音频均为完整的语句。

在某些实施例中，对语音识别的结果进行初步的筛选、统计、归整操作。例如，对语音识别文本中的广告信息等无关信息进行过滤。对语音识别的文本进行分词、关键词、实体的识别；即，区分出语音识别的文本中的词汇、关键词、实体。例如，识别视频110中的人物、动物、汽车、房屋、以及其他各种物体。

在某些实施例中，将文本按照时间顺序排列，将语音文本与该段语音在视频110中的时间位置相对齐。即，与原始视频110中的语音在时间上保持一致。

以此方式，通过从视频110中提取音频，并且对音频进行语音识别，生成语音的文本信息，能够在后续的处理中将从音频获得的文本信息与通过视频110图像获得的文本信息相结合，从而更准确地识别视频110中的内容。

在某些实施例中，确定至少一帧图像的内容信息还包括：将文本信息与内容信息在相应时间段进行匹配；以及将匹配成功的部分确定为有效内容信息。以此方式，通过将从音频获得的文本信息与通过视频图像获得的文本信息进行匹配，能够确保识别的内容的准确性。

在某些实施例中，通过OCR识别的结果与语音识别的结果进行匹配。如果对应的OCR所在时间点的文字信息刚好在语音文本中，即语音识别的文本与OCR识别的文本能够对应上，这种情况下则认为该字幕有效。否则，可以丢弃该结果。以此方式，能够确保识别的字幕的可靠性。在一些实施例中，即使语音识别的文本与OCR识别的文本不能完全对应上，也可以并不简单丢弃该结果。而是可以例如，以OCR识别的文本为准，同时为其赋予一定的置信度，例如80％，即，该识别结果的可信度为89％。此时，可进一步结合其他信息对该识别解决做进一步验证。以上所述方式仅为示例，本公开的实施例并不限于上述方式，而是可以有多种变型。

在206，计算设备120可以对内容信息进行结构化处理，以生成结构化信息。结构化信息可以为预定格式的、有结构性的信息，以表示各种模态的内容信息。结构化信息也可称为结构化数据，一般是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。所识别的内容信息原本是无序的。在某些实施例中，通过将所识别的内容生成结构化信息，可以在后续生成视摘要的过程中，根据需要提取相应的结构化信息即可。以此方式，使得后续能够方便地生成视频摘要。

在某些实施例中，基于内容信息生成结构化信息包括：对文本信息进行结构化处理，生成结构化的文本信息；以及将结构化的文本信息与视频的相应时间段进行对齐。以此方式，能够将通过语音识别获得的文本与视频中的时间线相关联，从而有助于后续的视频摘要的生成。

在某些实施例中，生成结构化信息包括：基于文本信息以及内容信息，获取视频110中的人物的说话内容；将获取到的说话内容和内容信息中的关键信息进行匹配，确定各个关键信息与人物的关联关系；以及基于关联关系和时间线，组合关键信息，以得到视频110的结构化信息。以此方式，能够将通过语音识别获得的文本信息与通过图像识别获得的文本信息相结合，从而能够提高识别的可靠性。

在208，计算设备120可以基于结构化信息生成视频110摘要。例如，在得到了视频110的较为完整的结构化信息后，可以根据需要，按照制定好的标准来提取组织这些数据。在某些实施例中，从视频类型的配置信息(为预先设定的配置信息，例如为配置模板，其中包含各个字段，例如，视频名称、主要人物、视频类别、年代等)中获取到要生成摘要的基本的标准信息。如比赛类的综艺视频，可能希望视频描述的字段包含：参加人员，比赛名称，比赛规则，赛果等信息。根据这些视频描述的字段来从结构化信息中提取相应的信息。如果无预先指定的配置信息，则可只给出视频中的标题或者全部信息：

在某些实施例中，基于结构化信息生成视频110的摘要包括：基于预定的配置信息，从结构化信息中获取相应的信息，其中预定的配置信息中指定所要获取的结构化信息的类型。例如，根据不同的用户需求，可以设定不同的配置信息，指定不同类型的结构化信息。例如，针对综艺类视频，可以尤其突出其中的名人信息。而对于侦探类视频，可以尤其突出其曲折离奇的情节。之后，基于预定的模板或者通过基于深度学习的语言模型(例如，gpt3等语言模型)，对相应的信息进行组织，以形成视频摘要。

在某些实施例中，按照前面提到的标准信息，去上述结构化好的数据中进行相关描述的抽取。对抽取的结果进行组织，形成视频的摘要。在某些实施例中，可以直接用前面生成的结构化数据。在某些实施例中，如果想单独生成一段文字，也可以通过以下方案：基于模板的方法，如文字的第一段介绍参赛选手、第二段介绍比赛规则、第三段介绍表现等。或者可以基于深度学习的方法，如使用一种统计语言模型，如gpt3等，进行可控的文本生成。例如，结构化信息中为“张三”、“公路”“汽车”。则可控的文本生成例如可以为：“张三在公路上驾驶汽车”。以此方式，能够灵活高效地生成视频摘要。

通过上述实施例，提出了一种生成视频摘要的方法。一方面，本公开可以高效地对各类视频自动生成视频摘要，避免或显著减少了人工参与，从而减少了大量的人力成本。另一方面，本公开可根据用户的需求，有针对性地、灵活地生成视频摘要，提高用户的满意度。

图3示出了根据本公开的实施例的用于生成视频摘要的装置的框图。如图3所示，装置300可以包括：图像获取模块310，被配置为获取视频中的至少一帧图像；内容信息确定模块320，被配置为确定至少一帧图像的内容信息，内容信息表示至少一帧图像中包含的主要内容；结构化信息生成模块330，被配置为对内容信息进行结构化处理，以生成结构化信息；以及视频摘要生成模块340，基于结构化信息生成视频的摘要。

在某些实施例中，图像获取模块310可以包括：图像识别模块，被配置为以预定的周期对视频进行帧识别，以获取至少一帧图像；以及图像归一化模块，被配置为对获取的至少一帧图像进行归一化处理，以生成具有同样尺寸的归一化图像。

在某些实施例中，内容信息确定模块320可以包括：对象信息识别模块，被配置为基于深度学习方法，识别至少一帧图像中的对象的信息；以及对象信息确定模块，被配置为将识别的对象的信息作为内容信息。

在某些实施例中，对象信息识别模块可以包括：人脸识别模块，被配置为识别图像中的人脸。其中，在所识别的人脸的置信度高于阈值的情况下，将人脸确定为人脸；以及在所识别的人脸的置信度低于阈值的情况下，基于内容信息中的关于所识别的人脸的其他信息，确定是否将所识别的人脸确定为人脸。

在某些实施例中，内容信息确定模块可以包括：人脸种子集合生成模块，被配置为识别至少一帧图像中的人脸，生成人脸种子集合，人脸种子集合包括至少一帧图像中出现的对应于不重复的人的唯一人脸；以及时间线确定模块，被配置为基于人脸种子集合中各个人脸出现的时间点，确定各不重复的人在视频中出现的时间线。

在某些实施例中，人脸种子集合生成模块可以包括：人脸识别模块，被配置为识别至少一帧图像中的第一人脸，作为人脸种子集合中的第一种子；人脸匹配模块，被配置为将后续识别的第二人脸与第一人脸进行匹配；在匹配的情况下，将第二人脸和第一人脸中可辨识度高的人脸作为第一人脸种子；在不匹配的情况下，将第二人脸作为第二种子加入种子集合中；以及重复上述过程，依次将后续识别的人脸与人脸种子集合中的所有种子人脸进行匹配，以生成人脸种子集合。

在某些实施例中，生成视频摘要的装置还包括：音频提取模块，被配置为从视频中提取音频；以及语音识别模块，被配置为对音频进行语音识别，生成语音的文本信息。

在某些实施例中，内容信息确定模块可以包括：匹配模块，被配置为将文本信息与内容信息在相应时间段进行匹配；以及有效内容信息确定模块，被配置为将匹配成功的部分确定为有效内容信息。

在某些实施例中，结构化信息生成模块可以包括：结构化文本信息生成模块，被配置为对文本信息进行结构化处理，生成结构化的文本信息；以及对齐模块，被配置为将结构化的文本信息与视频的相应时间段进行对齐。

在某些实施例中，结构化信息生成模块可以包括：说话内容获取模块，被配置为基于文本信息以及内容信息，获取视频中的人物的说话内容；关键信息匹配模块，将获取到的说话内容和内容信息中的关键信息进行匹配，确定各个关键信息与人物的关联关系；以及关键信息组合模块，被配置为基于关联关系和时间线，组合关键信息，以得到视频的结构化信息。

在某些实施例中，其中视频摘要生成模块包括：结构化信息获取模块，被配置为基于预定的配置信息，从结构化信息中获取相应的信息，其中预定的配置信息中指定所要获取的结构化信息的类型；以及结构化信息组织模块，被配置为基于预定的模板或者通过基于深度学习的语言模型，对相应的信息进行组织，以形成视频摘要。

通过上述实施例，提出了一种生成视频摘要的装置。一方面，本公开实施例的生成视频摘要的装置的可以高效地对各类视频自动生成视频摘要，避免或显著减少了人工参与，从而减少了大量的人力成本。另一方面，本公开可根据用户的需求，有针对性地、灵活地生成视频摘要，提高用户的满意度。

为了更清晰地展示本公开的技术方案，下面将参照图描述根据本公开的其中一个具体实施方式的。图4示出了根据本公开的实施例的用于生成视频摘要的装置的示意性框图。

如图4所示，在某些实施例中，用于生成视频摘要的装置400可以包括：图像获取模块310，被配置为获取视频中的至少一帧图像。感知模块440，被配置为感知至少一帧图像中的内容信息。某些实施例中，感知模块440中包括目标检测单元442，标检测单元442被配置检测图像中的目标，例如人物、动物及其其他各种物体。感知模块440中还包括OCR单元，OCR单元444被配置为识别图像中的文字信息，例如字幕信息。某些实施例中，感知模块440中还包括名人识别单元446，名人识别单元446被配置为识别图像中的名人，其尤其适合于综艺类视频的识别。某些实施例中，感知模块440中还包括人脸识别单元448，被配置为识别图像中的人脸。在某些实施例中，装置400可以包括语音提取模块410，语音提取模块410被配置为从视频中提取音频。在某些实施例中，装置400可以包括语音文本生成模块420，语音文本生成模块420被配置为对语音提取模块410提取的音频进行语音识别，以生成语音的文本信息。关键内容获取模块430，被配置为从语音文本生成模块420生成的语音文本中以及从感知模块440感知的内容信息中获取关键内容信息。在某些实施例中，装置400可以包括人物追踪模块450，人物追踪模块450被配置为追踪视频中的人物的时间线信息。人物内容匹配模块460，被配置为将人物和之前获取到的关键信息进行融合。在某些实施例中，装置400可以包括视频信息配置模块470，被配置为预先设定视频摘要的配置信息。例如，配置模板中包含的各个字段，例如，视频名称、主要人物、视频类别、年代等。在某些实施例中，装置400可以包括内容组织模块480，内容组织模块480被配置为对之前生成的结构化信息进行组织，例如根据视频信息配置模块470配置的信息，从上述结构化好的数据中进行相关描述的抽取，并按照预定的格式进行排列，等等。在某些实施例中，装置400可以包括视频摘要生成模块340，其被配置为基于从内容组织模块480输出的结构化信息，生成视频摘要。

在某些实施例中，感知模块440被配置为实现人物-OCR-语音匹配，将人物出现的时间点与语音相结合，并通过深度学习模型对声音进行辨别，确定该人物的语音信息。然后根据识别的语音和OCR识别的字幕信息，确定人物的说话内容。将确定的说话内容和抽取的关键信息进行匹配，确定各个关键信息的归属，即确定各个关键信息归属于哪个或哪些人。此外，按照时间和人物线条将关键信息重新组合，得到视频内容的全部结构化信息。通过设置结构化信息，可以在后续生成视摘要的过程中，根据需要方便地提取相应的结构化信息。

图5示出了能够实施本公开的多个实施例的计算设备500的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元505，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如过程200、300。例如，在一些实施例中，过程200、300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的过程200、300的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200、300。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

18页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种安全可靠的集中器

生成视频摘要的方法、装置、设备、计算机可读存储介质

相关技术

网友询问留言