视频处理方法及设备、服务器、电子设备

文档序号：410561 发布日期：2021-12-17 浏览：18次 >En<

阅读说明：本技术 视频处理方法及设备、服务器、电子设备 (Video processing method and device, server and electronic device ) 是由张士伟夏朱荣唐铭谦于 2020-06-12 设计创作，主要内容包括：本申请实施例提供一种视频处理方法及设备、服务器、电子设备,该视频处理方法包括：获取待处理视频；将所述待处理视频按照第一维度信息分类,获取至少一个第一视频片段；将所述待处理视频按照第二维度信息分类,获取至少一个第二视频片段；利用所述至少一个第二视频片段修正所述至少一个第一视频片段,获得目标视频片段。本申请实施例通过自动对视频进行拆条提高了视频的拆条效率。(The embodiment of the application provides a video processing method and device, a server and an electronic device, wherein the video processing method comprises the following steps: acquiring a video to be processed; classifying the video to be processed according to first dimension information to obtain at least one first video clip; classifying the video to be processed according to second dimension information to obtain at least one second video clip; and modifying the at least one first video segment by using the at least one second video segment to obtain a target video segment. According to the embodiment of the application, the strip-disassembling efficiency of the video is improved by automatically disassembling the video.)

视频处理方法及设备、服务器、电子设备

技术领域

本申请涉及电子设备技术领域，尤其涉及一种视频处理方法及设备、服务器、电子设备。

背景技术

视频拆条是因互联网和新媒体短视频内容平台的需要对传统视频进行二次加工，将原来一条完整的视频按照某种逻辑思维或者特定需求拆分为多条视频，以挖掘有价值的信息，进行视频推荐等处理。一个完整的视频结束拆条时可以获得多个视频片段。

现有技术中，视频拆条主要是人工实现视频拆条。通常，员工可以播放该完整的视频，记录视频中需要拆条的目标视频片段的起始时间点以及终止时间点，之后，利用记录的目标视频片段的起始时间点以及终止时间点进行拆条。例如，将完整视频输入视频截取软件以及并填写拆条的起始时间、终止时间，以完成该起始时间以及终止时间对应视频片段的截取。

但是，采用人工拆条的方式耗时耗力，特别在完整视频较多的情况下，需要消耗大量人工成本，视频拆条的效率较低。

发明内容

有鉴于此，本申请实施例提供一种视频处理方法及设备、服务器、电子设备，用以解决现有技术中采用人工对视频进行拆条导致的拆条效率较低的技术问题。

第一方面，本申请实施例提供一种视频处理方法，包括：

获取待处理视频；

将待处理视频按照第一维度信息分类，获取至少一个第一视频片段；

将待处理视频按照第二维度信息分类，获取至少一个第二视频片段；

利用至少一个第二视频片段修正至少一个第一视频片段，获得目标视频片段。

第二方面，本申请实施例提供一种视频处理方法，包括：

接收用户端发送的待处理视频；其中，待处理视频由用户在用户端输入获得；

将待处理视频按照场景信息分类，获取至少一个场景片段；

将待处理视频按照情节信息分类，获取至少一个情节片段；

利用至少一个情节片段修正至少一个场景片段，获得目标视频片段；

发送目标视频片段至用户端，以供用户端为用户输出目标视频片段。

第三方面，本申请实施例提供一种视频处理方法，包括：

获取用户输入的待处理视频；

将待处理视频按照场景信息分类，获取至少一个场景片段；

将待处理视频按照情节信息分类，获取至少一个情节片段；

利用至少一个情节片段修正至少一个场景片段，获得目标视频片段；

为用户输出目标视频片段。

第四方面，本申请实施例提供一种视频处理方法，包括：

获取待处理视频；

确定所述待处理视频中不同视频内容对应的多个模态信息；

分别确定所述待处理视频中出现所述多个模态信息的视频片段，获得所述多个模态信息分别对应的模态片段；

将所述多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

第五方面，本申请实施例提供一种视频处理设备，包括：存储组件以及处理组件；存储组件用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件调用；

处理组件用于：

获取待处理视频；将待处理视频按照第一维度信息分类，获取至少一个第一视频片段；将待处理视频按照第二维度信息分类，获取至少一个第二视频片段；利用至少一个第二视频片段修正至少一个第一视频片段，获得目标视频片段。

第六方面，提供一种服务器，包括：存储组件以及处理组件；存储组件用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件调用；

处理组件用于：

接收用户端发送的待处理视频；其中，待处理视频由用户在用户端输入获得；将待处理视频按照场景信息分类，获取至少一个场景片段；将待处理视频按照情节信息分类，获取至少一个情节片段；发送目标视频片段至用户端，以供用户端为用户输出目标视频片段。

第七方面，提供一种电子设备，包括：存储组件以及处理组件；存储组件用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件调用；

处理组件用于：

获取用户输入的待处理视频；将待处理视频按照场景信息分类，获取至少一个场景片段；将待处理视频按照情节信息分类，获取至少一个情节片段；利用至少一个情节片段修正至少一个场景片段，获得目标视频片段；为用户输出目标视频片段。

第八方面，本申请实施例提供一种视频处理设备，包括：存储组件以及处理组件；所述存储组件用于存储一条或多条计算机指令，所述一条或多条计算机指令用于被所述处理组件调用；

所述处理组件用于：

获取待处理视频；确定所述待处理视频中不同视频内容对应的多个模态信息；分别确定所述待处理视频中出现所述多个模态信息的视频片段，获得所述多个模态信息分别对应的模态片段；将所述多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

本申请实施例，获取待处理视频之后，可以将待处理视频按照第一维度信息分类，获取至少一个第一视频片段，还可以将待处理视频按照第二维度信息分类，获取至少一个第二视频片段，从而利用至少一个第二视频片段修正第一视频片段，获得目标片段。通过采用两个不同的维度信息获取待处理视频中的视频片段，可以获得不同维度下提取获得的视频片段，从而利用不同维度下获得的视频片段进行片段修正，以获得目标视频片段。实现目标视频片段的自动获取，实现待处理视频的自动拆条，提高视频拆条效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频处理方法的一个实施例的流程图；

图2为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图3为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图4为本申请实施例提供的一种模态片段的时间段示意图；

图5为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图6为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图7为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图8为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图9为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图10a～图10c为本申请实施例提供的一种视频处理方法的示例图；

图11为本申请实施例提供的一种视频处理方法的又一个实施例的流程图；

图12为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图；

图13为本申请实施例提供的一种服务器的一个实施例的结构示意图；

图14为本申请实施例提供的一种电子设备的一个实施例的结构示意图；

图15为本申请实施例提供的一种视频处理设备的又一个实施例的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于识别”。类似地，取决于语境，短语“如果确定”或“如果识别(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当识别(陈述的条件或事件)时”或“响应于识别(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

本申请实施例的技术方案可以应用于视频拆条场景中，通过将待处理视频按照场景拆分之后，利用视频内容对拆分出来的片段进行修正，以实现待处理视频的自动拆条。

现有技术中，视频拆条是互联网和新媒体领域中出于对视频内容的需要进行的一次再加工。视频拆条一般使用人工方式进行，例如，用户可以记录视频中需要拆条的视频片段的起始时间以及终止时间，然后根据记录的起始时间以及终止时间，从待处理视频进行视频拆条。但是这种拆条方式需要人工记录视频拆条时间并手动拆条，耗时耗力，效率较低。

为了解决该技术问题，本申请实施例中，获取待处理视频之后，可以将待处理视频按照第一维度信息分类，获取至少一个第一视频片段，还可以将待处理视频按照第二维度信息分类，获取至少一个第二视频片段，从而利用至少一个第二视频片段修正第一视频片段，获得目标片段。通过采用两个不同的维度信息获取待处理视频中的视频片段，可以获得不同维度下提取获得的视频片段，从而利用不同维度下获得的视频片段进行片段修正，以获得目标视频片段。实现目标视频片段的自动获取，实现待处理视频的自动拆条，提高视频拆条效率。

下面将结合附图对本申请实施例进行详细描述。

如图1所示，为本申请实施例提供的一种视频处理方法的一个实施例的流程图，该方法可以包括以下几个步骤：

101：获取待处理视频。

102：将待处理视频按照第一维度信息分类，获取至少一个第一视频片段。

103：将待处理视频按照第二维度信息分类，获取至少一个第二视频片段。

可选地，第一维度信息与第二维度信息不同。

维度信息是指能够代表待处理视频的不同类型的特征。第一维度信息与第二维度信息可以通过不同的特征模型或者特征类型来定义，第一维度信息与第二维度信息的不同主要体现在特征类型或者特征模型的不同，二者分别代表不同类型的特征。例如，时间维度与内容维度属于两种不同的维度。在一些实施例中，第一维度信息可以是时间和空间的综合维度，第二维度信息可以是内容维度。

104：利用至少一个第二视频片段修正至少一个第一视频片段，获得目标视频片段。

利用至少一个第二视频片段修正至少一个第一视频片段可以包括利用至少一个第二视频片段以及至少一个第一视频片段进行视频片段的交集处理，获得目标视频片段。

本申请实施例中，获取待处理视频之后，可以将待处理视频按照第一维度信息分类，获取至少一个第一视频片段，还可以将待处理视频按照第二维度信息分类，获取至少一个第二视频片段，从而利用至少一个第二视频片段修正第一视频片段，获得目标片段。通过采用两个不同的维度信息获取待处理视频中的视频片段，可以获得不同维度下提取获得的视频片段，从而利用不同维度下获得的视频片段进行片段修正，以获得目标视频片段。实现目标视频片段的自动获取，实现待处理视频的自动拆条，提高视频拆条效率。

在一些实施例中，第一维度信息可以为待处理视频中的场景信息，第二维度信息可以为待处理视频中的情节信息。

如图2所示，为本申请实施例提供的一种视频处理方法的一个实施例的流程图，该方法可以包括以下几个步骤：

201：获取待处理视频。

202：将待处理视频按照场景分类，获取至少一个场景片段。

本申请实施例所提供的视频处理方法可以应用于电子设备或者与电子设备对应的服务器中。该电子设备例如可以包括：手机、平板电脑、笔记本电脑、可穿戴设备、智能音箱、计算机等，本申请实施例对电子设备的具体类型不作过多限定。与电子设备对应的服务器可以基于有线或无线等通信连接方式实现与电子设备的通信，该服务器具体可以包括：计算机、超级笔记本等普通服务器或者云服务器，本申请实施例对服务器的具体类型不作过多限定。

当本申请所提供的技术方案应用于电子设备时，待处理视频可以是电子设备获取的。当本申请所提供的技术方案应用于与电子设备对应的服务器时，待处理视频可以由电子设备获取并发送至该服务器的。

待处理视频可以包括多种视频类型，例如可以包括3GP、AVI、FLV、MP4、M3U8、MPG、ASF、WMV、MOV、TS、WebM等类型，本申请实施例对待处理视频的具体类型不作过多限定。

场景是指以视频片段中在一定的时间以及空间内发生的事情片段，同一个场景中的人物、背景、地点、动作和/或行为等内容具有一定的连贯性。例如，小明在地铁车厢中打电话与小明在家里打电话是两个不同场景。场景信息可以由视频帧中的背景、光线、色调、构图、人物等信息构成。在待处理视频的某个片段中，如果该片段的图像帧的背景、光线、色调、构图、人物等信息在该段视频对应的连续的时间内通常不发生变化或者变化很小，此时，这段连续的时间对应的视频片段即为一个场景片段。

场景片段可以由多个连续的镜头片段构成，同一个场景片段中的多个镜头片段具有一定的特征相似性。

待处理视频可以包括多个场景片段。多个场景片段按照每个场景片段在待处理视频中的时间排序时，任意两个向相邻的场景片段可以不具备相同的部分视频片段，也就是任意两个相邻的场景片段不存在重叠的视频片段。

203：将待处理视频中按照情节信息分类，获取至少一个情节片段。

待处理视频中的视频内容实际由人物、背景、地点、动作和/或行为等内容综合构成。情节信息可以包括待处理视频中的人物、背景、地点、动作和/或行为等模态信息。可以为情节信息定义多个模态信息，分别获取每个模态信息对应的情节片段。例如，可以将待处理视频中的人物作为一个模态信息，进行情节片段的提取，将动作作为一个模态信息进行情节片段的提取。

任一个情节片段与其他情节片段包含的视频内容不同，任一个情节片段从视频的时间维度上是连续的，不存在时间维度中断但是情节连续的情节片段。例如，假设A情节片段在待处理视频的第10分钟至15分钟，视频内容为小明与小李逛街；B情节片段在待处理视频的第23至25分钟，视频内容也为小明与小李逛街。AB两个情节片段虽然都是小明与小李逛街，但是时间上中断，所以A情节片段与B情节片段是两个不同的情节片段。

获取待处理视频中按照情节信息分类，获取至少一个情节片段可以包括：提取待处理视频中的文字内容；基于自然语言处理算法，对待处理视频的文字内容进行分段处理，获得至少一个文字分段结果；根据至少一个文字分段结果在待处理视频中分别对应的起始时间以及终止时间，获得至少一个情节片段。

至少一个情节片段中可以不存在与任一个情节片段的部分片段相同的一个或多个情节片段。

204：利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

利用至少一个情节片段修正至少一个场景片段，获得目标视频片段可以包括：利用至少一个情节片段分别修正至少一个场景片段，获得目标视频片段；其中，目标视频片段可以包括多个。至少一个情节片段依次修正每个场景片段，以获得相应的目标视频片段。利用至少一个情节片段修正任一个场景片段时，获得的目标视频片段数量不定，可能是一个，也可能是多个。

本申请实施例中，将待处理视频按照场景划分为至少一个场景片段，之后，可以获取待处理视频中按照情节信息划分，获得至少一个情节片段，从而可以利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。获得的目标视频片段中融合了使得场景与视频两种信息，获得精度更高。通过将待处理视频以场景以及视频内容两方面的角度考虑，实现对待处理视频的视频片段自动获取，也即进行自动化拆条，提高视频拆条效率。

由于视频中可能存在没有声音或者只有音乐背景的情况，因此，仅通过视频内容中的文字内容对待处理视频进行情节划分不够准确，为了获得更准确的情节片段，可以对待处理视频进行模态信息的提取，以实现对待处理视频的准确分析。

如图3所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

301：获取待处理视频。

302：将待处理视频按照场景信息分类，获取至少一个场景片段。

本申请部分步骤与图1所示实施例的步骤相同，在此不再赘述。

303：确定待处理视频中不同视频内容对应的多个模态信息。

待处理视频中包括丰富的视频内容。为了对待处理视频中的视频内容进行场景分析，可以为待处理视频的视频内容设置不同的模态信息。模态信息可以指视频中包含的内容具体的表达模式，例如，视频内容中的文字、人物、动作、行为、背景、地点和/或工具、车辆等等视频中可能出现的内容元素。模态信息可以根据待处理视频的视频内容预先定义。例如，在待处理视频为电影时，可以将电影的主要演员的人脸图像均作为模态信息。

304：分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段。

模态信息可以为待处理视频中的文字、人物、动作、行为等元素，模态信息在待处理视频中出现时，可以确认该模态信息在待处理视频中的起始时间，当模态信息不再在待处理视频中出现时，可以确定该模态信息在待处理视频中的终止时间。

其中，任一模态信息在该待处理视频中出现的时间段可能存在间断性，任一个模态信息对应的模态片段可以包括至少一个，任一个模态信息对应的至少一个模态片段中不存在部分片段相同的任意两个模态片段，也即，任一个模态信息对应的任意两个模态片段互不重叠。例如，在待处理视频为电影视频时，人物A可能在10分至13分出现，还可能在25至30分出现，此时模态信息：人物A，对应的模态片段可以包括10分至13分的视频片段，以及25至30分的视频片段。

其中，任一个模态信息的至少一个模态片段中可以存在与其他模态信息的任一个模态片段部分片段相同的模态片段。

例如，在待处理视频为电影视频时，可以定义两个模态信息，分别为人物A与人物B，在该场景中，人物A对应模态片段为a片段，人物B对应的模态片段为b片段，其中，a片段的出现时间早于b片段的出现时间。其中，人物A与人物B交流的视频片段为c片段，a片段中存在该c片段，b片段中也存在该c片段，c片段即为a片段与b片段中相同的部分片段。

需要说明的是，本申请实施例中涉及的片段是时间上连续的一段视频，期间无中断。

305：将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

在实际应用中，两个或者多个模态片段之间可以存在相同的部分片段，其中，存在部分片段相同的任意两个模态片段分别对应不同的模态信息。存在部分片段相同的两个或多个模态片段在故事情节或者视频内容的含义上存在一定的连贯性，因此，可以将多个模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

其中，任一个情节片段可以由故事情节连续的、视频内容关联的多个模态片段融合获得，但是，情节片段并不只包括多个模态片段，还可以包括待处理视频中未被认为是模态片段的视频片段，以确保情节片段的连续性以及完整性。

将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段可以包括：将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段划分至同一模态片段集合，获得至少一个模态片段集合；分别将至少一个模态片段集合中存在部分片段相同的模态片段按照时间顺序进进行合并，获得至少一个情节片段。

在分别将至少一个模态片段集合中存在部分片段相同的模态片段按照时间顺序进行合并，获得至少一个情节片段可以包括：将至少一个模态片段按照时间顺序进行排列，并将排列后的模态片段中相同的部分片段进行合并，获得情节片段。以上述人物A与人物B的交流场景为例，在该场景中，a片段与b片段相同的部分片段为c片段，按照时间顺序，a片段位于b片段之前，可以将a片段与b片段中的c片段进行合并，获得d情节片段。

306：利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

本申请实施例中，将待处理视频按照场景信息分类，获取至少一个场景片段，以及在将待处理视频按照情节信息划分，以获得至少一个情节片段时，可以确定待处理视频中不同视频内容对应的多个模态信息，并分别确定待处理视频中出现任一模态信息的视频片段，获得该模态信息对应的模态片段，以确定多个模态信息分别对应的模态片段。通过将视频内容以模态信息标识，以获得不同模态信息来对待处理视频中的故事情节进行数据划分，以获得准确的至少一个情节片段。之后，在利用至少一个情节片段修正至少一个场景片段时，可以获得更准确的目标视频片段。

在确定待处理视频中的模态信息对应的多个模态片段时，可以基于视频的时间轴进行模态片段的分析。模态信息在视频中出现时间连续，因此，可以通过模态信息在待处理视频中的模态起始时间以及模态终止时间确定模态片段。

作为一个实施例，分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段可以包括：

针对任一个模态信息，确定待处理视频中出现模态信息的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间。

其中，任一个模态起始时间对应的模态终止时间小于位于模态起始时间之后的任一个模态起始时间。

根据任一个模态信息对应的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间，确定模态信息在待处理视频中对应的至少一个模态片段，以获得多个模态信息分别对应的模态片段。

待处理视频中出现任一模态信息的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间可以根据检测待处理视频中是否存在模态信息而确定。在任一个模态信息对应的模态起始时间以及该模态起始时间对应的模态终止时间之间的时间段内，该模态信息是持续存在的，也即该模态起始时间以及模态终止时间对应的视频片段的每一帧图像中均可以检测到该模态信息。

模态信息可以在待处理视频中出现至少一次，可以检测任一个模态信息在待处理视频中每一次出现的起始时间以及终止时间，作为该模态信息对应的一组模态起始时间以及模态终止时间。提取任一个模态信息对应的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间对应的时间段在待处理视频中的视频片段，获得至少一个模态片段。一个模态信息可以对应至少一个模态片段。

本申请实施例中，在获取任一模态信息的对应的模态片段时，可以分别确定待处理视频中出现任一模态信息的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间；任一模态起始时间对应的模态终止时间小于模态起始时间之后的任一个模态起始时间。

作为一种可能的实现方式，将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段包括：

针对任一个模态信息，确定模态信息对应的至少一个模态起始时间分别与至少一个模态起始时间对应的模态终止时间对应的时间段，获得模态信息对应的至少一个时间段。

根据多个模态信息分别对应的至少一个时间段，将存在部分时间段相同的时间段划分至同一个时间段集合中，获得至少一个时间段集合。

其中，任一个时间段集合的多个时间段中存在与时间段集合中的任一个时间段部分时间段相同的至少一个时间段。

针对任一个时间段集合，确定时间段集合的多个时间段各自对应的模态起始时间以及模态终止时间中的最小模态起始时间以及最大模态终止时间；

确定至少一个时间段集合分别对应的最小模态起始时间以及最大模态终止时间在待处理视频中对应的视频片段，获得至少一个情节片段。

在根据多个模态信息分别对应的至少一个时间段，将存在部分时间段相同的时间段划分至同一个时间段集合中时，具体可以是，如果任意两个时间段存在部分时间段相同，可以将这两个时间段划分至同一个时间段集合中，直至遍历多个模态信息分别对应的至少一个时间段结束，且，任一个时间段仅属于一个时间段集合，不存在一个时间段同时属于两个或两个以上的时间段集合的划分方式。例如，如果A时间段已被划分至一个时间段集合，那么未被划分至某个时间段集合的B时间段如果存在与该A时间段相同的部分时间段，可以将B时间段划分至A时间段所在的时间段集合。

为了便于理解，以待处理视频的时间轴长度为0～200s为例，假设多个模态片段分别对应的时间段以该时间轴为标准，图4中，A模态片段的A时间段401为30至50秒，B模态片段的B时间段402为45至60秒，C模态片段的C时间段403为38至100秒，D模态片段的D时间段404为150至180秒。如图4所示，A时间段401、B时间段402以及C时间段403均存在部分时间段相同，可以将A时间段401、B时间段402以及C时间段403划分至同一个时间段集合。D时间段404与A时间段401、B时间段402以及C时间段403均不存在部分时间段相同，D时间段404属于另一个时间段集合。

本申请实施例中，将存在部分时间段相同的多个时间段划分至同一时间段集合中，获得至少一个时间段集合。其中，任一个时间段集合可以包括多个时间段，而每个时间段对应有模态起始时间以及模态终止时间，可以确定任一个时间端对应的多个时间段各自的模态起始时间以及模态终止时间中，最小模态起始时间以及最大模态终止时间，以获得该时间段集合对应的最小模态起始时间以及最大模态终止时间。从而可以获得每个时间段集合对应的最小模态起始时间以及最大模态终止时间在待处理视频中的视频片段，作为一个情节片段。通过使用模态片段的模态起始时间以及模态终止时间进行集合划分，以将具有时间上的连贯性的模态片段划分至同一集合中，实现对情节连续的情节片段的提取，获得最终的情节片段。提高情节片段划分的准确性以及精度。

作为一个实施例，利用至少一个情节片段修正至少一个场景片段，获得目标视频片段可以包括：

利用至少一个情节片段，获取基于任一个场景片段确定的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

作为一种可能的实现方式，利用至少一个情节片段，获取基于任一个场景片段确定的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段可以包括：

针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段；

如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

如果一个场景片段属于第一情节片段中的部分片段，可以将该场景片段作为一个目标视频片段。当一个场景片段属于一个情节片段时，该场景片段可能属于某个故事情节中的某个片段，但是该场景又是独立的，该场景片段可以作为一个独立的具有部分故事情节的片段，因此，可以将该场景片段作为一个目标视频片段，以获得以场景为单位的待处理视频片段。

在判断至少一个情节片段中是否存在包含某个场景片段的第一情节片段时，可以将该基于场景片段对应的时间段以及情节片段对应的时间段是否存在交集或者并集来确定。

如果一个场景片段包含一个情节片段，说明该场景片段包含了至少一个故事情节，可以基于该情节片段确定一个目标视频片段。

作为一种可能的实现方式，场景片段对应场景起始时间以及场景终止时间；情节片段对应情节起始时间以及情节终止时间；

针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段包括：

确定至少一个情节片段分别对应的情节起始时间以及情节终止时间；

针对任一个场景片段的场景起始时间以及场景终止时间，如果至少一个情节片段中存在情节起始时间小于或等于场景起始时间且情节起始时间对应的情节终止时间大于或等于场景终止时间的第一情节片段，确定场景片段为一个目标视频片段。

本申请实施例中，通过场景片段的场景起始时间以及场景终止时间，以及情节片段的情节起始时间以及情节终止时间，可以对一个场景片段是否划分为目标视频片段进行准确确认，可以提高目标视频片段获取的准确度以及效率。

如果第一情节片段中包含一个场景片段，将该第一情节片段中除该场景片段的情节部分片段可以作为新的情节片段。

在某些实施例中，在针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段之后，方法还可以包括：

将第一情节片段从至少一个情节片段中删除；

选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个情节片段中。

第一情节片段被场景片段划分为至少一个片段，其中一个片段为该场景片段。

在一些实施例中，情节起始时间可以等于场景起始时间且对应的情节终止时间可以等于场景终止时间，第一情节片段与场景片段相同，可以将场景片段直接作为一个目标视频片段。

在又一些实施例中，第一情节片段可以被其所包含的场景片段划分为两个视频片段或者三个视频片段，在划分后的多个视频片段中的其中一个即为场景片段，剩余的片段即可以作为新的情节片段。作为一种可能的实现方式，选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个情节片段中可以包括：

选取待处理视频在情节起始时间至场景起始时间之间的视频片段为第三情节片段；

选取待处理视频在场景终止时间至情节终止时间之间的视频片段为第四情节片段；

将第三情节片段以及第四情节片段作为新的情节片段增加到至少一个情节片段中。

当情节起始时间与场景起始时间相同时，第三情节片段为空。当场景终止时间与情节终止时间相同时，第四情节片段为空。

其中，第一情节片段的情节起始时间与其包含的场景片段的场景起始时间相同或者差值小于一定的时间阈值且情节终止时间大于该场景片段的场景终止时间时，第一情节片段被划分为两个情节子片段，此时，第三情节片段为空。第四情节片段可以作为一个新的情节片段，增加到至少一个情节片段中。

此外，第一情节片段的情节起始时间小于其包含的场景片段的场景起始时间，且情节终止时间与该场景片段的场景起始时间相同或者差值小于一定的时间阈值时，该第一情节片段也被划分为两个情节子片段，此时，第四情节片段为空。可以将第三情节片段作为新的情节片段，增加到至少一个情节片段中。

其中，时间阈值是一个较小的时间常量，可以根据实际需求而设定，例如可以是1秒或0.5秒。

另外，当第一情节片段的情节起始时间小于其包含的场景片段的场景起始时间，且情节终止时间大于该场景片段的场景终止时间时，第一情节片段被划分为三个情节子片段，此时，第三情节片段以及第四情节片段均不为空。第三情节片段以及第四情节片段即可以作为新的情节片段增加到至少一个情节片段中。

当一个情节片段属于一个场景片段时，可以将基于该情节片段确定一个目标视频片段。作为一种可能的实现方式，可以直接将该第二情节片段作为目标视频片段。

在一个场景片段包括一个情节片段时，该情节片段的情节起始时间以及情节终止时间分别对应的图像帧可能属于同一个情节但是可能并不恰好是一个完整镜头的分割点，如果直接将情节片段作为一个目标视频片段，可能会导致目标视频片段的在镜头维度上不够连续，可能两端为部分镜头片段，导致待处理视频的镜头完整性较低，浏览时不够流畅。因此，作为一种可能的实现方式，如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段可以包括：

如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段中包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的情节起始时间为第一时间以及对应的情节终止时间为第二时间；其中，场景片段由多个镜头片段构成；任一个镜头片段对应有镜头起始时间以及镜头终止时间；

确定该场景片段中的多个镜头片段中镜头起始时间小于第一时间且镜头终止时间大于第一时间的第一镜头片段；

确定该场景片段中的多个镜头片段中镜头起始时间小于第二时间且镜头终止时间大于第二时间的第二镜头片段；

获取第一镜头片段的镜头起始时间至第二镜头片段的镜头终止时间在待处理视频中对应的视频片段为目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

在实际应用中，情节片段中可以包括多个镜头片段。镜头片段可以由待处理视频进行镜头切分并聚合获得。至少一个场景片段的获取方式与图6所示实施例中的至少一个场景片段的获取方式相同，在此不再赘述。

本申请实施例中，在一个场景片段包含一个情节片段时，可以基于该情节片段分别对应的情节起始时间以及情节终止时间，确定该情节片段两端分别对应的镜头片段，使得获得的待处理视频保持镜头的完整性，使得待处理视频片段是一系列完整的镜头片段构成，浏览时较为流畅性较高。

如图5所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

501：获取待处理视频。

502：将待处理视频按照场景信息分类，获取至少一个场景片段。

503：将所述待处理视频按照情节信息分类，获取至少一个情节片段。

504：针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段。

505：将第一情节片段从至少一个情节片段中删除。

506：选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个情节片段中。

507：如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

需要说明的是，本申请实施例的部分步骤与前述实施例中的步骤相同，在此不再赘述。

本申请实施例中，将待处理视频按照场景信息分类，获取至少一个场景片段之后，可以将所述待处理视频按照情节信息分类，获取至少一个情节片段。从而再针对任一个场景片段，如果该至少一个情节片段中的第一情节片段包含场景片段，确定该场景片段为一个目标视频片段。之后，可以将第一情节片段从至少一个情节片段中删除，并选取第一情节片段中除该场景片段之外的片段作为新的情节片段增加到至少一个情节片段中。而如果该场景片段包含至少一个情节片段中的第二情节片段，可以确定该第二情节片段对应的目标视频片段。提供至少一个情节片段修正至少一个场景片段，使得场景片段与视频内容的结合更紧密，获得精度更高的目标视频片段。通过将待处理视频以场景以及视频内容两方面的角度考虑，实现对待处理视频的视频片段自动获取，也即进行自动化拆条，提高视频拆条效率。

在一些实施例中，如果直接将待处理视频按照场景信息分类，获取至少一个场景片段，例如，可以采用深度学习模型识别待处理视频中的场景片段，需要将训练视频以及训练视频实际的至少一个场景片段作为标签数据训练获得深度学习模型的模型参数。但是，由于训练视频的时长较长，如果直接采用深度学习模型将待处理视频划分为至少一个场景片段的方式训练数据内存较大，训练过程中需要进行大量的数据计算，训练较为困难，至少一个场景片段的获取效率较低。

为了提高至少一个场景片段的获取效率以及准确性。可以先将待处理视频以镜头为单位进行切分，再将切分后的镜头进行聚合的方式获得至少一个场景片段。由于一个镜头视频的时长较短，采用深度学习模型训练镜头切换点更为简单，且镜头切换过程容易检测，采用镜头切换检测方式训练更准确，可以快速检测待处理视频中的镜头切换点。

如图6所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

601：获取待处理视频。

602：确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点。

镜头切换点为待处理视频中由一个镜头切换至另一个镜头的时间点。

待处理视频中可以存在多个镜头切换点。

603：根据多个镜头切换点，将待处理视频划分为多个镜头片段。

根据多个镜头切换点，将待处理视频划分为多个镜头片段可以包括：将多个镜头切换点按照时间顺序排序后，从第一个镜头切换点开始，依次将每个镜头切换点作为镜头起始时间以及每个镜头切换点的下一个镜头切换点作为镜头终止时间，获得多个镜头起始时间以及多个镜头起始时间分别对应的镜头终止时间，依次获取待处理视频中任一个镜头起始时间以及该镜头起始时间分别对应的镜头终止时间对应的视频片段为镜头片段，以获得多个镜头片段。

604：将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合。

其中，镜头片段集合包括多个镜头片段。

605：分别确定至少一个镜头片段集合各自的至少一个镜头片段组合形成的至少一个场景片段。

606：将所述待处理视频按照情节信息分类，获取至少一个情节片段。

607：利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

需要说明的是，本申请实施例中部分步骤与前述实施例的部分步骤相同，在此不再赘述。

本申请实施例中，确定待处理视频中存在镜头切换的镜头切换点时，可以获得多个镜头切换点，以根据该多个镜头切换点，将待处理视频划分为多个镜头片段。之后，将多个镜头片段进行特征相似性聚合，可以获得至少一个镜头片段集合，其中，镜头片段集合包括多个镜头片段。从而可以分别确定至少一个镜头片段集合各自的至少一个镜头片段组合形成的至少一个场景片段。并在获取待处理视频中按照情节信息划分，获得至少一个情节片段并利用至少一个情节片段修正该至少一个场景片段，获得目标视频片段。通过检测待处理视频中的多个镜头切换点可以快速而准确地确定至少一个镜头片段，使得场景片段的获取依托于镜头，精度以及效率更高，以快速获得精度更高的目标视频片段，提高待处理视频的拆条效率。

在实际应用中，可以采用滑窗方式，对待处理视频中的镜头切换点进行检测。确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点可以包括：

按照预设窗口大小以及滑动步长，从待处理视频中选取多个窗口片段；

将多个窗口片段依次输入训练获得的镜头检测模型，获得多个窗口片段中存在镜头切换的多个目标窗口片段；

确定任一个目标窗口片段的片段中点在待处理视频对应的时间点为镜头切换点，以获得多个镜头切换点。

对待处理视频进行滑窗时采用的窗口大小以及滑动步长可以根据实际需求设定，如果对镜头切换点的镜头精度需求较高，可以采用较小的窗口大小以及滑动步长，例如，窗口大小可以设置为2秒，步长可以设置为1秒。在实际应用中。如果对镜头切换点的镜头精度需求不高，可以采用较大的窗口大小以及滑动步长，例如，窗口大小可以设置为4秒，步长可以设置为2秒。

作为又一种可能的实现方式，将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合；其中，镜头片段集合包括至少一个镜头片段可以包括：

提取多个镜头片段分别对应的镜头特征，获得多个镜头特征；

根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合，以获得至少一个镜头片段集合。

可选地，可以采用视频处理算法提取镜头片段的镜头特征。例如，可以采用深度学习算法提取镜头片段的镜头特征，获得多个镜头特征。

根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合，以获得至少一个镜头片段集合可以包括：采用分类算法，将多个镜头特征按照特征相似度经分类，获得至少一个镜头片段集合。其中，任一个镜头片段集合包括至少一个镜头片段。

在一种可能的设计中，根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合，以获得至少一个镜头片段集合可以包括：

将多个镜头特征按照各自对应的镜头片段的起始时间进行排序，获得排序后的多个镜头片段；

确定第一个镜头片段为参考镜头片段；

依次确定位于参考镜头片段之后且两两相邻的N个镜头片段；其中，N为大于1的正整数；

根据多个镜头特征，分别确定参考镜头片段与N个镜头片段的特征相似度；

如果参考镜头片段与其相邻的N个镜头片段的特征相似度的最大值大于预设第一阈值，确定最大特征相似度对应的镜头片段为新的参考镜头片段；返回至依次确定位于参考镜头片段之后且两两相邻的N个镜头片段的步骤继续执行；

如果镜头片段与其相邻的N个镜头片段的特征相似度的最大值小于预设第一阈值，确定位于参考镜头片段至最大特征相似度对应的镜头片段之间的所有镜头片段为一个镜头片段集合，并确定最大特征相似度对应的镜头片段的下一个镜头片段为参考镜头片段，返回至依次确定位于参考镜头片段之后且两两相邻的N个镜头片段的步骤继续执行。

本申请实施例中，在根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合时，可以将多个镜头特征按照各自对应的镜头片段的起始时间进行排序，获得排序后的多个镜头片段。将排序后的第一个镜头片段作为参考镜头片段，从而可以依次确定位于参考镜头片段之后且两两相邻的N个镜头片段，以确定参考镜头片段与其附近的镜头片段的特征像素度，如果参考镜头片段的与其相邻的N个镜头片段的特征相似度的最大值如果大于预设第一阈值，说明参考镜头片段与位于其后的N个镜头片段中存在满足特征相似度条件的镜头片段，为了确定准确的镜头片段的分类结果，可以将特征相似度最大值对应的镜头片段作为新的镜头片段，继续进行镜头片段的镜头特征分类过程。如果镜头片段与其相邻的N个镜头片段的特征像素度的最大值小于预设第一阈值，说明该镜头片段与其之后的N个镜头片段均不慢足特征相似度的划分条件，因此，可以确定此时完成一个镜头片段的分类，获得一个镜头片段集合。通过采用对镜头片段以及位于其后的N个特征相似度开始，将多个镜头片段的镜头特征作为的像素点的基础分类，提高分类效果。

如图7所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

701：获取待处理视频。

702：确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点。

703：根据多个镜头切换点，将待处理视频划分为多个镜头片段。

704：将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合。

其中，镜头片段集合包括至少一个镜头片段。

705：分别确定至少一个镜头片段集合各自的至少一个镜头片段组合形成的至少一个场景片段。

706：确定待处理视频中不同视频内容对应的多个模态信息。

707：分别确定待处理视频中出现任一模态信息的视频片段，获得模态信息对应的模态片段，以确定多个模态信息分别对应的模态片段。

708：将多个模态信息分别对应的模态片段中存在相同的部分片段的模态片段进行合并处理，获得至少一个情节片段。

709：遍历至少一个场景片段，针对任一个场景片段，判断至少一个情节片段中是否存在包含场景片段的第一情节片段，如果是，执行步骤710；如果否，执行步骤713。

710：确定场景片段为一个目标视频片段。

711：将第一情节片段从至少一个情节片段中删除。

712：选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个情节片段中。

713：判断场景片段是否包含至少一个情节片段中的第二情节片段，如果是，执行步骤714，如果否，直接返回步骤709，获取下一个场景片段。

714：确定第二情节片段对应的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

本申请实施例中。确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点，之后，可以根据多个镜头切换点，将待处理视频划分为多个镜头片段。通过将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合。而至少一个镜头片段集合中包括至少一个镜头片段，从而可以分别确定至少一个镜头片段集合各自的至少一个镜头片段组合形成的至少一个场景片段。通过这种方式获取的至少一个场景片段准确度更高。通过确定待处理视频中不同视频内容对应的多个模态信息，可以分别确定待处理视频中出现任一模态信息的视频片段，获得模态信息对应的模态片段，以确定多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。遍历至少一个场景片段，以针对任一个场景片段，如果至少一个情节片段中的第一情节片段包括该场景片段，可以确定该场景片段为一个目标视频片段。将第一情节片段从至少一个情节片段中删除。选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个场景片段中。针对任一个场景片段，如果该场景片段包含至少一个情节片段中的第二情节片段，可以确定第二情节片段对应的目标视频片段。通过使用场景片段以及情节片段进行不断修正，实现对目标视频片段的准确获取。

在一些实施例中，目标视频片段可以包括多个，在获得多个目标视频片段之后，该方法还可以包括：

将多个目标视频片段进行拼接处理，获得综合视频。

将多个目标视频片段进行拼接处理时可以采用现有的视频拼接算法，在此不再赘述。

作为一种可能的实现方式，将多个目标视频片段进行拼接处理，获得综合视频可以包括：

从多个目标视频片段中选取满足拼接条件的多个候选视频片段；

将多个候选视频片段进行拼接处理，获得综合视频。

通过从多个目标视频片段中选取满足拼接条件的多个候选视频片段可以对拼接的视频片段进行了选择，使得用于拼接的多个候选视频片段具备拼接条件，避免盲目将多个目标视频片段进行拼接，提高综合视频的视频质量。

在一些实施例中，从多个目标视频片段中选取满足拼接条件的多个候选视频片段可以包括：

为用户输出多个目标视频片段，以供用户从多个目标视频片段中选择多个候选视频片段；

获取用户选择的多个候选视频片段。

通过与用户交互方式获取用户选择的多个候选视频片段，使得多个候选视频片段为用户关注的内容，实现用户的个性化选择，突出综合视频的个性化特性。

在又一些实施例中，从多个目标视频片段中选择满足拼接条件的多个候选视频片段包括：

基于多个目标视频片段的片段内容，确定多个目标视频片段对应的内容分数；

从多个目标视频片段中选择内容分数满足预设分数阈值的目标视频片段为多个候选视频片段。

将多个目标视频片段的片段内容进行打分，可以对多个目标视频片段的片段内容进行量化，可以获得片段内容更丰富的候选视频片段，提高综合视频的视频质量。

在实际应用中，可能存在局部信息需要替换的需求，例如，视频中人脸的替换，视频中的背景替换等。作为一种可能的实现方式，在获得目标视频片段之后，该方法还可以包括：

确定目标视频片段对应的多个图像帧；

基于预设关键信息，检测多个图像帧中存在关键信息的关键图像帧；

确定替换关键信息的目标信息；

将关键图像帧中的关键信息替换为目标信息，获得目标图像帧；

利用目标图像帧以及多个图像帧中除关键图像帧之外的图像帧，生成替换视频片段。

可选地，关键信息可以为人脸信息、背景信息或者物品信息等类型的信息。替换信息也可以为人脸信息、背景信息或者物品信息等类型的信息。关键信息以及替换信息可以根据实际的替换需求而设置，本申请实施例中对关键信息以及替换信息的具体类型以及内容不作出过多限定。

用于替换关键信息的目标信息的信息类型与关键信息的信息类型可以相同，例如，关键信息为人脸信息时，目标信息也可以为人脸信息。当然，关键信息的信息类型也可以与目标信息的信息类型不同，例如，关键信息可以为人脸，目标信息可以为物品。

可选地，目标视频片段中的图像帧均可以对应有时间戳。目标图像帧的时间戳与其对应的关键图像帧的时间戳相同。可以确定关键图像帧的时间戳为目标图像帧的时间戳。

利用目标图像帧以及多个图像帧中除关键图像帧的图像帧生成替换视频片段可以包括：利用目标图像帧的时间戳，以及多个图像帧中除关键图像帧之外的图像帧的时间戳，依次将目标图像帧以及多个图像帧中除关键图像帧之外的图像帧进行排序；根据排序之后的目标图像帧以及多个图像帧中除关键图像帧之外的图像帧，生成替换视频片段。

通过检测目标视频片段中的多个图像帧中是否存在关键信息，以获取关键图像帧，从而利用目标信息替换关键图像帧中的关键信息，获得目标图像帧，并利用获得的目标图像帧重新生成视频片段，以完成目标视频片段的自动替换，提高目标视频片段的某些局部信息的替换效率。

如图8所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

801：获取用户输入的待处理视频。

802：将待处理视频按照场景信息分类，获取至少一个场景片段。

803：将待处理视频按照情节信息分类，获取至少一个情节片段。

804：利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

805：为用户输出目标视频片段。

本申请实施例中，用户可以在用户端输入待处理视频，用户端通过将待处理视频按照场景信息分类，获取至少一个场景片段，将待处理视频按照情节信息分类，获取至少一个情节片段之后，利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。用户端可以为用户输出目标视频片段。用户端可以为用户的待处理视频进行剪裁，以提高视频拆分效率。

如图9所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

901：接收用户端发送的待处理视频。

其中，待处理视频由用户在用户端输入获得。

902：将待处理视频按照场景信息分类，获取至少一个场景片段。

903：将待处理视频按照情节信息分类，获取至少一个情节片段。

904：利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

905：发送目标视频片段至用户端，以供用户端为用户输出目标视频片段。

本申请实施例中，可以接收用户端发送的待处理视频，并将待处理视频按照场景信息划分为至少一个场景片段，获得待处理视频中按照情节信息分类，获得至少一个情节片段。通过利用至少一个情节片段修正至少一个场景片段，可以获得目标视频片段。之后，可以发送目标视频片段至用户端，以供用户端为用户输出目标视频片段。通过与用户端交互可以实现为用户进行待处理视频进行智能的目标视频片段的提取，可以减少用户端的处理压力，实现线上的视频自动拆条，提高视频的拆条效率。

为了便于理解，分别以在服务器以及电子设备执行本申请实施例的技术方案进行示例。如图10a所示，以用户端为计算机M1、服务器为云服务器M2为例详细介绍本申请实施例在服务器执行时的一个示例图。

计算机M1可以获取用户上传的待处理视频，并将待处理视频发送1001至服务器。

服务器M2获取待处理视频之后，可以将待处理视频按照第一维度信息分类，获取1002至少一个第一视频片段，之后，可以将待处理视频按照第二维度信息分类，获取1003至少一个第二视频片段，从而利用至少一个第二视频片段修正1004至少一个第一视频片段，获得目标视频片段。服务器M2还可以将目标视频片段发送1005至计算机M1，供计算机M1输出该目标视频片段。

在用户端直接执行本申请实施例的技术方案时，以用户端为平板电脑为例，详细介绍本申请实施例的技术方案。

如图10b所示，用户可以通过视频上传提示控件1007将待处理视频1006上传到平板电脑M3上，例如，该视频上传提示控件1007的控件名称可以为“上传视频”。例如，待处理视频可以是用户通过视频下载程序下载获得，之后上传到平板电脑M3的视频拆条程序中。通常，平板电脑M3的视频拆条程序可以将待处理视频按照第一维度信息1008分类，获取至少一个第一视频片段，将待处理视频按照第二维度信息1009分类，获得至少一个第二视频片段，以利用至少一个第二视频片段修正至少一个第一视频片段，获得1010目标视频片段。平板电脑M3可以将目标视频片段展示给用户。

在一种可能的设计中，平板电脑M3可以将获得的目标视频片段依次保存为独立的视频，并将多个视频进行展示给用户，供用户保存。在又一种可能的设计中，为了使用户明确待处理视频中的目标视频片段所在的位置，平板电脑M3可以将目标视频片段在待处理视频中的时间段在待处理视频的时间进度条上展示。为了便于理解，如图10c所示，在平板电脑M3的显示平面中，待处理视频的时间进度条中，可以将目标视频片段在待处理视频中对应的时间段1011突出显示，时间进度条中显示了多个目标视频片段对应的时间段1011。需要说明的是，图10c的显示方式仅仅是示意性的，并不构成对本申请实施例的技术方案的限定。

如图11所示，为本申请实施例提供的一种视频处理方法的又一个实施例的流程图，该方法可以包括：

1101：获取待处理视频。

1102：确定待处理视频中不同视频内容对应的多个模态信息。

1103：分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段。

1104：将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

可选地，该方法还可以包括：将待处理视频按照场景信息分类，获取至少一个场景片段。

可选地，在将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段之后，该方法还可以包括：

利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

本申请实施例的部分步骤与前述实施例的部分步骤相同，本申请实施例中各个步骤的具体实现方式以及执行的步骤具体可以参考前述实施例中的内容，在此不再赘述。

本申请实施例中，可以确定待处理视频中不同视频内容对应的多个模态信息，并分别确定待处理视频中出现任一模态信息的视频片段，获得该模态信息对应的模态片段，以确定多个模态信息分别对应的模态片段。通过将视频内容以模态信息标识，以获得不同模态信息来对待处理视频中的故事情节进行数据划分，以获得准确的至少一个情节片段。

如图12所示，为本申请实施例提供的一种视频处理设备的一个实施例的结构示意图，该视频处理设备可以包括：存储组件1201以及处理组件1202；存储组件1201用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件1202调用；

处理组件1202用于：

在某些实施例中，处理组件将待处理视频按照第一维度信息分类，获取至少一个第一视频片段具体可以包括：

将待处理视频按照场景信息分类，获取至少一个场景片段；

处理组件将待处理视频按照第二维度信息分类，获取至少一个第二视频片段具体可以包括：

将待处理视频按照情节信息分类，获取至少一个情节片段；

处理组件利用至少一个第二视频片段修正至少一个第一视频片段，获得目标视频片段具体可以包括：

利用至少一个情节片段修正至少一个场景片段，获得目标视频片段。

作为一个实施例，处理组件将待处理视频按照情节信息分类，获取至少一个情节片段可以包括：

确定待处理视频中不同视频内容对应的多个模态信息；

分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段；

将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

作为一种可能的实现方式，处理组件分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段具体可以包括：

针对任一个模态信息，确定待处理视频中出现模态信息的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间；其中，模态信息的任一个模态起始时间对应的模态终止时间小于位于模态起始时间之后的任一个模态起始时间；

根据任一个模态信息对应的至少一个模态起始时间以及至少一个模态起始时间分别对应的模态终止时间，确定模态信息对应的至少一个模态片段，以获得多个模态信息分别对应的模态片段。

在某些实施例中，处理组件将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段具体可以包括：

针对任一个模态信息，确定模态信息对应的至少一个模态起始时间分别与至少一个模态起始时间对应的模态终止时间对应的时间段，获得模态信息对应的至少一个时间段；

根据多个模态信息分别对应的至少一个时间段，将存在部分时间段相同的时间段划分至同一个时间段集合中，获得至少一个时间段集合；其中，任一个时间段集合的多个时间段中存在与时间段集合中的任一个时间段部分时间段相同的至少一个时间段；

针对任一个时间段集合，确定时间段集合的多个时间段各自对应的模态起始时间以及模态终止时间中的最小模态起始时间以及最大模态终止时间；

确定至少一个时间段集合分别对应的最小模态起始时间以及最大模态终止时间在待处理视频中对应的视频片段，获得至少一个情节片段。

作为又一个实施例，处理组件利用至少一个情节片段修正至少一个场景片段，获得目标视频片段具体可以包括：

利用至少一个情节片段，获取基于任一个场景片段确定的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段。

作为一种可能的实现方式，处理组件利用至少一个情节片段，获取基于任一个场景片段确定的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段具体可以包括：

针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段；

在某些实施例中，场景片段对应场景起始时间以及场景终止时间；情节片段对应情节起始时间以及情节终止时间；

处理组件针对任一个场景片段，如果至少一个情节片段中的第一情节片段包含场景片段，确定场景片段为一个目标视频片段具体可以包括：

确定至少一个情节片段分别对应的情节起始时间以及情节终止时间；

针对任一个场景片段的场景起始时间以及场景终止时间，如果至少一个情节片段中存在情节起始时间小于或等于场景起始时间且对应的情节终止时间大于或等于场景终止时间的第一情节片段，确定场景片段为一个目标视频片段。

作为又一个实施例，处理组件还用于：

将第一情节片段从至少一个情节片段中删除；

选取第一情节片段中除场景片段之外的视频片段作为新的情节片段增加到至少一个情节片段中。

在某些实施例中，处理组件选取第一情节片段中除场景片段之外的片段作为新的情节片段增加到至少一个情节片段中具体可以包括：

选取待处理视频在情节起始时间至场景起始时间之间的视频片段为第三情节片段；

选取待处理视频在场景终止时间至情节终止时间之间的视频片段为第四情节片段；

将第三情节片段以及第四情节片段作为新的情节片段增加到至少一个情节片段中。

在某些实施例中，处理组件处理如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的目标视频片段，以获得基于至少一个场景片段分别确定的目标视频片段具体可以包括：

如果至少一个情节片段中不存在包含场景片段的第一情节片段，且场景片段中包含至少一个情节片段中的第二情节片段，确定第二情节片段对应的情节起始时间为第一时间以及对应的情节终止时间为第二时间；其中，场景片段由多个镜头片段构成；任一个镜头片段对应有镜头起始时间以及镜头结束时间；

确定场景片段的多个镜头片段中镜头起始时间小于第一时间且镜头终止时间大于第一时间的第一镜头片段；

确定场景片段的多个镜头片段中镜头起始时间小于第二时间且镜头终止时间大于第二时间的第二镜头片段；

作为又一个实施例，处理组件将待处理视频按照场景信息分类，获取至少一个场景片段具体可以包括：

确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点；

根据多个镜头切换点，将待处理视频划分为多个镜头片段；

将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合；其中，镜头片段集合包括多个镜头片段；

分别确定至少一个镜头片段集合各自的至少一个镜头片段组合形成的至少一个场景片段。

作为一种可能的实现方式，处理组件确定待处理视频中存在镜头切换的镜头切换点，获得多个镜头切换点具体可以包括：

按照预设窗口大小以及滑动步长，从待处理视频中选取多个窗口片段；

将多个窗口片段依次输入训练获得的镜头检测模型，获得多个窗口片段中存在镜头切换的多个目标窗口片段；

确定任一个目标窗口片段的片段中点在待处理视频对应的时间点为镜头切换点，以获得多个镜头切换点。

在某些实施例中，处理组件将多个镜头片段进行特征相似性聚合，获得至少一个镜头片段集合；其中，镜头片段集合包括至少一个镜头片段具体可以包括：

提取多个镜头片段分别对应的镜头特征，获得多个镜头特征；

根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合，以获得至少一个镜头片段集合。

在某些实施例中，处理组件根据多个镜头特征，将特征相似度满足相似性条件的镜头片段划分至同一镜头片段集合，以获得至少一个镜头片段集合具体可以包括：

将多个镜头特征按照各自对应的镜头片段的起始时间进行排序，获得排序后的多个镜头片段；

确定第一个镜头片段为参考镜头片段；

依次确定位于参考镜头片段之后且两两相邻的N个镜头片段；其中，N为大于1的正整数；

根据多个镜头特征，分别确定参考镜头片段与N个镜头片段的特征相似度；

作为一个实施例，目标视频片段包括多个；处理组件还可以用于：

将多个目标视频片段进行拼接处理，获得综合视频。

作为一种可能的实现方式，处理组件将多个目标视频片段进行拼接处理，获得综合视频具体可以包括：

从多个目标视频片段中选取满足拼接条件的多个候选视频片段；

将多个候选视频片段进行拼接处理，获得综合视频。

在某些实施例中，处理组件从多个目标视频片段中选取满足拼接条件的多个候选视频片段具体可以包括：

为用户输出多个目标视频片段，以供用户从多个目标视频片段中选择多个候选视频片段；

获取用户选择的多个候选视频片段。

在某些实施例中，处理组件从多个目标视频片段中选择满足拼接条件的多个候选视频片段具体可以包括：

基于多个目标视频片段的片段内容，确定多个目标视频片段对应的内容分数；

从多个目标视频片段中选择内容分数满足预设分数阈值的目标视频片段为多个候选视频片段。

作为又一个实施例，处理组件还可以用于：

确定目标视频片段对应的多个图像帧；

基于预设关键信息，检测多个图像帧中存在关键信息的关键图像帧；

确定替换关键信息的目标信息；

将关键图像帧中的关键信息替换为目标信息，获得目标图像帧；

利用目标图像帧以及多个图像帧中除关键图像帧之外的图像帧，生成替换视频片段。

图12的实现视频处理设备可以执行图1等实施例的视频处理的方法，其实现原理和技术效果不再赘述。对于上述实施例中的处理组件所执行的各个步骤的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序执行时可以执行如前述实施例的任一种视频处理方法。

如图13所示，为本申请实施例提供的一种服务器的一个实施例的结构示意图，该服务器可以包括：存储组件1301以及处理组件1302；存储组件1301用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件1302调用；

处理组件1302用于：

接收用户端发送的待处理视频；其中，待处理视频由用户在用户端输入获得；将待处理视频按照场景信息分类，获取至少一个场景片段；将待处理视频按照情节信息分类，获取至少一个情节片段；利用至少一个情节片段修正至少一个场景片段，获得目标视频片段；发送目标视频片段至用户端，以供用户端为用户输出目标视频片段。

本申请实施例中的处理组件所执行的部分内容与图12所示的实施例部分内容相同，在此不再赘述。

图13所示的服务器可以为多种类型的服务器，例如可以包括普通服务器或者云服务器。

本申请实施例中，电子设备可以检测用户输入的待处理视频以及目标内容，并检测该待处理视频中存在目标内容的至少一个第一视频片段。从而可以对该至少一个第一视频片段分别对应的第一起始时间进行时间修正处理，以获得至少一个目标起始时间。之后可以基于至少一个目标起始时间，获取至少一个待处理视频片段。从而可以为用户输出至少一个待处理视频片段。提供一种与用户直接交互的方案，从而为用户实施待处理视频片段的自动截取。

如图14所示，为本申请实施例提供的一种电子设备的一个实施例的结构示意图，该电子设备可以包括：存储组件1401以及处理组件1402；存储组件1401用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件1402调用；

处理组件1402用于：

本申请实施例中的处理组件所执行的部分内容与图12所示的实施例部分内容相同，在此不再赘述。

图14所所示的电子设备可以为用户端，具体可以包括笔记本电脑、计算机、手机、平板电脑、可穿戴设备等。本申请实施例对电子设备的具体类型不作过多限定。

本申请实施例中，电子设备可以检测用户发送的待处理视频以及目标内容，并通过检测该待处理视频中存在目标内容的至少一个第一视频片段。从而可以对该至少一个第一视频片段分别对应的第一起始时间进行时间修正处理，以获得至少一个目标起始时间。之后可以基于至少一个目标起始时间，获取至少一个待处理视频片段。从而可以为用户输出至少一个待处理视频片段。电子设备通过将待处理视频以及目标容发送至服务器，以在服务器实现待处理视频片段的获取，可以减少电子设备的处理压力，提高处理效率。

如图15所示，为本申请实施例提供的一种视频处理设备的又一个实施例的结构示意图，该设备可以包括：存储组件1501以及处理组件1502；存储组件1501用于存储一条或多条计算机指令，一条或多条计算机指令用于被处理组件1502调用；

处理组件1502用于：

获取待处理视频；确定待处理视频中不同视频内容对应的多个模态信息；分别确定待处理视频中出现多个模态信息的视频片段，获得多个模态信息分别对应的模态片段；将多个模态信息分别对应的模态片段中存在部分片段相同的模态片段进行合并处理，获得至少一个情节片段。

本申请实施例中的处理组件所执行的部分内容与图12所示的实施例部分内容相同，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

40页详细技术资料下载

视频处理方法及设备、服务器、电子设备

相关技术

网友询问留言