视频生成方法、装置、设备及存储介质

文档序号：1966165 发布日期：2021-12-14 浏览：16次 >En<

阅读说明：本技术 视频生成方法、装置、设备及存储介质 (Video generation method, device, equipment and storage medium ) 是由于向丽张煜刘驰于 2021-09-10 设计创作，主要内容包括：本申请提供一种视频生成方法、装置、设备及存储介质,该方法响应于用户的视频生成操作,获取用户选择的目标结构化知识和目标模板；触发对话录制功能,获取对话内容视频；将对话内容视频、目标结构化知识和目标模板输入至预设训练模型,输出得到目标多媒体素材；对目标多媒体素材进行拼接处理,得到目标视频,解决了通过人工进行视频剪辑的方法需要耗费大量的人力物力,成本高、耗时长且效率低,而通过关键词搜索的方式生成的视频难以保证视频质量的技术问题。(The application provides a video generation method, a video generation device, video generation equipment and a storage medium, wherein the method responds to video generation operation of a user and acquires target structured knowledge and a target template selected by the user; triggering a conversation recording function to acquire a conversation content video; inputting the conversation content video, the target structured knowledge and the target template into a preset training model, and outputting to obtain a target multimedia material; the target multimedia material is spliced to obtain the target video, and the technical problems that a large amount of manpower and material resources are consumed, the cost is high, the time consumption is long, the efficiency is low, and the video generated in a keyword searching mode is difficult to ensure the video quality are solved.)

视频生成方法、装置、设备及存储介质

技术领域

本申请涉及通信技术领域，尤其涉及一种视频生成方法、装置、设备及存储介质。

背景技术

短视频即短片视频，是一种互联网内容传播方式，随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐在各个领域得到广泛应用，例如在电信服务领域的客服系统中得到了快速发展，在此大环境下，运营商与外界的交互模式不止局限于传统的文字和语音模式，更多的以短视频的模式进行，比如品牌的宣传，套餐的介绍，活动的推广等。

现有的视频基本是通过人工进行录制并进行后期剪辑，或是根据想要形成的视频文案中文字描述中的关键字，在互联网上搜索众多相关图片拼接成视频。

然而现有技术中，通过人工进行视频剪辑的方法需要耗费大量的人力物力，成本高、耗时长且效率低，而通过关键词搜索的方式生成的视频难以保证视频质量。

发明内容

本申请提供一种视频生成方法、装置、设备及存储介质，从而解决现有技术中，通过人工进行视频剪辑的方法需要耗费大量的人力物力，成本高、耗时长且效率低，而通过关键词搜索的方式生成的视频难以保证视频质量的技术问题。

第一方面，本申请提供了一种视频生成方法，包括：

响应于用户的视频生成操作，获取用户选择的目标结构化知识和目标模板，其中，所述目标结构化知识包括生成目标视频的规则信息；

触发对话录制功能，获取对话内容视频；

将所述对话内容视频、所述目标结构化知识和所述目标模板输入至预设训练模型，输出得到目标多媒体素材；

对所述目标多媒体素材进行拼接处理，得到目标视频。

这里，本申请可以在用户需要生成视频时，获取用户选择的目标结构化知识和目标模板，然后开启对话录制功能，根据录制的对话内容视频可以获取待生成视频内容，将对话内容视频以及用户选择的目标结构化知识和目标模板输入至预设训练模型，可以通过预设训练模型进行多媒体素材的筛选，从而根据筛选出的多媒体素材生成目标视频，其中，本申请无需人工进行视频素材的筛选和生成，可自动进行视频素材的筛选和生成，节省了人力和物力的成本，同时也节省了视频生成的时间，提高了视频生成的效率，针对现有技术中的通过关键词生成视频的方法，通过训练模型进行视频素材的筛选，同时以实时录制的对话内容视频为参数，达到后期生成的视频与所需内容风格有较高契合度的目的，保障了生成视频的质量。

可选地，在所述将所述对话内容视频、所述目标结构化知识和所述目标模板输入至预设训练模型之前，还包括：

在预设知识库中，获取多个多媒体视频；

对所述多媒体视频进行拆分处理，得到所述多媒体视频对应的多媒体素材样本；

根据所述多媒体素材样本和所述多媒体视频进行模型训练，得到预设训练模型。

其中，本申请提供了预设训练模型的训练方法，通过在预设知识库中获取的多媒体视频进行处理，得到对应的多媒体素材样本，根据多媒体视频和多媒体素材样本进行训练，以预设知识库中知识为参考，得到能够准确进行视频素材筛选的预设训练模型，以保证生成视频的质量。

可选地，所述对所述多媒体视频进行拆分处理，得到所述多媒体视频对应的多媒体素材样本，包括：

判断所述多媒体视频是否为多媒体素材拼接而成；

若所述多媒体视频为多媒体素材拼接而成，则对所述多媒体视频进行拆分处理，得到多个多媒体素材样本和每个所述多媒体素材样本在模板中对应的素材评分；

相应的，所述根据所述多媒体素材样本和所述多媒体视频进行模型训练，得到预设训练模型，包括：

根据所述多媒体素材样本和所述素材评分，对训练模型进行模型优化，得到预设训练模型。

这里，本申请在模型训练时，首先判断多媒体视频是否为多媒体素材拼接而成，针对通过多媒体素材拼接得到的多媒体视频，可以对多媒体视频进行拆分得到各多媒体素材样本和其对应的各素材模块评分，通过上述数据和评分，可以对训练模型进行优化训练，从而得到准确、优化后的预设训练模型，进一步地保证了模型权重的准确性及视频生成的质量。

可选地，所述对所述多媒体视频进行拆分处理，得到所述多媒体视频对应的多媒体素材样本，包括：

判断所述多媒体视频是否为多媒体素材拼接而成；

若所述多媒体视频不是多媒体素材拼接而成，则在所述预设知识库中获取模板；

根据模板对所述多媒体视频进行拆分处理，得到多个多媒体素材，并获取所述模板对应的结构化知识样本；

对所述多个多媒体素材进行信息提取处理，得到所述多媒体视频对应的结构化知识信息；

相应的，所述根据所述多媒体素材样本和所述多媒体视频进行模型训练，得到预设训练模型，包括：

将所述结构化知识样本、所述多媒体视频、所述多媒体素材和所述结构化知识信息输入至训练模型进行训练，得到预设训练模型。

这里，本申请在模型训练时，首先判断多媒体视频是否为多媒体素材拼接而成，针对不是通过所媒体素材拼接而成的多媒体视频，可以以模板的形式将多媒体视频打标拆分，拆分成多媒体素材，提取拆分后的多媒体素材中的结构化知识信息，同时根据拆分完成后的内容找到与结构化知识对应的相同模板的部分，提取此部分结构化知识数据，与对应多媒体素材的文字内容进行捆绑作为一组训练数据，从而可以输入至训练模型进行模型训练，得到预设训练模型，从而得到准确、优化后的预设训练模型，可自动化地通过此模型进行素材筛选，进一步地保证了模型权重的准确性及视频生成的质量。

可选地，所述对所述多个多媒体素材进行信息提取处理，得到所述多媒体视频对应的结构化知识信息，包括：

通过基于数据流编程的符号数学系统和自然语言处理识别技术，提取所述多媒体素材中的图像、视频和文字内容，得到所述结构化知识信息。

其中，本申请利用基于数据流编程(dataflow programming)的符号数学系统(TensorFlow)及自然语言处理技术，识别多媒体素材中的图像、视频和文字内容，可以准确提取多媒体素材中的结构化知识信息，进一步地保证了模型权重的准确性及视频生成的质量。

可选地，所述对所述目标多媒体素材进行拼接处理，得到目标视频，包括：

根据所述目标模板，对所述目标多媒体素材进行拼接处理，得到目标视频。

其中，本申请可以根据目标模板拼接目标多媒体素材，从而达到自动生成多媒体素材的能力，实现多媒体视频自动构建，节省人力，提高视频产量，进一步地节省了人力和物力，也节省了成本，提高了视频生成的效率。

可选地，在所述对所述目标多媒体素材进行拼接处理，得到目标视频之后，还包括：

将所述目标视频推送至所述用户的客户端。

这里，本申请在生成目标视频之后，可以直接将目标视频推送到用户的客户端，便于用户根据目标视频得到想要得到的讯息，提高了用户体验。

第二方面，本申请提供了一种视频生成装置，包括：

第一获取模块，用于响应于用户的视频生成操作，获取用户选择的目标结构化知识和目标模板，其中，所述目标结构化知识包括生成目标视频的规则信息；

第一处理模块，用于触发对话录制功能，获取对话内容视频；

第二处理模块，用于将所述对话内容视频、所述目标结构化知识和所述目标模板输入至预设训练模型，输出得到目标多媒体素材；

第三处理模块，用于对所述目标多媒体素材进行拼接处理，得到目标视频。

可选地，在所述第二处理模块将所述对话内容视频、所述目标结构化知识和所述目标模板输入至预设训练模型之前，上述装置还包括：

第二获取模块，用于在预设知识库中，获取多个多媒体视频；

拆分模块，用于对所述多媒体视频进行拆分处理，得到所述多媒体视频对应的多媒体素材样本；

训练模块，用于根据所述多媒体素材样本和所述多媒体视频进行模型训练，得到预设训练模型。

可选地，所述拆分模块具体用于：

判断所述多媒体视频是否为多媒体素材拼接而成；

相应的，所述训练模块具体用于：

根据所述多媒体素材样本和所述素材评分，对训练模型进行模型优化，得到预设训练模型。

可选地，所述拆分模块具体用于：

判断所述多媒体视频是否为多媒体素材拼接而成；

若所述多媒体视频不是多媒体素材拼接而成，则在所述预设知识库中获取模板；

根据模板对所述多媒体视频进行拆分处理，得到多个多媒体素材，并获取所述模板对应的结构化知识样本；

对所述多个多媒体素材进行信息提取处理，得到所述多媒体视频对应的结构化知识信息；

相应的，所述训练模块具体用于：

将所述结构化知识样本、所述多媒体视频、所述多媒体素材和所述结构化知识信息输入至训练模型进行训练，得到预设训练模型。

可选地，所述拆分模块还具体用于：

通过基于数据流编程的符号数学系统和自然语言处理识别技术，提取所述多媒体素材中的图像、视频和文字内容，得到所述结构化知识信息。

可选地，所述第三处理模块具体用于：

根据所述目标模板，对所述目标多媒体素材进行拼接处理，得到目标视频。

可选地，在所述第三处理模块对所述目标多媒体素材进行拼接处理，得到目标视频之后，上述装置还包括：

推送模块，用于将所述目标视频推送至所述用户的客户端。

第三方面，本申请提供一种视频生成设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的视频生成方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面以及第一方面各种可能的设计所述的视频生成方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时，实现如上第一方面以及第一方面各种可能的设计所述的视频生成方法。

本申请提供的视频生成方法、装置、设备及存储介质，其中该方法可以在用户需要生成视频时，获取用户选择的目标结构化知识和目标模板，然后开启对话录制功能，根据录制的对话内容视频可以获取待生成视频内容，将对话内容视频以及用户选择的目标结构化知识和目标模板输入至预设训练模型，可以通过预设训练模型进行多媒体素材的筛选，从而根据筛选出的多媒体素材生成目标视频，其中，本申请无需人工进行视频素材的筛选和生成，可自动进行视频素材的筛选和生成，节省了人力和物力的成本，同时也节省了视频生成的时间，提高了视频生成的效率，针对现有技术中的通过关键词生成视频的方法，通过训练模型进行视频素材的筛选，同时以实时录制的对话内容视频为参数，达到后期生成的视频与所需内容风格有较高契合度的目的，保障了生成视频的质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频生成系统架构示意图；

图2为本申请实施例提供的一种视频生成方法的流程示意图；

图3为本申请实施例提供的另一种视频生成方法的流程示意图；

图4为本申请实施例提供的一种视频生成装置的结构示意图；

图5为本申请实施例提供的一种视频生成设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”及“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着客服系统的快速发展、移动终端普及和网络的提速，知识库早已不再局限于传统的文字模式，更多的在向多元化进行发展，短平快的大流量传播内容逐渐获得越来越多用户和企业的青睐，同时运营商与外界的交互模式也在更多的以短视频的模式进行，比如品牌的宣传、套餐的介绍、活动的推广等，但是短视频的制作往往需要花费较高的人工成本，拍摄时间，剪辑时间。

现有的视频基本是通过人工进行录制并进行后期剪辑，或是根据想要形成的视频文案中文字描述中的关键字在互联网上搜索众多相关图片拼接成视频。然而通过现有的方式，如果为手动录制，会消耗较多人力和物力；如果仅通过关键字生成视频，生成的视频内容存在欠缺不连贯，同时通过关键字提取的网络图片拼接而成的视频存在内容风格等存在较大差异的问题，无法保证质量，现有技术存在成本高、耗时长且效率低，难以保证视频质量的技术问题。

为了解决上述问题，本申请实施例提供一种视频生成方法、装置、设备及存储介质，其中该方法可以在用户需要生成视频时，获取用户选择的目标结构化知识和目标模板，然后开启对话录制功能，根据录制的对话内容视频可以获取待生成视频内容，将对话内容视频以及用户选择的目标结构化知识和目标模板输入至预设训练模型，可以通过预设训练模型进行多媒体素材的筛选，从而根据筛选出的多媒体素材生成目标视频，实现多媒体视频自动构建，节省人力，提高视频产量和质量。

可选的，图1为本申请实施例提供的一种视频生成系统架构示意图。在图1中，上述架构包括接收装置101、处理器102和显示装置103中至少一种。

可以理解的是，本申请实施例示意的结构并不构成对视频生成系统架构的具体限定。在本申请另一些可行的实施方式中，上述架构可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置，具体可根据实际应用场景确定，在此不做限制。图1所示的部件可以以硬件，软件，或软件与硬件的组合实现。

在具体实现过程中，接收装置101可以是输入/输出接口，也可以是通信接口。

处理器102可以在用户需要生成视频时，获取用户选择的目标结构化知识和目标模板，然后开启对话录制功能，根据录制的对话内容视频可以获取待生成视频内容，将对话内容视频以及用户选择的目标结构化知识和目标模板输入至预设训练模型，可以通过预设训练模型进行多媒体素材的筛选，从而根据筛选出的多媒体素材生成目标视频，实现多媒体视频自动构建，节省人力，提高视频产量和质量。

显示装置103可以用于对上述结果等进行显示，也可以通过显示装置与用户进行交互。

显示装置还可以是触摸显示屏，用于在显示上述内容的同时接收用户指令，以实现与用户的交互。

应理解，上述处理器可以通过处理器读取存储器中的指令并执行指令的方式实现，也可以通过芯片电路实现。

另外，本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

下面结合具体的实施例对本申请的技术方案进行详细的说明：

可选地，图2为本申请实施例提供的一种视频生成方法的流程示意图。本申请实施例的执行主体可以为图1中的处理器102，具体执行主体可以根据实际应用场景确定。如图2所示，该方法包括如下步骤：

S201：响应于用户的视频生成操作，获取用户选择的目标结构化知识和目标模板。

其中，目标结构化知识包括生成目标视频的规则信息。

这里，用户的视频生成操作可以是在用户终端或者是视频生成设备上的点触或者输入操作，用户通过视频生成操作进行目标结构化知识和目标模板的选择。可选地，输入操作可以是语音输入、文字输入等多种输入方式。

其中，每个模板有其对应的结构化知识，结构化知识包括生成视频的规则信息，用户可以在预先存储的模板中选择目标模板和目标结构化知识。

可选的，这些模板和结构化知识预存在预设知识库中。

其中，知识库是指专家系统设计所应用的规则集合，包含规则所联系的事实及数据，它们的全体构成知识库。这种知识库是与具体的专家系统有关，不存在知识库的共享问题；另一种是指具有咨询性质的知识库，这种知识库是共享的，不是一家所独有的。

其中，所谓结构化，是指将逐渐积累起来的知识加以归纳和整理，使之条理化、纲领化，做到纲举目张。

S202：触发对话录制功能，获取对话内容视频。

可选地，这里可以接收用户操作触发对话录制功能，也可以自动触发对应录制功能。

S203：将对话内容视频、目标结构化知识和目标模板输入至预设训练模型，输出得到目标多媒体素材。

其中，这里的预设训练模型为基于深度学习实现的模型。

这里的预设训练模型用于挑选匹配度较高的视频内容，删除对话过程中不相关的片段并根据对应结构化知识补全缺少内容，生成筛选及优化后的多媒体素材。

S204：对目标多媒体素材进行拼接处理，得到目标视频。

可选地，对目标多媒体素材进行拼接处理，得到目标视频，包括：

根据目标模板，对目标多媒体素材进行拼接处理，得到目标视频。

这里，可以将目标多媒体素材直接填充至目标模板中，得到目标视频，或者是根据目标模板的格式进行多媒体素材的拼接。

可选地，在对目标多媒体素材进行拼接处理，得到目标视频之后，还包括：

将目标视频推送至用户的客户端。

这里，本申请实施例在生成目标视频之后，可以直接将目标视频推送到用户的客户端，便于用户根据目标视频得到想要得到的讯息，提高了用户体验。

其中，本申请实施例可以根据目标模板拼接目标多媒体素材，从而达到自动生成多媒体素材的能力，实现多媒体视频自动构建，节省人力，提高视频产量，进一步地节省了人力和物力，也节省了成本，提高了视频生成的效率。

本申请实施例可以在用户需要生成视频时，获取用户选择的目标结构化知识和目标模板，然后开启对话录制功能，根据录制的对话内容视频可以获取待生成视频内容，将对话内容视频以及用户选择的目标结构化知识和目标模板输入至预设训练模型，可以通过预设训练模型进行多媒体素材的筛选，从而根据筛选出的多媒体素材生成目标视频，其中，本申请实施例无需人工进行视频素材的筛选和生成，可自动进行视频素材的筛选和生成，节省了人力和物力的成本，同时也节省了视频生成的时间，提高了视频生成的效率，针对现有技术中的通过关键词生成视频的方法，通过训练模型进行视频素材的筛选，同时以实时录制的对话内容视频为参数，达到后期生成的视频与所需内容风格有较高契合度的目的，保障了生成视频的质量。

在一种可能的实现方式中，本申请实施例提供可以预先训练模型，以便根据模型进行多媒体素材的筛选，相应的，图3为本申请实施例提供的另一种视频生成方法的流程示意图，如图3所示，该包括包括：

S301：响应于用户的视频生成操作，获取用户选择的目标结构化知识和目标模板。

S302：触发对话录制功能，获取对话内容视频。

S303：在预设知识库中，获取多个多媒体视频。

可选的，预设知识库中可以预存多个多媒体视频，预设知识库可进行实时更新，增加或者减少多媒体视频，以提高预设知识库的质量。

S304：对多媒体视频进行拆分处理，得到多媒体视频对应的多媒体素材样本。

可选地，对多媒体视频进行拆分处理，得到多媒体视频对应的多媒体素材样本，包括：

判断多媒体视频是否为多媒体素材拼接而成；若多媒体视频为多媒体素材拼接而成，则对多媒体视频进行拆分处理，得到多个多媒体素材样本和每个多媒体素材样本在模板中对应的素材评分。

相应的，根据多媒体素材样本和多媒体视频进行模型训练，得到预设训练模型，包括：根据多媒体素材样本和素材评分，对训练模型进行模型优化，得到预设训练模型。

这里，本申请实施例在模型训练时，首先判断多媒体视频是否为多媒体素材拼接而成，针对通过多媒体素材拼接得到的多媒体视频，可以对多媒体视频进行拆分得到各多媒体素材样本和其对应的各素材模块评分，通过上述数据和评分，可以对训练模型进行优化训练，从而得到准确、优化后的预设训练模型，进一步地保证了模型权重的准确性及视频生成的质量。

可选地，对多媒体视频进行拆分处理，得到多媒体视频对应的多媒体素材样本，包括：

判断多媒体视频是否为多媒体素材拼接而成；若多媒体视频不是多媒体素材拼接而成，则在预设知识库中获取模板；根据模板对多媒体视频进行拆分处理，得到多个多媒体素材，并获取模板对应的结构化知识样本；对多个多媒体素材进行信息提取处理，得到多媒体视频对应的结构化知识信息。

相应的，根据多媒体素材样本和多媒体视频进行模型训练，得到预设训练模型，包括：将结构化知识样本、多媒体视频、多媒体素材和结构化知识信息输入至训练模型进行训练，得到预设训练模型。

可选地，对多个多媒体素材进行信息提取处理，得到多媒体视频对应的结构化知识信息，包括：通过基于数据流编程的符号数学系统和自然语言处理识别技术，提取多媒体素材中的图像、视频和文字内容，得到结构化知识信息。

这里，如果多媒体视频不是通过拼接得到的，如果是由采编员采编而成，则可以由人工以模板的形式将结构化关联的多媒体视频打标拆分，拆分成多媒体素材，利用TensorFlow及自然语言处理技术提取拆分后的多媒体素材中的图像、视频内容、文字内容。同时根据拆分完成后的内容找到与结构化知识对应的相同模板的部分，提取此部分结构化知识数据，与对应多媒体素材的文字内容进行捆绑作为一组训练数据，同时将对应的图像，视频内容，知识评价分配以不同的权重，作为输入参数，使用深度学习技术进行模型训练。

其中，本申请实施例利用基于数据流编程(dataflow programming)的符号数学系统(TensorFlow)及自然语言处理技术，识别多媒体素材中的图像、视频和文字内容，可以准确提取多媒体素材中的结构化知识信息，进一步地保证了模型权重的准确性及视频生成的质量。

这里，本申请实施例在模型训练时，首先判断多媒体视频是否为多媒体素材拼接而成，针对不是通过所媒体素材拼接而成的多媒体视频，可以以模板的形式将多媒体视频打标拆分，拆分成多媒体素材，提取拆分后的多媒体素材中的结构化知识信息，同时根据拆分完成后的内容找到与结构化知识对应的相同模板的部分，提取此部分结构化知识数据，与对应多媒体素材的文字内容进行捆绑作为一组训练数据，从而可以输入至训练模型进行模型训练，得到预设训练模型，从而得到准确、优化后的预设训练模型，可自动化地通过此模型进行素材筛选，进一步地保证了模型权重的准确性及视频生成的质量。

S305：根据多媒体素材样本和多媒体视频进行模型训练，得到预设训练模型。

S306：将对话内容视频、目标结构化知识和目标模板输入至预设训练模型，输出得到目标多媒体素材。

S307：对目标多媒体素材进行拼接处理，得到目标视频。

本申请实施例提供了预设训练模型的训练方法，通过在预设知识库中获取的多媒体视频进行处理，得到对应的多媒体素材样本，根据多媒体视频和多媒体素材样本进行训练，以预设知识库中知识为参考，得到能够准确进行视频素材筛选的预设训练模型，以保证生成视频的质量。

图4为本申请实施例提供的一种视频生成装置的结构示意图，如图4所示，本申请实施例的装置包括：第一获取模块401、第一处理模块402、第二处理模块403和第三处理模块404。这里的视频生成装置可以是上述处理器102本身，或者是实现处理器102的功能的芯片或者集成电路。这里需要说明的是，第一获取模块401、第一处理模块402、第二处理模块403和第三处理模块404的划分只是一种逻辑功能的划分，物理上两者可以是集成的，也可以是独立的。

其中，第一获取模块，用于响应于用户的视频生成操作，获取用户选择的目标结构化知识和目标模板，其中，目标结构化知识包括生成目标视频的规则信息；

第一处理模块，用于触发对话录制功能，获取对话内容视频；

第二处理模块，用于将对话内容视频、目标结构化知识和目标模板输入至预设训练模型，输出得到目标多媒体素材；

第三处理模块，用于对目标多媒体素材进行拼接处理，得到目标视频。

可选地，在第二处理模块将对话内容视频、目标结构化知识和目标模板输入至预设训练模型之前，上述装置还包括：

第二获取模块，用于在预设知识库中，获取多个多媒体视频；

拆分模块，用于对多媒体视频进行拆分处理，得到多媒体视频对应的多媒体素材样本；

训练模块，用于根据多媒体素材样本和多媒体视频进行模型训练，得到预设训练模型。

可选地，拆分模块具体用于：

判断多媒体视频是否为多媒体素材拼接而成；

若多媒体视频为多媒体素材拼接而成，则对多媒体视频进行拆分处理，得到多个多媒体素材样本和每个多媒体素材样本在模板中对应的素材评分；

相应的，训练模块具体用于：

根据多媒体素材样本和素材评分，对训练模型进行模型优化，得到预设训练模型。

可选地，拆分模块具体用于：

判断多媒体视频是否为多媒体素材拼接而成；

若多媒体视频不是多媒体素材拼接而成，则在预设知识库中获取模板；

根据模板对多媒体视频进行拆分处理，得到多个多媒体素材，并获取模板对应的结构化知识样本；

对多个多媒体素材进行信息提取处理，得到多媒体视频对应的结构化知识信息；

相应的，训练模块具体用于：

将结构化知识样本、多媒体视频、多媒体素材和结构化知识信息输入至训练模型进行训练，得到预设训练模型。

可选地，拆分模块还具体用于：

通过基于数据流编程的符号数学系统和自然语言处理识别技术，提取多媒体素材中的图像、视频和文字内容，得到结构化知识信息。

可选地，第三处理模块具体用于：

根据目标模板，对目标多媒体素材进行拼接处理，得到目标视频。

可选地，在第三处理模块对目标多媒体素材进行拼接处理，得到目标视频之后，上述装置还包括：

推送模块，用于将目标视频推送至用户的客户端。

图5为本申请实施例提供的一种视频生成设备的结构示意图，该视频生成设备可以为处理器102。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该视频生成设备包括：处理器501和存储器502，各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器501可以对在视频生成设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。图5中以一个处理器501为例。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频生成设备的方法对应的程序指令/模块(例如，附图5所示的，第一获取模块401、第一处理模块402、第二处理模块403和第三处理模块404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行认证平台的各种功能应用以及数据处理，即实现上述方法实施例中的视频生成设备的方法。

视频生成设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与视频生成设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以是视频生成设备的显示设备等输出设备。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

本申请实施例的视频生成设备，可以用于执行本申请上述各方法实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，计算机执行指令被处理器执行时用于实现上述任一项的视频生成方法。

本申请实施例还提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，用于实现上述任一项的视频生成方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

17页详细技术资料下载

视频生成方法、装置、设备及存储介质

相关技术

网友询问留言