视频生成方法、装置、终端及存储介质

文档序号：156373 发布日期：2021-10-26 浏览：23次 >En<

阅读说明：本技术 视频生成方法、装置、终端及存储介质 (Video generation method, device, terminal and storage medium ) 是由刘春宇于 2021-08-03 设计创作，主要内容包括：本申请关于一种视频生成方法、装置、终端及存储介质,涉及视频技术领域。所述方法包括：获取自定义文件；所述自定义文件中包括音乐文件以及视频文件中的至少一种；基于所述自定义文件的文件内容,获取自定义配置信息；所述自定义配置信息用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数；基于所述自定义配置信息,生成目标视频；所述目标视频是所述目标模型按照所述自定义配置信息执行动作的视频,通过上述方式生成的视频避免了通过录制生成视频的局限性,通过调整自定义文件可以自动生成符合用户预期的目标视频,提高了生成视频的效率和灵活性。(The application relates to a video generation method, a video generation device, a terminal and a storage medium, and relates to the technical field of videos. The method comprises the following steps: acquiring a custom file; the user-defined file comprises at least one of a music file and a video file; obtaining custom configuration information based on the file content of the custom file; the user-defined configuration information is used for indicating action parameters of all skeleton areas of the target model on all time stamps respectively; generating a target video based on the self-defined configuration information; the target video is the video of the target model executing the action according to the user-defined configuration information, the limitation of video generation through recording is avoided through the video generated in the mode, the target video meeting the user expectation can be automatically generated through adjusting the user-defined file, and the efficiency and the flexibility of video generation are improved.)

视频生成方法、装置、终端及存储介质

技术领域

本申请涉及视频技术领域，特别涉及视频生成方法、装置、终端及存储介质。

背景技术

目前，随着短视频技术的发展，越来越多的短视频播放平台以及短视频分享平台受到大众的喜爱，因此用户对短视频的制作需求有了显著的提高。

在相关技术中，用户通过摄像机的拍摄功能可以通过直接录制视频的方式制作短视频，例如，当用户制作的短视频是皮影戏视频时，用户需要录制操控皮影人偶完成各种动作的视频，然后通过后期制作添加背景音乐以及背景图案，从而制作完成一段自创的皮影戏视频。

然而，通过上述方法进行制作的视频需要用户对录制内容进行实际操作，由于用户对录制内容进行操作具有一定的限制性，这就导致了视频制作效率和灵活性较低。

发明内容

本申请实施例提供了一种视频生成方法、装置、终端及存储介质，可以提高目标视频的生成效率和灵活性，该技术方案如下：

一方面，提供了一种视频生成方法，所述方法包括：

获取自定义文件；所述自定义文件中包括音乐文件以及视频文件中的至少一种；

基于所述自定义文件的文件内容，获取自定义配置信息；所述自定义配置信息用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数；

基于所述自定义配置信息，生成目标视频；所述目标视频是所述目标模型按照所述自定义配置信息执行动作的视频。

在一种可能的实现方式中，所述基于所述自定义文件的文件内容，获取自定义配置信息，包括：

基于所述自定义文件的文件内容，获取至少一个动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息；

其中，所述动作序列配置信息用于指示所述各个骨骼区域分别在所述各个时间戳上执行的动作种类；所述动作幅度配置信息用于指示所述各个骨骼区域分别在所述各个时间戳上执行动作时的动作幅度。

在一种可能的实现方式中，所述基于所述自定义文件的文件内容，获取至少一个动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息，包括：

响应于所述自定义文件的文件内容中包括所述音乐文件，对所述音乐文件进行解析，获取所述音乐文件对应的音乐风格以及所述音乐文件在所述各个时间戳上对应的音量值；

基于所述音乐文件的所述音乐风格，获取所述动作序列配置信息；

基于所述各个时间戳上的所述音量值，获取所述动作序列配置信息对应的所述动作幅度配置信息。

在一种可能的实现方式中，所述基于所述音乐文件的所述音乐风格，获取所述动作序列配置信息，包括：

基于预先存储的所述音乐风格与所述动作序列配置信息之间的对应关系，获取所述音乐文件的所述音乐风格对应的所述动作序列配置信息。

响应于所述自定义文件的文件内容中包括所述视频文件，获取所述视频文件；所述视频文件中包括目标对象执行自定义动作的视频内容；

通过对所述视频文件进行解析，获取所述视频文件中各个时间戳下的所述目标对象对应的动作序列以及动作幅度；

基于所述各个时间戳下所述目标对象对应的所述动作序列以及所述动作幅度，获取所述动作序列对应的所述动作序列配置信息以及所述动作幅度对应的所述动作幅度配置信息。

在一种可能的实现方式中，所述基于所述自定义配置信息，生成目标视频，包括：

基于所述动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息，控制所述目标模型在各个时间戳中执行对应的动作，生成所述目标视频。

在一种可能的实现方式中，所述基于所述自定义配置信息，生成目标视频之前，还包括：

确定背景内容以及背景音乐；

所述基于所述自定义配置信息，生成至少一个目标视频，包括：

基于所述自定义配置信息、所述背景音乐以及所述背景内容，生成所述目标视频。

在一种可能的实现方式中，所述确定背景内容以及背景音乐，包括：

响应于所述自定义文件的文件内容中包括所述音乐文件，将所述音乐文件确定为所述目标视频的背景音乐；

响应于所述自定义文件的文件内容中包括图片文件或者所述视频文件，将所述图片文件或者所述视频文件的内容确定为所述目标视频的背景内容。

在一种可能的实现方式中，所述确定背景内容以及背景音乐，包括：

响应于所述自定义文件的文件内容中包括所述音乐文件，基于所述音乐文件对应的音乐风格，从预先存储的背景内容以及背景音乐中确定所述目标视频中使用的所述背景内容以及所述背景音乐；

或者，

响应于所述自定义文件的文件内容中包括所述视频文件，基于所述视频文件对应的视频内容风格，从预先存储的背景内容以及背景音乐中确定所述目标视频中使用的所述背景内容以及所述背景音乐。

在一种可能的实现方式中，所述获取自定义文件之前，还包括：

获取目标模板；所述目标模板中包括原始的配置信息以及所述目标模型；所述原始的配置信息中包括所述目标模板中预先设置的所述各个骨骼区域分别在所述各个时间戳上的所述动作参数；

所述基于所述自定义配置信息，生成至少一个目标视频，包括：

将所述原始的配置信息替换成所述自定义配置信息，获取更新后的目标模板；

基于所述更新后的目标模板，生成至少一个所述目标视频。

另一方面，提供了一种视频生成装置，所述装置包括：

文件获取模块，用于获取自定义文件；所述自定义文件中包括音乐文件以及视频文件中的至少一种；

配置获取模块，用于基于所述自定义文件的文件内容，获取自定义配置信息；所述自定义配置信息用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数；

视频生成模块，用于基于所述自定义配置信息，生成目标视频；所述目标视频是所述目标模型按照所述自定义配置信息执行动作的视频。

在一种可能的实现方式中，所述配置获取模块，包括：

信息获取子模块，用于基于所述自定义文件的文件内容，获取至少一个动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息；

在一种可能的实现方式中，所述信息获取子模块，包括：

音乐解析单元，用于响应于所述自定义文件的文件内容中包括所述音乐文件，对所述音乐文件进行解析，获取所述音乐文件对应的音乐风格以及所述音乐文件在所述各个时间戳上对应的音量值；

第一信息获取单元，用于基于所述音乐文件的所述音乐风格，获取所述动作序列配置信息；

第二信息获取单元，用于基于所述各个时间戳上的所述音量值，获取所述动作序列配置信息对应的所述动作幅度配置信息。

在一种可能的实现方式中，所述第一信息获取单元，用于，

基于预先存储的所述音乐风格与所述动作序列配置信息之间的对应关系，获取所述音乐文件的所述音乐风格对应的所述动作序列配置信息。

在一种可能的实现方式中，所述信息获取子模块，包括：

文件获取单元，用于响应于所述自定义文件的文件内容中包括所述视频文件，获取所述视频文件；所述视频文件中包括目标对象执行自定义动作的视频内容；

视频解析单元，用于通过对所述视频文件进行解析，获取所述视频文件中各个时间戳下的所述目标对象对应的动作序列以及动作幅度；

第三信息获取单元，用于基于所述各个时间戳下所述目标对象对应的所述动作序列以及所述动作幅度，获取所述动作序列对应的所述动作序列配置信息以及所述动作幅度对应的所述动作幅度配置信息。

在一种可能的实现方式中，所述视频生成模块，包括：

视频生成子模块，用于基于所述动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息，控制所述目标模型在各个时间戳中执行对应的动作，生成所述目标视频。

在一种可能的实现方式中，所述装置还包括：

背景确定模块，用于基于所述自定义配置信息，生成目标视频之前，确定背景内容以及背景音乐；

所述视频生成模块，包括：

目标视频生成子模块，用于基于所述自定义配置信息、所述背景音乐以及所述背景内容，生成所述目标视频。

在一种可能的实现方式中，所述背景确定模块，包括：

背景音乐确定子模块，用于响应于所述自定义文件的文件内容中包括所述音乐文件，将所述音乐文件确定为所述目标视频的背景音乐；

背景内容确定子模块，用于响应于所述自定义文件的文件内容中包括图片文件或者所述视频文件，将所述图片文件或者所述视频文件的内容确定为所述目标视频的背景内容。

在一种可能的实现方式中，所述背景确定模块，包括：

第一确定子模块，用于响应于所述自定义文件的文件内容中包括所述音乐文件，基于所述音乐文件对应的音乐风格，从预先存储的背景内容以及背景音乐中确定所述目标视频中使用的所述背景内容以及所述背景音乐；

或者，

第二确定子模块，用于响应于所述自定义文件的文件内容中包括所述视频文件，基于所述视频文件对应的视频内容风格，从预先存储的背景内容以及背景音乐中确定所述目标视频中使用的所述背景内容以及所述背景音乐。

在一种可能的实现方式中，所述装置还包括：

模板获取模块，用于获取自定义文件之前，获取目标模板；所述目标模板中包括原始的配置信息以及所述目标模型；所述原始的配置信息中包括所述目标模板中预先设置的所述各个骨骼区域分别在所述各个时间戳上的所述动作参数；

所述视频生成模块，包括：

模板更新子模块，用于将所述原始的配置信息替换成所述自定义配置信息，获取更新后的目标模板；

目标生成子模块，用于基于所述更新后的目标模板，生成所述目标视频。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述视频生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述视频生成方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的视频生成方法。

本申请提供的技术方案可以包括以下有益效果：

通过获取用户可以灵活设置的自定义文件，得到指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数的自定义配置信息，生成目标模型按照该自定义配置信息执行动作的视频，通过上述方式生成的视频避免了通过录制生成视频的局限性，通过调整自定义文件可以自动生成符合用户预期的目标视频，提高了生成视频的效率和灵活性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例示出的视频生成方法对应的系统架构的示意图；

图2示出了本申请一示例性实施例示出的视频生成方法的流程图；

图3示出了本申请一示例性实施例示出的视频生成方法的流程图；

图4示出了本申请一示例性实施例示出的视频生成装置的方框图；

图5是根据一示例性实施例示出的计算机设备的结构框图；

图6示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种通过模型的各个骨骼区域的动作参数，自动生成模型执行一系列动作的视频。其中，用户进行视频创作可以包括获取具有各个骨骼区域的模型，确定模型各个骨骼区域在各个时间戳分别对应的动作参数，确定模型所处的背景内容以及背景音乐，以及将上述确定的内容进行视频合成，以完成视频创作的过程。

本申请实施例提供了一种视频生成方法，用以提高视频的创作效率和灵活性。图1示出了本申请一示例性实施例提供的视频生成方法对应的系统架构的示意图，如图1所示，该系统包括服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器110中包括数据库或者存储器，该数据库或者存储器可以用于存储生成视频的素材文件包。该素材文件包中可以包括多种预先存储的具有骨骼区域的模型、多种用于指示各个骨骼区域在各个时间戳分别对应的动作参数的配置文件、多种背景内容文件以及多种背景音乐文件。

上述终端120可以是具有图像显示功能或者音频播放功能的终端设备，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。该终端120上可以安装有用于进行视频生成的应用程序。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

图2示出了本申请一示例性实施例示出的视频生成方法的流程图，该视频生成方法可以由计算机设备执行，其中，该计算机设备可以是上述系统中的终端，如图2所示，该视频生成方法可以包括以下步骤：

步骤201，获取自定义文件；自定义文件中包括音乐文件以及视频文件中的至少一种。

在本申请实施例中，终端获取自定义文件，该自定义文件可以是音乐文件，可以是视频文件，也可以是音乐文件以及视频文件。

在一种可能的实现方式中，终端从本地存储的音乐文件以及视频文件中获取至少一个作为自定义文件，或者，终端通过摄像组件录制至少一个视频文件作为自定义文件，通过麦克风组件录制至少一个音乐文件作为自定义文件，或者，终端通过网络下载音乐文件以及视频文件中的至少一个作为自定义文件。

其中，终端获取自定义文件的途径不做限制，并且终端通过各种途径获取自定义文件的数量同样不做限制。

步骤202，基于自定义文件的文件内容，获取自定义配置信息；自定义配置信息用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数。

在本申请实施例中，终端对获取到的自定义文件进行解析获取其中的文件内容，基于该文件内容获取对应的自定义配置信息。

在一种可能的实现方式中，终端基于音乐文件的内容，获取自定义配置信息，或者终端基于视频文件的内容，获取自定义配置信息，或者终端基于音乐文件的内容以及视频文件的内容，获取自定义配置信息。

步骤203，基于自定义配置信息，生成目标视频；目标视频是目标模型按照自定义配置信息执行动作的视频。

在本申请实施例中，终端基于获取到的自定义配置信息，控制目标模型按照自定义配置信息执行动作生成对应的目标视频。

在一种可能的实现方式中，响应于获取到若干个自定义配置信息，基于若干个自定义配置信息生成对应的若干个目标视频。

综上所述，通过获取用户可以灵活设置的自定义文件，得到指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数的自定义配置信息，生成目标模型按照该自定义配置信息执行动作的视频，通过上述方式生成的视频避免了通过录制生成视频的局限性，通过调整自定义文件可以自动生成符合用户预期的目标视频，提高了生成视频的效率和灵活性。

示意性的，本申请实施例提供的视频生成方法可以应用且不限于以下场景中：

1)用户进行视频原创的场景中；

在视频创作软件中，用户可以在素材库中获取到在视频中使用的目标模型，然后获取自定义文件，通过对自定义文件的解析，获取对应的自定义配置信息，控制该目标模型按照自定义配置信息执行动作，并且生成该目标模型按照自定义配置信息执行动作的视频作为用户创作的视频。基于自定义文件对应的自定义配置信息生成的目标视频，可以实现基于用户需求自动化生成原创视频，提高了原创视频生成的效率以及生成目标视频的灵活性。

2)用户进行视频的二次创作的场景中；

在视频编辑软件中，用户可以获取一段视频内容，对获取到的该视频内容进行解析，确定其中的目标模型，以及当前目标模型在视频中的各个时间戳下各个骨骼区域对应的动作参数构成的配置信息，为了对该视频内容进行二次创作，可以获取自定义文件，通过对自定义文件的解析，获取对应的自定义配置信息，将确定的视频内容中的目标模型按照自定义配置信息在视频的各个时间戳下执行动作，生成二次创作的视频内容。通过上述方式进行视频的二次创作提高了生成目标视频的速度。

通过上述方法生成的目标视频可以直接通过终端中的应用程序实现目标视频的分享以及目标视频的播放，便于生成的目标视频进行应用。

图3示出了本申请一示例性实施例提供的视频生成方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端，该终端可以是图1所示的终端，如图3所示，该视频生成方法可以包括以下步骤：

步骤301，获取目标模板。

在本申请实施例中，终端从预先存储的若干个模板中获取至少一个模板作为目标模板。

其中，目标模板中可以包括原始的配置信息以及目标模型；原始的配置信息中包括目标模板中预先设置的各个骨骼区域分别在各个时间戳上的动作参数。预先存储的模板可以是预先存储的素材文件包，该预先存储的素材文件包中可以包括至少一个模型、以及至少一个模型分别对应的原始的配置信息。预先存储的模板中还可以包括原始的背景内容以及原始的背景音乐。

在一种可能的实现方式中，若干个模板中对应的模型是二维或者三维的，具有至少一个骨骼区域的模型。

在一种可能的实现方式中，响应于终端接收到对模板对应的触发控件的触发操作，确定对应的模板为目标模板。

示例性的，在视频生成应用程序的显示界面中，可以展示目标模板选择区域。在目标模板选择区域中显示预先存储的若干个模型对应的图标，若干个图标的上层可以叠加有对应的触发控件，响应于接收到对触发控件的触发操作，完成选择对应的模板作为目标模板的操作。响应于用户直接选择其中一个模板作为目标模板，可以直接生成基于该目标模板的目标视频，即该目标视频中使用的目标模型、配置信息、背景内容以及背景音乐均为目标模板对应的预先存储的素材文件包中的内容。

步骤302，获取自定义文件。

在本申请实施例中，当终端未直接利用目标模板生成目标视频或者需要除了直接基于目标模板生成目标视频之外继续生成其它的目标视频时，终端获取至少一个自定义文件。

其中，自定义文件中可以包括音乐文件以及视频文件中的至少一种。

在一种可能的实现方式中，终端通过接收用户上传的视频文件或者音乐文件，获取自定义文件，或者，终端通过自身的摄像组件以及麦克风组件拍摄或者录制视频文件或者音乐文件作为自定义文件。

示例性的，在视频生成应用程序的显示界面中，终端接收到用户选择的目标模板之后，可以在显示界面上展示该目标模板对应可替换或增加的素材文件，该可替换或增加的素材文件可以包括目标模型对应的文件、配置信息对应的配置文件、背景音乐对应的音乐文件以及背景内容对应的图片文件或者视频文件，各个素材文件对应的展示区域均可以存在一个添加自定义文件的指定控件，响应于终端接收到用户对指定控件的触发操作，终端可以跳转显示界面，展示选择上传文件的界面，用户在选择上传文件的界面可以进行文件选择，从而使得终端获取到添加的自定义文件。

比如，响应于终端接收到用户对配置文件对应的指定控件的触发操作，展示可供用户选择的视频文件以及音乐文件，基于终端接收到的用户对可供选择的视频文件以及音乐文件的选择操作，获取自定义文件。

步骤303，确定背景内容以及背景音乐。

在本申请实施例中，基于目标模板以及自定义文件，确定生成的目标视频中使用的背景内容以及背景音乐。

在一种可能的实现方式中，将自定义文件直接确定为目标视频所使用的背景内容以及背景音乐，或者，对自定义文件进行解析，基于解析结果从预先存储的素材文件中确定目标视频所使用的背景内容以及背景音乐。

其中，基于自定义文件，确定目标视频所使用的背景内容以及背景音乐可以包括如下两种情况。

1)响应于自定义文件的文件内容中包括音乐文件，将音乐文件确定为目标视频的背景音乐；响应于自定义文件的文件内容中包括图片文件或者视频文件，将图片文件或者视频文件的内容确定为目标视频的背景内容。

也就是说，当终端获取的自定义文件是用于确定背景音乐时，可以直接将获取到的音乐文件中的音乐内容作为目标视频的背景音乐；当终端获取到的自定义文件是用于确定背景内容时，可以直接将获取到的视频文件中的视频内容或者图片内容，图片文件对应的图片内容作为目标视频的背景内容。

2)响应于自定义文件的文件内容中包括音乐文件，基于音乐文件对应的音乐风格，从预先存储的背景内容以及背景音乐中确定目标视频中使用的背景内容以及背景音乐；或者，响应于自定义文件的文件内容中包括视频文件，基于视频文件对应的视频内容风格，从预先存储的背景内容以及背景音乐中确定目标视频中使用的背景内容以及背景音乐。

其中，音乐文件对应的音乐风格可以基于音乐的节奏、旋律以及语种等进行确定，音乐风格可以包括摇滚、轻音乐、治愈、华语等。视频文件对应的视频内容风格可以基于视频的色彩饱和度、视频中对象的运动频率以及视频的音频内容等进行确定，视频内容风格可以包括活泼、温馨、恐怖、清新等。

在一种可能的实现方式中，终端中存在有音乐解析模型，通过将音乐文件输入音乐解析模型，输出获得音乐文件对应的音乐风格。该音乐解析模型是神经网络模型或者数学模型。同样的，终端中存在有视频解析模型，通过将视频文件输入视频解析模型输出获得视频文件对应的视频内容风格。该视频解析模型是神经网络模型或者数学模型。

示例性的，当自定义文件的文件内容中包括音乐文件时，对该音乐文件进行解析，获取该音乐文件对应的音乐风格，若该音乐文件对应的音乐风格是摇滚风格，服务器中预先存储的背景内容A以及背景内容B、背景音乐C以及背景音乐D，并且背景内容A、背景内容B、背景音乐C以及背景音乐D分别对应有预设的标签，即背景内容A对应温馨标签、背景内容B对应活泼标签、背景音乐C对应轻音乐标签、背景音乐D对应摇滚标签，则从预先存储的背景内容以及背景音乐中获取具有摇滚风格标签的背景音乐D以及相关类型标签的背景内容B作为目标视频中使用的背景内容以及背景音乐。

其中，相关类型标签可以通过相似度计算方法，确定相似度超过指定阈值的标签为相关类型标签。

比如，将“温馨”与“摇滚”之间进行相似度计算，得到相似度a，同时，将“活泼”与“摇滚”之间进行相似度计算，得到相似度b，可以得到相似度a小于相似度b，并且相似度b大于指定阈值，所以可以将“活泼”作为“摇滚”的相关类型标签。

步骤304，基于自定义文件的文件内容，获取至少一个动作序列配置信息以及动作序列配置信息对应的动作幅度配置信息。

在本申请实施例中，响应于自定义文件是用于确定自定义配置信息，基于自定义文件的文件内容，获取至少一个动作序列配置信息以及动作序列配置信息对应的动作幅度配置信息。

其中，自定义配置信息可以用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数。动作序列配置信息用于指示各个骨骼区域分别在各个时间戳上执行的动作种类；动作幅度配置信息用于指示各个骨骼区域分别在各个时间戳上执行动作时的动作幅度。

其中，基于自定义文件是音乐文件还是视频文件，可以分别通过如下两种方法获取至少一个动作序列配置信息以及动作序列配置信息对应的动作幅度配置信息。

1)响应于自定义文件的文件内容中包括音乐文件，对音乐文件进行解析，获取音乐文件对应的音乐风格以及音乐文件在各个时间戳上对应的音量值；基于音乐文件的音乐风格，获取动作序列配置信息；基于各个时间戳上的音量值，获取动作序列配置信息对应的动作幅度配置信息。

其中，当获取到自定义文件为音乐文件时，可以将音乐文件输入音乐解析模型，获取音乐文件对应的音乐风格，同时也可以获取到该音乐文件在音乐播放过程中的各个时间戳上对应的音量值。

在一种可能的实现方式中，基于预先存储的音乐风格与动作序列配置信息之间的对应关系，获取音乐文件的音乐风格对应的动作序列配置信息。

示例性的，服务器中存储有若干条动作序列配置信息与音乐风格之间的对应关系，其中包括“摇滚”音乐风格对应动作序列配置信息a，“轻音乐”音乐风格对应动作序列配置信息b，“华语”音乐风格对应动作序列配置信息c。当解析自定义文件中的音乐文件后，得到音乐文件的音乐风格为“摇滚”音乐风格时，确定自定义配置信息中的动作序列配置信息为动作序列配置信息a。

在一种可能的实现方式中，响应于获取到该音乐文件在音乐播放过程中的各个时间戳上对应的音量值，由于音乐文件的播放时长与需要生成的目标视频对应的播放时长存在不一致的情况，将音乐文件的播放时长等比例进行压缩或者扩展，获取压缩或者扩展后的音乐文件对应的目标视频对应的各个时间戳上的音量值，基于各个时间戳上的音量值，获取动作序列配置信息对应的动作幅度配置信息。或者，若音乐文件的播放时长小于等于目标视频的播放时长直接获取音乐文件对应的各个时间戳上的音量值，基于各个时间戳上的音量值，获取动作序列配置信息对应的动作幅度配置信息；若音乐文件的播放时长大于目标视频的播放时长，从音乐文件中截取目标视频的播放时长的内容，获取该部分音乐文件对应的各个时间戳上的音量值，基于各个时间戳上的音量值，获取动作序列配置信息对应的动作幅度配置信息。

示例性的，若音乐文件为5s，需要生成10s的目标视频，则以0.5s为单位，获取音乐文件对应的音量值，采集到的10个音量值分别对应需要生成的目标视频每秒钟对应的动作幅度。若获取到音乐文件1s时对应的音量值是x，则确定需要生成的目标视频对应的2s时目标模型执行的动作幅度为音量值为x对应的幅度y。

2)响应于自定义文件的文件内容中包括视频文件，获取视频文件，通过对视频文件进行解析，获取视频文件中各个时间戳下的目标对象对应的动作序列以及动作幅度；基于各个时间戳下目标对象对应的动作序列以及动作幅度，获取动作序列对应的动作序列配置信息以及动作幅度对应的动作幅度配置信息。

其中，视频文件中包括目标对象执行自定义动作的视频内容。

在一种可能的实现方式中，通过对视频文件中的目标对象进行动作识别，获取视频文件中目标对象在各个时间戳下对应的动作序列以及动作幅度。目标对象的各个肢体与目标模型的各个骨骼区域相对应，基于肢体与骨骼区域之间的对应关系，确定目标模型的动作序列配置信息以及动作幅度配置信息。

其中，各个时间戳下对应的动作幅度可以是基于当前时间戳对应的图像，与前一个时间戳或者后一个时间戳对应的图像之间的肢体位置的差异值确定的。

步骤305，基于自定义配置信息、背景音乐以及背景内容，生成目标视频。

在本申请实施例中，终端可以将目标模型中的原始配置信息、目标模型、背景音乐、背景内容以及基于自定义文件确定的背景内容、背景音乐、自定义配置信息进行组合，生成至少一个目标视频。

其中，目标视频可以是目标模型按照自定义配置信息执行动作的视频。

在一种可能的实现方式中，基于动作序列配置信息以及动作序列配置信息对应的动作幅度配置信息，控制目标模型在各个时间戳中执行对应的动作，生成目标视频。

也就是说，基于一套动作序列配置信息以及对应的动作幅度配置信息，终端可以生成一个对应的目标视频，若确定使用的背景音乐以及背景内容不同，则可以生成若干个目标视频，所以通过本申请方案可以一键生成的多个目标视频，提高了视频生成的效率。

在一种可能的实现方式中，将原始的配置信息替换成自定义配置信息，获取更新后的目标模板；基于更新后的目标模板，生成目标视频。

其中，通过将原始配置信息替换成自定义配置信息，可以解决固定目标模板无法满足用户灵活生成视频的需求的问题。扩展了可以生成的视频数量，并且提高了视频生成的灵活性。

在一种可能的实现方式中，目标模型是皮影人偶模型；目标视频是皮影戏视频。

其中，皮影戏视频是一种动画视频。由视频和音频构成，视频帧由前景和背景组成。前景是皮影人偶做出的各种动作组成的动画，背景是前景的画布，可以是静态图、动态图或者视频，音频是动画的配音。皮影戏视频可以用于用户后期进行皮影戏视频编辑、皮影戏视频分享以及皮影戏视频播放等功能，通过上述实施例所示的方案可以根据用户需求自动化的生成多个皮影戏视频。

示例性的，本申请实施例可以应用于生成皮影戏视频的场景中。通过上述方案可以实现一键生成多种皮影戏视频、用户自定义视频驱动皮影人偶动作、用户自定义智能音频驱动皮影戏人偶动作以及用户自定义背景内容或者背景音乐的功能。

其中，基于多种模版可以生成多种皮影戏视频。模版可以是一种素材文件包，包含了配置文件、皮影人偶模型、背景素材以及音频。服务器存放了多种素材文件包，可以供用户进行选择。其中配置文件中保护了每一帧的动作参数，对应了时间戳和皮影人偶模型中每个骨骼的变换矩阵。人偶模型可以是2D或者3D模型。背景素材可以为静态图片、多个图片组成的序列图或者是视频。音频可以为背景音，最后进行视频合成，一键生成多种皮影戏视频。用户如果不满意当前选择的目标模板的效果，可以进行自定义模板。用户通过上传或录制一段舞蹈动作视频，将该视频文件解析成配置文件，替换当前模板中的配置文件，从而实现自定义视频驱动皮影人偶动作。用户也可以上传一段音频用来驱动当前人偶。程序首先会对上传的音频进行解析分解出音频的音乐风格、每一个时间戳对应的音量值。程序根据分解出的音乐风格生成一套模型动作序列，每一个动作的幅度由每一帧音量进行控制；用户也可以基于上传的视频文件、图片文件自定义背景或者基于上传的音乐文件自定义背景音。

在一种可能的实现方式中，进行视频生成之前，需要设计皮影人偶模型素材、设计皮影人偶模型动作参数、设计背景内容。

其中，预先设计的皮影人偶模型身体、四肢相互独立，每个肢体通过一个骨骼点相连，其中一个肢体运动，可以带动其他进行肢体进行运动。比如，皮影人偶模型可以有头、左臂、右臂、左腿、右腿5个骨骼区域。各个骨骼区域对应的配置文件中标明每一帧该骨骼区域的运动情况，比如，头的坐标为(50，50)、左臂对应的配置文件标明(向上位移20)、右臂对应的配置文件标明(逆向旋转10度)、左腿对应的是(不动)、右腿对应的是(不动)。每个骨骼区域的动作情况会形成一个变换矩阵，根据对应的时间戳生成一行配置参数。程序根据上面配置文件中的参数对皮影人偶模型进行驱动展示。背景内容可以是静态图或者是视频。

在一种可能的实现方式中，终端将前景、背景、音频进行合成后生成最终的皮影戏视频。

图4示出了本申请一示例性实施例示出的视频生成装置的方框图，该视频生成装置包括：

文件获取模块410，用于获取自定义文件；所述自定义文件中包括音乐文件以及视频文件中的至少一种；

配置获取模块420，用于基于所述自定义文件的文件内容，获取自定义配置信息；所述自定义配置信息用于指示目标模型的各个骨骼区域分别在各个时间戳上的动作参数；

视频生成模块430，用于基于所述自定义配置信息，生成目标视频；所述目标视频是所述目标模型按照所述自定义配置信息执行动作的视频。

在一种可能的实现方式中，所述配置获取模块420，包括：

信息获取子模块，用于基于所述自定义文件的文件内容，获取至少一个动作序列配置信息以及所述动作序列配置信息对应的动作幅度配置信息；

在一种可能的实现方式中，所述信息获取子模块，包括：

第一信息获取单元，用于基于所述音乐文件的所述音乐风格，获取所述动作序列配置信息；

第二信息获取单元，用于基于所述各个时间戳上的所述音量值，获取所述动作序列配置信息对应的所述动作幅度配置信息。

在一种可能的实现方式中，所述第一信息获取单元，用于，

基于预先存储的所述音乐风格与所述动作序列配置信息之间的对应关系，获取所述音乐文件的所述音乐风格对应的所述动作序列配置信息。

在一种可能的实现方式中，所述信息获取子模块，包括：

视频解析单元，用于通过对所述视频文件进行解析，获取所述视频文件中各个时间戳下的所述目标对象对应的动作序列以及动作幅度；

在一种可能的实现方式中，所述视频生成模块430，包括：

在一种可能的实现方式中，所述装置还包括：

背景确定模块，用于基于所述自定义配置信息，生成目标视频之前，确定背景内容以及背景音乐；

所述视频生成模块，包括：

目标视频生成子模块，用于基于所述自定义配置信息、所述背景音乐以及所述背景内容，生成所述目标视频。

在一种可能的实现方式中，所述背景确定模块，包括：

背景音乐确定子模块，用于响应于所述自定义文件的文件内容中包括所述音乐文件，将所述音乐文件确定为所述目标视频的背景音乐；

在一种可能的实现方式中，所述背景确定模块，包括：

或者，

在一种可能的实现方式中，所述装置还包括：

所述视频生成模块430，包括：

模板更新子模块，用于将所述原始的配置信息替换成所述自定义配置信息，获取更新后的目标模板；

目标生成子模块，用于基于所述更新后的目标模板，生成所述目标视频。

在一种可能的实现方式中，所述目标模型是皮影人偶模型；所述目标视频是皮影戏视频。

图5是根据一示例性实施例示出的计算机设备500的结构框图。该计算机设备500可以是图1所示的终端，比如智能手机、平板电脑或台式电脑。计算机设备500还可能被称为目标用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的方法。

在一些实施例中，计算机设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

在一些实施例中，计算机设备500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

本领域技术人员可以理解，图5中示出的结构并不构成对计算机设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图6示出了本申请一示例性实施例示出的计算机设备600的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备600包括中央处理单元(Central Processing Unit，CPU)601、包括随机存取存储器(Random Access Memory，RAM)602和只读存储器(Read-Only Memory，ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述计算机设备600还包括用于存储操作系统609、应用程序610和其他程序模块611的大容量存储设备606。

所述大容量存储设备606通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。所述大容量存储设备606及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，所述大容量存储设备606可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储设备，CD-ROM、数字多功能光盘(Digital VersatileDisc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备606可以统称为存储器。

根据本公开的各种实施例，所述计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在所述系统总线605上的网络接口单元607连接到网络608，或者说，也可以使用网络接口单元607来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理器通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的视频生成方法中的全部或者部分步骤。

本领域技术人员可以理解，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述场景画面展示方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2或图3任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于HTML5的web无插件播放安防实时视频的方法

视频生成方法、装置、终端及存储介质

相关技术

网友询问留言