一种智能剪辑视频的方法

文档序号：1548226 发布日期：2020-01-17 浏览：11次 >En<

阅读说明：本技术 一种智能剪辑视频的方法 (Method for intelligently editing video ) 是由陈凌云吴伟平于 2019-09-29 设计创作，主要内容包括：本发明涉及视频剪辑技术领域,具体地说,涉及一种智能剪辑视频的方法。其方法步骤为：用户通过界面或其他方式预设一个视频输出的画幅比例；导入本次需要剪辑的视频素材；对导入的视频素材,进行解码,每帧抽取一张图片作为分析对象；将视频按镜头进行切分；对上一步剪出的单个视频镜头进行画面裁剪；把所有镜头裁剪出来的结果,按照时间的顺序进行合成,得出最后的视频。该智能剪辑视频的方法中,通过人脸检测、物体检测等算法,找到视频画面中最重要的内容,并能根据输入的画幅比例,动态调节裁剪区域,并通过美学打分的方式,找到最美的视频裁剪方案,使得拍摄出来的视频能够以较低的成本,分发到多个对画幅比例要求不同的平台上。(The invention relates to the technical field of video editing, in particular to a method for intelligently editing a video. The method comprises the following steps: the user presets a frame scale of video output through an interface or other modes; importing the video material needing to be edited at this time; decoding the imported video material, and extracting a picture from each frame as an analysis object; segmenting the video according to the shot; cutting the picture of the single video shot cut in the previous step; and (4) synthesizing the cut results of all the shots according to the time sequence to obtain the final video. In the method for intelligently editing the video, the most important content in the video picture is found through algorithms such as face detection, object detection and the like, the cutting area can be dynamically adjusted according to the input picture proportion, and the most beautiful video cutting scheme is found through an aesthetic scoring mode, so that the shot video can be distributed to a plurality of platforms with different requirements on the picture proportion at lower cost.)

一种智能剪辑视频的方法

技术领域

本发明涉及视频剪辑技术领域，具体地说，涉及一种智能剪辑视频的方法。

背景技术

由于智能手机的普及，而70％的智能手机使用者长期都是通过竖屏来使用智能手机的，因此，通过竖屏观看视频的用户越来越多。在很多App里面(比如抖音、淘宝)，提供的视频也主要是以竖屏为主(9:16或者3：4)。然而市面上大部分成品视频，依然还是以横屏为主(比例为16:9或者4：3)，这样的视频在手机上观看体验不是很好。因此发明了本方法，目的是为了快速从16:9或4：3这类横屏视频中又好又快地裁剪出竖版视频，进而能实现指定任意比例，均可剪出好视频的目的。

发明内容

本发明的目的在于提供一种智能剪辑视频的方法，以解决上述背景技术中提出的某种或某些缺陷。

为实现上述目的，本发明提供一种智能剪辑视频的方法，其方法步骤如下：

S1、用户通过界面或其他方式预设一个视频输出的画幅比例；

S2、导入本次需要剪辑的视频素材；

S3、对导入的视频素材，进行解码，每帧抽取一张图片作为分析对象；

S4、将视频按镜头进行切分；

S5、对上一步剪出的单个视频镜头进行画面裁剪；

S6、把所有镜头裁剪出来的结果，按照时间的顺序进行合成，得出最后的视频。

作为优选，S4中，视频按镜头切分步骤如下：

①、给定一段视频流，视频逐帧绘制直方图；

②、计算和上一帧的差值，如果靠近的两帧之间，差值明显变大，则可以判断为是一个镜头边缘帧；

③、根据计算出来的镜头边缘帧，对视频进行切割，直方图之间的差异可以用以下公式进行计算：

作为优选，S5中，剪出的单个视频镜头进行画面裁剪步骤如下：

①、通过人脸检测算法，来检测每帧画面中出现的人脸，得到每个人脸在画面中的坐标和面积；

②、通过物体检测算法，检测每帧画面中出现的特写物体，得到每个物体在画面中的坐标和面积；

③、根据预设的视频画幅裁剪比例；

④、为每个裁剪画面打上美感分，并选出最“美”的裁剪方案。

作为优选，人脸检测算法采用MTCNN算法，其包括如下步骤：

步骤一：人脸检测，人脸检测采用交叉熵损失函数实现分类任务，交叉熵损失函数如下：

步骤二：人脸特征点定位，人脸特征点定位为回归问题，目标是特征点与标定好的数据的平方和损失，其算法如下：

步骤三：边界框回归，当IOU小于设定的阈值时，将预测的窗口进行一系列微调，使预测窗与真实值更加接近；

步骤四：训练目标函数，引入一个指示值，用于指示该样本是否需要计算某一项损失，其函数为：

作为优选，物体检测算法采用YOLO3检测方法，包括以下步骤：

步骤一：命令语句介绍：

直接在darknet.exe同级目录新建.cmd格式文件，然后在文件内写入执行的命令语句，保存后双击该.cmd格式文件便可执行命令，训练命令语句为：darknet.exedetectortraindata/obj-leaf.datayolov3-leaf.cfgdarknet53.conv.74；

步骤二：开始训练：

①新建命令文件：新建.cmd格式文件并命名为“yolov3_leaf_train”，右键—>编辑，将训练命令语句复制进去并保存；

②排错调试：双击“yolov3_leaf_train.cmd”，开始训练。

作为优选，为每个裁剪画面打上美感分包括如下步骤：

步骤一：基于图像美学算法，对每个裁剪方案的画面进行分析，并对视频画面的打上美感分；

步骤二：根据美感分对裁剪方案进行倒序排列，找出最“美”的裁剪方案；

步骤三：根据该裁剪方案，对该镜头进行裁剪，得出剪辑好的镜头。

作为优选，图像美学算法采用NIMA算法模型，其步骤如下：

①、使用预训练的图像网络作为基线(baseline)，图像网络包括MobileNet，VGG16，Inception现成的图像算法；

②、在基线(baseline)的基础上，将最后一层替换掉，使用随机初始化的分类器(FC)进行任务预训练；；

③、对预训练的结果用softmax进行归一化；

④、训练损失函数用EMD(经验模态分解)，损失函数的表达式如下：

其中，

也就是预测评分的概率的累加值，而不是独立的预测获得每一个评分的概率，以此代替分布；

⑤、基于该算法，每输入一张图片，算法均可以给出一个分数(0-10分)，来评估图片质量的好坏，分数越高，图片质量越好。

作为优选，根据美感分对裁剪方案进行倒序排列采用核校准函数，给定核函数K，K，，则公式如下：

每给定一组有限样本集合S＝(x₁，x₂，...，x_m)，核矩阵K∈R^m+m以及K，∈R^m+m间的校准公式如下：

式中，<...>_F为Frobenius积，而||.||_F指Frobenius范数；

给定训练集，将不同核函数应用到不同的特征上后可得特征核矩阵{K₁，K₂，...，K_p}，而利用训练集样本的标签则可以得到目标核矩阵K_Y，特征核矩阵和目标核矩阵的核校准值越高，表示两者相关度越高，核矩阵融合的目标即使得融合的核矩阵

与目标核矩阵校准值最大化，即：

定义向量a＝(<K₁，K_Y)_F，(K₂，K_Y>_F...<K_p，K_Y>_F)^T，矩阵M∈R^p*p，其中M_i，j＝<K_i，K_j>_F，则优化问题公式为：

与现有技术相比，本发明的有益效果：

1、该智能剪辑视频的方法中，在画幅变化的需求场景下，可以大幅度提升机器自动裁剪出来的质量，通过人脸检测、物体检测等算法，找到视频画面中最重要的内容，并能根据输入的画幅比例，动态调节裁剪区域，并通过美学打分的方式，找到最美的视频裁剪方案。

2、该智能剪辑视频的方法中，通过机器能在较大程度上取代人的重复工作，提高视频剪辑整体的效率。

3、该智能剪辑视频的方法中，根据输入的画幅比例，动态调节裁剪区域，并通过美学打分的方式，找到最美的视频裁剪方案，使得拍摄出来的视频能够以较低的成本，分发到多个对画幅比例要求不同的平台上。

附图说明

图1为本发明的整体方法流程图；

图2为本发明的结构单个视频镜头进行画面裁剪步骤流程图；

图3为本发明的裁剪画面美感分步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3所示，本发明提供一种技术方案：

本发明提供一种智能剪辑视频的方法，其方法步骤如下：

S1、用户通过界面或其他方式预设一个视频输出的画幅比例；

S2、导入本次需要剪辑的视频素材；

S3、对导入的视频素材，进行解码，每帧抽取一张图片作为分析对象；

S4、将视频按镜头进行切分；

S5、对上一步剪出的单个视频镜头进行画面裁剪；

S6、把所有镜头裁剪出来的结果，按照时间的顺序进行合成，得出最后的视频。

进一步的，S4中，视频按镜头切分步骤如下：

①、给定一段视频流，视频逐帧绘制直方图；

②、计算和上一帧的差值，如果靠近的两帧之间，差值明显变大，则可以判断为是一个镜头边缘帧；

③、根据计算出来的镜头边缘帧，对视频进行切割，直方图之间的差异可以用以下公式进行计算：

具体的，S5中，剪出的单个视频镜头进行画面裁剪步骤如下：

①、通过人脸检测算法，来检测每帧画面中出现的人脸，得到每个人脸在画面中的坐标和面积；

②、通过物体检测算法，检测每帧画面中出现的特写物体，得到每个物体在画面中的坐标和面积；

③、根据预设的视频画幅裁剪比例；

④、为每个裁剪画面打上美感分，并选出最“美”的裁剪方案。

其中，镜头裁剪可以有多种镜头裁剪的方案，比如通过H.264自带的i帧识别算法，也能达到类似的效果。

在进一步的，人脸检测算法采用MTCNN算法，其包括如下步骤：

步骤一：人脸检测，人脸检测采用交叉熵损失函数实现分类任务，交叉熵损失函数如下：

步骤二：人脸特征点定位，人脸特征点定位为回归问题，目标是特征点与标定好的数据的平方和损失，其算法如下：

步骤三：边界框回归，当IOU小于设定的阈值时，将预测的窗口进行一系列微调，使预测窗与真实值更加接近；在实际应用中，变化的input、output按照具体算法将已转换的结果与最终合适的结果进行转换，可将其理解为一个损失函数的线性回归；

步骤四：训练目标函数，引入一个指示值，用于指示该样本是否需要计算某一项损失，其函数为：

具体实现方法如下：假设有6个预测的矩形框，并将其按概率从高到低排序，依次为a>b>c>d>e>f：

①、从概率最高的矩形框a开始，分别判断从b到f与a的重叠程度是否大于预先设定的某个阈；

②、假如b，c与a的重叠程度(IOU)超过阈值，则舍弃b与c，并标记矩形框a为经过筛选保留后的结果；

③、从剩下的矩形框d、e、f中，选择概率最大的d，然后判断d与e、f的重叠程度，如果重叠度大于设置的阈值，则舍弃并标记d是经过筛选保留下来的第二个矩形框；

④、重复以上步骤，直到找到需要的所有窗口。

其中，人脸检测除了上述所说的MTCNN，还有很多现成的人脸检测算法，比如Adaboost、DMP、Cascade CNN模型等。

值得说明的是，物体检测算法采用YOLO3检测方法，包括以下步骤：

步骤一：命令语句介绍：

步骤二：开始训练：

①新建命令文件：新建.cmd格式文件并命名为“yolov3_leaf_train”，右键—>编辑，将训练命令语句复制进去并保存；

②排错调试：双击“yolov3_leaf_train.cmd”，开始训练。

其中，物体检测除了yolo3，也有很多别的算法，比如Adaboost、SVM、DecisionTree、RNN、Fast RNN、SSD之类的算法可以用。

具体的，为每个裁剪画面打上美感分包括如下步骤：

步骤一：基于图像美学算法，对每个裁剪方案的画面进行分析，并对视频画面的打上美感分；

步骤二：根据美感分对裁剪方案进行倒序排列，找出最“美”的裁剪方案；

步骤三：根据该裁剪方案，对该镜头进行裁剪，得出剪辑好的镜头。

图像美学算法采用NIMA算法模型，其步骤如下：

①、使用预训练的图像网络作为基线(baseline)，图像网络包括MobileNet，VGG16，Inception现成的图像算法；

②、在基线(baseline)的基础上，将最后一层替换掉，使用随机初始化的分类器(FC)进行任务预训练；；

③、对预训练的结果用softmax进行归一化；

④、训练损失函数用EMD(经验模态分解)，损失函数的表达式如下：

其中，

也就是预测评分的概率的累加值，而不是独立的预测获得每一个评分的概率，以此代替分布；

⑤、基于该算法，每输入一张图片，算法均可以给出一个分数(0-10分)，来评估图片质量的好坏，分数越高，图片质量越好。

根据美感分对裁剪方案进行倒序排列采用核校准函数，给定核函数K，K，，则公式如下：

每给定一组有限样本集合S＝(x₁，x₂，...，x_m)，核矩阵K∈R^m+m以及K，∈R^m+m间的校准公式如下：

式中，<...>_F为Frobenius积，而||.||_F指Frobenius范数；

给定训练集，将不同核函数应用到不同的特征上后可得特征核矩阵{K₁，K₂，...，K_p}，而利用训练集样本的标签则可以得到目标核矩阵K_Y，特征核矩阵和目标核矩阵的核校准值越高，表示两者相关度越高，核矩阵融合的目标即使得融合的核矩阵与目标核矩阵校准值最大化，即：

定义向量a＝(<K₁，K_Y>_F，<K₂，K_Y＞_F...<K_p，K_Y>_F)^T，矩阵M∈R^p*p，其中M_i，j＝<K_i，K_j>_F，则优化问题公式为：

上述问题还可以进一步转化为如下二次规划问题：

此处有u^*＝v^*/||v||，由于所有特征核矩阵都要对目标矩阵进行校准，因此目标矩阵K_Y的设定也非常重要，本发明将图像质量划分为三个层级，分别为“高质量”、“普通质量”和“低质量”，通常来讲，“高质量”图片和“低质量”图片间的相似度低于“普通质量”图片和“低质量”图片间的相似度或者“普通质量”图片和“高质量”图片间的相似度，将图像的美学质量标签记作0，1，2，分别指代“低质量”、“普通质量”和“高质量”，目标核矩阵K_Y∈R^m.m可写作：

[K_ij]＝2-|y_i-y_j|

公式中的y_i和y_j分别为图像x_i和x_j的美学质量。

每给定一组美学特征，将不同核函数应用到美学特征上，以得到不同的核矩阵{K₁，K₂，...，K_p}，再结合目标核矩阵K_Y，能够将这些矩阵融合到K_u，通过能够处理核函数的机器学习算法的到美学质量分类器。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

14页详细技术资料下载

一种智能剪辑视频的方法

相关技术

网友询问留言