一种视频数据播放方法、装置、设备以及介质

文档序号：1941864 发布日期：2021-12-07 浏览：13次 >En<

阅读说明：本技术 一种视频数据播放方法、装置、设备以及介质 (Video data playing method, device, equipment and medium ) 是由陈小帅于 2021-05-06 设计创作，主要内容包括：本申请实施例提供了一种视频数据播放方法、装置、设备以及介质,该方法涉及人工智能领域,方法包括：显示用于播放目标视频的视频播放界面；响应于针对视频播放界面的第一触发操作,显示与目标视频的倍速模式相关联的N个倍速控件；N为正整数；响应于针对N个倍速控件的第二触发操作,确定第二触发操作所对应的倍速控件所指示的第一倍速信息,在视频播放界面中播放目标视频的关键视频片段；关键视频片段为从目标视频的视频片段中所选取的与第一倍速信息相关联的视频片段。采用本申请,可以实现用户的个性化倍速播放,进而可以提高倍速播放的准确性。(The embodiment of the application provides a video data playing method, a device, equipment and a medium, the method relates to the field of artificial intelligence, and the method comprises the following steps: displaying a video playing interface for playing a target video; displaying N speed-multiplying controls associated with a speed-multiplying mode of a target video in response to a first trigger operation for a video playing interface; n is a positive integer; responding to second trigger operation aiming at the N speed-doubling controls, determining first speed-doubling information indicated by the speed-doubling controls corresponding to the second trigger operation, and playing key video clips of the target video in a video playing interface; the key video clip is a video clip associated with the first double speed information selected from the video clips of the target video. By adopting the method and the device, the personalized speed-multiplying playing of the user can be realized, and the accuracy of the speed-multiplying playing can be further improved.)

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频数据播放方法、装置、设备以及介质。

背景技术

随着多媒体技术的发展，视频已成为人们日常生活中获取信息与享受娱乐的主要载体。可以理解的是，在视频的时长较长时，为了在有限时间内观看完视频，用户(例如，用户Y)通常会使用倍速播放模式(例如，2倍速)观看视频。

在实现现有的倍速播放模式时，主要是通过机械化地将视频的图像帧、音频帧等进行时间点压缩。比如，在2倍速播放时，可以将视频帧和音频帧的时间坐标缩小为2倍。基于此，在使用现有的倍速播放模式进行视频的倍速播放时，会使用上述时间点压缩方式无差别的为所有用户实现倍速播放，这样不可避免地会遗漏掉用户Y可能感兴趣的情节内容，以至于会降低倍速播放的准确性。

发明内容

本申请实施例提供一种视频数据播放方法、装置、设备以及介质，可以实现用户的个性化倍速播放，进而可以提高倍速播放的准确性。

本申请实施例一方面提供了一种视频数据播放方法，包括：

显示用于播放目标视频的视频播放界面；

响应于针对视频播放界面的第一触发操作，显示与目标视频的倍速模式相关联的N个倍速控件；N为正整数；

响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，在视频播放界面中播放目标视频的关键视频片段；关键视频片段为从目标视频的视频片段中所选取的与第一倍速信息相关联的视频片段。

本申请实施例一方面提供了一种视频数据播放装置，包括：

界面显示模块，用于显示用于播放目标视频的视频播放界面；

第一响应模块，用于响应于针对视频播放界面的第一触发操作，显示与目标视频的倍速模式相关联的N个倍速控件；N为正整数；

第二响应模块，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，在视频播放界面中播放目标视频的关键视频片段；关键视频片段为从目标视频的视频片段中所选取的与第一倍速信息相关联的视频片段。

其中，视频播放界面为用于播放目标视频的全屏播放界面；

第一响应模块包括：

第一显示单元，用于响应于针对全屏播放界面的第一触发操作，触发目标视频的倍速模式，基于倍速模式显示独立于全屏播放界面的第一控件显示界面；第一控件显示界面的界面尺寸小于全屏播放界面的界面尺寸；

第二显示单元，用于在第一控件显示界面中显示与倍速模式相关联的N个倍速控件。

其中，视频播放界面为用于播放目标视频的非全屏播放界面；

第一响应模块还包括：

视频播放单元，用于在非全屏播放界面的视频播放区域中播放目标视频；

第三显示单元，用于响应于针对非全屏播放界面的第一触发操作，在非全屏播放界面中显示目标视频的控件显示区域；控件显示区域为悬浮于视频播放区域之上的区域，或者控件显示区域为不重叠于视频播放区域的区域；

第四显示单元，用于响应于针对控件显示区域的倍速选择操作，触发目标视频的倍速模式，基于倍速模式在第二控件显示界面中显示与倍速模式相关联的N个倍速控件。

其中，第二响应模块包括：

第一确定单元，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度；

第一检查单元，用于在检查到用于播放目标视频的应用客户端的网络状态属于第一网络状态时，基于第一网络状态从服务器上获取与第一倍速信息和第一播放进度相关联的倍速播放片段标识；一个倍速播放片段标识用于表征目标视频中的一个关键视频片段的片段位置；

片段获取单元，用于从服务器上获取与倍速播放片段标识相匹配的关键视频片段；

第一播放单元，用于基于关键视频片段在目标视频中的片段位置，在视频播放界面中播放目标视频的关键视频片段。

其中，第二响应模块还包括：

第二确定单元，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度；

第二检查单元，用于在检查到用于播放目标视频的应用客户端的网络状态属于第二网络状态时，基于第二网络状态从服务器上获取与第一倍速信息和第一播放进度相关联的关键视频片段；关键视频片段为服务器基于第一倍速信息和第一播放进度从目标视频的关键片段集合中所确定的；关键片段集合是服务器基于L个视频片段所确定的；L个视频片段是基于目标视频的K个视频片段的片段兴趣属性所确定的；L为小于K的正整数；K为正整数；

第二播放单元，用于在视频播放界面中播放目标视频的关键视频片段。

其中，装置还包括：

第三响应模块，用于将第二触发操作所对应的倍速控件作为第一倍速控件，当在视频播放界面中播放关键视频片段时，响应于针对视频播放界面的第三触发操作，显示与倍速模式相关联的N个倍速控件；N个倍速控件中包含第二倍速控件；

第四响应模块，用于响应于针对第二倍速控件的第四触发操作，将用于对目标视频进行倍速播放的倍速信息由第一倍速控件所指示的第一倍速信息切换为第二倍速控件所指示的第二倍速信息；

进度确定模块，用于将关键视频片段在目标视频中的播放进度确定为第二播放进度，基于第二倍速信息和第二播放进度，确定用于在视频播放界面中播放的切换视频片段；切换视频片段为从目标视频的视频片段中所选取的与第二倍速信息和第二播放进度相关联的视频片段；

片段切换模块，用于在视频播放界面中播放切换视频片段。

本申请实施例一方面提供了一种视频数据播放方法，包括：

接收应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求；第一倍速信息用于指示应用客户端在倍速模式下对目标视频进行倍速播放；

基于倍速播放请求从目标视频的K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段；L为小于K的正整数；K为正整数；

将关键视频片段返回给应用客户端，以使应用客户端播放目标视频的关键视频片段。

本申请实施例一方面提供了一种视频数据播放装置，包括：

请求接收模块，用于接收应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求；第一倍速信息用于指示应用客户端在倍速模式下对目标视频进行倍速播放；

片段确定模块，用于基于倍速播放请求从目标视频的K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段；L为小于K的正整数；K为正整数；

片段返回模块，用于将关键视频片段返回给应用客户端，以使应用客户端播放目标视频的关键视频片段。

其中，片段确定模块包括：

视频划分单元，用于从倍速播放请求中获取目标视频的视频标识，基于视频标识确定应用客户端中的目标视频，基于视频切分参数将目标视频划分为K个视频片段；

第一预测单元，用于获取与目标视频相关联的目标网络模型，通过目标网络模型预测K个视频片段中的每个视频片段的第一片段属性，基于每个视频片段的第一片段属性确定每个视频片段的片段精彩度；

第二预测单元，用于通过目标网络模型预测K个视频片段中的每个视频片段的第二片段属性，基于每个视频片段的第二片段属性确定每个视频片段的片段热度；

第三预测单元，用于通过目标网络模型预测K个视频片段中的每个视频片段的第三片段属性，基于每个视频片段的第三片段属性确定每个视频片段的片段兴趣度；

片段筛选单元，用于将每个视频片段的片段精彩度、每个视频片段的片段热度和每个视频片段的片段兴趣度，确定为每个视频片段的片段兴趣属性，基于每个视频片段的片段兴趣属性和倍速播放请求，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段。

其中，K个视频片段中包括视频片段S_i，i为小于或者等于K的正整数；

第一预测单元包括：

模型获取子单元，用于获取与目标视频相关联的目标网络模型；目标网络模型包括用于对视频片段S_i的第一片段属性进行预测的第一目标预估网络；

第一确定子单元，用于通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量；

第一融合子单元，用于对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合，得到视频片段S_i的第一融合特征向量，将第一融合特征向量输入至第一目标预估网络中的第一全连接网络，由第一全连接网络对第一融合特征向量进行特征提取，得到视频片段S_i对应的第一目标特征向量；

精彩度确定子单元，用于将第一目标特征向量输入第一目标预估网络中用于对第一片段属性进行属性分类的第一分类器，由第一分类器输出第一目标特征向量与第一分类器中的多个第一样本属性所对应的第一样本特征向量之间的第一匹配度，基于第一匹配度确定视频片段S_i的第一片段属性，基于第一片段属性确定视频片段S_i的片段精彩度。

其中，第一目标预估网络包括第一图像处理网络、第一音频处理网络和第一文本处理网络；

第一确定子单元包括：

第一提取子单元，用于将视频片段S_i中的图像帧作为第一图像帧，将第一图像帧输入至第一图像处理网络，由第一图像处理网络对第一图像帧进行图像特征提取，得到视频片段S_i的第一图像特征向量；

第二提取子单元，用于将视频片段S_i中的音频帧作为第一音频帧，将第一音频帧输入至第一音频处理网络，由第一音频处理网络对第一音频帧进行音频特征提取，得到视频片段S_i的第一音频特征向量；

第三提取子单元，用于将与视频片段S_i相关联的文本信息作为第一文本信息，将第一文本信息输入至第一文本处理网络，由第一文本处理网络对第一文本信息进行文本特征提取，得到视频片段S_i的第一文本特征向量。

其中，第一预测单元还包括：

互动量确定子单元，用于将用于训练第一初始预估网络的视频片段作为训练片段，确定训练片段的弹幕互动量；一个训练片段的弹幕互动量用于描述一个训练片段的真实片段精彩度；

片段划分子单元，用于在训练片段中将弹幕互动量大于互动阈值的训练片段作为正样本片段，且将正样本片段的真实片段精彩度作为第一样本标签，在训练片段中将弹幕互动量小于或者等于互动阈值的训练片段作为负样本片段，且将负样本片段的真实片段精彩度作为第二样本标签；

第一关联子单元，用于基于正样本片段和负样本片段，确定用于训练第一初始预估网络的第一样本片段，基于第一样本标签和第二样本标签，确定多个第一样本属性；

第二融合子单元，用于通过第一初始预估网络确定第一样本片段的第一样本图像向量、第一样本音频向量和第一样本文本向量，对第一样本图像向量、第一样本音频向量和第一样本文本向量进行特征融合，得到第一样本片段的第一样本融合向量，基于第一样本融合向量确定第一样本片段的第一预测属性；

第一训练子单元，用于基于第一预测属性所对应的预测样本精彩度和第一样本属性所对应的真实样本精彩度，对第一初始预估网络进行迭代训练，得到第一目标预估网络。

其中，K个视频片段中包括视频片段S_i，i为小于或者等于K的正整数；目标网络模型包括用于对视频片段S_i的第二片段属性进行预测的第二目标预估网络；

第二预测单元包括：

第二确定子单元，用于通过第二目标预估网络确定视频片段S_i的第二图像特征向量、第二音频特征向量和第二文本特征向量；

第三融合子单元，用于对第二图像特征向量、第二音频特征向量和第二文本特征向量进行特征融合，得到视频片段S_i的第二融合特征向量，基于第二融合特征向量确定视频片段S_i的第二片段属性，基于第二片段属性确定视频片段S_i的第一片段热度；

平均处理子单元，用于获取目标视频所属平台上的业务视频的辅助视频片段，基于辅助视频片段的弹幕互动量以及第一倍速信息，确定视频片段S_i对应的平均弹幕量；

弹幕量获取子单元，用于获取视频片段S_i的片段弹幕量，基于片段弹幕量和平均弹幕量，确定视频片段S_i的第二片段热度；

热度确定子单元，用于根据视频片段S_i的第一片段热度和第二片段热度，确定视频片段S_i的片段热度。

其中，第二预测单元还包括：

播放量确定子单元，用于将用于训练第二初始预估网络的样本视频作为第二样本片段，确定第二样本片段的视频播放量和播放完成量；一个第二样本片段的视频播放量和播放完成量用于描述一个第二样本片段的真实样本热度；

第二关联子单元，用于基于视频播放量与播放完成量的乘积，确定第二样本片段的真实样本热度，将确定的真实样本热度，作为与第二样本片段相关联的多个第二样本属性；

第四融合子单元，用于通过第二初始预估网络确定第二样本片段的第二样本图像向量、第二样本音频向量和第二样本文本向量，对第二样本图像向量，第二样本音频向量和第一样本文本向量进行特征融合，得到第二样本片段的第二样本融合向量，基于第二样本融合向量确定第二样本片段的第二预测属性；

第二训练子单元，用于基于第二预测属性所对应的预测样本热度和第二样本属性所对应的真实样本热度，对第二初始预估网络进行迭代训练，得到第二目标预估网络。

其中，K个视频片段中包括视频片段S_i，i为小于或者等于K的正整数；目标网络模型包括用于对视频片段S_i的第三片段属性进行预测的第三目标预估网络；

第三预测单元包括：

第一视频确定子单元，用于获取与应用客户端中的目标用户相关联的目标关联视频，且获取目标关联视频的目标视频标签，将目标视频标签作为目标用户的目标兴趣标签；

第三确定子单元，用于通过第三目标预估网络确定视频片段S_i的目标片段特征向量，通过第三目标预估网络确定目标关联视频的目标关联特征向量，通过第三目标预估网络确定目标兴趣标签的目标兴趣特征向量；

兴趣度确定子单元，用于基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量，确定视频片段S_i的第三融合特征向量，基于第三融合特征向量确定视频片段S_i的第三片段属性，基于第三片段属性确定视频片段S_i的片段兴趣度。

其中，第三预测单元还包括：

完成度确定子单元，用于将用于训练第三初始预估网络的样本视频作为训练视频，确定样本用户对于训练视频的观看完成度；一个训练视频的观看完成度用于描述一个样本用户对一个训练视频的真实样本兴趣度；

视频划分子单元，用于在训练视频中将观看完成度大于完成阈值的训练视频作为正样本视频，且将正样本视频的真实样本兴趣度作为第一视频标签，在训练视频中将观看完成度小于或者等于完成阈值的训练视频作为负样本视频，且将负样本视频的真实样本兴趣度作为第二视频标签；

第三关联子单元，用于基于正样本视频和负样本视频，确定用于训练第三初始预估网络的第三样本片段，基于第一视频标签和第二视频标签，确定多个第三样本属性；

第二视频确定子单元，用于将正样本视频作为与样本用户相关联的样本关联视频，且获取样本关联视频的样本视频标签，将样本视频标签作为样本用户的样本兴趣标签；

第四确定子单元，用于通过第三初始预估网络确定第三样本片段的样本片段特征向量，通过第三初始预估网络确定样本关联视频的样本关联特征向量，通过第三目标预估网络确定样本兴趣标签的样本兴趣特征向量；

第五融合子单元，用于基于样本片段特征向量、样本关联特征向量和样本兴趣特征向量，确定第三样本片段的第三样本融合向量，基于第三样本融合向量确定第三样本片段的第三预测属性；

第三训练子单元，用于基于第三预测属性所对应的预测样本兴趣度和第三样本属性所对应的真实样本兴趣度，对第三初始预估网络进行迭代训练，得到第三目标预估网络。

其中，片段筛选单元包括：

结果确定子单元，用于基于每个视频片段的片段兴趣属性，得到每个视频片段的倍速评估结果；

片段筛选子单元，用于在倍速播放请求中获取目标视频的第一播放进度和第一倍速信息，基于第一倍速信息、第一播放进度和倍速评估结果，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下用于对目标视频进行倍速播放的关键视频片段。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，计算机设备在获取到与应用客户端中的某个视频(例如，目标用户所请求播放的目标视频)相关联的倍速播放请求时，可以获取目标视频的K个视频片段，进而在K个视频片段中选取与倍速播放请求所携带的第一倍速信息相关联的多个视频片段，以将选取的多个视频片段作为关键视频片段。其中，这里的K可以为正整数。基于此，计算机设备可以将关键视频片段返回给应用客户端，以使应用客户端在视频播放界面中播放关键视频片段。由此可见，本申请实施例通过确定应用客户端的目标用户和K个视频片段的关系，可以在K个视频片段中确定与目标用户相匹配的关键视频片段，这里的关键视频片段可以为K个视频片段中，目标用户感兴趣的视频片段。因此，对于不同的用户而言，可以智能地为不同用户选取与各自相匹配的关键视频片段，以在不同用户的应用客户端中播放各自获取到的关键视频片段。显然，通过引入关键视频片段，可以在目标用户使用目标视频的倍速模式时，为目标用户提供个性化地倍速播放模式，进而可以提高倍速播放的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种视频数据播放方法的流程示意图；

图4a是本申请实施例提供的一种显示视频播放界面的场景示意图；

图4b是本申请实施例提供的一种显示视频播放界面的场景示意图；

图5是本申请实施例提供的一种间接显示倍速选择控件的场景示意图；

图6a是本申请实施例提供的一种间接显示倍速控件的场景示意图；

图6b是本申请实施例提供的一种间接显示倍速控件的场景示意图；

图7是本申请实施例提供的一种直接显示倍速控件的场景示意图；

图8是本申请实施例提供的一种播放关键视频片段的场景示意图；

图9是本申请实施例提供的一种视频数据播放方法的流程示意图；

图10是本申请实施例提供的一种第一目标预估网络的结构示意图；

图11是本申请实施例提供的一种第二目标预估网络的结构示意图；

图12是本申请实施例提供的一种第三目标预估网络的结构示意图；

图13是本申请实施例提供的一种智能倍速播放方法的场景示意图；

图14是本申请实施例提供的一种视频数据播放装置的结构示意图；

图15是本申请实施例提供的一种视频数据播放装置的结构示意图；

图16是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请实施例所提供的方案主要涉及人工智能的计算机视觉(ComputerVision，简称CV)技术和机器学习(Machine Learning，简称ML)技术。

其中，计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，机器学习(Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器2000和用户终端集群。其中，用户终端集群具体可以包括一个或者多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示，多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n；用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。

其中，业务服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，用户终端集群中的每个用户终端均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能家居、可穿戴设备、车载设备等具有视频数据处理功能的智能终端。应当理解，如图1所示的用户终端集群中的每个用户终端均可以集成安装有目标应用(即应用客户端)，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中，应用客户端具体可以包括：车载客户端、智能家居客户端、娱乐客户端(例如，游戏客户端)、多媒体客户端(例如，视频客户端)、社交客户端以及资讯类客户端(例如，新闻客户端)等。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如，本申请实施例可以将图1所示的用户终端3000a作为目标用户终端，该目标用户终端中可以集成有具备视频编码功能的目标应用(即应用客户端)。此时，该目标用户终端可以通过该应用客户端与业务服务器2000之间实现数据交互。

为便于理解，本申请实施例可以将某个用户(例如，用户Y)在应用客户端的视频推荐界面中所选择的贴合自己兴趣的视频(比如，电视剧)统称为目标视频。

应当理解，上述网络框架所适用的业务场景具体可以包括：娱乐节目点播场景，线上影院观影场景、线上教室听课场景等，该网络框架可以实现在娱乐节目点播场景，线上影院观影场景、线上教室听课场景等业务场景下实现目标视频的倍速播放，这里将不对该网络框架所适用的业务场景进行一一列举。比如，在娱乐节目点播场景下，这里的目标视频可以为上述用户Y在视频推荐界面(比如，视频节目推荐列表)中所选取的贴合自己兴趣的娱乐节目。又比如，在线上影院观影场景下，这里的目标视频可以为上述用户Y在视频推荐界面(比如，影片推荐列表)中所选取的贴合自己兴趣的影片。又比如，在线上教室听课场景下，这里的目标视频可以为上述用户Y在视频推荐界面(比如，课程推荐列表)中所选取的贴合自己兴趣的课程。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种进行数据交互的场景示意图。其中，如图2所示的服务器可以为上述图1所对应实施例中的业务服务器2000，如图2所示的终端Z可以为上述图1所对应实施例的用户终端集群中的任意一个用户终端，为便于理解，本申请实施例以上述图1所示的用户终端3000a作为该终端Z为例，以阐述图2所示的终端Z和服务器进行数据交互的具体过程。其中，终端Z上安装有应用客户端，该应用客户端可以用于播放该终端Z对应的用户所感兴趣的目标视频，终端Z对应的用户可以为上述用户Y。

其中，如图2所示的视频播放界面2a和视频播放界面2b可以为应用客户端在不同时刻的视频播放界面。其中，应当理解，该视频播放界面2a可以为在T1时刻用于播放目标视频的视频播放界面，该视频播放界面2b可以为在T2时刻用于播放关键视频片段的视频播放界面。这里的关键视频片段为从目标视频的视频片段中选取的多个视频片段。

可以理解的是，视频播放界面2a中可以包括倍速选择控件20c，应用客户端可以响应于针对倍速选择控件20c的第一触发操作，显示独立于视频播放界面2a的第一控件显示界面20b(即第一控件显示界面20b为悬浮于视频播放界面2a的子界面)，该第一控件显示界面20b中可以包括与倍速模式相关联的智能倍速控件和与通用模式相关联的通用倍速控件，智能倍速控件的数量可以为N个，通用倍速控件的数量可以为M个，这里的N可以等于2，这里的M可以等于4，本申请实施例不对智能倍速控件和通用倍速控件的数量进行限定。其中，N个智能倍速控件具体可以包括：“智能倍速2.0x”和“智能倍速1.5x”所对应的倍速控件，M个通用倍速控件具体可以包括：“0.5x”、“1.0x”、“1.5x”和“2.0x”所对应的倍速控件。

如图2所示，“智能倍速2.0x”所对应的智能倍速控件可以为第一倍速控件20a，用户Y可以在应用客户端中针对第一倍速控件20a执行第二触发操作，这样，应用客户端可以响应用户Y针对第一倍速控件20a所执行的第二触发操作，确定目标视频在视频播放界面2a中的播放进度(例如，第一播放进度)，基于该“智能倍速2.0x”所指示的第一倍速信息(即2倍速)和第一播放进度向服务器发送倍速播放请求。

如图2所示，服务器可以接收应用客户端的用户Y发送的倍速播放请求，进而获取与倍速播放请求相关联的目标视频的K个视频片段，这里的K个视频片段是对目标视频划分所得到的，例如，将目标视频划分为5秒的K个视频片段，这里的K可以为正整数，K个视频片段具体可以包括：视频片段1、视频片段2、…、视频片段k。进一步地，服务器可以获取用户Y的用户画像，对用户Y的用户画像和K个视频片段进行相关度分析，得到K个视频片段中每个视频片段的倍速评估结果，比如，视频片段1的倍速评估结果可以为倍速评估结果1、视频片段2的倍速评估结果可以为倍速评估结果2、…、视频片段k的倍速评估结果可以为倍速评估结果k。

如图2所示，服务器可以基于K个视频片段中每个视频片段的倍速评估结果、第一倍速信息和第一播放进度，在K个视频片段中选取L个视频片段，以将选取的L个视频片段作为关键视频片段，这里的L可以为小于K的正整数。比如，当用户Y正在观看目标视频的视频片段2中的情节内容时，可以在倍速模式下选择自己所期望的倍速倍数所对应的智能倍速控件，此时，目标视频的第一播放进度属于视频片段2，这样，服务器可以在K个视频片段中获取第一播放进度所在的视频片段和第一播放进度之后的视频片段，即在K个视频片段中获取视频片段2、…、视频片段k(这里的视频片段2、…、视频片段k可以为待播放视频片段)，基于倍速评估结果2、…、倍速评估结果k的对视频片段2、…、视频片段k进行排序，进而在视频片段2、…、视频片段k中选取具有较高倍速评估结果的1/S个视频片段，以将具有较高倍速评估结果的1/S个视频片段作为关键视频片段。其中，这里的S是由第一倍速信息所确定的，在第一倍速信息为2倍速时，S等于2。例如，服务器可以在视频片段2、…、视频片段k中选取视频片段2、视频片段4(未在图上示出)、…、视频片段k作为关键视频片段，这里的关键视频片段的数量为L个，此时，L＝(K-1)/2。其中，在K等于20时，K-1等于19，则L等于9或者10。可选的，在K等于21时，K-1等于20，则L等于10。

如图2所示，服务器当在目标视频的K个视频片段中确定关键视频片段时，可以将与倍速播放请求相关联的关键视频片段返回给应用客户端。因此，应用客户端在接收到关键视频片段之后，可以在应用客户端的视频播放界面2b中播放关键视频片段。可以理解的是，在关键视频片段包括上述视频片段2、视频片段4(未在图上示出)、…、视频片段k时，应用客户端可以基于关键视频片段在目标视频中的播放顺序(即片段位置)，在视频播放界面2b中播放关键视频片段，即首先播放视频片段2，在播放完视频片段2之后播放视频片段4(未在图上示出)，…，最后播放视频片段k。可选的，应用客户端还可以基于关键视频片段的倍速评估结果，在视频播放界面2b中播放关键视频片段，即首先播放关键视频片段中具有最高倍速评估结果的视频片段(例如，视频片段k)，…，最后播放关键视频片段中具有最低倍速评估结果的视频片段(例如，视频片段2)，本申请实施例不对关键视频片段的播放顺序进行限定。

可以理解的是，在倍速模式下，应用客户端可以通过播放关键视频片段来替代播放目标视频，比如，在第一倍信息为2倍速时，关键视频片段的数量为待播放视频片段的数量的一半(即1/2)，因此，应用客户端播放关键视频片段的时间为播放待播放视频片段的时间的一半，即应用客户端可以通过缩短播放目标视频时的时间(缩短后的时间为原有时间的一半)，来播放待播放视频片段中目标用户更感兴趣的关键视频片段。

由此可见，本申请实施例通过对视频内容与用户兴趣进行深度理解建模，基于视频片段的倍速评估结果确定目标用户(例如，用户Y)对于目标视频的视频片段的期望程度，可以在目标用户使用倍速播放模式播放目标视频时，将目标视频中更符合目标用户的用户期望的视频片段(即关键视频片段)保留下来呈现给目标用户。这样，本申请实施例通过在应用客户端中播放关键视频片段，以实现对目标视频的播放，可以使目标用户在可预期的时间内观看完精彩内容，进而可以在提高目标用户在倍速播放场景的观看体验的同时，提高倍速播放的准确性。

其中，应用客户端和服务器进行数据交互的具体实现方式，可以参见下述图3-图13所对应的实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种视频数据播放方法的流程示意图。该方法可以由应用客户端执行，也可以由服务器执行，还可以由应用客户端和服务器共同执行，该应用客户端可以为上述图2所对应实施例中的应用客户端，该服务器可以为上述图2所对应实施例中的服务器。为便于理解，本实施例以该方法由应用客户端执行为例进行说明。其中，该视频数据定位方法至少可以包括以下步骤S101-步骤S103：

步骤S101，显示用于播放目标视频的视频播放界面；

可以理解的是，当目标用户(例如，图2所对应实施例中的用户Y)需要在应用客户端中观看目标视频时，可以获取应用客户端的视频推荐界面，进而针对视频推荐界面的多个推荐视频中的目标视频执行播放操作。此时，应用客户端可以响应目标用户针对目标视频所执行的播放操作，在应用客户端中显示目标视频对应的视频播放界面(即非全屏播放界面)。

可以理解的是，当目标用户需要在应用客户端中以全屏模式观看目标视频时，可以获取上述非全屏播放界面，进而针对非全屏播放界面中的屏幕转换控件(例如，第一转换控件)执行第一转换操作，此时，应用客户端可以响应目标用户针对第一转换控件所执行的第一转换操作，在应用客户端中显示目标视频对应的视频播放界面(即全屏播放界面)。

其中，可以理解的是，上述全屏播放界面中也可以包括屏幕转换控件(例如，第二转换控件)，当目标用户需要在应用客户端中以非全屏模式观看目标视频时，可以获取上述全屏播放界面，进而针对全屏播放界面中的第二转换控件执行第二转换操作。此时，应用客户端可以响应目标用户针对第二转换控件所执行的第二转换操作，在应用客户端中显示目标视频对应上述非全屏播放界面。

其中，这里的目标视频可以为综艺节目、电影、电视剧等长视频，还可以为从长视频中截取的短视频等，本申请在此不做限定。

其中，这里的播放操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

其中，这里的第一转换操作和第二转换操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。其中，第一转换操作和第二转换操作可以统称为转换操作。

为便于理解，请参见图4a，图4a是本申请实施例提供的一种显示视频播放界面的场景示意图。如图4a所示的视频推荐界面4a可以为应用客户端的视频推荐界面，该视频推荐界面4a中可以包含多个推荐视频，这里的多个推荐视频具体可以包括：视频40a、视频40b、视频40c和视频40d。

如图4a所示，当用户Y需要观看某个推荐视频(例如，视频40b，该视频40b即为目标视频)时，可以针对视频40b执行播放操作，这样，应用客户端可以响应用户Y针对视频40b所执行的播放操作，向应用客户端对应的服务器发送视频播放请求，进而在应用客户端中显示视频40b对应的视频播放界面4b(即非全屏播放界面)，即将视频推荐界面4a切换为视频播放界面4b。

为便于理解，请参见图4b，图4b是本申请实施例提供的一种显示视频播放界面的场景示意图。如图4b所示的视频播放界面4c可以为图4a所对应实施例中的视频播放界面4b，该视频播放界面4c中可以包括屏幕转换控件。其中，用户Y在视频播放界面4c中以非全屏模式观看视频40b(即目标视频)。

如图4b所示，当用户Y需要在应用客户端中以全屏模式观看视频40b时，可以针对屏幕转换控件执行转换操作(即针对第一转换控件执行第一转换操作)，这样，应用客户端可以响应用户Y针对屏幕转换控件所执行的转换操作，在应用客户端中显示视频40b对应的视频播放界面4d(即全屏播放界面)，即将视频播放界面4c切换为视频播放界面4d。

步骤S102，响应于针对视频播放界面的第一触发操作，显示与目标视频的倍速模式相关联的N个倍速控件；

可以理解的是，视频播放界面中可以包括倍速选择控件，应用客户端响应于针对视频播放界面的第一触发操作，可以理解为响应于针对倍速选择控件的第一触发操作。其中，这里的第一触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

可以理解的是，应用客户端可以直接显示包含倍速选择控件的视频播放界面。可选的，应用客户端还可以显示不包含倍速选择控件的视频播放界面，当目标用户针对该不包含倍速选择控件的视频播放界面执行控件显示操作时，应用客户端可以响应于目标用户针对不包含倍速选择控件的视频播放界面所执行的控件显示操作，在视频播放界面中中显示倍速选择控件。其中，这里的视频播放界面可以为全屏播放界面或非全屏播放界面。

其中，这里的控件显示操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

为便于理解，请参见图5，图5是本申请实施例提供的一种间接显示倍速选择控件的场景示意图。如图5所示的视频播放界面5a可以为不包含倍速选择控件的视频播放界面，当用户Y针对视频播放界面5a执行控件显示操作(例如，点击操作时)，应用客户端可以显示包含倍速选择控件50a的视频播放界面5b，该视频播放界面5b可以为图4b所对应实施例中的视频播放界面4d。

可以理解的是，应用客户端在响应于针对视频播放界面的第一触发操作时，可以显示与倍速模式相关联的智能倍速控件，该智能倍速控件的数量可以为N个。其中，这里的N可以为正整数。可选的，应用客户端在响应于针对视频播放界面的第一触发操作时，还可以显示与通用模式相关联的通用倍速控件，该通用倍速控件的数量可以为M个。其中，这里的M可以为正整数。其中，倍速模式和通用模式为对目标视频进行倍速播放的两种不同方式，本申请实施例不对N和M的数量进行限定。

应当理解，在视频播放界面为用于播放目标视频的非全屏播放界面时，应用客户端可以在非全屏播放界面的视频播放区域中播放目标视频。进一步地，应用客户端可以响应于针对非全屏播放界面的第一触发操作，在非全屏播放界面中显示目标视频的控件显示区域。其中，控件显示区域为悬浮于视频播放区域之上的区域，或者控件显示区域为不重叠于视频播放区域的区域。进一步地，应用客户端可以响应于针对控件显示区域的倍速选择操作，触发目标视频的倍速模式，基于倍速模式在第二控件显示界面中显示与倍速模式相关联的N个倍速控件。其中，第二控件显示界面为悬浮于视频播放区域之上的界面，或者第二控件显示界面为不重叠于视频播放区域的界面。

其中，控件显示区域可以悬浮于视频播放区域，且重叠于视频播放区域。可选的，控件显示区域也可以悬浮于视频播放区域，且不重叠于视频播放区域。可选的，控件显示区域还可以为非全屏播放界面中不重叠于视频播放区域的非悬浮区域。

同理，第二控件显示界面可以悬浮于视频播放区域，且重叠于视频播放区域。可选的，第二控件显示界面也可以悬浮于视频播放区域，且不重叠于视频播放区域。可选的，第二控件显示界面还可以为非全屏播放界面中不重叠于视频播放区域的非悬浮界面。

其中，这里的倍速选择操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

可选的，在视频播放界面为用于播放目标视频的非全屏播放界面时，应用客户端响应于针对非全屏播放界面的第一触发操作，触发目标视频的倍速模式，基于倍速模式显示独立于非全屏播放界面的第二控件显示界面。其中，第二控件显示界面的界面尺寸小于非全屏播放界面的界面尺寸。进一步地，应用客户端在第二控件显示界面中显示与倍速模式相关联的N个倍速控件。

为便于理解，请参见图6a，图6a是本申请实施例提供的一种间接显示倍速控件的场景示意图。如图6a所示的视频播放界面6a可以为图4a所对应实施例中的视频播放界面4b，该视频播放界面6a可以包括用于播放目标视频的视频播放区域60a。其中，视频播放区域60a中可以包括视频控制控件。

如图6a所示，在用户Y需要以倍速模式观看目标视频时，可以针对视频控制控件执行第一触发操作(即针对非全屏播放界面执行第一触发操作)，这样，应用客户端可以响应用户Y针对视频控制控件所执行的第一触发操作，在视频播放界面6a中显示控件显示区域60b，得到视频播放界面6b。其中，控件显示区域60b中包括多个控件，多个控件具体可以包括控件61a、控件61b、控件61c和控件61d，控件61a可以为倍速选择控件a，控件61b、控件61c和控件61d可以为其他控制控件。

为便于理解，请参见图6b，图6b是本申请实施例提供的一种间接显示倍速控件的场景示意图。如图6b所示的视频播放界面6c可以为图6a所对应实施例中的视频播放界面6b，视频播放界面6c中的控件显示区域60c可以为视频播放界面6b中的控件显示区域60b。其中，控件显示区域60c中可以包括倍速选择控件b(即控件61a)。

如图6b所示，在用户Y需要以倍速模式观看目标视频时，可以针对倍速选择控件b执行倍速选择操作(即针对控件显示区域执行倍速选择操作)，这样，应用客户端可以响应用户Y针对倍速选择控件b所执行的倍速选择操作，在视频播放界面6c中显示第二控件显示界面60d，进而在第二控件显示界面60d中显示与倍速模式相关联的智能倍速控件和与通用模式相关联的通用倍速控件，得到视频播放界面6d，这里的智能倍速控件可以为N个(例如，2个)，这里的通用倍速控件可以为M个(例如，4个)。

可选的，应当理解，在视频播放界面为用于播放目标视频的全屏播放界面时，应用客户端响应于针对全屏播放界面的第一触发操作，触发目标视频的倍速模式，基于倍速模式显示独立于全屏播放界面的第一控件显示界面。其中，第一控件显示界面的界面尺寸小于全屏播放界面的界面尺寸。进一步地，应用客户端在第一控件显示界面中显示与倍速模式相关联的N个倍速控件。

为便于理解，请参见图7，图7是本申请实施例提供的一种直接显示倍速控件的场景示意图。如图7所示的视频播放界面7a可以为图4b所对应实施例中的视频播放界面4d。其中，视频播放界面7a中可以包括倍速选择控件c。

如图7所示，在用户Y需要以倍速模式观看目标视频时，可以针对倍速选择控件c执行第一触发操作(即针对全屏播放界面执行第一触发操作)，这样，应用客户端可以响应用户Y针对倍速选择控件c所执行的第一触发操作，在视频播放界面7a中显示第一控件显示界面7c，进而在第一控件显示界面7c中显示与倍速模式相关联的智能倍速控件和与通用模式相关联的通用倍速控件，得到视频播放界面7b，这里的智能倍速控件可以为N个(例如，2个)，这里的通用倍速控件可以为M个(例如，4个)。

步骤S103，响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，在视频播放界面中播放目标视频的关键视频片段。

其中，关键视频片段为从目标视频的视频片段中所选取的与第一倍速信息相关联的视频片段。可以理解的是，第一倍速信息的倍速倍数的取值大于或等于1，在倍速倍数等于1时，应用客户端可以以正常速度播放目标视频；在倍速倍数大于1时，应用客户端可以以倍速模式播放关键视频片段。

其中，当目标用户在使用智能倍速功能时(即目标用户针对倍速模式下的N个倍速控件执行第二触发操作时)，应用客户端可以基于第二触发操作所对应的倍速控件所指示的第一倍速信息，向应用客户端对应的服务器发送倍速播放请求。可以理解的是，服务器在接收到倍速播放请求后，可以基于倍速播放请求所携带的第一播放进度(即目标视频在应用客户端中的播放进度)，在目标视频的K个视频片段中获取J个视频片段，这里的J可以为正整数，这里的J个视频片段为K个视频片段中第一播放进度之后的视频片段。进一步地，服务器可以基于J个视频片段的倍速评估结果(即整体倍速分数)和倍速播放请求所携带的第一倍速信息，在J个视频片段中筛选整体倍速分数在前1/S的视频片段，这里的S可以等于第一倍速信息的倍速倍数。例如，在第一倍速信息的倍速倍数为2倍数时，S可以等于2，服务器可以将在J个视频片段中筛选到的整体倍速分数在前1/2的视频片段作为关键视频片段，进而将关键视频片段返回给应用客户端。

其中，这里的第二触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

可以理解的是，应用客户端可以将第二触发操作所对应的倍速控件作为第一倍速控件，应用客户端响应于针对N个倍速控件的第二触发操作，可以理解为响应于针对第一倍速控件的第二触发操作。可选的，N个倍速控件中还可以包括第二倍速控件，该第二倍速控件也可以用于在倍速模式下对目标视频进行倍速播放。

可选的，应用客户端也可以直接在视频播放界面中显示第一倍速控件，这样，应用客户端可以无需响应于针对视频播放界面的第一触发操作，直接响应于针对该第一倍速控件的第二触发操作，进而在视频播放界面中播放目标视频的关键视频片段。

可选的，应用客户端还可以将与倍速模式相关联的N个倍速控件集成在一个集成倍速控件上，且直接在视频播放界面中显示集成倍速控件。这样，应用客户端可以在响应于针对该集成倍速控件的第二触发操作时，将该第二触发操作所对应的倍速控件作为第一倍速控件，进而在响应于针对该集成倍速控件的又一第二触发操作(例如，第四触发操作)时，将该第四触发操作所对应的倍速控件作为第二倍速控件，以此类推。其中，与通用模式相关联的M个倍速控件和与倍速模式相关联的N个倍速控件可以集成在同一个集成倍速控件上，也可以集成在不同的集成倍速控件上，本申请对此不做限定。

应当理解，应用客户端可以间接获取关键视频片段，且在视频播放界面中播放该间接获取到的关键视频片段。应用客户端间接获取关键视频片段的具体过程可以描述为：应用客户端可以响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度。进一步地，应用客户端可以在检查到用于播放目标视频的应用客户端的网络状态属于第一网络状态时，基于第一网络状态从服务器上获取与第一倍速信息和第一播放进度相关联的倍速播放片段标识。其中，一个倍速播放片段标识用于表征目标视频中的一个关键视频片段的片段位置。进一步地，应用客户端可以从服务器上获取与倍速播放片段标识相匹配的关键视频片段。进一步地，应用客户端可以基于关键视频片段在目标视频中的片段位置，在视频播放界面中播放目标视频的关键视频片段。

其中，第一网络状态表示弱网状态，即网络较差的状态，在应用客户端处于弱网状态时，应用客户端在接收到服务器返回的倍速播放片段标识时，可以基于倍速播放片段标识向服务器发送片段获取请求，以获取与倍速播放片段标识相匹配的关键视频片段。比如，应用客户端获取到的倍速播放片段标识可以为标识B1、标识B2、…、标识BL，则应用客户端可以基于标识B1向服务器发送片段获取请求、以获取与标识B1相匹配的视频片段P1，基于标识B2向服务器发送片段获取请求、以获取与标识B2相匹配的视频片段P2，…、基于标识BL向服务器发送片段获取请求、以获取与标识BL相匹配的视频片段PL。其中，视频片段P1、视频片段P2、…、视频片段PL可以统称为关键视频片段。可选的，应用客户端还可以同时基于多个倍速播放片段标识向服务器发送片段获取请求，以获取与多个倍速播放片段标识相匹配的视频片段。

其中，在关键视频片段为上述视频片段P1、视频片段P2、…、视频片段PL时，应用客户端可以根据关键视频片段在目标视频中的片段位置，播放获取到的关键视频片段，即首先播放视频片段P1、其次播放视频片段P2、…、最后播放视频片段PL。

可选的，应当理解，应用客户端还可以直接获取关键视频片段，且在视频播放界面中播放该直接获取到的关键视频片段。应用客户端直接获取关键视频片段的具体过程可以描述为：应用客户端可以响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度。进一步地，应用客户端可以在检查到用于播放目标视频的应用客户端的网络状态属于第二网络状态时，基于第二网络状态从服务器上获取与第一倍速控件所指示的第一倍速信息和第一播放进度相关联的关键视频片段。其中，关键视频片段为服务器基于第一倍速信息和第一播放进度从目标视频的关键片段集合中所确定的；关键片段集合是服务器基于L个视频片段所确定的；L个视频片段是基于目标视频的K个视频片段的片段兴趣属性所确定的；这里的L可以为小于K的正整数；这里的K可以为正整数。进一步地，应用客户端可以在视频播放界面中播放目标视频的关键视频片段。

其中，第二网络状态表示强网状态，即网络较好的状态，在应用客户端处于强网状态时，应用客户端可以直接获取服务器返回的关键视频片段。

其中，在关键视频片段包括上述视频片段P1、视频片段P2、…、视频片段PL时，关键片段集合中可以包括视频片段P1、视频片段P2、…、视频片段PL，服务器可以根据视频片段P1、视频片段P2、…、视频片段PL在目标视频中的片段位置，确定视频片段P1、视频片段P2、…、视频片段PL在关键片段集合中的顺序，进而根据视频片段P1、视频片段P2、…、视频片段PL在关键片段集合中的顺序，向应用客户端返回视频片段P1、视频片段P2、…、视频片段PL(即关键视频片段)。

为便于理解，请参见图8，图8是本申请实施例提供的一种播放关键视频片段的场景示意图。如图8所示的视频播放界面8a可以为上述图7所对应实施例中的视频播放界面7b，目标视频在视频播放界面8a中的播放进度可以为第一播放进度，该第一播放进度为“00:10:15”(即“00:10:15/01:10:20”)，应用客户端中可以包括第一控件显示界面80a，该第一控件显示界面80a中可以包括“智能倍速2.0x”所对应的倍速控件，“智能倍速2.0x”所对应的倍速控件可以为第一倍速控件80b。

如图8所示，在用户Y针对第一倍速控件80b执行第二触发操作(即针对N个倍速控件执行第二触发操作)时，应用客户端可以基于第一播放进度和第一倍速控件80b所指示的第一倍速信息获取关键视频片段，且在视频播放界面8b中播放关键视频片段。其中，这里的关键视频片段可以为第一播放进度之后具有较高倍速评估结果的视频片段，这里的关键视频片段具体可以包括：视频片段1(例如，上述视频片段P1)、视频片段2(例如，上述视频片段P2)、…、视频片段L(例如，上述视频片段PL)。

如图8所示，应用客户端可以首先在视频播放界面8b中播放视频片段1，该视频片段1为与用户Y相匹配的关键视频片段中的第一个视频片段，该视频片段1的起始播放进度为“00:22:45”(即“00:22:45/01:10:20”)，应用客户端可以直接基于视频片段1的起始播放进度播放关键视频片段，即应用客户端可以将播放进度由第一播放进度切换为起始播放进度。

应当理解，当在视频播放界面中播放关键视频片段时，应用客户端可以响应于针对视频播放界面的第三触发操作，显示与倍速模式相关联的N个倍速控件。其中，N个倍速控件中包含第二倍速控件。进一步地，应用客户端可以响应于针对第二倍速控件的第四触发操作，将用于对目标视频进行倍速播放的倍速信息由第一倍速控件所指示的第一倍速信息切换为第二倍速控件所指示的第二倍速信息。进一步地，应用客户端可以将关键视频片段在目标视频中的播放进度确定为第二播放进度，基于第二倍速信息和第二播放进度，确定用于在视频播放界面中播放的切换视频片段。其中，切换视频片段为从目标视频的视频片段中所选取的与第二倍速信息和第二播放进度相关联的视频片段。进一步地，应用客户端可以在视频播放界面中播放切换视频片段。

其中，这里的第三触发操作和第四触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

应当理解，应用客户端响应于针对视频播放界面的第三触发操作的具体过程，可以参见上述响应于针对视频播放界面的第一触发操作的描述，应用客户端响应于针对第二倍速控件的第四触发操作的具体过程，可以参见上述响应于针对第一倍速控件的第二触发操作的描述，这里将不再进行赘述。应当理解，应用客户端基于第二播放进度和第二倍速信息获取切换视频片段的具体过程，可以参见上述基于第一播放进度和第一倍速信息获取关键视频片段的描述，这里将不再进行赘述。

可以理解的是，应用客户端可以实现倍速模式和通用模式的相互切换。可选的，当在视频播放界面中播放关键视频片段时，应用客户端可以响应于针对视频播放界面的第五触发操作，显示与通用模式相关联的M个倍速控件。其中，M个倍速控件中包含第三倍速控件。进一步地，应用客户端可以响应于针对第三倍速控件的第六触发操作，将用于对目标视频进行倍速播放的倍速信息由第一倍速控件所指示的第一倍速信息切换为第三倍速控件所指示的第三倍速信息。进一步地，应用客户端可以将关键视频片段在目标视频中的播放进度确定为第二播放进度，基于第三倍速信息和第二播放进度，确定用于在视频播放界面中播放的目标视频的第三播放进度。其中，应用客户端可以将关键视频片段的第二播放进度确定为目标视频的第三播放进度。进一步地，应用客户端可以在视频播放界面中从第三播放进度播放目标视频。

由此可见，当目标用户在选择倍速功能播放视频时，本申请实施例可以基于目标用户选择的倍速倍数，保留目标用户更期望观看的视频片段(即关键视频片段)呈现给该目标用户。应当理解，根据目标用户所选择的倍速倍数不同，目标用户获取到的关键视频片段的数量是不同的，在不同的倍速倍数下，目标用户可以在可预期的时间内观看完精彩的视频片段。此外，不同的用户获取到的关键视频片段的是不同的，每个用户获取到的是更贴合自己的用户兴趣的关键视频片段。基于此，本申请实施例可以为用户提供个性化的倍速播放模式，在提升用户的倍速播放体验的同时，可以提高倍速播放的准确性。

进一步地，请参见图9，图9是本申请实施例提供的一种视频数据播放方法的流程示意图。该方法可以由应用客户端执行，也可以由服务器执行，还可以由应用客户端和服务器共同执行，该应用客户端可以为上述图2所对应实施例中的应用客户端，该服务器可以为上述图2所对应实施例中的服务器。为便于理解，本实施例以该方法由服务器执行为例进行说明。其中，该视频数据定位方法至少可以包括以下步骤S201-步骤S203：

步骤S201，接收应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求；

其中，第一倍速信息用于指示应用客户端在倍速模式下对目标视频进行倍速播放。可以理解的是，第一倍速信息是由应用客户端响应于针对N个倍速控件的第二触发操作所确定的；N个倍速控件是由应用客户端响应于针对视频播放界面的第一触发操作，触发与目标视频相关联的倍速模式所确定的；视频播放界面用于播放目标视频。其中，第一倍速信息可以为N个倍速控件中的第一倍速控件所指示的倍速信息。

可选的，倍速播放请求中还可以包括目标视频在视频播放界面中的播放进度(例如，第一播放进度)，以在下述步骤S202中基于第一播放进度和第一倍速信息，在目标视频的视频片段中获取L个视频片段(即关键视频片段)。

步骤S202，基于倍速播放请求从目标视频的K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段；

具体的，服务器可以从倍速播放请求中获取目标视频的视频标识，基于视频标识确定应用客户端中的目标视频，基于视频切分参数将目标视频划分为K个视频片段。进一步地，服务器可以获取与目标视频相关联的目标网络模型，通过目标网络模型预测K个视频片段中的每个视频片段的第一片段属性，基于每个视频片段的第一片段属性确定每个视频片段的片段精彩度。进一步地，服务器可以通过目标网络模型预测K个视频片段中的每个视频片段的第二片段属性，基于每个视频片段的第二片段属性确定每个视频片段的片段热度。进一步地，服务器可以通过目标网络模型预测K个视频片段中的每个视频片段的第三片段属性，基于每个视频片段的第三片段属性确定每个视频片段的片段兴趣度。进一步地，服务器可以将每个视频片段的片段精彩度、每个视频片段的片段热度和每个视频片段的片段兴趣度，确定为每个视频片段的片段兴趣属性，基于每个视频片段的片段兴趣属性和倍速播放请求，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段。其中，这里的L可以为小于K的正整数，这里的K可以为正整数。

可以理解的是，在视频切分参数为时间长度时，服务器可以根据时间长度，将目标视频切分为相同时间长度的K个视频片段，例如，根据5s(即5秒)的时间长度，划分得到K个视频片段。其中，第一个视频片段或最后一个视频片段的长度可以不满足时间长度的要求。应当理解，本申请实施例不对时间长度的具体取值进行限定。可选的，服务器也可以通过视频帧聚类的方式(即视频切分参数可以为视频帧之间的相似度)，将目标视频切分为K个视频片段，服务器还可以通过均匀划分的方式(即视频切分参数可以为切分得到的视频片段的数量)，将目标视频切分为K个视频片段。应当理解，本申请实施例不对获取目标视频的K个视频片段的具体方式进行限定。

应当理解，K个视频片段中包括视频片段S_i，这里的i可以为小于或者等于K的正整数。服务器确定视频片段S_i的片段精彩度的具体过程可以描述为：服务器可以获取与目标视频相关联的目标网络模型。其中，目标网络模型包括用于对视频片段S_i的第一片段属性进行预测的第一目标预估网络。进一步地，服务器可以通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量。进一步地，服务器可以对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合，得到视频片段S_i的第一融合特征向量，将第一融合特征向量输入至第一目标预估网络中的第一全连接网络，由第一全连接网络对第一融合特征向量进行特征提取，得到视频片段S_i对应的第一目标特征向量。进一步地，服务器可以将第一目标特征向量输入第一目标预估网络中用于对第一片段属性进行属性分类的第一分类器，由第一分类器输出第一目标特征向量与第一分类器中的多个第一样本属性所对应的第一样本特征向量之间的第一匹配度，基于第一匹配度确定视频片段S_i的第一片段属性，基于第一片段属性确定视频片段S_i的片段精彩度(即P_in)。

可以理解的是，服务器对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合的方式，可以为加权平均的方式，还可以为向量拼接的方式。应当理解，本申请实施例不对特征融合的具体方式进行限定。

可以理解的是，第一全连接网络可以为多层全连接网络，该多层全连接网络可以对输入特征(即第一融合特征向量)进行非线性变换以得到输出特征(即第一目标特征向量)，此外，该多层全连接网络还可以对输入特征进行维度压缩，例如，将4000维的第一融合特征向量压缩到1000维的第一目标特征向量。

可以理解的是，在第一样本属性的数量为2个(即二分类)时，第一分类器中的第一样本特征向量的数量为2个，这样，服务器可以确定第一目标特征向量分别与2个第一样本特征向量之间的第一匹配度，例如，第一样本属性O1对应的第一匹配度U1和第一样本属性O2对应的第一匹配度U2。服务器可以基于第一匹配度U1和第一匹配度U2大小，将具有较高值的第一匹配度所对应的第一样本属性作为视频片段S_i的第一片段属性，例如，在第一匹配度U1大于第一匹配度U2时，服务器可以将第一样本属性O1作为视频片段S_i的第一片段属性，基于第一片段属性确定视频片段S_i的片段精彩度。其中，服务器在基于第一片段属性确定视频片段S_i的片段精彩度时，可以将第一匹配度U1作为视频片段S_i的片段精彩度、或者将第一匹配度U2作为视频片段S_i的片段精彩度。

可以理解的是，多个第一样本属性中可以包括目标第一样本属性，目标第一样本属性所对应的第一样本特征向量可以为目标第一样本特征向量。换言之，服务器可以将第一目标特征向量输入第一分类器，由第一分类器输出第一目标特征向量与第一分类器中的目标第一样本特征向量之间的目标匹配度，进而直接将目标匹配度确定为视频片段S_i的片段精彩度。

可以理解的是，第一目标预估网络可以包括第一图像处理网络、第一音频处理网络和第一文本处理网络。服务器通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量的具体过程可以描述为：服务器可以将视频片段S_i中的图像帧作为第一图像帧，将第一图像帧输入至第一图像处理网络，由第一图像处理网络对第一图像帧进行图像特征提取，得到视频片段S_i的第一图像特征向量。进一步地，服务器可以将视频片段S_i中的音频帧作为第一音频帧，将第一音频帧输入至第一音频处理网络，由第一音频处理网络对第一音频帧进行音频特征提取，得到视频片段S_i的第一音频特征向量。进一步地，服务器可以将与视频片段S_i相关联的文本信息作为第一文本信息，将第一文本信息输入至第一文本处理网络，由第一文本处理网络对第一文本信息进行文本特征提取，得到视频片段S_i的第一文本特征向量。

可以理解的是，第一图像处理网络可以包括第一图像子网络和第二图像子网络。其中，服务器可以将视频片段S_i的第一图像帧中的每个图像帧分别输入至第一图像子网络，由第一图像子网络对每个图像帧进行图像特征提取，得到每个图像帧(即第一图像帧)的图像特征向量，进而可以将第一图像帧的图像特征向量输入至第二图像子网络，由第二图像子网络对第一图像帧的图像特征向量进行加权融合，得到视频片段S_i的第一图像特征向量。应当理解，第一图像子网络可以为EfficientNet(Rethinking Model Scaling forConvolutional Neural Networks，一种多维度混合的模型放缩方法)模型，第二图像子网络可以为自注意力(即Self-Attention)模型，本申请实施例不对第一图像子网络和第二图像子网络的具体类型进行限定。

可以理解的是，第一音频处理网络可以包括第一音频子网络和第二音频子网络。其中，服务器可以将视频片段S_i的第一音频帧中的每个音频帧分别输入至第一音频子网络，由第一音频子网络对每个音频帧进行音频特征提取，得到每个音频帧(即第一音频帧)的音频特征向量，进而可以将第一音频帧的音频特征向量输入至第二音频子网络，由第二音频子网络对第一音频帧的音频特征向量进行加权融合，得到视频片段S_i的第一音频特征向量。应当理解，第一音频子网络可以为VGGish模型(即在YouTube的AudioSet数据预训练得到模型)，第二音频子网络可以为自注意力(即Self-Attention)模型，本申请实施例不对第一音频子网络和第二音频子网络的具体类型进行限定。

可以理解的是，第一文本处理网络可以为用于语言表征自监督学习的轻量级BERT模型(A Lite BERT for Self-supervised Learning of Language Representations，简称ALBERT)。可选的，第一文本处理网络也可以为基于变压器的双向编码器表征(Bidirectional Encoder Representations from Transformers，简称BERT)模型。应当理解，本申请实施例不对第一文本处理网络的具体类型进行限定。

其中，服务器可以获取视频片段S_i中的X1个图像帧，以将X1个图像帧作为第一图像帧，这里的X1可以为正整数(例如，20)，本申请实施例不对X1的具体取值进行限定。同理，服务器可以获取视频片段S_i中的X2个音频帧，这里的X2可以为正整数(例如，20)，以将X2个音频帧作为第二图像帧，本申请实施例不对X2的具体取值进行限定。

其中，服务器可以获取视频片段S_i的语音文本信息和字幕文本信息，将语音文本信息(即对白文本)和字幕文本信息(即字幕文本)作为第一文本信息。可以理解的是，服务器可以通过ASR(Automatic Speech Recognition，即自动语音识别)识别每个视频片段的语音文本信息，通过OCR(Optical Character Recognition，即光学字符识别)识别每个视频片段的字幕文本信息。其中，在一部分视频片段中，字幕文本信息可以包含语音文本信息。

可选的，服务器还可以获取视频片段S_i的弹幕文本信息和对象文本信息，将语音文本信息、字幕文本信息、弹幕文本信息和对象文本信息作为第一文本信息。可以理解的是，服务器可以通过弹幕信息的弹幕时间戳确定视频片段S_i的弹幕文本信息，通过人脸检测模型以及人脸识别模型识别视频片段S_i的对象文本信息。应当理解，本申请实施例不对人脸检测模型和人脸识别模型的具体类型进行限定。

应当理解，服务器对第一初始预估网络进行训练，得到第一目标预估网络的具体过程可以描述为：服务器可以将用于训练第一初始预估网络的视频片段作为训练片段，确定训练片段的弹幕互动量。其中，一个训练片段的弹幕互动量用于描述一个训练片段的真实片段精彩度。进一步地，服务器可以在训练片段中将弹幕互动量大于互动阈值的训练片段作为正样本片段，且将正样本片段的真实片段精彩度作为第一样本标签，在训练片段中将弹幕互动量小于或者等于互动阈值的训练片段作为负样本片段，且将负样本片段的真实片段精彩度作为第二样本标签。进一步地，服务器可以基于正样本片段和负样本片段，确定用于训练第一初始预估网络的第一样本片段(即精彩度预估训练数据集)，基于第一样本标签和第二样本标签，确定多个第一样本属性。进一步地，服务器可以通过第一初始预估网络确定第一样本片段的第一样本图像向量、第一样本音频向量和第一样本文本向量，对第一样本图像向量、第一样本音频向量和第一样本文本向量进行特征融合，得到第一样本片段的第一样本融合向量，基于第一样本融合向量确定第一样本片段的第一预测属性。进一步地，服务器可以基于第一预测属性所对应的预测样本精彩度和第一样本属性所对应的真实样本精彩度，对第一初始预估网络进行迭代训练，得到第一目标预估网络。

其中，第一样本标签可以为“是”(是精彩片段，即1)，第二样本标签可以为“否”(不是精彩片段，即0)，第一样本标签和第二样本标签可以统称为第一样本属性，第一样本属性的数量可以为2个，第一样本片段与第一样本属性的对应关系可以如下表1所示：

表1

视频片段	是否是精彩片段
		视频片段1	是
视频片段2	否
		…	…
视频片段(p-1)	否
		视频片段p	是

如表1所示，用于训练第一初始预估网络的第一样本片段的数量可以为p个，这里的p可以为正整数，p个第一样本片段具体可以包括：视频片段1、视频片段2、…、视频片段(p-1)和视频片段p，视频片段1、…、视频片段p可以为正样本片段，视频片段2、…、视频片段(p-1)可以为负样本片段。

应当理解，服务器通过第一初始预估网络确定第一样本片段的第一样本图像向量、第一样本音频向量和第一样本文本向量的具体过程，可以参见上述通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量的描述，这里将不再进行赘述。

应当理解，服务器对第一样本图像向量、第一样本音频向量和第一样本文本向量进行特征融合的具体过程，可以参见上述对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合的描述，这里将不再进行赘述。

应当理解，服务器基于第一样本融合向量确定第一样本片段的第一预测属性的具体过程，可以参见上述基于第一融合特征向量确定视频片段S_i的第一片段属性的描述，这里将不再进行赘述。

为便于理解，请参见图10，图10是本申请实施例提供的一种第一目标预估网络的结构示意图。如图10所示的视频片段可以为上述视频片段S_i，视频片段的多个图像帧可以为第一图像帧，视频片段的多个音频帧可以为第一音频帧，对白/字幕文本可以为第一文本信息。

如图10所示，第一图像处理网络可以包括第一图像子网络和第二图像子网络，第一音频处理网络可以包括第一音频子网络和第二音频子网络，通过第一图像处理网络可以提取视频片段的第一图像特征向量，通过第一文本处理网络可以提取视频片段的第一文本特征向量，通过第一音频处理网络可以提取视频片段的第一音频特征向量。

如图10所示，通过对第一图像特征向量、第一文本特征向量和第一音频特征向量进行向量拼接，可以得到第一融合特征向量，将第一融合特征向量输入至多层全连接网络(即上述第一全连接网络)，可以输出视频片段对应的视频多维度深度表示(即上述第一目标特征向量)，进而基于视频多维度深度表示可以对视频片段进行精彩度预估，得到视频片段的片段精彩度。

应当理解，第一初始预估网络和第一目标预估网络可以统称为第一泛化网络，第一初始预估网络和第一目标预估网络属于第一泛化网络在不同时刻的名称。在训练阶段，第一泛化网络可以称之为第一初始预估网络，在预测阶段，第一泛化网络可以称之为第一目标预估网络。

应当理解，K个视频片段中包括视频片段S_i，这里的i可以为小于或者等于K的正整数；目标网络模型包括用于对视频片段S_i的第二片段属性进行预测的第二目标预估网络。服务器确定视频片段S_i的片段热度的具体过程可以描述为：服务器可以通过第二目标预估网络确定视频片段S_i的第二图像特征向量、第二音频特征向量和第二文本特征向量。进一步地，服务器可以对第二图像特征向量、第二音频特征向量和第二文本特征向量进行特征融合，得到视频片段S_i的第二融合特征向量，基于第二融合特征向量确定视频片段S_i的第二片段属性，基于第二片段属性确定视频片段S_i的第一片段热度(即p_hp)。进一步地，服务器可以获取目标视频所属平台上的业务视频的辅助视频片段，基于辅助视频片段的弹幕互动量以及第一倍速信息，确定视频片段S_i对应的平均弹幕量。进一步地，服务器可以获取视频片段S_i的片段弹幕量，基于片段弹幕量和平均弹幕量，确定视频片段S_i的第二片段热度(即p_hb)。进一步地，服务器可以根据视频片段S_i的第一片段热度和第二片段热度，确定视频片段S_i的片段热度。

应当理解，服务器过第二目标预估网络确定视频片段S_i的第二图像特征向量、第二音频特征向量和第二文本特征向量的具体过程，可以参见上述通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量的描述，这里将不再进行赘述。

应当理解，服务器对第二图像特征向量、第二音频特征向量和第二文本特征向量进行特征融合的具体过程，可以参见上述对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合的描述，这里将不再进行赘述。

应当理解，服务器基于第二融合特征向量确定视频片段S_i的第二片段属性的具体过程，可以参见上述基于第一融合特征向量确定视频片段S_i的第一片段属性的描述，这里将不再进行赘述。

可以理解的是，第二目标预估网络可以包括第二图像处理网络、第二音频处理网络和第二文本处理网络，该第二图像处理网络的模型结构可以参见上述第一图像处理网络的模型结构，该第二音频处理网络的模型结构可以参见上述第一音频处理网络的模型结构，该第二文本处理网络的模型结构可以参见上述第一文本处理网络的模型结构。

可以理解的是，业务视频可以为目标视频所属的平台上在指定时间范围内的视频，这里的时间范围的单位可以为年、月、日等。例如，业务视频可以为平台上2019年内的长视频。

其中，确定视频片段S_i的第二片段热度的方式可以参见下述公式(1)：

其中，P_hb可以表示第二片段热度，当前片段的弹幕量表示视频片段S_i的片段弹幕量，DN表示视频片段S_i对应的平均弹幕量，DN＝辅助视频的平均弹幕量*倍速倍数。视频片段S_i的第二片段热度可以等于1.0和(当前片段的弹幕量/DN)中的较小值。

其中，确定视频片段S_i的片段热度的方式可以参见下述公式(2)：

P_h＝x1*P_hp+x2*P_hb (2)；

其中，P_h可以表示整体热度值(即片段热度)，P_hp可以表示第一片段热度(即先验热度)，P_hb可以表示第二片段热度(即后验热度)，x1表示第一片段热度对应的权重系数，x2表示第二片段热度对应的权重系数，x1和x2的和等于1。

应当理解，本申请实施例不对根据第一片段热度和第二片段热度确定片段热度的具体计算方式进行限定。可选的，服务器也可以直接将第一片段热度作为片段热度，服务器还可以直接将第二片段热度作为片段热度。

应当理解，服务器对第二初始预估网络进行训练，得到第二目标预估网络的具体过程可以描述为：服务器可以将用于训练第二初始预估网络的样本视频作为第二样本片段(即热度预估训练数据集)，确定第二样本片段的视频播放量和播放完成量。其中，一个第二样本片段的视频播放量和播放完成量用于描述一个第二样本片段的真实样本热度。进一步地，服务器可以基于视频播放量与播放完成量的乘积，确定第二样本片段的真实样本热度，将确定的真实样本热度，作为与第二样本片段相关联的多个第二样本属性。进一步地，服务器可以通过第二初始预估网络确定第二样本片段的第二样本图像向量、第二样本音频向量和第二样本文本向量，对第二样本图像向量，第二样本音频向量和第一样本文本向量进行特征融合，得到第二样本片段的第二样本融合向量，基于第二样本融合向量确定第二样本片段的第二预测属性。进一步地，服务器可以基于第二预测属性所对应的预测样本热度和第二样本属性所对应的真实样本热度，对第二初始预估网络进行迭代训练，得到第二目标预估网络。

其中，确定真实样本热度的方式可以参见下述公式(3)：

真实样本热度＝max(1.0,log(播放次数/N)*播放完成度) (3)；

其中，log(播放次数/N)可以表示视频播放量，播放完成度可以表示播放完成量，播放次数表示第二样本片段被点击的次数，播放完成量表示多个用户对于第二样本片段的播放完成度的加权平均，N表示目标视频所属平台上的短视频的平均播放次数。真实样本热度等于1.0和(1.0,log(播放次数/N)*播放完成度)中的较大值。

应当理解，服务器通过第二初始预估网络确定第二样本片段的第二样本图像向量、第二样本音频向量和第二样本文本向量的具体过程，可以参见上述通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量的描述，这里将不再进行赘述。

应当理解，服务器对第二样本图像向量、第二样本音频向量和第二样本文本向量进行特征融合的具体过程，可以参见上述对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合的描述，这里将不再进行赘述。

应当理解，服务器基于第二样本融合向量确定第二样本片段的第二预测属性的具体过程，可以参见上述基于第一融合特征向量确定视频片段S_i的第一片段属性的描述，这里将不再进行赘述。

应当理解，服务器确定与第二样本片段相关联的多个第二样本属性的具体过程，可以参见确定与第一样本片段相关联的多个第一样本属性的描述，这里将不再进行赘述。

为便于理解，请参见图11，图11是本申请实施例提供的一种第二目标预估网络的结构示意图。如图11所示的第二目标预估网络的模型结构可以与图10所示的第一目标预估网络的模型结构相同。

如图11所示，视频片段各内容维度表示可以为视频片段的第二图像特征向量、第二音频特征向量和第二文本特征向量，多维度表示融合可以为第二融合特征向量，将第二融合特征向量输入至多层全连接网络(即第二目标预估网络中的第二全连接网络)，可以输出视频片段对应的视频多维度深度表示(即第二目标特征向量)，进而基于视频多维度深度表示可以对视频片段进行热度预估，得到视频片段的片段热度(即第一片段热度)。

应当理解，第二初始预估网络和第二目标预估网络可以统称为第二泛化网络，第二初始预估网络和第二目标预估网络属于第一泛化网络在不同时刻的名称。在训练阶段，第二泛化网络可以称之为第二初始预估网络，在预测阶段，第二泛化网络可以称之为第二目标预估网络。

应当理解，K个视频片段中包括视频片段S_i，这里的i可以为小于或者等于K的正整数；目标网络模型包括用于对视频片段S_i的第三片段属性进行预测的第三目标预估网络。服务器确定视频片段S_i的片段兴趣度的具体过程可以描述为：服务器可以获取与应用客户端中的目标用户相关联的目标关联视频，且获取目标关联视频的目标视频标签，将目标视频标签作为目标用户的目标兴趣标签。进一步地，服务器可以通过第三目标预估网络确定视频片段S_i的目标片段特征向量，通过第三目标预估网络确定目标关联视频的目标关联特征向量，通过第三目标预估网络确定目标兴趣标签的目标兴趣特征向量。进一步地，服务器可以基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量，确定视频片段S_i的第三融合特征向量，基于第三融合特征向量确定视频片段S_i的第三片段属性，基于第三片段属性确定视频片段S_i的片段兴趣度(即P_u)。

可以理解的是，服务器可以获取目标视频所属平台上的业务视频，确定目标用户对于业务视频的观看完成度，进而在训练视频中将观看完成度大于完成阈值的业务视频，作为与目标用户相关联的目标关联视频。

可以理解的是，第三目标预估网络可以包括：第一子网络、第二子网络和第三子网络，该第一子网络可以用于提取视频片段S_i的目标片段特征向量，该第二子网络可以用于提取目标关联视频的目标关联特征向量，该第三子网络可以用于提取目标兴趣标签的目标兴趣特征向量。

其中，第一子网络中可以包括第三图像处理网络、第三音频处理网络和第三文本处理网络，该第一子网络与第一目标预估网络和第二目标预估网络具有相同的模型结构。应当理解，服务器通过第一子网络确定视频片段S_i的目标片段特征向量的具体过程，可以参见上述通过第一目标预估网络确定视频片段S_i对应的第一目标特征向量的描述，这里将不再进行赘述。

其中，第二子网络可以包括加权子网络和特征提取子网络，该特征提取子网络与第一目标预估网络和第二目标预估网络具有相同的模型结构，该加权子网络与第一图像处理网络中的第二图像子网络(或第一音频处理子网络中的第二音频子网络)具有相同的模型结构。服务器通过第二子网络确定目标关联视频的目标关联特征向量的具体过程可以描述为：服务器可以通过第二子网络中的特征提取子网络确定目标关联视频的关联特征向量，进而通过第二子网络中的加权子网络对关联特征向量进行加权求和，得到目标关联视频的目标关联特征向量。应当理解，服务器通过第二子网络中的特征提取子网络确定目标关联视频的关联特征向量的具体过程，可以参见确定视频片段S_i对应的第一目标特征向量的描述，这里将不再进行赘述。

其中，第三子网络可以与第一目标预估网络中的第一文本处理网络具有相同的模型结构。服务器通过第三子网络确定目标兴趣标签的目标兴趣特征向量的具体过程，可以参见上述通过第一文本处理网络确定视频片段S_i的第一文本特征向量的描述，这里将不再进行赘述。

可以理解的是，服务器基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量，确定视频片段S_i的第三融合特征向量的具体过程可以描述为：服务器可以对目标关联特征向量和目标兴趣特征向量进行第一特征融合，得到第一融合向量。进一步地，服务器可以对第一融合向量和目标片段特征向量进行第二特征融合，确定视频片段S_i的第三融合特征向量(即第二融合向量)。

可选的，可以理解的是，服务器基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量，确定视频片段S_i的第三融合特征向量的具体过程可以描述为：服务器可以对目标关联特征向量和目标兴趣特征向量进行第一特征融合，得到第一融合向量。进一步地，服务器可以将第一融合向量输入至第三目标预估网络中的第三全连接层，由第三全连接层对第一融合向量进行特征提取，得到第一目标向量。进一步地，服务器可以对第一目标向量和目标片段特征向量进行第二特征融合，确定视频片段S_i的第三融合特征向量(即第二融合向量)。

可以理解的是，第一特征融合和第二特征融合的方式可以为加权平均的方式，还可以为向量拼接的方式。应当理解，本申请实施例不对第一特征融合和第二特征融合的具体方式进行限定。

应当理解，服务器基于第三融合特征向量确定视频片段S_i的第三片段属性的具体过程，可以参见基于第一融合特征向量确定视频片段S_i的第一片段属性的描述，这里将不再进行赘述。

应当理解，服务器对第三初始预估网络进行训练，得到第三目标预估网络的具体过程可以描述为：服务器可以将用于训练第三初始预估网络的样本视频作为训练视频，确定样本用户对于训练视频的观看完成度。其中，一个训练视频的观看完成度用于描述一个样本用户对一个训练视频的真实样本兴趣度。进一步地，服务器可以在训练视频中将观看完成度大于完成阈值的训练视频作为正样本视频，且将正样本视频的真实样本兴趣度作为第一视频标签，在训练视频中将观看完成度小于或者等于完成阈值的训练视频作为负样本视频，且将负样本视频的真实样本兴趣度作为第二视频标签。进一步地，服务器可以基于正样本视频和负样本视频，确定用于训练第三初始预估网络的第三样本片段(即相关度数据集)，基于第一视频标签和第二视频标签，确定多个第三样本属性。进一步地，服务器可以将正样本视频作为与样本用户相关联的样本关联视频，且获取样本关联视频的样本视频标签，将样本视频标签作为样本用户的样本兴趣标签。进一步地，服务器可以通过第三初始预估网络确定第三样本片段的样本片段特征向量，通过第三初始预估网络确定样本关联视频的样本关联特征向量，通过第三目标预估网络确定样本兴趣标签的样本兴趣特征向量。进一步地，服务器可以基于样本片段特征向量、样本关联特征向量和样本兴趣特征向量，确定第三样本片段的第三样本融合向量，基于第三样本融合向量确定第三样本片段的第三预测属性。进一步地，服务器可以基于第三预测属性所对应的预测样本兴趣度和第三样本属性所对应的真实样本兴趣度，对第三初始预估网络进行迭代训练，得到第三目标预估网络。

应当理解，服务器通过第三初始预估网络确定样本片段特征向量、样本关联特征向量和样本兴趣特征向量的具体过程，可以参见上述通过第三目标预估网络确定目标片段特征向量、目标关联特征向量和目标兴趣特征向量的描述，这里将不再进行赘述。

应当理解，服务器基于样本片段特征向量、样本关联特征向量和样本兴趣特征向量确定第三样本融合向量的具体过程，可以参见上述基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量确定第三融合特征向量的描述，这里将不再进行赘述。

应当理解，服务器基于第三样本融合向量确定第三样本片段的第三预测属性的具体过程，可以参见基于第三融合特征向量确定视频片段S_i的第三片段属性的描述，这里将不再进行赘述。

为便于理解，请参见图12，图12是本申请实施例提供的一种第三目标预估网络的结构示意图。如图12所示，用户兴趣标签序列文本可以为目标兴趣标签，用户观看的视频序列对应的多维度向量可以为目标关联视频的目标关联特征向量，视频片段可以为视频片段S_i。

如图12所示，将用户兴趣标签序列文本输入至第三子网络，由第三子网络可以输出用户兴趣标签序列文本的用户显式兴趣标签深度表示(即目标兴趣特征向量)；将用户观看的视频序列对应的多维度向量输入至第一子网络中的加权子网络，由加权子网络可以输出用户观看的视频序列对应的多维度向量的用户隐式兴趣标签深度表示(即目标关联特征向量)；将视频片段输入至第一子网络，由第一子网络可以输出视频片段侧多维度深度表示(即目标片段特征向量)。

如图12所示，对用户显式兴趣标签深度表示和用户隐式兴趣标签深度表示进行第一特征融合，可以得到用户侧兴趣深度表示(即第一融合向量)，对用户侧兴趣深度表示和视频片段侧多维度深度表示进行第二特征融合，可以得到第三融合特征向量(即第二融合向量)，进而基于该第三融合特征向量可以对视频片段进行兴趣度预估，得到用户与视频片段的片段兴趣度。

应当理解，第三初始预估网络和第三目标预估网络可以统称为第三泛化网络，第三初始预估网络和第三目标预估网络属于第三泛化网络在不同时刻的名称。在训练阶段，第三泛化网络可以称之为第三初始预估网络，在预测阶段，第三泛化网络可以称之为第三目标预估网络。

应当理解，目标网络模型是对初始网络模型进行迭代训练所得到的，初始网络模型和目标网络模型可以统称为泛化模型，初始网络模型和目标网络模型属于泛化模型在不同时刻的名称。在训练阶段，泛化模型可以称之为初始网络模型，此时，泛化模型中可以包括第一初始预估网络、第二初始预估网络和第三初始预估网络；在预测阶段，泛化模型可以称之为目标网络模型，此时，泛化模型中可以包括第一目标预估网络、第二目标预估网络和第三目标预估网络。

应当理解，服务器筛选关键视频片段的具体过程可以描述为：服务器可以基于每个视频片段的片段兴趣属性，得到每个视频片段的倍速评估结果。其中，每个视频片段的片段兴趣属性可以包括每个视频片段的片段精彩度、每个视频片段的片段热度和每个视频片段的片段兴趣度。进一步地，服务器可以在倍速播放请求中获取目标视频的第一播放进度和第一倍速信息，基于第一倍速信息、第一播放进度和倍速评估结果，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下用于对目标视频进行倍速播放的关键视频片段。

其中，确定视频片段的整体倍速分数的方式可以参见下述公式(4)：

整体倍速分数＝w1*P_in+w2*P_h+w3*P_u (4)；

其中，整体倍速分数即为倍速评估结果，P_in表示片段精彩度，P_h表示片段热度，P_u表示片段兴趣度，w1为片段精彩度对应的权重系数，w2为片段热度对应的权重系数，w3为片段兴趣度对应的权重系数，w1、w2和w3之和等于1。应当理解，本申请实施例不对根据片段精彩度、片段热度和片段兴趣度确定整体倍速分数的具体计算方式进行限定。

可选的，服务器也可以根据片段精彩度，得到每个视频片段的倍速评估结果，即直接将片段精彩度作为倍速评估结果。

可选的，服务器也可以根据片段热度，得到每个视频片段的倍速评估结果，即直接将片段热度作为倍速评估结果。

可选的，服务器也可以根据片段兴趣度，得到每个视频片段的倍速评估结果，即直接将片段兴趣度作为倍速评估结果。

可选的，服务器确定每个视频片段的倍速评估结果的方式，包括但不限于上述片段精彩度、片段热度和片段兴趣度。可选的，服务器确定每个视频片段的倍速评估结果的方式，也可以由上述2个或2个以上的参数进行任意组合来确定倍速评估结果。

可以理解的是，服务器可以基于K个视频片段的倍速评估结果，对K个视频片段进行排序，进而在目标用户使用智能倍速功能时，在K个视频片段中获取第一播放进度之后的J个视频片段，以在J个视频片段中选取倍速评估结果在前1/S的视频片段，这里的S可以表示第一倍速信息的倍速倍数。比如，在第一倍速信息为2倍速时，服务器可以在J个视频片段中选取1/2的视频片段，即J/2个视频片段。可选的，倍速播放请求所携带的倍速信息还可以为第二倍速信息(该第二倍速信息可以为N个倍速控件中的第二倍速控件所指示的倍速信息)，比如，在第二倍速信息为1.5倍速时，服务器可以在上述J个视频片段中选择1/1.5的视频片段，即2J/3个视频片段。

可选的，服务器还可以在接收到倍速播放请求后，直接基于倍速播放请求所携带的第一倍速信息和目标视频的K个视频片段的倍速评估结果，在K个视频片段中筛选整体倍速分数在前1/S的视频片段，这里的S可以等于第一倍速信息的倍速倍数。比如，在第一倍速信息为2倍速时，服务器可以在K个视频片段中选取1/2的视频片段，即K/2个视频片段。

步骤S203，将关键视频片段返回给应用客户端，以使应用客户端播放目标视频的关键视频片段。

可以理解的是，服务器可以在接收到应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求时，实时确定目标视频的K个视频片段的倍速评估结果，以在K个视频片段中筛选与应用客户端的目标用户相匹配的关键视频片段。

可选的，服务器还可以对目标用户的用户画像进行分析，确定目标用户可能观看的视频(例如，目标视频)，进而提前确定目标视频的K个视频片段的倍速评估结果，这样，服务器在接收到应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求时，可以获取提前确定的K个视频片段的倍速评估结果，以在K个视频片段中筛选与应用客户端的目标用户相匹配的关键视频片段。

可以理解的是，服务器可以将关键视频片段返回给应用客户端的目标用户，以使目标用户在视频播放界面中观看关键视频片段。其中，这里的目标用户可以为一个用户，则目标用户可以在视频播放界面中观看与该目标用户相关联的关键视频片段。

其中，可选的，这里的目标用户还可以为一类用户，即目标用户可以属于一类用户，则目标用户可以在视频播放界面中观看与一类用户相关联的关键视频片段。具体的，服务器可以基于平台上所有用户的用户画像，对所有用户进行兴趣度聚类，得到多个用户簇(例如，256个用户簇)，进而在目标视频的K个视频片段中确定与每个用户簇相匹配的关键视频片段。这样，服务器在接收到目标用户发送的倍速播放请求时，可以确定目标用户所属的用户簇，进而直接将与该用户簇相匹配的关键视频片段返回给应用客户端。

为便于理解，请参见图13，图13是本申请实施例提供的一种智能倍速播放方法的场景示意图。如图13所示，服务器可以对目标视频进行切分，以得到目标视频的视频片段(即K个视频片段)，进而对K个视频片段中的每个视频片段的看点精彩度(即片段精彩度)和热度(即片段热度)进行评估。

如图13所示，在确定视频片段的看点精彩度和热度之后，服务器可以对目标用户的用户兴趣进行分析，以基于用户兴趣得到目标用户对应于视频片段的兴趣度(即片段兴趣度)。进一步地，服务器可以基于看点精彩度、热度和兴趣度，在视频片段中选取看点精彩度和热度较优、且与用户兴趣更契合的视频片段，即在视频片段中选取关键视频片段，这里的关键视频片段是由视频片段的倍速评估结果所确定的。因此，在目标用户针对N个倍速控件执行第二触发操作(即目标用户针对N个倍速控件中的第一倍速控件执行第二触发操作)时，应用客户端可以基于第一倍速控件所关联的智能倍速倍数(即第一倍速信息)，在应用客户端中对与智能倍速倍数相关联的关键视频片段进行智能倍速播放。

由此可见，本申请实施例可以在接收到与目标视频相关联的倍速播放请求时，基于倍速播放请求中的第一倍速信息，从目标视频的视频片段中选取与应用客户端的目标用户相匹配的关键视频片段。其中，本申请实施例可以基于深度模型构建表示目标视频的视频片段，通过弹幕量来构建片段看点度预测模型(即第一目标预估网络)，通过大量短视频的有效播放数据来构建片段热度预测模型(即第二目标预估网络)，通过用户的显示兴趣和隐式兴趣的深度兴趣表示来构建片段兴趣度预测模型(即第三目标预估网络)。基于此，本申请实施例可以通过上述构建得到的三个预测模型，分别确定每个视频片段的片段看点度、片段热度和片段兴趣度，进而得到每个视频片段的倍速评估结果，以基于上述第一倍速信息，在目标视频的视频片段中选取指定数量的且具有较高倍速评估结果的多个视频片段(即将目标用户更感兴趣的视频片段确定为关键视频片段)，以在应用客户端中为目标用户播放该关键视频片段来实现基于第一倍速信息的倍速播放。因此，本申请实施例可以为不同的用户选取不同的关键视频片段，基于选取到的不同的关键视频片段，为不同用户提供个性化的倍速播放方式，进而可以提高在应用客户端中进行倍速播放的准确性。

进一步地，请参见图14，图14是本申请实施例提供的一种视频数据播放装置的结构示意图。视频数据播放装置1可以包括：界面显示模块100，第一响应模块200，第二响应模块300；进一步地，视频数据播放装置1还可以包括：第三响应模块400，第四响应模块500，进度确定模块600，片段切换模块700；

界面显示模块100，用于显示用于播放目标视频的视频播放界面；

第一响应模块200，用于响应于针对视频播放界面的第一触发操作，显示与目标视频的倍速模式相关联的N个倍速控件；N为正整数；

其中，视频播放界面为用于播放目标视频的全屏播放界面；

第一响应模块200包括：第一显示单元201，第二显示单元202；

第一显示单元201，用于响应于针对全屏播放界面的第一触发操作，触发目标视频的倍速模式，基于倍速模式显示独立于全屏播放界面的第一控件显示界面；第一控件显示界面的界面尺寸小于全屏播放界面的界面尺寸；

第二显示单元202，用于在第一控件显示界面中显示与倍速模式相关联的N个倍速控件。

其中，第一显示单元201以及第二显示单元202的具体实现方式，可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再进行赘述。

其中，视频播放界面为用于播放目标视频的非全屏播放界面；

第一响应模块200还包括：视频播放单元203，第三显示单元204，第四显示单元205；

视频播放单元203，用于在非全屏播放界面的视频播放区域中播放目标视频；

第三显示单元204，用于响应于针对非全屏播放界面的第一触发操作，在非全屏播放界面中显示目标视频的控件显示区域；控件显示区域为悬浮于视频播放区域之上的区域，或者控件显示区域为不重叠于视频播放区域的区域；

第四显示单元205，用于响应于针对控件显示区域的倍速选择操作，触发目标视频的倍速模式，基于倍速模式在第二控件显示界面中显示与倍速模式相关联的N个倍速控件。

其中，视频播放单元203，第三显示单元204以及第四显示单元205的具体实现方式，可以参见上述图3所对应实施例中对步骤S102的描述，这里将不再进行赘述。

第二响应模块300，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，在视频播放界面中播放目标视频的关键视频片段；关键视频片段为从目标视频的视频片段中所选取的与第一倍速信息相关联的视频片段。

其中，第二响应模块300包括：第一确定单元301，第一检查单元302，片段获取单元303，第一播放单元304；

第一确定单元301，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度；

第一检查单元302，用于在检查到用于播放目标视频的应用客户端的网络状态属于第一网络状态时，基于第一网络状态从服务器上获取与第一倍速信息和第一播放进度相关联的倍速播放片段标识；一个倍速播放片段标识用于表征目标视频中的一个关键视频片段的片段位置；

片段获取单元303，用于从服务器上获取与倍速播放片段标识相匹配的关键视频片段；

第一播放单元304，用于基于关键视频片段在目标视频中的片段位置，在视频播放界面中播放目标视频的关键视频片段。

其中，第一确定单元301，第一检查单元302，片段获取单元303以及第一播放单元304的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

其中，第二响应模块300还包括：第二确定单元305，第二检查单元306，第二播放单元307；

第二确定单元305，用于响应于针对N个倍速控件的第二触发操作，确定第二触发操作所对应的倍速控件所指示的第一倍速信息，且在视频播放界面中将目标视频的播放进度确定为第一播放进度；

第二检查单元306，用于在检查到用于播放目标视频的应用客户端的网络状态属于第二网络状态时，基于第二网络状态从服务器上获取与第一倍速信息和第一播放进度相关联的关键视频片段；关键视频片段为服务器基于第一倍速信息和第一播放进度从目标视频的关键片段集合中所确定的；关键片段集合是服务器基于L个视频片段所确定的；L个视频片段是基于目标视频的K个视频片段的片段兴趣属性所确定的；L为小于K的正整数；K为正整数；

第二播放单元307，用于在视频播放界面中播放目标视频的关键视频片段。

其中，第二确定单元305，第二检查单元306以及第二播放单元307的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

可选的，第三响应模块400，用于将第二触发操作所对应的倍速控件作为第一倍速控件，当在视频播放界面中播放关键视频片段时，响应于针对视频播放界面的第三触发操作，显示与倍速模式相关联的N个倍速控件；N个倍速控件中包含第二倍速控件；

第四响应模块500，用于响应于针对第二倍速控件的第四触发操作，将用于对目标视频进行倍速播放的倍速信息由第一倍速控件所指示的第一倍速信息切换为第二倍速控件所指示的第二倍速信息；

进度确定模块600，用于将关键视频片段在目标视频中的播放进度确定为第二播放进度，基于第二倍速信息和第二播放进度，确定用于在视频播放界面中播放的切换视频片段；切换视频片段为从目标视频的视频片段中所选取的与第二倍速信息和第二播放进度相关联的视频片段；

片段切换模块700，用于在视频播放界面中播放切换视频片段。

其中，界面显示模块100，第一响应模块200，第二响应模块300，第三响应模块400，第四响应模块500，进度确定模块600以及片段切换模块700的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图15，图15是本申请实施例提供的一种视频数据播放装置的结构示意图。视频数据播放装置2可以包括：请求接收模块10，片段确定模块20，片段返回模块30；

请求接收模块10，用于接收应用客户端基于第一倍速信息发送的与目标视频相关联的倍速播放请求；第一倍速信息用于指示应用客户端在倍速模式下对目标视频进行倍速播放；

片段确定模块20，用于基于倍速播放请求从目标视频的K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段；L为小于K的正整数；K为正整数；

其中，片段确定模块20包括：视频划分单元21，第一预测单元22，第二预测单元23，第三预测单元24，片段筛选单元25；

视频划分单元21，用于从倍速播放请求中获取目标视频的视频标识，基于视频标识确定应用客户端中的目标视频，基于视频切分参数将目标视频划分为K个视频片段；

第一预测单元22，用于获取与目标视频相关联的目标网络模型，通过目标网络模型预测K个视频片段中的每个视频片段的第一片段属性，基于每个视频片段的第一片段属性确定每个视频片段的片段精彩度；

其中，K个视频片段中包括视频片段S_i，i为小于或者等于K的正整数；

第一预测单元22包括：模型获取子单元221，第一确定子单元222，第一融合子单元223，精彩度确定子单元224；可选的，第一预测单元22可以进一步包括：互动量确定子单元225，片段划分子单元226，第一关联子单元227，第二融合子单元228，第一训练子单元229；

模型获取子单元221，用于获取与目标视频相关联的目标网络模型；目标网络模型包括用于对视频片段S_i的第一片段属性进行预测的第一目标预估网络；

第一确定子单元222，用于通过第一目标预估网络确定视频片段S_i的第一图像特征向量、第一音频特征向量和第一文本特征向量；

其中，第一目标预估网络包括第一图像处理网络、第一音频处理网络和第一文本处理网络；

第一确定子单元222包括：第一提取子单元2221，第二提取子单元2222，第三提取子单元2223；

第一提取子单元2221，用于将视频片段S_i中的图像帧作为第一图像帧，将第一图像帧输入至第一图像处理网络，由第一图像处理网络对第一图像帧进行图像特征提取，得到视频片段S_i的第一图像特征向量；

第二提取子单元2222，用于将视频片段S_i中的音频帧作为第一音频帧，将第一音频帧输入至第一音频处理网络，由第一音频处理网络对第一音频帧进行音频特征提取，得到视频片段S_i的第一音频特征向量；

第三提取子单元2223，用于将与视频片段S_i相关联的文本信息作为第一文本信息，将第一文本信息输入至第一文本处理网络，由第一文本处理网络对第一文本信息进行文本特征提取，得到视频片段S_i的第一文本特征向量。

其中，第一提取子单元2221，第二提取子单元2222以及第三提取子单元2223的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

第一融合子单元223，用于对第一图像特征向量、第一音频特征向量和第一文本特征向量进行特征融合，得到视频片段S_i的第一融合特征向量，将第一融合特征向量输入至第一目标预估网络中的第一全连接网络，由第一全连接网络对第一融合特征向量进行特征提取，得到视频片段S_i对应的第一目标特征向量；

精彩度确定子单元224，用于将第一目标特征向量输入第一目标预估网络中用于对第一片段属性进行属性分类的第一分类器，由第一分类器输出第一目标特征向量与第一分类器中的多个第一样本属性所对应的第一样本特征向量之间的第一匹配度，基于第一匹配度确定视频片段S_i的第一片段属性，基于第一片段属性确定视频片段S_i的片段精彩度。

可选的，互动量确定子单元225，用于将用于训练第一初始预估网络的视频片段作为训练片段，确定训练片段的弹幕互动量；一个训练片段的弹幕互动量用于描述一个训练片段的真实片段精彩度；

片段划分子单元226，用于在训练片段中将弹幕互动量大于互动阈值的训练片段作为正样本片段，且将正样本片段的真实片段精彩度作为第一样本标签，在训练片段中将弹幕互动量小于或者等于互动阈值的训练片段作为负样本片段，且将负样本片段的真实片段精彩度作为第二样本标签；

第一关联子单元227，用于基于正样本片段和负样本片段，确定用于训练第一初始预估网络的第一样本片段，基于第一样本标签和第二样本标签，确定多个第一样本属性；

第二融合子单元228，用于通过第一初始预估网络确定第一样本片段的第一样本图像向量、第一样本音频向量和第一样本文本向量，对第一样本图像向量、第一样本音频向量和第一样本文本向量进行特征融合，得到第一样本片段的第一样本融合向量，基于第一样本融合向量确定第一样本片段的第一预测属性；

第一训练子单元229，用于基于第一预测属性所对应的预测样本精彩度和第一样本属性所对应的真实样本精彩度，对第一初始预估网络进行迭代训练，得到第一目标预估网络。

其中，模型获取子单元221，第一确定子单元222，第一融合子单元223，精彩度确定子单元224，互动量确定子单元225，片段划分子单元226，第一关联子单元227，第二融合子单元228以及第一训练子单元229的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

第二预测单元23，用于通过目标网络模型预测K个视频片段中的每个视频片段的第二片段属性，基于每个视频片段的第二片段属性确定每个视频片段的片段热度；

第二预测单元23包括：第二确定子单元231，第三融合子单元232，平均处理子单元233，弹幕量获取子单元234，热度确定子单元235；可选的，第二预测单元23可以进一步包括：播放量确定子单元236，第二关联子单元237，第四融合子单元238，第二训练子单元239；

第二确定子单元231，用于通过第二目标预估网络确定视频片段S_i的第二图像特征向量、第二音频特征向量和第二文本特征向量；

第三融合子单元232，用于对第二图像特征向量、第二音频特征向量和第二文本特征向量进行特征融合，得到视频片段S_i的第二融合特征向量，基于第二融合特征向量确定视频片段S_i的第二片段属性，基于第二片段属性确定视频片段S_i的第一片段热度；

平均处理子单元233，用于获取目标视频所属平台上的业务视频的辅助视频片段，基于辅助视频片段的弹幕互动量以及第一倍速信息，确定视频片段S_i对应的平均弹幕量；

弹幕量获取子单元234，用于获取视频片段S_i的片段弹幕量，基于片段弹幕量和平均弹幕量，确定视频片段S_i的第二片段热度；

热度确定子单元235，用于根据视频片段S_i的第一片段热度和第二片段热度，确定视频片段S_i的片段热度。

可选的，播放量确定子单元236，用于将用于训练第二初始预估网络的样本视频作为第二样本片段，确定第二样本片段的视频播放量和播放完成量；一个第二样本片段的视频播放量和播放完成量用于描述一个第二样本片段的真实样本热度；

第二关联子单元237，用于基于视频播放量与播放完成量的乘积，确定第二样本片段的真实样本热度，将确定的真实样本热度，作为与第二样本片段相关联的多个第二样本属性；

第四融合子单元238，用于通过第二初始预估网络确定第二样本片段的第二样本图像向量、第二样本音频向量和第二样本文本向量，对第二样本图像向量，第二样本音频向量和第一样本文本向量进行特征融合，得到第二样本片段的第二样本融合向量，基于第二样本融合向量确定第二样本片段的第二预测属性；

第二训练子单元239，用于基于第二预测属性所对应的预测样本热度和第二样本属性所对应的真实样本热度，对第二初始预估网络进行迭代训练，得到第二目标预估网络。

其中，第二确定子单元231，第三融合子单元232，平均处理子单元233，弹幕量获取子单元234，热度确定子单元235，播放量确定子单元236，第二关联子单元237，第四融合子单元238以及第二训练子单元239的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

第三预测单元24，用于通过目标网络模型预测K个视频片段中的每个视频片段的第三片段属性，基于每个视频片段的第三片段属性确定每个视频片段的片段兴趣度；

第三预测单元24包括：第一视频确定子单元241，第三确定子单元242，兴趣度确定子单元243；可选的，第三预测单元24可以进一步包括：完成度确定子单元244，视频划分子单元245，第三关联子单元246，第二视频确定子单元247，第四确定子单元248，第五融合子单元249，第三训练子单元250；

第一视频确定子单元241，用于获取与应用客户端中的目标用户相关联的目标关联视频，且获取目标关联视频的目标视频标签，将目标视频标签作为目标用户的目标兴趣标签；

第三确定子单元242，用于通过第三目标预估网络确定视频片段S_i的目标片段特征向量，通过第三目标预估网络确定目标关联视频的目标关联特征向量，通过第三目标预估网络确定目标兴趣标签的目标兴趣特征向量；

兴趣度确定子单元243，用于基于目标片段特征向量、目标关联特征向量和目标兴趣特征向量，确定视频片段S_i的第三融合特征向量，基于第三融合特征向量确定视频片段S_i的第三片段属性，基于第三片段属性确定视频片段S_i的片段兴趣度。

可选的，完成度确定子单元244，用于将用于训练第三初始预估网络的样本视频作为训练视频，确定样本用户对于训练视频的观看完成度；一个训练视频的观看完成度用于描述一个样本用户对一个训练视频的真实样本兴趣度；

视频划分子单元245，用于在训练视频中将观看完成度大于完成阈值的训练视频作为正样本视频，且将正样本视频的真实样本兴趣度作为第一视频标签，在训练视频中将观看完成度小于或者等于完成阈值的训练视频作为负样本视频，且将负样本视频的真实样本兴趣度作为第二视频标签；

第三关联子单元246，用于基于正样本视频和负样本视频，确定用于训练第三初始预估网络的第三样本片段，基于第一视频标签和第二视频标签，确定多个第三样本属性；

第二视频确定子单元247，用于将正样本视频作为与样本用户相关联的样本关联视频，且获取样本关联视频的样本视频标签，将样本视频标签作为样本用户的样本兴趣标签；

第四确定子单元248，用于通过第三初始预估网络确定第三样本片段的样本片段特征向量，通过第三初始预估网络确定样本关联视频的样本关联特征向量，通过第三目标预估网络确定样本兴趣标签的样本兴趣特征向量；

第五融合子单元249，用于基于样本片段特征向量、样本关联特征向量和样本兴趣特征向量，确定第三样本片段的第三样本融合向量，基于第三样本融合向量确定第三样本片段的第三预测属性；

第三训练子单元250，用于基于第三预测属性所对应的预测样本兴趣度和第三样本属性所对应的真实样本兴趣度，对第三初始预估网络进行迭代训练，得到第三目标预估网络。

其中，第一视频确定子单元241，第三确定子单元242，兴趣度确定子单元243，完成度确定子单元244，视频划分子单元245，第三关联子单元246，第二视频确定子单元247，第四确定子单元248，第五融合子单元249以及第三训练子单元250的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

片段筛选单元25，用于将每个视频片段的片段精彩度、每个视频片段的片段热度和每个视频片段的片段兴趣度，确定为每个视频片段的片段兴趣属性，基于每个视频片段的片段兴趣属性和倍速播放请求，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下对目标视频进行倍速播放的关键视频片段。

其中，片段筛选单元25包括：结果确定子单元251，片段筛选子单元252；

结果确定子单元251，用于基于每个视频片段的片段兴趣属性，得到每个视频片段的倍速评估结果；

片段筛选子单元252，用于在倍速播放请求中获取目标视频的第一播放进度和第一倍速信息，基于第一倍速信息、第一播放进度和倍速评估结果，从K个视频片段中筛选与应用客户端的目标用户相匹配的L个视频片段，将L个视频片段作为在倍速模式下用于对目标视频进行倍速播放的关键视频片段。

其中，结果确定子单元251以及片段筛选子单元252的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

其中，视频划分单元21，第一预测单元22，第二预测单元23，第三预测单元24以及片段筛选单元25的具体实现方式，可以参见上述图9所对应实施例中对步骤S202的描述，这里将不再进行赘述。

片段返回模块30，用于将关键视频片段返回给应用客户端，以使应用客户端基于第一倍速信息，在视频播放界面中播放目标视频的关键视频片段。

其中，请求接收模块10，片段确定模块20以及片段返回模块30的具体实现方式，可以参见上述图9所对应实施例中对步骤S201-S203的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图16，图16是本申请实施例提供的一种计算机设备的结构示意图。如图16所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图16所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图16所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3或图9所对应实施例中对视频数据播放方法的描述，也可执行前文图14所对应实施例中对视频数据播放装置1或图15所对应实施例中对视频数据播放装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的视频数据播放装置1或视频数据播放装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3或图9所对应实施例中对视频数据播放方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3或图9所对应实施例中对视频数据播放方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

58页详细技术资料下载

一种视频数据播放方法、装置、设备以及介质

相关技术

网友询问留言