一种视频处理方法、设备及存储介质

文档序号：1219002 发布日期：2020-09-04 浏览：7次 >En<

阅读说明：本技术 一种视频处理方法、设备及存储介质 (Video processing method, device and storage medium ) 是由阳萍于 2020-05-29 设计创作，主要内容包括：本申请实施例公开了一种视频处理方法、设备及存储介质,适用于云直播、云视频、云会议等场景中,该视频处理方法包括：显示直播页面,并在直播页面中播放直播视频；在直播视频的播放过程中,监测直播视频的目标观众的表情；当监测到目标观众产生目标表情时,获取目标表情的属性数据；根据目标表情的属性数据,在直播视频中确定目标观众的关注内容。采用本申请实施例,可以在直播视频的播放过程中,在直播视频中快速确定目标观众的关注内容,有效提升关注内容的确定效率。(The embodiment of the application discloses a video processing method, video processing equipment and a storage medium, which are suitable for scenes such as cloud live broadcast, cloud video and cloud conference, and the video processing method comprises the following steps: displaying a live broadcast page, and playing a live broadcast video in the live broadcast page; monitoring the expression of a target audience of a live video in the playing process of the live video; when it is monitored that target audience generates target expressions, acquiring attribute data of the target expressions; and determining the attention content of the target audience in the live video according to the attribute data of the target expression. By adopting the method and the device, the attention content of the target audience can be quickly determined in the live video in the playing process of the live video, and the determination efficiency of the attention content is effectively improved.)

一种视频处理方法、设备及存储介质

技术领域

本申请涉及互联网技术领域，具体涉及视频直播技术领域，尤其涉及一种视频处理方法、一种视频处理设备及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，网络视频直播作为一种新型的视频播放方式，应用于教育、金融等各个领域。例如，教师作为主播，通过网络直播授课，学生作为观众，通过观看直播视频听课；又如，商家作为主播，通过网络直播推荐并销售商品，购买者作为观众，通过观看直播视频并点击直播视频中的商品链接购买商品。

目前，在直播视频的播放过程中，观众可以记录直播视频中的关注内容(例如教师直播视频中未听懂的视频片段、商家直播视频中购买者心仪的商品视频片段)，便于在回放视频中快速播放关注内容。观众记录关注内容的方式一般为手动记录，例如，学生在笔记本中记录未听懂的视频片段的播放时间点或播放时间段，购买者在笔记本中记录心仪的商品视频片段的播放时间点或播放时间段。然而，观众在直播视频的播放过程中手动记录关注内容时不仅浪费时间成本，还容易错过直播视频中的其他关注内容。

发明内容

本申请实施例提供了一种视频处理方法、设备及存储介质，可以在直播视频的播放过程中，在直播视频中快速确定目标观众的关注内容，有效提升关注内容的确定效率。

一方面，本申请实施例提供一种视频处理方法，该方法包括：

显示直播页面，并在直播页面中播放直播视频；

在直播视频的播放过程中，监测直播视频的目标观众的表情；

当监测到目标观众产生目标表情时，获取目标表情的属性数据；

根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

另一方面，本申请实施例提供一种视频处理方法，该方法包括：

显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

获取直播视频的目标观众的关注内容，关注内容是按照上述的视频处理方法处理得到的；

根据关注内容生成回放视频的关注标记；

在回放视频的播放过程中显示关注标记。

另一方面，本申请实施例提供一种视频处理方法，该方法包括：

显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

获取直播视频的至少一个观众的关注内容，每个观众的关注内容是按照上述的视频处理方法处理得到的；

根据至少一个观众的关注内容生成回放视频的统计信息；

在回放视频的播放过程中显示统计信息。

另一方面，本申请实施例提供一种视频处理方法，该方法包括：

接收直播视频的至少一个观众的表情图像以及表情图像的监测时间；

对表情图像进行识别；

当识别到包含目标表情图像时，获取目标表情的属性数据；

根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

另一方面，本申请实施例提供一种视频处理装置，该视频处理装置设于视频处理设备内，该视频处理装置包括：

显示单元，用于显示直播页面，并在直播页面中播放直播视频；

处理单元，用于：

在直播视频的播放过程中，监测直播视频的目标观众的表情；

当监测到目标观众产生目标表情时，获取目标表情的属性数据；

根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括一张目标表情图像和目标表情图像的监测时间；处理单元具体用于：

获取与目标表情图像的监测时间对应的直播视频的播放时间点；

将直播视频内与播放时间点对应的视频帧确定为目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括多张目标表情图像和每张目标表情图像的监测时间；处理单元具体用于：

按照多张目标表情图像的监测时间的先后顺序对多张目标表情图像进行排序；

获取与顺序为首位的目标表情图像的监测时间对应的直播视频的第一播放时间点，以及获取与顺序为末位的目标表情图像的监测时间对应的直播视频的第二播放时间点；

将第一播放时间点至第二播放时间点的时间范围确定为目标表情的持续时间；

将直播视频内与目标表情的持续时间对应的多个视频帧确定为目标观众的关注内容。

在一种实现方式中，处理单元具体用于调用摄像设备拍摄目标观众的表情图像，并记录表情图像的监测时间，表情图像的监测时间是摄像设备对表情图像进行拍摄的拍摄时间；处理单元还用于：

调用表情识别模型对表情图像进行识别，当识别到包含目标表情图像时，确定监测到目标观众产生目标表情；或者，

将表情图像和表情图像的监测时间发送至服务器，以使服务器对表情图像进行识别，并接收服务器在识别到包含目标表情图像时返回的目标表情的属性数据。

另一方面，本申请实施例提供一种视频处理装置，该视频处理装置设于视频处理设备内，该视频处理装置包括：

显示单元，用于显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

处理单元，用于：

获取直播视频的目标观众的关注内容，关注内容是按照上述的视频处理方法处理得到的；

根据关注内容生成回放视频的关注标记；

显示单元，还用于在回放视频的播放过程中显示关注标记。

在一种实现方式中，回放页面包括回放视频的播放时间轴；显示单元具体用于：

在回放视频的播放时间轴中获取关注内容对应的位置区域；

在关注内容对应的位置区域显示关注标记；

其中，关注标记在回放视频的播放时间轴中被区别显示；区别显示包括：关注标记被显示为第一颜色，关注标记之外的其他位置区域被显示为第二颜色；或者，关注标记被显示为第一形状，关注标记之外的其他位置区域被显示为第二形状。

在一种实现方式中，显示单元具体用于在回放页面中显示关注列表，并在关注列表中显示关注标记。

在一种实现方式中，显示单元还用于当关注标记被触发时，跳转至关注标记所标识的关注内容，并对关注标记所标识的关注内容进行播放。

另一方面，本申请实施例提供一种视频处理装置，该视频处理装置设于视频处理设备内，该视频处理装置包括：

显示单元，用于显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

处理单元，用于：

获取直播视频的至少一个观众的关注内容，每个观众的关注内容是按照上述的视频处理方法处理得到的；

根据至少一个观众的关注内容生成回放视频的统计信息；

显示单元，还用于在回放视频的播放过程中显示统计信息。

在一种实现方式中，统计信息包括至少一个关注内容，每个关注内容在回放视频中的播放时间点以及每个关注内容的关注详情，关注详情包含观众标识及观众数量；显示单元具体用于：

根据统计信息生成统计曲线；

在回放视频的播放过程中显示统计曲线。

在一种实现方式中，显示单元还用于当统计曲线被触发时，获取被触发的播放时间点，并在回放页面中显示被触发的播放时间点对应的关注内容的关注详情。

另一方面，本申请实施例提供一种视频处理装置，该视频处理装置设于视频处理设备内，该视频处理装置包括：

接收单元，用于接收直播视频的至少一个观众的表情图像以及表情图像的监测时间；

处理单元，用于：

对表情图像进行识别；

当识别到包含目标表情图像时，获取目标表情的属性数据；

根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

在一种实现方式中，目标观众是至少一个观众中的任一个观众；处理单元还用于：

将目标观众的目标表情的属性数据发送至目标观众，以使目标观众根据目标表情的属性数据在直播视频中确定目标观众的关注内容，并根据关注内容生成回放视频的关注标记；或者，

将目标观众的关注内容发送至目标观众，以使目标观众根据关注内容生成回放视频的关注标记；或者，

根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息，并将统计信息发送至直播视频的主播。

另一方面，本申请实施例提供一种视频处理设备，该视频处理设备包括：

处理器，适于实现一条或多条指令；以及，

计算机可读存储介质，该计算机可读存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行上述的视频处理方法。

另一方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有一条或多条指令，一条或多条指令适于由处理器加载并执行上述的视频处理方法。

本申请实施例中，可以在直播视频的播放过程中对观看直播视频的目标观众的表情进行监测，当监测到目标观众产生目标表情时，自动获取目标表情的属性数据，并根据目标表情的属性数据在直播视频中确定出目标观众的关注内容。由此看来，通过监测观看直播视频的目标观众的表情变化情况，当目标观众出现目标表情时可以快速确定目标观众在直播视频中的关注内容，无需使用其他方式(例如手动记录关注内容的播放时间点和播放时间段)确定关注内容，不仅节约时间成本，还能有效提升关注内容的确定效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a示出了本申请一个示例性实施例提供的一种视频直播系统的架构示意图；

图1b示出了本申请一个示例性实施例提供的一种视频处理系统的架构示意图；

图1c示出了本申请一个示例性实施例提供的一种表情监测方法的场景示意图；

图2a示出了本申请一个示例性实施例提供的一种学生终端的界面示意图；

图2b示出了本申请一个示例性实施例提供的一种教师终端的界面示意图；

图3示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图；

图4a示出了本申请一个示例性实施例提供的一种关注内容确定方法的示意图；

图4b示出了本申请另一个示例性实施例提供的一种关注内容确定方法的示意图；

图5示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图6a示出了本申请一个示例性实施例提供的一种关注标记的显示界面示意图；

图6b示出了本申请另一个示例性实施例提供的一种关注标记的显示界面示意图；

图7示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图8示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图9示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图10示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图；

图11示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图；

图12示出了本申请另一个示例性实施例提供的一种视频处理装置的结构示意图；

图13示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图。

具体实施

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

云技术(Cloud Technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(Cloud Computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取、按需使用、随时扩展、按使用付费。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台)，一般称为Iaa S(Infrastructure as a Service，基础设施即服务)平台，在云计算资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分，在IaaS层上可以部署PaaS(Platform as a Service，平台即服务)层，PaaS层之上再部署SaaS(Software as a Service，软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件(例如数据库、web容器等)运行的平台。SaaS为各式各样的业务软件(例如web门户网站、***器等)。一般来说，SaaS和PaaS相对于IaaS是上层。

云计算可以应用于日常生活的各个领域。例如，云教育(Cloud ComputingEducation，CCEDU)、云会议等领域。云教育是指基于云计算商业模式应用的教育平台服务。在云平台上，所有的教育机构，培训机构，招生服务机构，宣传机构，行业协会，管理机构，行业媒体，法律结构等都集中云整合成资源池，各个资源相互展示和互动，按需交流，达成意向，从而降低教育成本，提高效率。云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面，进行简单易用的操作，便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频，而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。目前国内云会议主要集中在以SaaS模式为主体的服务内容，包括电话、网络、视频等服务形式，基于云计算的视频会议就叫云会议。在云会议时代，数据的传输、处理、存储全部由视频会议厂家的计算机资源处理，使用者完全无需再购置昂贵的硬件和安装繁琐的软件，只需打开浏览器，登录相应界面，就能进行高效的远程会议。云会议系统支持多服务器动态集群部署，并提供多台高性能服务器，大大提升了会议稳定性、安全性、可用性。近年来，视频会议因能大幅提高沟通效率，持续降低沟通成本，带来内部管理水平升级，而获得众多用户欢迎，已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问，视频会议运用云计算以后，在方便性、快捷性、易用性上具有更强的吸引力，必将激发视频会议应用新高潮的到来。

本申请实施例涉及视频直播技术，下面将结合图1a所示的视频直播系统简要介绍视频直播技术的原理。如图1a所示，该视频直播系统包括主播终端102、服务器103和至少一个观众终端101。其中，主播终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。至少一个观众终端101也可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。主播终端102、服务器103以及至少一个观众终端101可以通过有线通信或者无线通信方式进行直接或间接地连接，本申请在此不做限制。

在由主播终端102、服务器103和至少一个观众终端101组成的视频直播系统中，视频直播技术的原理如下：①主播终端102通过硬件设备(例如摄像机、拾音器等)采集视频文件和音频文件；②主播终端102对采集到的音频文件和视频文件进行处理，例如，在视频文件中添加水印，在视频文件中添加滤镜或者对音频文件进行降噪处理等；③主播终端102对处理后的视频文件和音频文件进行压缩编码；④主播终端102将编码后的视频文件和音频文件封装为流媒体数据包；⑤主播终端102通过RTMP(Real Time Messaging Protocol，实时消息传输协议)、HLS(HTTP Live Streaming，HTTP(Hyper Text Transfer Protocol，超文本传输协议)实时流)等流媒体传输协议将封装好的流媒体数据包传输至服务器103；⑥服务器103通过上述流媒体传输协议将流媒体数据包分发至各个观众终端101；⑦各个观众终端101接收到流媒体数据包后，对流媒体数据包进行解封装、解码，播放解码后的视频文件和音频文件(即直播视频)。

在一种实现方式中，在直播视频的播放过程中，观众终端101可以对直播视频进行录制，生成直播视频的回放视频；或者，在直播视频的播放过程中，服务器103可以对直播视频进行录制，生成直播视频的回放视频，服务器103将回放视频发送至各个观众终端101；或者，主播终端102可以对直播视频进行录制，生成直播视频的回放视频，主播终端102将回放视频发送至服务器103和各个观众终端101。

基于上述描述，请参见图1b，图1b示出了本申请一个示例性实施例提供的一种视频处理系统的架构示意图。如图1b所示，该视频处理系统包括图1a所示的视频直播系统中的主播终端102、服务器103和任一个观众终端101。本申请实施例以一个观众终端101为例进行说明，在实际场景中，视频处理系统可以包括至少一个观众终端101。

在由主播终端102、服务器103和任一个观众终端101组成的视频处理系统中，除实现图1a所示的视频直播系统所实现的视频直播技术外，还能实现其他方法，具体实现的方法如下：

(1)对于观众终端101：

观众终端101显示直播页面，在直播页面中播放直播视频，直播视频是通过上述视频直播技术由服务器103发送至观众终端101的。在直播视频的播放过程中，如图1c所示，图1c示出了本申请一个示例性实施例提供的一种表情监测方法的场景示意图，观众终端101调用摄像设备(例如摄像头)监测直播视频的目标观众(即使用观众终端101观看直播视频的观众用户)的表情，即观众终端101调用摄像设备拍摄目标观众的表情图像。当观众终端101调用表情识别模型识别到目标观众的表情图像中出现目标表情时，观众终端101确定监测到目标观众产生目标表情，观众终端101获取目标表情的属性数据。从而，观众终端101可以根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。所谓目标表情是指因对某种事物产生特定关注情绪(例如感兴趣、疑惑、疑虑等情绪)时出现的表情，该目标表情可以是指面部动作产生的表情，包括但不限于：瞳孔放大、眉头皱起、眼睛缩小等。

其中，目标表情的属性数据可以包括一张目标表情图像以及该目标表情图像的监测时间；或者，目标表情的属性数据可以包括多张目标表情图像以及每张目标表情图像的监测时间。目标表情图像的监测时间是观众终端101调用摄像设备对该目标表情图像进行拍摄的拍摄时间。表情识别模型可以是基于ANN(Artificial Neural Network，人工神经网络)的人脸表情识别模型，或者基于CNN(Convolutional Neural Networks，卷积神经网络)的人脸表情识别模型等。

在一种实现方式中，直播视频播放结束后，观众终端101可以显示回放页面，在回放页面中播放回放视频，该回放视频是观众终端101对直播视频进行录制生成的。观众终端101在直播视频中确定出目标观众的关注内容后，可以根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记。目标观众可以在观看回放视频的过程中触发关注标记，以查看目标观众在直播视频中的关注内容。其中，观众终端101可以在回放视频的播放时间轴(例如进度条)中显示关注标记；或者，观众终端101可以在回放视频的关注列表中显示关注标记。

(2)对于主播终端102：

直播视频播放结束后，主播终端102可以显示回放页面，在回放页面中播放回放视频，该回放视频是主播终端102对直播视频进行录制生成的。主播终端102可以获取主播终端102的至少一个观众的关注内容，每个观众的关注内容都是该观众对应的观众终端101在直播视频中确定得到的。主播终端102可以对至少一个观众的关注内容进行统计，生成回放视频的统计信息，根据统计信息生成统计曲线，并在回放视频的播放过程中显示统计曲线。

其中，统计信息可以包括至少一个关注内容，每个关注内容在回放视频中的播放时间点以及每个关注内容的关注详情。每个关注内容的关注详情可以包括观众标识及观众数量。主播(即使用主播终端102录制直播视频的主播用户)可以在观看回放视频的过程中触发统计曲线，以查看被触发的播放时间点对应的关注内容的关注详情。

(3)对于服务器103：

若观众终端101不具备对表情图像进行识别的能力，观众终端101可以将观众终端101调用摄像设备拍摄的目标观众的表情图像发送至服务器103，由服务器103对表情图像进行识别。服务器103可以接收直播视频的至少一个观众通过观众终端101发送的表情图像以及表情图像的监测时间。服务器103可以调用表情识别模型对表情图像进行识别，当识别到包含目标表情图像时，获取目标表情的属性数据。服务器103可以根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

在一种实现方式中，服务器103可以将目标观众的目标表情的属性数据发送至目标观众的观众终端101，以使目标观众的观众终端101根据目标表情的属性数据在直播视频中确定目标观众的关注内容，根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；或者，服务器103可以直接将目标观众的关注内容发送至目标观众的观众终端101，以使目标观众的观众终端101根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记。

在一种实现方式中，若主播终端102不具备对至少一个观众的关注内容进行统计的能力，可以由服务器103对至少一个观众的关注内容进行统计，生成直播视频对应的回放视频的统计信息。服务器103将回放视频的统计信息发送至主播终端102，以使主播终端102根据统计信息生成统计曲线，并在回放视频的播放过程中显示统计曲线。

本申请实施例中，观众终端可以在直播视频的播放过程中对观看直播视频的目标观众的表情进行监测，当监测到目标观众产生目标表情时，观众终端自动获取目标表情的属性数据，并根据目标表情的属性数据在直播视频中确定出目标观众的关注内容；通过监测观看直播视频的目标观众的表情变化情况，快速确定目标观众在直播视频中的关注内容，无需使用其他方式(例如手动记录关注内容的播放时间点和播放时间段)确定关注内容，不仅节约时间成本，还能有效提升关注内容的确定效率。此外，观众终端确定出目标观众在直播视频中的关注内容后，还可以根据目标观众的关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；关注标记在观众终端的回放视频中被突出显示，目标观众可以在观看回放视频的过程中触发关注标记，查看该关注标记所标识的关注内容，无需多次滑动或点击回放视频的播放时间轴查找关注内容，不仅节约时间成本，还能提升关注内容的观看效率。此外，主播终端可以获取至少一个观众通过观众终端确定出的关注内容，根据至少一个观众的关注内容生成回放视频的统计曲线，并在回放视频的播放过程中显示统计曲线；统计曲线在主播终端的回放视频中被突出显示，主播可以在观看回放视频的过程中触发统计曲线，查看被触发的播放时间点对应的关注内容的关注详情(即关注该关注内容的观众标识及观众数量)，统计曲线可以反映主播的所有观众对直播视频的关注情况，主播可以根据统计曲线调整直播内容(例如适当增加观众关注的内容，适当减少观众不关注的内容等)，有利于提升主播的直播质量。此外，当观众终端和主播终端不具备对大量数据进行计算的能力时，服务器可以为观众终端和主播终端提供计算能力，例如，服务器对至少一个观众的表情图像进行识别，服务器根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容，服务器根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息等，有利于提升视频处理系统整体的处理效率。

可以理解的是，本申请实施例描述的视频处理系统是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着系统架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

举例来说，本申请实施例所描述的视频处理系统可以应用于直播授课的场景中。教师作为主播，学生作为观众，教师通过教师终端进行直播，学生通过学生终端观看直播视频。

对于学生终端而言，学生终端显示直播页面，在直播页面中播放直播视频。在直播视频的播放过程中，学生终端调用摄像设备拍摄观看直播视频的学生的表情图像。当学生终端调用表情识别模型识别到学生的表情图像中出现目标表情(例如瞳孔放大、眼睛缩小、眉头皱起等)时，学生终端可以在直播视频中确定学生的关注内容(例如学生在直播视频中存在疑惑的视频片段、学生在直播视频中未听懂的视频片段、学生在直播视频中存在疑惑的视频帧等)。直播视频播放结束后，学生终端显示回放页面，在回放页面中播放回放视频，该回放视频是学生终端对直播视频进行录制生成的。学生终端可以根据关注内容生成回放视频的关注标记，如图2a所示，图2a示出了本申请一个示例性实施例提供的一种学生终端的界面示意图，学生终端可以在回放视频的进度条中显示关注标记。学生可以在观看回放视频的过程中触发关注标记，以查看学生在直播视频中的关注内容。通过这种方式，关注标记在学生终端的回放视频中被突出显示，学生可以在观看回放视频的过程中触发关注标记，查看该关注标记所标识的关注内容，无需多次滑动或点击回放视频的进度条查找关注内容，不仅节约时间成本，还能提升学生的学习效率。

对于教师终端而言，直播视频播放结束后，教师终端可以显示回放页面，在回放页面中播放回放视频，该回放视频是教师终端对直播视频进行录制生成的。教师终端可以获取教师终端的至少一个学生的关注内容，每个学生的关注内容都是该学生对应的学生终端在直播视频中确定得到的。教师终端可以对至少一个学生的关注内容进行统计，生成回放视频的统计曲线，如图2b所示，图2b示出了本申请一个示例性实施例提供的一种教师终端的界面示意图，教师终端可以在回放视频的播放过程中显示统计曲线。教师可以在观看回放视频的过程中触发统计曲线，以查看被触发的播放时间点对应的关注内容的关注详情(例如，被触发的播放时间点对应的表情图像中出现目标表情的学生标识以及学生数量)。通过这种方式，教师可以在观看回放视频的过程中触发统计曲线，查看被触发的播放时间点对应的关注内容的关注详情，统计曲线可以反映教师的所有学生的对直播视频的关注情况，教师可以根据统计曲线调整教学方案，有利于提升教学质量。

基于上述描述，请参见图3，图3示出了本申请一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的观众终端101执行，该视频处理方法包括以下步骤S301至步骤S304：

步骤S301，显示直播页面，并在直播页面中播放直播视频。

步骤S302，在直播视频的播放过程中，监测直播视频的目标观众的表情。

在一种实现方式中，在直播视频的播放过程中，观众终端可以调用摄像设备拍摄目标观众的表情图像，并记录表情图像的监测时间。其中，表情图像的监测时间是观众终端对该表情图像进行拍摄的拍摄时间。

步骤S303，当监测到目标观众产生目标表情时，获取目标表情的属性数据。

在一种实现方式中，观众终端可以调用表情识别模型对目标观众的表情图像进行识别，当识别到目标观众的表情图像中包含目标表情时，观众终端确定监测到目标观众产生目标表情。例如，在直播授课场景中，当观众终端识别到目标观众的表情图像中包含瞳孔放大、眼睛缩小、眉头皱起等表情时，观众终端确定监测到目标观众产生目标表情。

在一种实现方式中，当监测到目标观众产生目标表情时，观众终端获取目标表情的属性数据。若观众终端识别到的目标表情图像为一张，目标表情的属性数据可以包括一张目标表情图像以及该目标表情图像的监测时间；或者，若观众终端识别到的目标表情图像为多张(两张或者两张以上)，目标表情的属性数据可以包括多张目标表情图像以及每张目标表情图像的监测时间。

步骤S304，根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

在一种实现方式中，目标表情的属性数据可以包括一张目标表情图像以及该目标表情图像的监测时间。如图4a所示，图4a示出了本申请一个示例性实施例提供的一种关注内容确定方法的示意图，观众终端根据目标表情的属性数据在直播视频中确定目标观众的关注内容的

具体实施方式

可以为：观众终端可以获取与目标表情图像的监测时间对应的直播视频的播放时间点，将直播视频内与播放时间点对应的视频帧确定为目标观众的关注内容。

在一种实现方式中，目标表情的属性数据可以包括多张目标表情图像以及每张目标表情图像的监测时间。如图4b所示，图4b示出了本申请另一个示例性实施例提供的一种关注内容确定方法的示意图，观众终端根据目标表情的属性数据在直播视频中确定目标观众的关注内容的具体实施方式可以为：观众终端按照多张目标表情图像的监测时间的先后顺序对多张目标表情图像进行排序；观众终端获取与顺序为首位的目标表情图像的监测时间对应的直播视频的第一播放时间点，以及获取与顺序为末位的目标表情图像的监测时间对应的直播视频的第二播放时间点；观众终端将第一播放时间点至第二播放时间点的时间范围确定为目标表情的持续时间；观众终端将直播视频内与目标表情的持续时间对应的多个视频帧确定为目标观众的关注内容。

在一种实现方式中，若观众终端不具备对表情图像的识别能力，观众终端还可以将观众终端调用摄像设备拍摄到的表情图像和表情图像的监测时间发送至服务器，由服务器对表情图像进行识别，当识别到包含目标表情图像时，服务器获取目标表情的属性数据，并将获取到的目标表情的属性数据发送至观众终端。或者，服务器还可以根据目标表情的属性数据，在直播视频中确定目标观众的关注内容，并将目标观众的关注内容发送至观众终端。

在一种实现方式中，在直播视频的播放过程中，观众终端还可以调用摄像设备监测直播视频的目标观众的肢体动作，即观众终端调用摄像设备拍摄目标观众的肢体图像。当观众终端调用肢体动作识别模型识别到目标观众的肢体图像中出现目标肢体动作时，观众终端101确定监测到目标观众产生目标肢体动作，观众终端获取目标肢体动作的属性数据。从而，观众终端可以根据目标肢体动作的属性数据，在直播视频中确定目标观众的关注内容。所谓目标肢体动作是指因对某种事物产生特定关注情绪(如感兴趣、疑惑、疑虑等情绪)时而做出的动作，该目标肢体动作可以包括但不限于挥手、举手等。

在一种实现方式中，在直播视频的播放过程中，观众终端还可以调用录音设备采集直播视频的目标观众的语音，即观众终端调用录音设备采集目标观众的语音文件。当观众终端调用语音识别模型识别到目标观众的语音文件中出现目标语音时，观众终端确定目标观众的语音文件中出现目标语音，观众终端获取目标语音的属性数据。从而，观众终端可以根据目标语音的属性数据，在直播视频中确定目标观众的关注内容。所谓目标语音是指因对某种事物产生特定关注情绪(如感兴趣、疑惑、疑虑等情绪)时而发出的声音，该目标语音可以包括但不限于“我不懂”、“我不会”等。

请参见图5，图5示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的观众终端101执行，该视频处理方法包括以下步骤S501至步骤S507：

步骤S501，显示直播页面，并在直播页面中播放直播视频。

步骤S502，在直播视频的播放过程中，监测直播视频的目标观众的表情。

步骤S503，当监测到目标观众产生目标表情时，获取目标表情的属性数据。

步骤S504，根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

本申请实施例中步骤S501的执行过程与图3所示实施例中步骤S301的执行过程相同，步骤S502的执行过程与图3所示实施例中步骤S302的执行过程相同，步骤S503的执行过程与图3所示实施例中步骤S303的执行过程相同，步骤S504的执行过程与图3所示实施例中步骤S304的执行过程相同，具体执行过程可以参见图3所示实施例的描述，在此不再赘述。

步骤S505，显示回放页面，并在回放页面中播放回放视频。

在一种实现方式中，观众终端的回放视频是观众终端对直播视频进行录制生成的。

步骤S506，根据关注内容生成回放视频的关注标记。

步骤S507，在回放视频的播放过程中显示关注标记。

在一种实现方式中，回放页面包括回放视频的播放时间轴。观众终端可以在回放视频的播放时间轴中获取关注内容对应的位置区域；观众终端在关注内容对应的位置区域区别显示关注标记。

在一种实现方式中，如图2a所示，在回放视频的播放时间轴中，关注标记被显示为第一颜色，关注标记之外的其他位置区域被显示为第二颜色；或者，如图6a所示，图6a示出了本申请一个示例性实施例提供的一种关注标记的显示界面示意图，在回放视频的播放时间轴中，关注标记被显示为第一形状(例如椭圆形)，关注标记之外的其他位置区域被显示为第二形状(例如长方形)。

在一种实现方式中，如图6b所示，图6b示出了本申请另一个示例性实施例提供的一种关注标记的显示界面示意图，回放页面中还可以包括关注列表，观众终端还可以在关注列表中显示关注标记。

在一种实现方式中，当回放视频中的关注标记被目标观众触发时，观众终端可以跳转至关注标记所标识的关注内容，并对关注标记所标识的关注内容进行播放。

本申请实施例中，观众终端确定出目标观众在直播视频中的关注内容后，还可以根据目标观众的关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；关注标记在观众终端的回放视频中被突出显示，目标观众可以在观看回放视频的过程中触发关注标记，查看该关注标记所标识的关注内容，无需多次滑动或点击回放视频的播放时间轴查找关注内容，不仅节约时间成本，还能提升关注内容的观看效率。

请参见图7，图7示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的主播终端102执行，该视频处理方法包括以下步骤S701至步骤S704：

步骤S701，显示回放视频，并在回放页面中播放回放视频。

在一种实现方式中，主播终端的回放视频是主播终端对直播视频进行录制生成的。

步骤S702，获取直播视频的至少一个观众的关注内容。

在一种实现方式中，主播终端获取直播视频的至少一个观众的关注内容，每个观众的关注内容是每个观众使用观众终端按照图3所示的视频处理方法处理得到的，具体执行过程可参见图3所示实施例的描述，在此不再赘述。

步骤S703，根据至少一个观众的关注内容生成回放视频的统计信息。

在一种实现方式中，统计信息可以包括至少一个关注内容，每个关注内容在回放视频中的播放时间点以及每个关注内容的关注详情，每个关注内容的关注详情可以包括关注该关注内容的观众标识及观众数量。主播终端根据至少一个观众的关注内容生成回放视频的统计信息的具体实施方式可以为：主播终端根据统计信息生成统计曲线，并在回放视频的播放过程中显示统计曲线。

步骤S704，在回放视频的播放过程中显示统计信息。

在一种实现方式中，如图2b所示，当统计曲线被主播触发时，主播终端获取统计曲线被触发的播放时间点，并在回放页面中显示被触发的播放时间点对应的关注内容的关注详情(即被触发的播放时间点对应的观众标识及观众数量)。

本申请实施例中，主播终端可以获取至少一个观众通过观众终端确定出的关注内容，根据至少一个观众的关注内容生成回放视频的统计曲线，并在回放视频的播放过程中显示统计曲线；统计曲线在主播终端的回放视频中被突出显示，主播可以在观看回放视频的过程中触发统计曲线，查看被触发的播放时间点对应的关注内容的关注详情(关注该关注内容的观众标识及观众数量)，统计曲线可以反映主播的所有观众对直播视频的关注情况，主播可以根据统计曲线调整直播内容，有利于提升主播的直播质量。

请参见图8，图8示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的服务器103执行，该视频处理方法包括以下步骤S801至步骤S804：

步骤S801，接收直播视频的至少一个观众的表情图像以及表情图像的监测时间。

在一种实现方式中，服务器接收直播视频的至少一个观众的表情图像以及表情图像的监测时间。每个观众的表情图像是该观众使用的观众终端在直播视频的播放过程中，调用摄像设备对观众的表情进行拍摄得到的。表情图像的监测时间是观众终端调用摄像设备对表情图像进行拍摄的拍摄时间。

步骤S802，对表情图像进行识别。

在一种实现方式中，服务器可以调用表情识别模型对目标观众(直播视频的任一个观众)的表情图像进行识别，当识别到目标观众的表情图像中包含目标表情图像时，服务器确定监测到目标观众产生目标表情。例如，在直播授课场景中，当服务器识别到目标观众的表情图像中包含瞳孔放大、眼睛缩小、眉头皱起等表情时，服务器确定识别到目标观众产生目标表情。按照此方法，服务器可以对每个观众的表情图像进行识别。

步骤S803，当识别到包含目标表情图像时，获取目标表情的属性数据。

步骤S804，根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

在一种实现方式中，服务器可以根据每个观众的目标表情的属性数据在直播视频中确定每个观众的关注内容。

在一种实现方式中，服务器可以将目标观众的目标表情的属性数据发送至目标观众，由目标观众使用的观众终端根据目标表情的属性数据在直播视频中确定目标观众的关注内容，根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；或者，服务器可以将目标观众的关注内容发送至目标观众，由目标观众使用的关注终端根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记。

在一种实现方式中，服务器可以根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息，服务器将统计信息发送至直播视频的主播，由主播使用的主播终端在回放视频的播放过程中显示统计信息。

本申请实施例中，当观众终端和主播终端不具备对大量数据进行计算的能力时，服务器可以为观众终端和主播终端提供计算能力，例如，服务器对至少一个观众的表情图像进行识别，服务器根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容，服务器根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息等，基于服务器的计算能力，提升视频处理系统整体的处理效率。

请参见图9，图9示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的观众终端101和服务器103交互实现，该视频处理方法包括以下步骤S901至步骤S909：

步骤S901，观众终端显示直播页面，并在直播页面中播放直播视频。

步骤S902，观众终端在直播视频的播放过程中，监测直播视频的目标观众的表情。

步骤S903，观众终端将目标观众的表情图像及表情图像的监测时间发送至服务器。

步骤S904，服务器对表情图像进行识别。

步骤S905，当识别到包含目标表情图像时，服务器获取目标表情的属性数据。

在一种实现方式中，服务器还可以将获取到的目标表情的属性数据发送至目标观众使用的观众终端，由观众终端根据目标表情的属性数据在直播视频中确定目标观众的关注内容，根据关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记。

步骤S906，服务器根据目标表情的属性数据在直播视频中确定目标观众的关注内容。

步骤S907，服务器将目标观众在直播视频中的关注内容发送至观众终端。

步骤S908，观众终端根据关注内容生成回放视频的关注标记。

步骤S909，观众终端在回放视频的播放过程中显示关注标记。

本申请实施例各个步骤的执行过程均可参见上述实施例的描述，在此不再赘述。

本申请实施例中，观众终端可以在直播视频的播放过程中对观看直播视频的目标观众的表情进行监测，将监测到的表情图像及表情图像的监测时间发送至服务器；当服务器识别到目标观众的表情图像中出现目标表情图像时，服务器获取目标表情的属性数据；服务器根据目标表情的属性数据在直播视频中确定出目标观众的关注内容，并将关注内容发送至观众终端，通过监测观看直播视频的目标观众的表情变化情况，快速确定目标观众在直播视频中的关注内容，无需使用其他方式(例如手动记录关注内容的播放时间点和播放时间段)确定关注内容，不仅节约时间成本，还能有效提升关注内容的确定效率。此外，确定出目标观众在直播视频中的关注内容后，观众终端还可以根据目标观众的关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；关注标记在观众终端的回放视频中被突出显示，目标观众可以在观看回放视频的过程中触发关注标记，查看该关注标记所标识的关注内容，无需多次滑动或点击回放视频的播放时间轴查找关注内容，不仅节约时间成本，还能提升关注内容的观看效率。

请参见图10，图10示出了本申请另一个示例性实施例提供的一种视频处理方法的流程示意图，该视频处理方法可以由图1b所示实施例中的至少一个观众终端101、主播终端102和服务器103交互实现，该视频处理方法包括以下步骤1001至步骤S1011：

步骤S1001，每个观众终端在直播视频的播放过程中，监测直播视频的观众的表情。

步骤S1002，每个观众终端将监测到的表情图像以及表情图像的监测时间发送至服务器。

步骤S1003，服务器对至少一个观众终端发送的表情图像进行识别。

步骤S1004，当识别到包含目标表情图像时，服务器获取目标表情的属性数据。

步骤S1005，服务器根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

步骤S1006，服务器将至少一个观众的关注内容发送至对应的观众终端。

步骤S1007，每个观众终端根据关注内容生成关注标记。

步骤S1008，每个观众终端在回放视频的播放过程中显示关注标记。

步骤S1009，服务器根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息。

在一种实现方式中，服务器可以将至少一个观众的关注内容发送至主播终端，主播终端可以根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息，并在回放视频的播放过程中显示统计信息。

步骤S1010，服务器将统计信息发送至主播终端。

步骤S1011，主播终端在回放视频的播放过程中显示统计信息。

本申请实施例各个步骤的执行过程均可参见上述实施例的描述，在此不再赘述。

本申请实施例中，至少一个观众终端可以在直播视频的播放过程中对观看直播视频的观众的表情进行监测，将监测到的至少一个观众的表情图像及表情图像的监测时间发送至服务器；当服务器识别到表情图像中出现目标表情图像时，服务器获取目标表情的属性数据；服务器根据目标表情的属性数据在直播视频中确定出至少一个观众的关注内容；服务器将关注内容发送至对应的观众终端；通过监测观看直播视频的目标观众的表情变化情况，快速确定目标观众在直播视频中的关注内容，无需使用其他方式(例如手动记录关注内容的播放时间点和播放时间段)确定关注内容，不仅节约时间成本，还能有效提升关注内容的确定效率。此外，确定出至少一个观众在直播视频中的关注内容后，每个观众终端还可以根据观众的关注内容生成回放视频的关注标记，并在回放视频的播放过程中显示关注标记；关注标记在观众终端的回放视频中被突出显示，观众可以在观看回放视频的过程中触发关注标记，查看该关注标记所标识的关注内容，无需多次滑动或点击回放视频的播放时间轴查找关注内容，不仅节约时间成本，还能提升关注内容的观看效率。此外，服务器可以根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息；服务器将统计信息发送至主播终端，主播终端可以在回放视频的播放过程中显示统计信息；统计信息可以反映主播的所有观众对直播视频的关注情况，主播可以根据统计信息调整直播内容(例如适当增加观众关注的内容，适当减少观众不关注的内容等)，有利于提升主播的直播质量。

请参见图11，图11示出了本申请一个示例性实施例提供的一种视频处理装置的结构示意图，该视频处理装置110可以是运行于观众终端101中的一个计算机程序(包括程序代码)，例如可以是观众终端101中的一个应用软件；该视频处理装置110可以用于执行图3、图5、图9或图10所示的方法中的相应步骤。请参见图11，该视频处理装置110包括如下单元：

显示单元1101，用于显示直播页面，并在直播页面中播放直播视频；

处理单元1102，用于：

在直播视频的播放过程中，监测直播视频的目标观众的表情；

当监测到目标观众产生目标表情时，获取目标表情的属性数据；

根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括一张目标表情图像和目标表情图像的监测时间；处理单元1102具体用于：

获取与目标表情图像的监测时间对应的直播视频的播放时间点；

将直播视频内与播放时间点对应的视频帧确定为目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括多张目标表情图像和每张目标表情图像的监测时间；处理单元1102具体用于：

按照多张目标表情图像的监测时间的先后顺序对多张目标表情图像进行排序；

将第一播放时间点至第二播放时间点的时间范围确定为目标表情的持续时间；

将直播视频内与目标表情的持续时间对应的多个视频帧确定为目标观众的关注内容。

在一种实现方式中，处理单元1102具体用于调用摄像设备拍摄目标观众的表情图像，并记录表情图像的监测时间，表情图像的监测时间是摄像设备对表情图像进行拍摄的拍摄时间；处理单元1102还用于：

调用表情识别模型对表情图像进行识别，当识别到包含目标表情图像时，确定监测到目标观众产生目标表情；或者，

将表情图像和表情图像的监测时间发送至服务器，以使服务器对表情图像进行识别，接收服务器在识别到包含目标表情图像时返回的目标表情的属性数据。

在一种实现方式中，该视频处理装置110可以是运行于观众终端101中的一个计算机程序(包括程序代码)，例如可以是观众终端101中的一个应用软件；该视频处理装置110可以用于执行图5、图9或图10所示的方法中的相应步骤。请参见图11，该视频处理装置110包括如下单元：

显示单元1101，用于显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

处理单元1102，用于：

获取直播视频的目标观众的关注内容，关注内容是按照上述的视频处理方法处理得到的；

根据关注内容生成回放视频的关注标记；

显示单元1101，还用于在回放视频的播放过程中显示关注标记。

在一种实现方式中，回放页面包括回放视频的播放时间轴；显示单元1101具体用于：

在回放视频的播放时间轴中获取关注内容对应的位置区域；

在关注内容对应的位置区域显示关注标记；

在一种实现方式中，显示单元1101具体用于在回放页面中显示关注列表，并在关注列表中显示关注标记。

在一种实现方式中，显示单元1101还用于当关注标记被触发时，跳转至关注标记所标识的关注内容，并对关注标记所标识的关注内容进行播放。

在一种实现方式中，该视频处理装置110还可以是运行于主播终端102中的一个计算机程序(包括程序代码)，例如可以是主播终端102中的一个应用软件；该视频处理装置110可以用于执行图7或图10所示的方法中的相应步骤。请参见图11，该视频处理装置110包括如下单元：

显示单元1101，用于显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

处理单元1102，用于：

获取直播视频的至少一个观众的关注内容，每个观众的关注内容是按照上述的视频处理方法处理得到的；

根据至少一个观众的关注内容生成回放视频的统计信息；

显示单元，还用于在回放视频的播放过程中显示统计信息。

在一种实现方式中，统计信息包括至少一个关注内容，每个关注内容在回放视频中的播放时间点以及每个关注内容的关注详情，关注详情包含观众标识及观众数量；显示单元1101具体用于：

根据统计信息生成统计曲线；

在回放视频的播放过程中显示统计曲线。

在一种实现方式中，显示单元1101还用于当统计曲线被触发时，获取被触发的播放时间点，并在回放页面中显示被触发的播放时间点对应的关注内容的关注详情。

根据本申请的一个实施例，图11所示的视频处理装置110中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频处理装置110也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图3、图5、图7、图9或图10中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图11中所示的视频处理装置110，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述观众终端101或者主播终端102中，并在其中运行。

请参见图12，图12示出了本申请另一个示例性实施例提供的一种视频处理装置的结构示意图，该视频处理装置120可以是运行于服务器103中的一个计算机程序(包括程序代码)，例如可以是服务器103中的一个应用软件；该视频处理装置120可以用于执行图8、图9或图10所示的方法中的相应步骤。请参见图12，该视频处理装置120包括如下单元：

接收单元1201，用于接收直播视频的至少一个观众的表情图像以及表情图像的监测时间；

处理单元1202，用于：

对表情图像进行识别；

当识别到包含目标表情图像时，获取目标表情的属性数据；

根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

在一种实现方式中，目标观众是至少一个观众中的任一个观众；处理单元1202还用于：

将目标观众的关注内容发送至目标观众，以使目标观众根据关注内容生成回放视频的关注标记；或者，

根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息，并将统计信息发送至直播视频的主播。

根据本申请的一个实施例，图12所示的视频处理装置120中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频处理装置120也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图8、图9或图10中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图12中所示的视频处理装置120，以及来实现本申请实施例的视频处理方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于上述服务器103中，并在其中运行。

请参见图13，图13示出了本申请一个示例性实施例提供的一种视频处理设备的结构示意图，该视频处理设备130至少包括处理器1301以及计算机可读存储介质1302。其中，处理器1301以及计算机可读存储介质1302可通过总线或者其它方式连接。计算机可读存储介质1301可以存储在存储器中，计算机可读存储介质1301用于存储计算机程序，计算机程序包括程序指令，处理器1301用于执行计算机可读存储介质1302存储的程序指令。处理器1301(或称CPU(Central Processing Unit，中央处理器))是视频处理设备130的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是视频处理设备130中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质1302既可以包括视频处理设备130中的内置存储介质，当然也可以包括视频处理设备130所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了视频处理设备130的操作系统。并且，在该存储空间中还存放了适于被处理器1301加载并执行的一条或多条的指令，这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质1302可以是高速RAM存储器，也可以是非不稳定的存储器(Non-Volatile Memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器1301的计算机可读存储介质。

在一种实现方式中，该视频处理设备130可以是图1b所示的观众终端101；该计算机可读存储介质1302中存储有一条或多条第一指令；由处理器1301加载并执行计算机可读存储介质1302中存放的一条或多条第一指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质1302中的一条或多条第一指令由处理器1301加载并执行如下步骤：

显示直播页面，并在直播页面中播放直播视频；

在直播视频的播放过程中，监测直播视频的目标观众的表情；

当监测到目标观众产生目标表情时，获取目标表情的属性数据；

根据目标表情的属性数据，在直播视频中确定目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括一张目标表情图像和目标表情图像的监测时间；计算机可读存储介质1302中的一条或多条第一指令由处理器1301加载并且执行根据目标表情的属性数据，在直播视频中确定目标观众的关注内容时，具体执行如下步骤：

获取与目标表情图像的监测时间对应的直播视频的播放时间点；

将直播视频内与播放时间点对应的视频帧确定为目标观众的关注内容。

在一种实现方式中，目标表情的属性数据包括多张目标表情图像和每张目标表情图像的监测时间；计算机可读存储介质1302中的一条或多条第一指令由处理器1301加载并且执行根据目标表情的属性数据，在直播视频中确定目标观众的关注内容时，具体执行如下步骤：

按照多张目标表情图像的监测时间的先后顺序对多张目标表情图像进行排序；

将第一播放时间点至第二播放时间点的时间范围确定为目标表情的持续时间；

将直播视频内与目标表情的持续时间对应的多个视频帧确定为目标观众的关注内容。

在一种实现方式中，计算机可读存储介质1302中的一条或多条第一指令由处理器1301加载并且执行监测直播视频的目标观众的表情时，具体执行如下步骤：

调用摄像设备拍摄目标观众的表情图像，并记录表情图像的监测时间，表情图像的监测时间是摄像设备对表情图像进行拍摄的拍摄时间；计算机可读存储介质1302中的一条或多条第一指令由处理器1301加载还执行如下步骤：

调用表情识别模型对表情图像进行识别，当识别到包含目标表情图像时，确定监测到目标观众产生目标表情；或者，

在一种实现方式中，该视频处理设备130可以是图1b所示的观众终端101；该计算机可读存储介质1302中存储有一条或多条第二指令；由处理器1301加载并执行计算机可读存储介质1302中存放的一条或多条第二指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质1302中的一条或多条第二指令由处理器1301加载并执行如下步骤：

显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

获取直播视频的目标观众的关注内容，关注内容是按照上述的视频处理方法处理得到的；

根据关注内容生成回放视频的关注标记；

在回放视频的播放过程中显示关注标记。

在一种实现方式中，回放页面包括回放视频的播放时间轴；计算机可读存储介质1302中的一条或多条第二指令由处理器1301加载并且执行在回放视频的播放过程中显示关注标记时，具体执行如下步骤：

在回放视频的播放时间轴中获取关注内容对应的位置区域；

在关注内容对应的位置区域显示关注标记；

在一种实现方式中，计算机可读存储介质1302中的一条或多条第二指令由处理器1301加载并且执行在回放视频的播放过程中显示关注标记时，具体执行如下步骤：

在回放页面中显示关注列表，并在关注列表中显示关注标记。

在一种实现方式中，计算机可读存储介质1302中的一条或多条第二指令由处理器1301加载还执行如下步骤：

当关注标记被触发时，跳转至关注标记所标识的关注内容，并对关注标记所标识的关注内容进行播放。

在一种实现方式中，该视频处理设备130可以是图1b所示的主播终端102；该计算机可读存储介质1302中存储有一条或多条第三指令；由处理器1301加载并执行计算机可读存储介质1302中存放的一条或多条第三指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质1302中的一条或多条第三指令由处理器1301加载并执行如下步骤：

显示回放页面，并在回放页面中播放回放视频，回放视频是对直播视频进行录制生成的；

获取直播视频的至少一个观众的关注内容，每个观众的关注内容是按照上述的视频处理方法处理得到的；

根据至少一个观众的关注内容生成回放视频的统计信息；

在回放视频的播放过程中显示统计信息。

在一种实现方式中，统计信息包括至少一个关注内容，每个关注内容在回放视频中的播放时间点以及每个关注内容的关注详情，关注详情包含观众标识及观众数量；计算机可读存储介质1302中的一条或多条第三指令由处理器1301加载并且执行在回放视频的播放过程中显示统计信息时，具体执行如下步骤：

根据统计信息生成统计曲线；

在回放视频的播放过程中显示统计曲线。

在一种实现方式中，计算机可读存储介质1302中的一条或多条第三指令由处理器1301加载还执行如下步骤：

当统计曲线被触发时，获取被触发的播放时间点，并在回放页面中显示被触发的播放时间点对应的关注内容的关注详情。

在一种实现方式中，该视频处理设备130可以是图1b所示的服务器103；该计算机可读存储介质1302中存储有一条或多条第四指令；由处理器1301加载并执行计算机可读存储介质1302中存放的一条或多条第四指令，以实现上述视频处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质1302中的一条或多条第四指令由处理器1301加载并执行如下步骤：

接收直播视频的至少一个观众的表情图像以及表情图像的监测时间；

对表情图像进行识别；

当识别到包含目标表情图像时，获取目标表情的属性数据；

根据目标表情的属性数据在直播视频中确定至少一个观众的关注内容。

在一种实现方式中，目标观众是至少一个观众中的任一个观众；计算机可读存储介质1302中的一条或多条第四指令由处理器1301加载还执行如下步骤：将目标观众的目标表情的属性数据发送至目标观众，以使目标观众根据目标表情的属性数据在直播视频中确定目标观众的关注内容，并根据关注内容生成回放视频的关注标记；或者，

将目标观众的关注内容发送至目标观众，以使目标观众根据关注内容生成回放视频的关注标记；或者，

根据至少一个观众的关注内容生成直播视频对应的回放视频的统计信息，并将统计信息发送至直播视频的主播。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

40页详细技术资料下载

一种视频处理方法、设备及存储介质

相关技术

网友询问留言