视频通话方法、设备、存储介质及程序产品

文档序号：1893499 发布日期：2021-11-26 浏览：20次 >En<

阅读说明：本技术 视频通话方法、设备、存储介质及程序产品 (Video call method, device, storage medium, and program product ) 是由黄文赞黄启军黄铭毅林江淼陈振南于 2021-09-09 设计创作，主要内容包括：本发明公开了一种视频通话方法、设备、存储介质及程序产品,所述方法包括：获取参与视频通话的第二设备发送的低分辨率视频图像和超分模型信息,其中,第二设备将采集的本次通话的通话视频数据处理为低分辨率视频图像后发送给第一设备,并在根据通话视频数据确定使用第二设备参与本次通话的目标通话人后,根据目标通话人获取超分模型信息发送给第一设备；基于超分模型信息获得针对目标通话人的目标超分模型；采用目标超分模型对低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出。本发明能够做到在视频质量还原较好的前提下实时流畅播放。(The invention discloses a video call method, a device, a storage medium and a program product, wherein the method comprises the following steps: acquiring a low-resolution video image and hyper-resolution model information sent by second equipment participating in a video call, wherein the second equipment processes collected call video data of the call into a low-resolution video image and sends the low-resolution video image to first equipment, and after determining a target speaker participating in the call by using the second equipment according to the call video data, acquiring hyper-resolution model information according to the target speaker and sending the hyper-resolution model information to the first equipment; obtaining a target hyper-score model aiming at the target speaker based on the hyper-score model information; and performing super-resolution reconstruction on the low-resolution video image by adopting a target super-resolution model to obtain a first high-resolution video image and outputting the first high-resolution video image. The invention can realize real-time smooth playing on the premise of better video quality restoration.)

视频通话方法、设备、存储介质及程序产品

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视频通话方法、设备、存储介质及程序产品。

背景技术

目前，由于受到传输带宽的限制和实时性的要求，视频通话过程中传输给通话对方的视频分辨率普遍偏低，而视频通话对方的终端显示屏分辨率较高的情况下，就会出现传输的视频与终端显示屏分辨率不匹配的问题。为解决这一问题，可以采用基于深度学习的超分辨率模型来对低分辨率图像进行超分辨率重建，有效地恢复图像的细节，得到清晰度高的高分辨率图像。但是，由于超分辨率重建效果好的超分辨率模型往往模型规模较大，执行速度慢，应用再视频通话场景时单帧图像的处理时间过长，从而导致难以做到在视频质量还原较好的前提下实时流畅播放。

发明内容

本发明的主要目的在于提供一种视频通话方法、设备、存储介质及程序产品，旨在解决目前基于深度学习的超分辨率模型应用于视频通话时难以做到在视频质量还原较好的前提下实时流畅播放的技术问题。

为实现上述目的，本发明提供一种视频通话方法，所述方法应用于参与视频通话的第一设备，所述方法包括以下步骤：

获取参与视频通话的第二设备发送的低分辨率视频图像和超分模型信息，其中，所述第二设备将采集的本次通话的通话视频数据处理为所述低分辨率视频图像后发送给所述第一设备，并在根据所述通话视频数据确定使用所述第二设备参与本次通话的目标通话人后，根据所述目标通话人获取所述超分模型信息发送给所述第一设备；

基于所述超分模型信息获得针对所述目标通话人的目标超分模型；

采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

可选地，当所述超分模型信息为目标模型参数时，所述基于所述超分模型信息获得针对所述目标通话人的目标超分模型的步骤包括：

采用所述目标模型参数替换第一通用超分模型中预设位置处的模型参数得到针对所述目标通话人的目标超分模型；

其中，所述目标模型参数是所述第二设备提取得到的目标通话人模型中所述预设位置处的模型参数，所述目标通话人模型是所述第二设备预先采用所述目标通话人对应的视频图像对第二通用超分模型训练得到的超分模型，所述第一通用超分模型和所述第二通用超分模型分别是所述第一设备和所述第二设备中预置的采用预设的通用图像训练数据训练得到的超分模型。

可选地，当所述超分模型信息为第二高分辨率视频图像时，所述基于所述超分模型信息获得针对所述目标通话人的目标超分模型的步骤包括：

对所述第二高分辨率视频图像进行预处理得到目标训练数据；

其中，所述第二高分辨率视频图像是所述第二设备在预设模型库中未查找到所述目标通话人对应的所述目标通话人模型时，从所述通话视频数据中抽取的高分辨率视频图像，所述第二高分辨率视频图像的分辨率高于所述低分辨率视频图像，所述预设模型库用于存放历史通话人对应的通话人模型，所述历史通话人是所述第二设备根据历史通话视频数据确定的使用所述第二设备参与视频通话的通话人，所述历史通话人对应的所述通话人模型是所述第二设备采用所述历史通话人对应的视频图像对所述第二通用超分模型训练得到的；

采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型。

可选地，所述采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型的步骤包括：

采用所述目标训练数据作为训练集对所述第一通用超分模型进行训练，以及采用所述通用图像训练数据作为验证集进行验证，并当检测到所述第一通用超分模型在所述训练集上的超分辨率重建准确度大于所述第一通用超分模型在所述验证集上的超分辨重建准确度时，再训练预设时长后停止训练，得到针对所述目标通话人的目标超分模型。

为实现上述目的，本发明还提供一种视频通话方法，所述方法应用于参与视频通话的第二设备，所述方法包括以下步骤：

采集本次通话的通话视频数据，并将所述通话视频数据处理为低分辨率视频图像；

根据所述视频通话数据确定使用所述第二设备参与本次通话的目标通话人，并根据所述目标通话人获取超分模型信息；

将所述低分辨率视频图像和所述超分模型信息发送给所述第一设备，以供所述第一设备基于所述超分模型信息获得针对所述目标通话人的目标超分模型，并采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

可选地，所述根据所述目标通话人获取超分模型信息的步骤包括：

查找预设模型库中是否有所述目标通话人对应的目标通话人模型，其中，所述预设模型库用于存放历史通话人对应的通话人模型，所述历史通话人是所述第二设备根据历史通话视频数据确定的使用所述第二设备参与视频通话的通话人，所述历史通话人对应的所述通话人模型是所述第二设备采用所述历史通话人对应的视频图像对第二通用超分模型训练得到的，所述第二通用超分模型是所述第二设备中预置的采用预设的通用图像训练数据训练得到的超分模型；

若未查找到所述目标通话人模型，则从所述通话视频数据中抽取第二高分辨率视频图像作为所述超分模型信息，以供所述第一设备对所述第二高分辨率视频图像进行预处理得到目标训练数据，并采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型，其中，所述第二高分辨率视频图像的分辨率高于所述低分辨率视频图像。

可选地，所述查找预设模型库中是否有所述目标通话人对应的目标通话人模型的步骤之后，还包括：

若查找到所述目标通话人模型，则将所述目标通话人模型的模型文件作为所述超分模型信息，以供所述第一设备将所述模型文件中的所述目标通话人模型作为针对所述目标通话人的目标超分模型；或，

若查找到所述目标通话人模型，则提取所述目标通话人模型中预设位置处的目标模型参数作为超分模型信息，以供所述第一设备采用所述目标模型参数替换第一通用超分模型中所述预设位置处的模型参数得到针对所述目标通话人的目标超分模型；其中，所述目标通话人模型是所述第二设备预先采用所述目标通话人对应的视频图像对所述第二通用超分模型训练得到的超分模型，所述第一通用超分模型是所述第一设备中预置的采用预设的通用图像训练数据训练得到的超分模型。

可选地，所述根据所述视频通话数据确定使用所述第二设备参与视频通话的目标通话人的步骤包括：

从所述视频通话数据中抽取视频图像，并对所述视频图像进行人脸识别得到使用所述第二设备参与视频通话的目标通话人。

为实现上述目的，本发明还提供一种视频通话装置，所述视频通话装置部署于第一设备，所述视频通话装置包括：

第一获取模块，用于获取参与视频通话的第二设备发送的低分辨率视频图像和超分模型信息，其中，所述第二设备将采集的本次通话的通话视频数据处理为所述低分辨率视频图像后发送给所述第一设备，并在根据所述通话视频数据确定使用所述第二设备参与本次通话的目标通话人后，根据所述目标通话人获取所述超分模型信息发送给所述第一设备；

第二获取模块，用于基于所述超分模型信息获得针对所述目标通话人的目标超分模型；

输出模块，用于采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

为实现上述目的，本发明还提供一种视频通话装置，所述视频通话装置部署于第二设备，所述视频通话装置包括：

采集模块，用于采集本次通话的通话视频数据，并将所述通话视频数据处理为低分辨率视频图像；

确定模块，用于根据所述视频通话数据确定使用所述第二设备参与本次通话的目标通话人，并根据所述目标通话人获取超分模型信息；

发送模块，用于将所述低分辨率视频图像和所述超分模型信息发送给所述第一设备，以供所述第一设备基于所述超分模型信息获得针对所述目标通话人的目标超分模型，并采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

为实现上述目的，本发明还提供一种视频通话设备，所述视频通话设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频通话程序，所述视频通话程序被所述处理器执行时实现如上所述的视频通话方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有视频通话程序，所述视频通话程序被处理器执行时实现如上所述的视频通话方法的步骤。

此外，为实现上述目的，本发明还提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的视频通话方法的步骤。

本发明中，第一设备获取第二设备发送的低分辨率视频图像和超分模型信息，其中，第二设备将采集的本次通话的通话视频数据处理为低分辨率视频图像后发送给第一设备，并在根据通话视频数据确定使用第二设备参与本次通话的目标通话人后，根据目标通话人获取超分模型信息发送给第一设备；第一设备基于超分模型信息获得针对目标通话人的目标超分模型；实现了在视频通话过程中动态地获取针对本次视频通话的通话人的目标超分模型，而由于目标超分模型是针对于本次视频通话的通话人的超分模型，所以当采用规模较小的模型结构作为目标超分模型的模型结构，第二设备采用目标超分模型对目标通话人的低分辨率视频图像进行超分辨率重建时，也能够获得较高的重建准确度，从而实现了做到在视频质量还原较好的前提下实时流畅播放。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明视频通话方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种双方设备进行视频通话的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

需要说明的是，本发明实施例视频通话设备可以是智能手机、个人计算机和服务器等设备，在此不做具体限制。

如图1所示，该视频通话设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对视频通话设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频通话程序。操作系统是管理和控制设备硬件和软件资源的程序，支持视频通话程序以及其它软件或程序的运行。在图1所示的设备中，用户接口1003主要用于与客户端进行数据通信；网络接口1004主要用于服务器建立通信连接；而处理器1001可以用于调用存储器1005中存储的视频通话程序，并执行以下本发明视频通话方法各实施例所述的操作。

基于上述的结构，提出视频通话方法的各个实施例。

参照图2，图2为本发明视频通话方法第一实施例的流程示意图。

本发明实施例提供了视频通话方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。在本实施例中，视频通话方法应用于参与视频通话的第一设备，第一设备与参与视频通话的第二设备通信连接，第一设备和第二设备可以是智能手机、个人计算机、服务器等设备，在本实施例中并不做限制。在本实施例中，视频通话方法包括：

步骤S10，获取参与视频通话的第二设备发送的低分辨率视频图像和超分模型信息，其中，所述第二设备将采集的本次通话的通话视频数据处理为所述低分辨率视频图像后发送给所述第一设备，并在根据所述通话视频数据确定使用所述第二设备参与本次通话的目标通话人后，根据所述目标通话人获取所述超分模型信息发送给所述第一设备；

在本实施例中，将参与视频通话的两方或多方设备中接收并展示其他设备发送过来的视频数据的设备称为第一设备，将采集通话人的视频数据并发送给其他设备的设备称为第二设备。可以理解的是，参与视频通话的两方或多方设备中，若一个设备既接收其他设备发送过来的视频数据，又向其他设备发送视频数据，那么该设备既可以作为第一设备执行本实施例视频通话方法中第一设备的操作，由可以作为第二设备执行本实施例视频通话方法中第二设备的操作，其作为两种角色所执行的操作并不冲突，可以并行执行也可以串行执行，具体可以根据实际需求进行设置。例如，在一实施方式中，第一设备与第二设备进行视频通话的流程可以参照图3；在图3中左右两边的模块分别代表一个参与视频通话的设备，上下两个流程线中，两个设备各自采用摄像头采集视频数据，并通过网络接口将低分辨率视频数据发送给对方，对方在接收到低分辨率视频数据后采用神经网络模型(也即超分模型)对低分辨率视频数据进行超分辨率重建得到高分辨率视频数据，并输出到屏幕播放；在上面的流程线中，左边的设备作为第二设备，右边的设备作为第一设备，在下面的流程线中，左边的设备作为第一设备，右边的设备作为第二设备。

第一设备与第二设备建立视频通话连接后，第二设备可通过第二设备中的摄像头设备，或者是与第二设备外接的摄像头设备采集本次通话的通话视频数据。其中，视频通话数据包括在视频通话过程中摄像头设备按照一定的采集频率采集视频帧(本实施例中称为视频图像)。第二设备将视频通话数据处理为低分辨率视频图像，将低分辨率视频图像发送给第一设备。需要说明的是，一般摄像头设备采集到的视频图像的分辨率都要高于视频通话过程中设备间传输的视频图像的分辨率，因此，在本实施例中将视频通话数据中的视频图像称为高分辨率视频图像，在应用场景中，由于受网络带宽的限制或对实时性的要求等原因，第二设备在将通话视频数据传输给第一设备时，需要将高分辨率视频图像处理为低分辨率视频图像后再发送给第一设备。具体地，将高分辨率视频图像处理为低分辨率视频图像的方法可以参照现有的视频通话方法，在此不做详细赘述。在一些实施方式中，为实现实时通话效果，第二设备可以将摄像头设备采集的各帧高分辨率视频图像实时地处理为低分辨率视频图像，并实时地发送给第一设备。在一些实施方式中，对实时通话效果要求不严格时，第二设备也可以将摄像头设备采集的多帧连续的高分辨率视频图像一起处理后在发送给第一设备。

第二设备可以根据视频通话数据确定使用该第二设备参与本次通话的通话人(以下将该通话人称为目标通话人以示区别)。具体地，第二设备可以对视频通话数据中的视频图像进行人脸识别得到目标通话人。其中，人脸识别方法可以参照现有的人脸识别方法，在本实施例中不做限制。第二设备在识别得到目标通话人后，可以根据目标通话人获取超分模型信息，将超分模型信息发送给第一设备。其中，超分模型信息可以是第二设备中预先采用该目标通话人的视频图像训练得到的超分模型(超分辨率模型的简称)的模型文件，或者是该超分模型中的部分模型参数，或者是从视频通话数据中抽取的高分辨率视频图像，或者是预先采集的目标通话人的高分辨率视频图像。具体地，在本实施例中对超分模型信息并不做限制，只要第一设备能够根据该超分模型信息获得针对该目标通话人的目标超分模型即可；例如，当超分模型信息是预先采用该目标通话人的视频图像训练得到的针对超分模型的模型文件时，第一设备可以直接将该模型文件中的超分模型作为目标超分模型，当超分模型信息是目标通话人的高分辨率视频图像时，第一设备可以采用该高分辨率视频图像作为训练数据训练得到目标超分模型。其中，超分辨率模型是指用于对低分辨率图像进行超分辨率重建得到高分辨率图像的神经网络模型；本实施例中对超分模型的模型结构并不做限制，在一些实施方式中，为提高超分辨率重建时的效率，可以采用模型规模较小的模型结构，例如，EDSR结构的超分模型是能够通过调整ResBlocks和Filters的数目来调整模型大小的，那么，可以采用ResBlocks和Filters的数目较少的EDSR模型结构来作为本实施例中的超分模型的模型结构。

在一实施方式中，第二设备可以在建立视频通话后，对摄像头设备采集的第一帧视频图像进行人脸识别确定通话人，将该通话人作为目标通话人，根据目标通话人获取超分模型信息发送给第一设备；再对后续采集的视频图像每一帧或每间隔几帧进行人脸识别；若识别到的通话人与当前的目标通话人不同，则将目标通话人更新为新识别到的通话人，根据更新后的目标通话人获取新的超分模型信息发送给第一设备；若识别到的通话人与当前的目标通话人相同，则不更新目标通话人，也不向第一设备发送新的超分模型信息。进一步地，若第二设备对第一帧视频图像进行人脸识别失败时，也即未识别到图像中的人脸时，可以对第二帧视频图像进行人脸识别，以此类推，直到识别到人脸时，将识别到的人脸作为本次通话首次识别到的通话人。

第一设备接收第二设备发送的低分辨率视频图像和超分模型信息。需要说明的是，第二设备向第一设备发送低分辨率视频图像和超分模型信息可以是同时发送也可以是非同时发送，在本实施例中并不做限制。

步骤S20，基于所述超分模型信息获得针对所述目标通话人的目标超分模型；

第一设备基于超分模型信息获得针对目标通话人的超分模型(以下称为目标超分模型以示区分)。具体地，根据超分模型信息不同，第一设备获得目标超分模型的方法不同，因此在本实施例中对第一设备基于超分模型信息获得目标超分模型的具体实施方式不做限制，但第一设备基于超分模型信息获得的目标超分模型是针对于目标通话人的。由于目标超分模型是针对于目标通话人的超分模型，采用目标超分模型进行超分辨率重建的图像是目标通话人这一特定人物的视频图像，视频图像之间具有相似性，因此，只需要目标超分模型对这一特定人物的图像具有较高的重建准确度即可，而不一定需要其具有较好的泛化能力，从而在本实施例中，可以采用规模较小的模型结构作为目标超分模型的模型结构。又因为目标超分模型是第一设备根据第二设备基于本次通话的通话人动态发送的超分模型信息获得的针对目标通话人的超分模型，所以采用规模较小的模型结构作为目标超分模型的模型结构，采用目标超分模型对目标通话人的低分辨率视频图像进行超分辨率重建时，也能够获得较高的重建准确度，而由于目标超分模型的模型规模小，所以第一设备采用目标超分模型进行超分辨率重建时的效率更高，从而实现了做到在视频质量还原较好的前提下实时流畅播放。

步骤S30，采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

第一设备可以采用目标超分模型对接收到的低分辨率视频图像进行超分辨率重建得到高分辨率视频图像(为区别于第二设备的通话视频数据中的高分辨率视频图像，以下将重建得到的高分辨率视频图像称为第一高分辨率视频图像)；由于第一高分辨率视频图像是对低分辨率视频图像进行超分辨率重建得到的图像，所以第一高分辨率视频图像的分辨率高于低分辨率视频图像。采用目标超分模型对低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像的具体过程可以参考超分模型的超分辨率重建过程，在此不进行详细赘述。

在一实施方式中，第二设备在接收到各帧低分辨率视频图像后，可以均采用目标超分模型进行超分辨率重建得到第一高分辨率视频图像后输出；这种情况下，由于目标超分模型的获取需要一定的时间，所以前面几帧低分辨率视频图像的输出会有一定的延时，因此可以应用于对实时性要求不太严格的应用场景，例如允许在视频通话开始时出现短时延时的情况。在另一实施方式中，当对视频通话的实时性要求较高时，为提升通话实时性，第二设备将摄像头设备采集的各帧高分辨率视频图像实时地处理为低分辨率视频图像，并实时地发送给第一设备；对于各帧低分辨率视频图像，若第一设备在接收到该帧低分辨率视频图像时还未获得目标超分模型，则第可以先实时地输出该低分辨率视频图像，以保证视频通话的实时性；若在接收到该帧低分辨率视频图像时已获得目标超分模型，则可以采用目标超分模型对该低分辨率视频图像进行超分辨率重建后再发送给第一设备，以兼顾通话实时性和视频通话质量。

在本实施例中，第一设备获取第二设备发送的低分辨率视频图像和超分模型信息，其中，第二设备将采集的本次通话的通话视频数据处理为低分辨率视频图像后发送给第一设备，并在根据通话视频数据确定使用第二设备参与本次通话的目标通话人后，根据目标通话人获取超分模型信息发送给第一设备；第一设备基于超分模型信息获得针对目标通话人的目标超分模型；实现了在视频通话过程中动态地获取针对本次视频通话的通话人的目标超分模型，而由于目标超分模型是针对于本次视频通话的通话人的超分模型，所以当采用规模较小的模型结构作为目标超分模型的模型结构，第二设备采用目标超分模型对目标通话人的低分辨率视频图像进行超分辨率重建时，也能够获得较高的重建准确度，从而实现了做到在视频质量还原较好的前提下实时流畅播放。

进一步地，基于上述第一实施例，提出本发明视频通话方法第二实施例，在本实施例中，当所述超分模型信息为目标模型参数时，所述步骤S20包括：

步骤S201，采用所述目标模型参数替换第一通用超分模型中预设位置处的模型参数得到针对所述目标通话人的目标超分模型；其中，所述目标模型参数是所述第二设备提取得到的目标通话人模型中所述预设位置处的模型参数，所述目标通话人模型是所述第二设备预先采用所述目标通话人对应的视频图像对第二通用超分模型训练得到的超分模型，所述第一通用超分模型和所述第二通用超分模型分别是所述第一设备和所述第二设备中预置的采用预设的通用图像训练数据训练得到的超分模型。

在本实施例中，第一设备和第二设备中可以分别预置一个通用超分模型，第一设备中的通用超分模型称为第一通用超分模型，第二设备中的通用超分模型称为第二通用超分模型，第一通用超分模型和第二通用超分模型的模型结构相同或者有部分模型结构相同。通用超分模型是采用预设的通用图像训练数据训练得到的超分模型，通用超分模型的模型结构可以选取规模较小的超分模型结构。通用图像训练数据中的图像是通用图像，也即不限定于某个特定通话人的图像。训练第一通用超分模型和第二通用超分模型所采用的通用图像训练数据可以是相同的也可以是不同的，因此，第一通用超分模型和第二通用超分模型中的模型参数可以是相同的也可以是不同的。第一通用超分模型和第二通用超分模型分别可以是在第一设备和第二设备本地训练得到的，也可以是由其他设备训练后发送给第一设备和第二设备的；例如，第一设备和第二设备分别作为视频通话的客户端时，可以由视频通话的服务器训练统一的通用超分模型分发给各个客户端。可以理解的是，当为了提高视频通话的流畅性而选取规模较小的模型结构作为通用超分模型的模型结构时，训练得到的通用超分模型的超分辨率重建准确度一般没有采用规模较大的模型结构时的准确度高。

第二设备可以预先采用目标通话人对应的视频图像对第二通用超分模型进行进一步训练，得到针对该目标通话人的超分模型(以下称为目标通话人模型以示区别)。其中，目标通话人对应的视频图像可以来自于该目标通话人历史视频通话时的通话视频数据，也即，在本次视频通话前，该目标通话人也使用第二设备进行了视频通话，第二设备可以从将该次视频通话时采集的通话视频数据中抽取视频图像作为训练数据对第二通用超分模型进行训练；或者，目标通话人对应的视频图像可以是由第二设备在视频通话前通过摄像头设备采集的目标通话人的视频图像，例如，在目标通话人进行视频通话前，第二设备可以输出提示信息提示目标通话人需要录入一段通话人的视频，并在接收到同意录入的指令后开启摄像头采集目标通话人的视频图像，并采用视频图像对第二通用超分模型进行训练，从而得到目标通话人模型。可以理解的是，由于目标通话人模型是在第二通用超分模型的基础上采用目标通话人对应的视频图像训练得到的，所以虽然目标通话人模型的泛化能力可能没有第二通用超分模型好，但是目标通话人模型对目标通话人的视频图像进行超分辨率重建的准确度要高于第二通用超分模型。

第二设备可以提取目标通话人模型中预设位置处的模型参数作为目标模型参数，将目标模型参数作为超分模型信息发送给第一设备。其中，预设位置可以根据需要进行设置，例如可以设置为目标通话人模型中的所有参数位置，又如可以设置为目标通话人模型中的第三层；当采用目标通话人对应的视频图像对第二通用超分模型进行进一步训练时，某些位置的参数固定不变时，可以将除这些固定不变的参数以外的参数所在的位置作为预设位置。

第一设备在接收到第二设备发送的目标模型参数后，可以采用目标模型参数替换第一通用超分模型中预设位置处的模型参数，得到目标超分模型。需要说明的是，当第一通用超分模型和第二通用超分模型的模型结构只有部分相同时，预设位置位于相同的模型结构部分。由于第二设备发送给第一设备的是针对于目标通话人的目标通话人模型中的模型参数，所以第二设备采用该模型参数替换第一通用超分模型中的模型参数得到的目标超分模型也是针对于该目标通话人的超分模型，从而目标超分模型对目标通话人的视频图像进行超分辨率重建的准确度与目标通话人模型一样，也是要高于第二通用超分模型的。因此，第一设备在采用目标超分模型对第二设备发送的低分辨率视频图像进行超分辨率重建时，能够还原得到质量更好的高分辨率视频图像，并且由于通用超分模型的模型结构可以选择规模较小的模型结构，从而能够实现更加实时流畅的视频通话效果。

进一步地，在一实施方式中，第二设备也可以直接将目标通话人模型的模型文件发送给第一设备，第一设备直接采用模型文件中的目标通话人模型对低分辨率视频图像进行超分辨率重建，得到第一高分辨率视频图像并输出。此时，第一设备中可以不需要预先设置第一通用超分模型。

进一步地，在一实施方式中，当所述超分模型信息为第二高分辨率视频图像时，所述步骤S20包括：

步骤S202，对所述第二高分辨率视频图像进行预处理得到目标训练数据；其中，所述第二高分辨率视频图像是所述第二设备在预设模型库中未查找到所述目标通话人对应的所述目标通话人模型时，从所述通话视频数据中抽取的高分辨率视频图像，所述第二高分辨率视频图像的分辨率高于所述低分辨率视频图像，所述预设模型库用于存放历史通话人对应的通话人模型，所述历史通话人是所述第二设备根据历史通话视频数据确定的使用所述第二设备参与视频通话的通话人，所述历史通话人对应的所述通话人模型是所述第二设备采用所述历史通话人对应的视频图像对所述第二通用超分模型训练得到的；

第二设备中可以预设一个模型库，用于存放各个历史通话人的通话人模型。具体地，第二设备可以在每次视频通话时，根据本次视频通话的通话视频数据确定使用第二设备参与本次视频通话的目标通话人，并查找模型库中是否有该目标通话人的通话人模型，若有，则将该通话人模型作为目标通话人模型，若没有，则将该目标通话人作为历史通话人，并采用该历史通话人对应的视频图像对第二通用超分模型训练得到针对该历史通话人的通话人模型，并将该通话人模型加入模型库中，以便后续该历史通话人再次进行视频通话时，第二设备可以直接从模型库中获取该通话人的通话人数据。其中，历史通话人对应的视频图像可以是从该次视频通话中采集的通话视频数据中抽取的高分辨率视频图像。

若第二设备没有在模型库中查找到目标通话人对应的通话人模型，则第二设备可以从本次通话的通话视频数据中抽取高分辨率视频图像(以下称为第二高分辨率视频图像)作为超分模型信息发送给第一设备。

第一设备在接收到第二高分辨率视频图像后，可以对第二高分辨率视频图像进行预处理得到训练数据(以下称为目标训练数据)。其中，预处理可以包括图片裁剪、放大或缩小至固定尺寸、旋转等处理操作，具体可以参照现有的图像训练数据的预处理方法，在此不做详细赘述。

步骤S203，采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型。

第一设备采用目标训练数据对第一通用超分模型进行训练得到目标超分模型。由于目标超分模型是在第一通用超分模型的基础上采用目标通话人对应的高分辨率视频图像训练得到的，所以虽然目标超分模型的泛化能力可能没有第一通用超分模型好，但是目标超分模型对目标通话人的视频图像进行超分辨率重建的准确度要高于第一通用超分模型。因此，第一设备在采用目标超分模型对第二设备发送的低分辨率视频图像进行超分辨率重建时，能够还原得到质量更好的高分辨率视频图像，并且由于通用超分模型的模型结构可以选择规模较小的模型结构，从而能够实现更加实时流畅的视频通话效果。

进一步地，在一实施方式中，所述步骤S203包括：

步骤S2031，采用所述目标训练数据作为训练集对所述第一通用超分模型进行训练，以及采用所述通用图像训练数据作为验证集进行验证，并当检测到所述第一通用超分模型在所述训练集上的超分辨率重建准确度大于所述第一通用超分模型在所述验证集上的超分辨重建准确度时，再训练预设时长后停止训练，得到针对所述目标通话人的目标超分模型。

为进一步地提高目标超分模型对目标通话人的视频图像的超分辨率重建准确度，第一设备可以采用目标训练数据作为训练集对第一通用超分模型进行训练，并采用用于训练第一通用超分模型的通用图像训练数据作为验证集进行验证。在训练过程中，第一设备可以每训练一轮或每训练多轮后，计算第一通用超分模型在分别在训练集和验证集上的超分辨率重建准确度，并检测在训练集上的准确度是否大于在验证集上的准确度；若不大于，则进行下一轮训练，以及进行下一次的准确度计算和检测；若大于，则再训练预设时长后即停止训练，将最终训练得到的第一通用超分模型作为目标超分模型。其中，具体地的超分辨率重建准确度计算方法可以参照现有的准确度计算方法，在此不进行详细赘述；预设时长可以根据具体需要进行设置，在本实施例中不做限定。

需要说明的是，当第一通用超分模型在训练集上的超分辨率重建准确度大于第一通用超分模型在验证集上的超分辨重建准确度时，说明第一通用超分模型的泛化能力可能达到的最高点，也即，在这之后，如果继续训练，第一通用超分模型对训练集的拟合程度越来越高，也即在训练集上的超分辨率重建准确度越来越高，而在验证集上的超分辨率重建准确度可能会下降；而本实施例中，在第一通用超分模型在训练集上的超分辨率重建准确度大于其在验证集上的超分辨重建准确度时，继续训练预设时长，是为了使得第一通用超分模型对目标通话人的视频图像的超分辨率重建准确度越来越高，即使出现一定的过拟合现象也可以，因为在本实施例的视频通话方案中，只需要目标超分模型对目标通话人的视频图像具有较高的超分辨率重建准确度即可，而不需要其具有较高的泛化能力。正是因为在第一通用超分模型在训练集上的超分辨率重建准确度大于其在验证集上的超分辨重建准确度时，继续训练预设时长，使得第一通用超分模型对目标通话人的视频图像的超分辨率重建准确度得到进一步提高，从而在实现视频通话的实时流畅效果的同时，进一步提高了视频通话质量。

进一步地，基于上述第一和/或第二实施例，提出本发明视频通话方法第三实施例，在本实施例中，所述方法应用于参与视频通话的第二设备，所述方法包括：

步骤A10，采集本次通话的通话视频数据，并将所述通话视频数据处理为低分辨率视频图像；

步骤A20，根据所述视频通话数据确定使用所述第二设备参与本次通话的目标通话人，并根据所述目标通话人获取超分模型信息；

进一步地，在一实施方式中，所述步骤A20中根据所述视频通话数据确定使用所述第二设备参与本次通话的目标通话人的步骤包括：

步骤A201，从所述视频通话数据中抽取视频图像，并对所述视频图像进行人脸识别得到使用所述第二设备参与视频通话的目标通话人。

步骤A30，将所述低分辨率视频图像和所述超分模型信息发送给所述第一设备，以供所述第一设备基于所述超分模型信息获得针对所述目标通话人的目标超分模型，并采用所述目标超分模型对所述低分辨率视频图像进行超分辨率重建得到第一高分辨率视频图像并输出，其中，所述第一高分辨率视频图像的分辨率高于所述低分辨率视频图像。

本实施例中步骤A10～A30以及步骤A20的细化步骤A201的具体实施方式可参照上述第一实施例中的步骤S10～S30的具体实施方式，在此不做详细赘述。

进一步地，在一实施方式中，所述步骤A20中根据所述目标通话人获取超分模型信息的步骤包括：

步骤A202，查找预设模型库中是否有所述目标通话人对应的目标通话人模型，其中，所述预设模型库用于存放历史通话人对应的通话人模型，所述历史通话人是所述第二设备根据历史通话视频数据确定的使用所述第二设备参与视频通话的通话人，所述历史通话人对应的所述通话人模型是所述第二设备采用所述历史通话人对应的视频图像对第二通用超分模型训练得到的，所述第二通用超分模型是所述第二设备中预置的采用预设的通用图像训练数据训练得到的超分模型；

步骤A203，若未查找到所述目标通话人模型，则从所述通话视频数据中抽取第二高分辨率视频图像作为所述超分模型信息，以供所述第一设备对所述第二高分辨率视频图像进行预处理得到目标训练数据，并采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型，其中，所述第二高分辨率视频图像的分辨率高于所述低分辨率视频图像。

本实施例中，步骤A202～A203的具体实施方式可参照上述第一实施例中的步骤S202～S203以及S203的细化步骤S2031的具体实施方式，在此不做详细赘述。

进一步地，在一实施方式中，所述所述步骤A20中根据所述目标通话人获取超分模型信息的步骤还包括：

步骤A204，若查找到所述目标通话人模型，则将所述目标通话人模型的模型文件作为所述超分模型信息，以供所述第一设备将所述模型文件中的所述目标通话人模型作为针对所述目标通话人的目标超分模型；或，

步骤A205，若查找到所述目标通话人模型，则提取所述目标通话人模型中预设位置处的目标模型参数作为超分模型信息，以供所述第一设备采用所述目标模型参数替换第一通用超分模型中所述预设位置处的模型参数得到针对所述目标通话人的目标超分模型；其中，所述目标通话人模型是所述第二设备预先采用所述目标通话人对应的视频图像对所述第二通用超分模型训练得到的超分模型，所述第一通用超分模型是所述第一设备中预置的采用所述通用图像训练数据训练得到的超分模型。

本实施例中，步骤A204～A205的具体实施方式可参照上述第一实施例中的步骤S201的具体实施方式，在此不做详细赘述。

此外本发明实施例还提出一种视频通话装置，所述视频通话装置部署于第一设备，所述视频通话装置包括：

第二获取模块，用于基于所述超分模型信息获得针对所述目标通话人的目标超分模型；

进一步地，当所述超分模型信息为目标模型参数时，所述第二获取模块还用于：

采用所述目标模型参数替换第一通用超分模型中预设位置处的模型参数得到针对所述目标通话人的目标超分模型；

进一步地，当所述超分模型信息为第二高分辨率视频图像时，所述第二获取模块还用于：

对所述第二高分辨率视频图像进行预处理得到目标训练数据；

采用所述目标训练数据对所述第一通用超分模型进行训练得到针对所述目标通话人的目标超分模型。

进一步地，所述第二获取模块还用于：

此外本发明实施例还提出一种视频通话装置，所述视频通话装置部署于第二设备，所述视频通话装置包括：

采集模块，用于采集本次通话的通话视频数据，并将所述通话视频数据处理为低分辨率视频图像；

确定模块，用于根据所述视频通话数据确定使用所述第二设备参与本次通话的目标通话人，并根据所述目标通话人获取超分模型信息；

进一步地，所述确定模块还用于：

从所述视频通话数据中抽取视频图像，并对所述视频图像进行人脸识别得到使用所述第二设备参与视频通话的目标通话人。

本发明视频通话装置的具体实施方式的拓展内容与上述视频通话方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述存储介质上存储有视频通话程序，所述视频通话程序被处理器执行时实现如下所述的视频通话方法的步骤。

本发明还提出一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的视频通话方法的步骤。

本发明视频通话设备、计算机可读存储介质和计算机程序产品的各实施例，均可参照本发明视频通话方法各个实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

19页详细技术资料下载

视频通话方法、设备、存储介质及程序产品

相关技术

网友询问留言