人脸画面改进方法、用户终端和计算机可读存储介质

文档序号：1721447 发布日期：2019-12-17 浏览：42次 >En<

阅读说明：本技术 人脸画面改进方法、用户终端和计算机可读存储介质 (face picture improving method, user terminal and computer readable storage medium ) 是由李青史敏锐李东亮章波焕于 2018-06-07 设计创作，主要内容包括：本发明公开一种人脸画面改进方法、用户终端和计算机可读存储介质。该方法包括：在视频通话过程中,采集通话图像清晰的情况下的脸部特征参数；缓存当前视频帧；在脸部图像数据缺失的情况下,根据缓存的视频帧数据与采集的脸部特征参数,补偿复原出缺失的脸部图像数据。本发明解决了因视频数据间断性丢帧导致人脸画面上的马赛克问题,接收终端能对画面上人脸关键区域丢失的图像数据进行补偿与恢复,从而提高了视频通话业务质量。(The invention discloses a face picture improving method, a user terminal and a computer readable storage medium. The method comprises the following steps: in the video call process, facial feature parameters under the condition of clear call images are collected; caching a current video frame; and under the condition of face image data missing, compensating and restoring the missing face image data according to the cached video frame data and the collected face characteristic parameters. The invention solves the problem of mosaic on the face picture caused by discontinuous frame loss of video data, and the receiving terminal can compensate and recover the image data lost in the key area of the face on the picture, thereby improving the quality of video call service.)

技术领域

本发明涉及移动通信技术领域，特别涉及一种人脸画面改进方法、用户终端和计算机可读存储介质。

背景技术

VoLTE(Voice over LTE，基于IMS的语音业务)是电信运营商基于4G+网络面向用户提供的一种高清音视频通信业务。同时，作为VoLTE业务的补充，RCS(融合通信)可提供文字、图片、视频、文件等多媒体即时消息分享以及VoIP(Voice over Internet Protocol，网络电话)等业务，两者结合，能加快运营商基础通信业务的升级换代。

发明内容

申请人发现：为保障音视频通话质量，GSMA(全球移动运营商协会)在VoLTE技术标准中引入了半持续调度(SPS)、时隙绑定(TTIbunding)、鲁棒性报头压缩(RoHC)、非连续接收(DRX)等技术提升空口传输质量及节电。

这些技术能够改善无线网络传输质量，但仍然存在以下问题：在城市建筑密集、展馆、会场等人群密集地域，以及地铁、隧道和其它狭小的室内空间下，因无线高频信号覆盖、网络容量等网络原因，造成视频通话中人脸部图像模糊，影响业务体验。

鉴于以上技术问题，本发明提供了一种人脸画面改进方法、用户终端和计算机可读存储介质，能对画面上人脸关键区域丢失的图像数据进行补偿与恢复，提高视频通话业务质量。

根据本发明的一个方面，提供一种人脸画面改进方法，包括：

在视频通话过程中，采集通话图像清晰的情况下的脸部特征参数；

缓存当前视频帧；

在脸部图像数据缺失的情况下，根据缓存的视频帧数据与采集的脸部特征参数，补偿复原出缺失的脸部图像数据。

在本发明的一些实施例中，所述人脸画面改进方法还包括：采集音频特征，根据音频特征确定对方情绪特征。

在本发明的一些实施例中，所述根据缓存的视频帧数据与采集的脸部特征参数，通过人脸特征复原算法，补偿复原出缺失的脸部图像数据包括：

根据采集的对方情绪特征、缓存的视频帧数据与采集的脸部特征参数，通过人脸特征复原算法，补偿复原出缺失的脸部图像数据。

在本发明的一些实施例中，所述人脸画面改进方法还包括：

在视频通话过程中，接收视频通话的图像数据帧；

识别并标注视频图像中的至少一个位置区域，其中，所述位置区域包括脸部区域；之后，执行采集通话图像清晰的情况下的脸部特征参数的步骤。

在本发明的一些实施例中，所述采集音频特征，根据音频特征确定对方情绪特征包括：

采集通话过程中对方音频信号的变化，根据对方音频信号的变化确定对方情绪特征，其中，所述对方音频信号包括对方的语速、语调、音量和音频中的至少一项。

在本发明的一些实施例中，所述识别并标注视频图像中的至少一个位置区域包括：

识别并标注视频图像中的至少一个位置区域，并对不同区域进行分级保障。

在本发明的一些实施例中，所述识别并标注视频图像中的至少一个位置区域包括：

识别脸部区域，并将脸部区域设置为第一优先级；

识别变化区域，并将变化区域设置为第二优先级；

识别背景区域，并将背景区域设置为第三优先级，其中第一优先级高于第二优先级，第二优先级高于第三优先级。

在本发明的一些实施例中，所述采集通话图像清晰的情况下的脸部特征参数包括：

采集通话图像清晰情况下的人脸画面；

获取脸部各区域关键部位的脸部特征参数，其中所述脸部特征参数包括特征信息和比例关系中的至少一项。

在本发明的一些实施例中，在缓存当前视频帧后，所述方法还包括：

判断当前视频帧是否完整；

在当前视频帧不完整的情况下，判断脸部图像数据是否丢失；

在脸部图像数据缺失的情况下，执行根据缓存的视频帧数据与采集的脸部特征参数，补偿复原出缺失的脸部图像数据的步骤；

在脸部图像数据未丢失的情况下、或者在当前视频帧完整的情况下，执行接收视频通话的图像数据帧的步骤。

在本发明的一些实施例中，所述缓存当前视频帧包括：缓存上一帧的图像数据。

根据本发明的另一方面，提供一种用户终端，包括：

清晰特征采集模块，用于在视频通话过程中，采集通话图像清晰的情况下的脸部特征参数；

数据缓存模块，用于缓存当前视频帧；

数据复原模块，用于在脸部图像数据缺失的情况下，根据缓存的视频帧数据与采集的脸部特征参数，补偿复原出缺失的脸部图像数据。

在本发明的一些实施例中，所述用户终端用于执行实现如上述任一实施例所述的人脸画面改进方法的操作。

根据本发明的另一方面，提供一种用户终端，包括：

存储器，用于存储指令；

处理器，用于执行所述指令，使得所述装置执行实现如上述任一实施例所述的人脸画面改进方法的操作。

根据本发明的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例所述的人脸画面改进方法。

本发明解决了因视频数据间断性丢帧导致人脸画面上的马赛克问题，接收终端能对画面上人脸关键区域丢失的图像数据进行补偿与恢复，从而提高了视频通话业务质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明人脸画面改进方法一些实施例的示意图。

图2为本发明人脸画面改进方法另一些实施例的示意图。

图3a和图3b为本发明人脸画面改进方法又一些实施例的示意图。

图4为本发明用户终端一些实施例的示意图。

图5为本发明用户终端另一些实施例的示意图。

图6为本发明用户终端再一些实施例的示意图。

图7为本发明用户终端又一些实施例的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本发明人脸画面改进方法一些实施例的示意图。优选的，本实施例可由本发明用户终端执行。该方法包括以下步骤：

步骤11，在视频通话过程中，采集通话图像清晰的情况下的脸部特征参数。

在本发明的一些实施例中，所述步骤11可以包括：

步骤111，采集通话图像清晰情况下的人脸画面。

步骤112，获取脸部各区域关键部位的脸部特征参数，其中所述脸部特征参数包括特征信息和比例关系中的至少一项。

在本发明的一些实施例中，所述各区域关键部位可以包括眉毛、眼睛、鼻子、嘴部、下颚、颧骨、脸型轮廓、发髻等关键部位。

在本发明的一些实施例中，步骤112可以包括采集15个以上信息点。

步骤12，缓存当前视频帧。

在本发明的一些实施例中，所述步骤12可以包括：缓存上一帧的图像数据，即，缓存上一画面的视频帧图像数据。

步骤13，在脸部图像数据缺失的情况下，将缓存的视频帧数据与采集的脸部特征参数，输入预定人脸特征复原算法模型，补偿复原出缺失的脸部图像数据。

基于本发明上述实施例提供的人脸画面改进方法，是一种改进VoLTE/RCS视频通话中人脸关键区域画面质量的方法，采集图像清晰时脸部特征数据，作为人脸特征算法模型的输入参数，必要时对缺失的人脸图像进行补充与恢复。

本发明上述实施例解决了因视频数据间断性丢帧导致人脸画面上的马赛克问题，接收终端能对画面上人脸关键区域丢失的图像数据进行补偿与恢复，从而提高了视频通话业务质量。

图2为本发明人脸画面改进方法另一些实施例的示意图。优选的，本实施例可由本发明用户终端执行。图2实施例的方法可以包括以下步骤：

步骤20，本发明用户终端与另一用户终端开始视频通话。

步骤21，在视频通话过程中，接收视频通话的图像数据帧。

步骤22，识别并标注视频图像中的至少一个位置区域，其中，所述位置区域包括脸部区域。

在本发明的一些实施例中，步骤22可以包括：识别并标注视频图像中的至少一个位置区域，并对不同区域进行分级保障。

在本发明的一些实施例中，所述识别并标注视频图像中的至少一个位置区域的步骤具体可以包括：

步骤221，识别脸部区域，并将脸部区域设置为第一优先级。

步骤222，识别变化区域，并将变化区域设置为第二优先级，其中所述变化区域指的是同一位置图像与上一帧比变化大于预定值的区域，例如：来回晃动的手。

步骤223，识别背景区域，并将背景区域设置为第三优先级，其中第一优先级高于第二优先级，第二优先级高于第三优先级。

本发明上述实施例能对同一视频画面中的不同位置区域进行识别和标注。进而，本发明上述实施例可以针对不同位置区域(尤其人脸位置区域)提供不同于其它位置区域(例如，背景位置区域)的分等级、差异化服务质量保障机制。

步骤23，采集通话图像清晰的情况下的脸部特征参数。图2实施例的步骤23与图1实施例的步骤11相同或相似，这里不再详述。

步骤24，采集音频特征，根据音频特征确定对方情绪特征。

在本发明的一些实施例中，步骤24具体可以包括：采集通话过程中对方音频信号的变化，根据对方音频信号的变化确定对方情绪特征，其中，所述对方音频信号可以包括对方的语速、语调、音量和音频等音频信号中的至少一项，所述对方情绪特征可以包括正常、微笑、喜悦、大笑、生气等情绪特征。

本发明上述实施例可以根据声音判断对方情绪特征，将对方情绪特征作为人脸特征算法模型的输入参数，从而可以提高五官图像恢复时相似度。

在本发明的一些实施例中，步骤24之后，所述方法还可以包括：将对方情绪特征、以及通话图像清晰的情况下的脸部特征参数输入脸部特征与情绪信息库。

步骤25，缓存当前视频帧。

在本发明的一些实施例中，所述步骤25可以包括：缓存上一帧的图像数据，即，缓存上一画面的视频帧图像数据。

步骤26，判断脸部图像数据是否缺失。在脸部图像数据缺失的情况下，执行步骤27；否则，在脸部图像数据不缺失的情况下，执行步骤21。

在本发明的一些实施例中，所述步骤26可以包括：

步骤261，判断当前视频帧是否完整。

步骤262，当网络质量不佳，接收不到完整的图像数据帧时，判断缺失部分的数据是否涉及脸部图像。

步骤263，在缺失部分的数据涉及脸部图像的情况下，判定脸部图像数据缺失，执行步骤27。

步骤264，在缺失部分的数据没有涉及脸部图像的情况下、或者在当前视频帧完整的情况下，判定脸部图像数据不缺失，执行步骤21。

步骤27，从脸部特征与情绪信息库提取采集的对方情绪特征和采集的脸部特征参数；将采集的对方情绪特征、缓存的视频帧数据与采集的脸部特征参数输入预定人脸特征复原算法模型。

步骤28，根据采集的对方情绪特征、缓存的视频帧数据与采集的脸部特征参数，通过人脸特征复原算法，补偿复原出当前缺失的脸部图像数据。

本发明上述实施例在视频通过过程中，用于终端能够识别视频画面上人脸所在区域，并进行脸部特征点信息采集、根据音频信号判断情绪波动、缓存前一屏数据帧。当视频通话中网络传输质量不佳时(判断视频帧丢失情况)，能自动根据人脸特征模型算法，重塑丢失数据帧中的涉及人脸部分的图像数据，从而解决了视频通话中因间断性网络质量导致人脸模糊不清的问题，提高了视频电话业务体验。

图3a和图3b为本发明人脸画面改进方法又一些实施例的示意图。其中，图3b给出了图3a的具体示例。优选的，本实施例可由本发明用户终端执行。图3a和3b实施例的方法可以包括以下步骤：

步骤31，采集图像清晰时脸部特征数据，作为人脸特征算法模型的输入参数，必要时对缺失的人脸图像进行补充与恢复。

步骤32，根据声音判断对方情绪特征，将对方情绪特征作为人脸特征算法模型的输入参数，从而可以提高五官图像恢复时相似度。

步骤33，缓存当前视频帧。

在本发明的一些实施例中，所述步骤33可以包括：缓存上一帧的图像数据，即，缓存上一画面的视频帧图像数据。

步骤34，根据采集的对方情绪特征、缓存的上一帧的视频帧数据、以及采集的脸部特征参数，通过人脸特征复原算法，补偿复原出当前缺失的脸部图像数据。

本发明上述实施例的用户终端在音视频电话过程中，能捕捉人脸画面图像清晰时的面部关键特征，并记录语速、声调、频率等音频信号的变化特征，实时判断对方情绪。同时，本发明上述实施例缓存上一屏视频数据帧。当终端接收的视频帧不完整时，本发明上述实施例能根据之前捕获的对方人脸面部关键特征、当前情绪信息，结合人脸特征模型算法与缓存的数据帧，实时补偿、恢复图像中缺失的人脸画面。

本发明上述实施例可以适用于VoLTE/RCS等人、人间的点对点视频电话应用场景。

本发明上述实施例可以在无线信号覆盖不佳、网络传输间断性中断时，应用本发明的用户终端可突出保障视频通信中画面上人脸部分的图像质量，从而可以提高视频电话业务画面的流畅性、完整性，提高业务体验。本发明上述实施例可应用在VoLTE、RCS点对点移动视频电话业务的各场景。

图4为本发明用户终端一些实施例的示意图。如图4所示，所述用户终端可以包括清晰特征采集模块41、数据缓存模块42和数据复原模块43，其中：

清晰特征采集模块41，用于在视频通话过程中，采集通话图像清晰的情况下的脸部特征参数。

数据缓存模块42，用于缓存当前视频帧。

数据复原模块43，用于在脸部图像数据缺失的情况下，根据缓存的视频帧数据与采集的脸部特征参数，通过人脸特征复原算法，补偿复原出缺失的脸部图像数据。

在本发明的一些实施例中，所述用户终端用于执行实现如上述任一实施例(例如图1-图3任一实施例)所述的人脸画面改进方法的操作。

基于本发明上述实施例提供的用户终端，可以采集图像清晰时脸部特征数据，作为人脸特征算法模型的输入参数，必要时对缺失的人脸图像进行补充与恢复。

本发明上述实施例解决了因视频数据间断性丢帧导致人脸画面上的马赛克问题，接收终端(用户终端)能对画面上人脸关键区域丢失的图像数据进行补偿与恢复，从而提高了视频通话业务质量。

图5为本发明用户终端另一些实施例的示意图。与图4实施例相比，在图5实施例中，所述用户终端还可以包括情绪特征获取模块44，其中：

情绪特征获取模块44，用于采集音频特征，根据音频特征确定对方情绪特征。

在本发明的一些实施例中，情绪特征获取模块44具体可以用于采集通话过程中对方音频信号的变化，根据对方音频信号的变化确定对方情绪特征，其中，所述对方音频信号包括对方的语速、语调、音量和音频中的至少一项。

数据复原模块43还可以用于根据采集的对方情绪特征、缓存的视频帧数据与采集的脸部特征参数，通过人脸特征复原算法，补偿复原出缺失的脸部图像数据。

本发明上述实施例可以根据视频信号中采集的脸部特征关键参数、音频信号中采集的对方情绪特征参数，以及缓存的上一帧图像数据，利用人脸特征模型算法，针对脸部缺失图像进行补偿与恢复，从而解决了视频通话中，网络质量不佳时，脸部图像模糊不清的问题。

图6为本发明用户终端再一些实施例的示意图。与图5实施例相比，在图6实施例中，所述用户终端还可以包括数据接收模块45和区域识别模块46，其中：

数据接收模块45，用于在视频通话过程中，接收视频通话的图像数据帧。

区域识别模块46，用于识别并标注视频图像中的至少一个位置区域，其中，所述位置区域包括脸部区域。

图7为本发明用户终端又一些实施例的示意图。如图7所示，所述用户终端可以包括存储器71和处理器72，其中：

存储器71，用于存储指令。

处理器72，用于执行所述指令，使得所述装置执行实现如上述任一实施例(例如图1-图3任一实施例)所述的人脸画面改进方法的操作。

本发明上述实施例可以在无线信号覆盖不佳，网络传输间断性中断的情况下，应用本发明实施例的用户终端可突出保障视频通信中画面上人脸部分的图像质量，提高视频电话业务画面的流畅性、完整性，提高业务体验。本发明上述实施例可以应用在VoLTE、RCS点对点移动视频电话业务各场景。

根据本发明的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述指令被处理器执行时实现如上述任一实施例(例如图1-图3任一实施例)所述的人脸画面改进方法。

基于本发明上述实施例提供的计算机可读存储介质，视频通过过程中，终端能够识别视频画面上人脸所在区域，并进行脸部特征点信息采集、根据音频信号判断情绪波动、缓存前一屏数据帧。当视频通话中网络传输质量不佳时(判断视频帧丢失情况)，能自动根据人脸特征模型算法，重塑丢失数据帧中的涉及人脸部分的图像数据，解决视频通话中因间断性网络质量导致人脸模糊不清的问题，提高视频电话业务体验。

在上面所描述的用户终端可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此，已经详细描述了本发明。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种会议终端更新方法和视联网系统

人脸画面改进方法、用户终端和计算机可读存储介质

相关技术

网友询问留言