虚拟人脸构建方法、装置、计算机设备及计算机可读介质

文档序号：909793 发布日期：2021-02-26 浏览：3次 >En<

阅读说明：本技术 虚拟人脸构建方法、装置、计算机设备及计算机可读介质 (Virtual face construction method and device, computer equipment and computer readable medium ) 是由魏舒刘玉宇于 2020-11-17 设计创作，主要内容包括：本申请属于人工智能技术领域,本申请提供了一种基于音素文本的虚拟人脸构建方法、装置、计算机设备及计算机可读存储介质。本申请通过获取目标文本,并将目标文本通过预设TTS方式生成音频,将音频进行音素切分,以得到音频所对应的音素文本,将音素文本输入至预设循环神经网络模型,以得到音素文本所对应的预设真人主播的人脸特征,根据预设真人主播的人脸特征,构建音素文本所对应的预设真人主播的虚拟人脸,可直接根据输入的目标文本构建预设真人主播所对应虚拟人脸,简化了将真人主播转化成所对应的虚拟主播的生成程序,提高了虚拟主播的生成效率和准确性。(The application belongs to the technical field of artificial intelligence and provides a virtual human face construction method and device based on phoneme texts, computer equipment and a computer readable storage medium. According to the method and the device, the target text is obtained, the audio is generated through the target text in a preset TTS mode, the audio is subjected to phoneme segmentation to obtain a phoneme text corresponding to the audio, the phoneme text is input to a preset cyclic neural network model to obtain the face characteristics of a preset human anchor corresponding to the phoneme text, the virtual face of the preset human anchor corresponding to the phoneme text is constructed according to the face characteristics of the preset human anchor, the virtual face corresponding to the preset human anchor can be directly constructed according to the input target text, the generation program for converting the human anchor into the corresponding virtual anchor is simplified, and the generation efficiency and accuracy of the virtual anchor are improved.)

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于音素文本的虚拟人脸构建方法、装置、计算机设备及计算机可读存储介质。

背景技术

虚拟主播是基于语音、NLP及视觉等技术，使用虚拟形象在视频中与客户进行交互的主播或者客服。虚拟主播可解决传统客服坐席成本高(例如坐席需要工资福利、管理培训成本高、周期长等问题)、工作质量不稳定(易受情绪、疲劳等影响)等问题，降低公司客服成本，提高客户满意度，保证工作质量的稳定性。

目前，传统的虚拟主播技术大多是基于音频或者音频结合图像进行虚拟视频形象构建，需要录制相应的音频或者音频及图像作为输入，且不同的虚拟主播在定制过程中需要学习不同的音频特征，或者采集不同真人主播录制视频/音频的大量数据，进行泛化学习，因此，传统技术中，存在构建虚拟主播效率较低的技术问题。

发明内容

本申请提供了一种基于音素文本的虚拟人脸构建方法、装置、计算机设备及计算机可读存储介质，能够解决传统技术中构建虚拟主播效率较低的问题。

第一方面，本申请提供了一种基于音素文本的虚拟人脸构建方法，所述方法包括：获取目标文本，并将所述目标文本通过预设TTS方式生成音频；将所述音频进行音素切分，以得到所述音频所对应的音素文本；将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征；根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸。

第二方面，本申请还提供了一种基于音素文本的虚拟人脸构建装置，包括：第一获取单元，用于获取目标文本，并将所述目标文本通过预设TTS方式生成音频；第一切分单元，用于将所述音频进行音素切分，以得到所述音频所对应的音素文本；第一输入单元，用于将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征；构建单元，用于根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸。

第三方面，本申请还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现所述基于音素文本的虚拟人脸构建方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器执行所述基于音素文本的虚拟人脸构建方法的步骤。

本申请提供了一种基于音素文本的虚拟人脸构建方法、装置、计算机设备及计算机可读存储介质。本申请通过获取一段输入的目标文本，并将所述目标文本通过预设TTS方式生成音频，将所述音频进行音素切分，以得到所述音频所对应的音素文本，将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征，根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸，即可直接根据输入的目标文本构建预设真人主播所对应的虚拟人脸，简化了将真人主播转化成所对应的虚拟主播的生成程序，提高了虚拟主播的生成效率和准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于音素文本的虚拟人脸构建方法的一个流程示意图；

图2为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第一个子流程示意图；

图3为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第二个子流程示意图；

图4为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第三个子流程示意图；

图5为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第四个子流程示意图；

图6为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第五个子流程示意图；

图7为本申请实施例提供的基于音素文本的虚拟人脸构建装置的一个示意性框图；以及

图8为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参阅图1，图1为本申请实施例提供的基于音素文本的虚拟人脸构建方法的一个流程示意图。如图1所示，所述方法包括以下步骤S11-S14：

S11、获取目标文本，并将所述目标文本通过预设TTS方式生成音频。

其中，TTS，英文为Text To Speech，为“从文本到语音”，是将文字智能地转化为语音的过程。

具体地，在本申请实施例中，基于音素文本构建虚拟人脸时，只需要输入目标文本，根据输入的目标文本即可实现构建虚拟人脸。获取目标文本后，将所述目标文本通过预设TTS方式生成所述目标文本所对应的音频。其中，TTS包括“拼接法”和“参数法”，拼接法为准备大量语音，这些音是由基本的单位拼接成的(基本单位如音节、音素等)，然后从已准备好的声音中，抽取出来合成目标声音。参数法是根据统计模型来产生每时每刻的语音参数(包括基频、共振峰频率等)，然后把这些参数转化为波形。

S12、将所述音频进行音素切分，以得到所述音频所对应的音素文本。

其中，音素(英文为Phone)，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

具体地，根据获取的目标文本生成音频后，对所述音频进行切分且对齐，从而得到所述文本所对应的因素文本，后续根据所述因素文本构建虚拟人脸，并将虚拟人脸与音频一起作为虚拟视频播放时，所述因素文本对应虚拟视频中的每帧。

S13、将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征。

S14、根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸。

其中，循环神经网络，英文为Recurrent Neural Network，缩写为RNN。

具体地，首先训练预设循环神经网络模型。训练预设循环神经网络模型，是通过录制真人主播的训练视频样本，将训练视频样本中所包含的训练音频样本进行切分，以得到训练音素文本，并将训练音素文本及所述训练视频样本中所包含的训练音素文本所对应的真人主播的形象输入至预设循环神经网络模型，以使循环神经网络模型自动学习训练音素文本与所述训练音素文本所对应的真人主播形象的真人主播的人脸特征之间的关联关系，从而将训练音素文本与真人主播的形象所包含的真人主播的人脸特征进行匹配。

将获取的目标文本所对应的所述音素文本输入至预设循环神经网络模型后，所述预设循环神经网络模型根据所述音素文本，结合训练时训练音素文本与真人主播的形象所包含的真人主播的人脸特征之间的关联关系，即可得到所述音素文本所对应的每个视频帧所包含的预设真人主播的人脸特征，根据所述预设真人主播的额人脸特征，结合人脸特征与人脸之间的关系，即可构建所述预设真人主播的人脸特征所对应的虚拟人脸，以得到所述音素文本所对应的所述预设真人主播的虚拟人脸，并对所述虚拟人脸进行渲染，然后将虚拟人脸与音频对应起来，即可得到虚拟主播视频。

在本申请实施例中，通过获取目标文本，并将所述目标文本通过预设TTS方式生成音频，将所述音频进行音素切分，以得到所述音频所对应的音素文本，将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征，根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸，即可直接根据输入的目标文本构建预设真人主播所对应的虚拟人脸，简化了将真人主播转化成所对应的虚拟主播的生成程序，提高了虚拟主播的生成效率和准确性。

请参阅图2，图2为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第一个子流程示意图。如图2所示，在该实施例中，所述将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征的步骤之前，还包括：

S21、获取预设真人主播所录制的训练视频样本，所述训练视频样本包括训练音频样本及所述预设真人主播的形象；

S22、将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征；

S23、将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练。

具体地，将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征的步骤之前，采用预设真人主播所对应的训练视频样本训练所述预设循环神经网络模型。采用预设真人主播所对应的训练视频样本训练所述预设循环神经网络模型时，录制预设真人主播所对应的训练视频样本，可以录制预设时间段内的预设真人主播所对应的训练视频样本，要求所述预设真人主播正面脸录制、露出全脸，录制时可以进行补光及采用麦克风录音，例如，可以录制2个小时至3个小时时长的训练视频样本即能满足本申请实施例中对预设循环神经网络模型的训练要求，所述训练视频样本包括训练音频样本及所述预设真人主播的形象，将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述训练视频样本中提取所述训练音素文本所对应的训练真人主播的人脸特征，例如，可以提取人脸的3DMM特征(即3dmax的Morph(变形)，3D可变形模型)，其中，每一个音素对应视频的每一视频帧。

将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对预设循环神经网络模型进行训练，例如将上述所获取的音素文本，做Embedding，得到预设循环神经网络模型的输入向量，再使用预先提取的3DMM共150维特征，作为预设循环神经网络模型的Label。对预设循环神经网络模型进行训练包括以下两个过程：

1)前向传播时：Embedding特征向量经过两层双向RNN，得到150维特征Predict。2)反向传播时：根据Predict和Label计算MSE/MAE/L1/L2等Loss，反向更新进行梯度更新。后续使用预设循环神经网络模型构建虚拟人脸时，只需输入音素文本(假设长度为N)，根据上述的前向传播过程，即可得到Ppredict的N*150维3DMM特征，分别对应视频N帧的每一帧，用于后续虚拟主播中每一帧的人脸重建，进而得到完整连续的虚拟主播视频。

重复1)、2)步骤，直到收敛，从而使所述预设循环神经网络模型通过自动学习调整所述预设循环神经网络模型的参数，以采用预设真人主播所对应的训练视频样本对所述预设循环神经网络模型进行训练，其中，可尝试不同的预设RNN模型，不同的Loss，及不同的优化方式，以及模型参数的初始化方式，以适应不同类型的数据。由于本申请实施例中可以采取较短时长内的训练视频样本，例如采取录制2个小时至3个小时时长，不需要长时间的训练音视频样本数据，即可满足本申请实施例中对预设循环神经网络模型的训练要求，即能够训练出效果较好的循环神经网络模型，实现根据输入的目标文本构建准确的虚拟人脸，相比传统技术中需要大量的训练视频样本或者较长时长的训练视频样本，本申请实施例大大简化了预设循环神经网络模型的训练过程，避免了对预设循环神经网络模型进行训练时需要同一主播大量音视频的问题，大幅减少了循环神经网络模型训练过程中数据的使用量，提高了对预设循环神经网络模型的训练效率和训练准确性，很大程度上降低了定制一个虚拟主播所需的训练视频样本数据量，大大降低了生成循环神经网络模型的时间成本。

请参阅图3，图3为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第二个子流程示意图。如图3所示，在该实施例中，所述将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征的步骤包括：

S31、获取所述训练视频样本所对应的训练音频样本；

S32、根据时间先后顺序，将所述训练音频样本按照预设音素进行音素切分，以得到按照所述时间先后顺序所排列的训练音素文本序列，所述训练音素文本序列包含若干个训练音素文本元素；

S33、按照所述时间先后顺序，从所述训练视频样本中获取所述训练音素文本元素所对应的视频帧，所述视频帧中包含所述预设真人主播的形象；

S34、提取所述训练音素文本元素所对应的视频帧中所包含的所述预设真人主播的外形特征、表情特征及姿势特征，以得到所述训练音素文本所对应的训练真人主播的人脸特征。

具体地，由于训练视频样本中所包含的音频为音素的集合，所述训练视频样本中所包含的视频为视频帧的集合，且音素集合中的音素元素和视频帧集合中的视频帧元素按照时间先后顺序存在对应关系。因此，获取到所述训练视频样本后，获取所述训练视频样本所对应的训练音频样本，所述训练音频样本为按照时间先后顺序的训练音素文本元素的集合，根据时间先后顺序，将所述训练音频样本按照预设音素进行音素切分，以得到按照所述时间先后顺序所排列的包含若干个训练音素文本元素的训练音素文本序列。例如，在一示例中，音素切分结果如下：

Intervals[1]:xmin＝0.000 xmax＝0.700 text＝”sil”；

Intervals[2]:xmin＝0.700 xmax＝0.780 text＝”HH”；

Intervals[3]:xmin＝0.780 xmax＝0.920 text＝”IY1”；

Intervals[4]:xmin＝0.920 xmax＝1.070 text＝”HH”；

其中，intervals[i]表示第i个音素，xmin,xmax分别表示起始时间和终止时间，依此类推。

根据切分结果，生成对应视频帧的因素文本，在一示例中，生成文本如下：

[”sil”,”sil”,”sil”,”HH”,”HH””HH”,”IY1”,”IY1”,”IY1”,”HH”,”HH”,”HH”,”HH”]。

其中，每一因素对应视频的每一帧。

按照所述时间先后顺序，从所述训练视频样本中获取所述训练音素文本元素所对应的视频帧，所述视频帧中包含所述预设真人主播的形象，再根据所述音素文本元素，提取每个所述训练音素文本元素所对应的视频帧中所包含的训练真人主播的人脸特征，训练真人主播的人脸特征可以包括人脸的外形特征、表情特征及姿势特征，即可得到按照时间先后顺序排列的所述训练音素文本所对应的训练真人主播的人脸特征，从而得到所述训练音频样本所包含的训练音素文本序列及与所述训练音素文本序列所对应的是每个视频帧的训练真人主播的人脸特征。

其中，从训练视频样本中提取人脸特征时，可以从训练视频样本中提取3DMM人脸特征(3DMM，英文为3D Morphable Models，即人脸3D形变统计模型)。从训练视频样本的每一视频帧中提取3DMM特征，并可以选取[0-80]维Shape特征(即外形特征)，[80-144]维表情特征，和[224-227]、[254-257]的Pose特征(即姿势特征)，以得到训练真人主播的人脸特征，从而从外形特征、表情特征及姿势特征等角度得到丰富的真人主播人脸特征，能够提高构建的虚拟人脸的丰富性、生动性及真实性。其中，外形特征是指通过对人脸外形关键点的提取以描述人脸的外形，表情特征提取是指对人脸的器官特征、纹理区域和预定义的特征点进行定位和提取，姿势特征为人脸的姿势特点，例如仰视、俯视或者侧视等人脸的姿势特征。

请参阅图4，图4为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第三个子流程示意图。如图4所示，在该实施例中，所述根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸的步骤之后，还包括：

S41、获取所述音频所包含的所有所述音素文本及所述音素文本所对应的虚拟人脸；

S42、按照所述音素文本在所述音频中的时间先后顺序，将所有所述虚拟人脸组合成视频帧序列；

S43、将所述音频与所述视频帧序列组合以得到虚拟视频。

具体地，构建所述音素文本所对应的虚拟人脸后，将所述音频所包含的所有所述音素文本按照所述音素文本在所述音频中的时间先后顺序进行排序，即可得到与音频一致的音素文本排序序列，按照音素文本排序序列的顺序，将所述音素文本所对应的虚拟人脸进行排序，所有所述虚拟人脸组合成视频帧序列，再将所述音频与所述视频帧序列组合以得到虚拟视频，从而实现在构建虚拟主播视频时，不需要录制音频数据，直接使用音素文本，即可生成对应的视频，减少了客户的使用成本，提高使用效率。

请参阅图5，图5为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第四个子流程示意图。如图5所示，在该实施例中，所述根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸的步骤之后，还包括：

S51、将所述目标文本通过其它预设TTS方式生成其它音频，其中，所述其它音频与所述音频为不同音频风格类型的音频；

S52、将所述其它音频与所述视频帧序列组合以得到其它虚拟视频。

具体地，针对同一目标文本，可以使用不同的TTS(Text-To-Speech)工具生成不同风格类型的音频，由于是同一目标文本，生成的不同音频风格类型的音频具有相同的因素文本和所述因素文本所对应的相同时间先后顺序，将不同风格类型的音频分别与同一视频帧序列组合，即可得到音频风格类型不同从而引起视频风格类型不同的视频，针对不同的场景需求，能够实现同一视频更换不同声音的可能，可以为相同主播的视频提供不同的声音支持，而不需要重新录制视频、处理数据及训练、调整模型以重新生成模型，提高了生成多种风格类型视频的效率，提高了使用生成的视频适用的广泛性。

请参阅图6，图6为本申请实施例提供的基于音素文本的虚拟人脸构建方法的第五个子流程示意图。如图6所示，在该实施例中，所述将所述目标文本通过预设TTS方式生成音频的步骤之前，还包括：

S61、统计所述目标文本所对应的文本长度；

S62、判断所述文本长度是否大于或者等于预设文本长度阈值；

S63、若所述文本长度大于或者等于所述预设文本长度阈值，执行所述将所述目标文本通过预设TTS方式生成音频的步骤；

S64、若所述文本长度小于所述预设文本长度阈值，发出所述目标文本不符合预设要求的告警。

具体地，针对目标文本属于极端情形而不符合转换为音频的条件，例如，目标文本就一个感叹词或者一个短语等，在这种情况下，无法将目标文本转换为语音，进而根据目标文本构建虚拟主播视频。因此，在将所述目标文本通过预设TTS方式生成音频之前，可以先统计所述目标文本所对应的文本长度，例如统计所述目标文本所包含的字符所对应的字符数量等，获取所述目标文本所对应的文本长度，进而通过所述文本长度判断文本是否符合转换为语音的要求，先判断所述文本长度是否大于或者等于预设文本长度阈值，例如所述预设文本长度阈值可以为2个字符或者5个字符等，若所述目标文本大于或者等于所述预设文本长度阈值，执行所述将所述目标文本通过预设TTS方式生成音频的步骤，若所述目标文本小于所述预设文本长度阈值，即所述目标文本过短，发出所述目标文本不符合预设要求的告警，从而避免后续根据不符合要求的目标文本无法构建出虚拟主播。

需要说明的是，上述各个实施例所述的基于音素文本的虚拟人脸构建方法，可以根据需要将不同实施例中包含的技术特征重新进行组合，以获取组合后的实施方案，但都在本申请要求的保护范围之内。

请参阅图7，图7为本申请实施例提供的基于音素文本的虚拟人脸构建装置的一个示意性框图。对应于上述所述基于音素文本的虚拟人脸构建方法，本申请实施例还提供一种基于音素文本的虚拟人脸构建装置。如图7所示，该基于音素文本的虚拟人脸构建装置包括用于执行上述所述基于音素文本的虚拟人脸构建方法的单元，该基于音素文本的虚拟人脸构建装置可以被配置于计算机设备中。具体地，请参阅图7，该基于音素文本的虚拟人脸构建装置70包括第一获取单元71、第一切分单元72、第一输入单元73及构建单元74。

其中，第一获取单元71，用于获取目标文本，并将所述目标文本通过预设TTS方式生成音频；

第一切分单元72，用于将所述音频进行音素切分，以得到所述音频所对应的音素文本；

第一输入单元73，用于将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征；

构建单元74，用于根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸。

在一实施例中，所述基于音素文本的虚拟人脸构建装置70还包括：

第二获取单元，用于获取预设真人主播所录制的训练视频样本，所述训练视频样本包括训练音频样本及所述预设真人主播的形象；

第二切分单元，用于将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征；

训练单元，用于将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练。

在一实施例中，所述第二切分单元包括：

第一获取子单元，用于获取所述训练视频样本所对应的训练音频样本；

第一切分子单元，用于根据时间先后顺序，将所述训练音频样本按照预设音素进行音素切分，以得到按照所述时间先后顺序所排列的训练音素文本序列，所述训练音素文本序列包含若干个训练音素文本元素；

第二获取子单元，用于按照所述时间先后顺序，从所述训练视频样本中获取所述训练音素文本元素所对应的视频帧，所述视频帧中包含所述预设真人主播的形象；

提取子单元，用于提取所述训练音素文本元素所对应的视频帧中所包含的所述预设真人主播的外形特征、表情特征及姿势特征，以得到所述训练音素文本所对应的训练真人主播的人脸特征。

在一实施例中，所述基于音素文本的虚拟人脸构建装置70还包括：

第三获取单元，用于获取所述音频所包含的所有所述音素文本及所述音素文本所对应的虚拟人脸；

第一组合单元，用于按照所述音素文本在所述音频中的时间先后顺序，将所有所述虚拟人脸组合成视频帧序列；

第二组合单元，用于将所述音频与所述视频帧序列组合以得到虚拟视频。

在一实施例中，所述基于音素文本的虚拟人脸构建装置70还包括：

生成单元，用于将所述目标文本通过其它预设TTS方式生成其它音频，其中，所述其它音频与所述音频为不同音频风格类型的音频；

第三组合单元，用于将所述其它音频与所述视频帧序列组合以得到其它虚拟视频。

在一实施例中，所述基于音素文本的虚拟人脸构建装置70还包括：

统计单元，用于统计所述目标文本所对应的文本长度；

判断单元，用于判断所述文本长度是否大于或者等于预设文本长度阈值；

执行单元，用于若所述文本长度大于或者等于所述预设文本长度阈值，执行所述将所述目标文本通过预设TTS方式生成音频的步骤。

在一实施例中，所述基于音素文本的虚拟人脸构建装置70还包括：

发出单元，用于若所述文本长度小于所述预设文本长度阈值，发出所述目标文本不符合预设要求的告警。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述基于音素文本的虚拟人脸构建装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

同时，上述基于音素文本的虚拟人脸构建装置中各个单元的划分和连接方式仅用于举例说明，在其他实施例中，可将基于音素文本的虚拟人脸构建装置按照需要划分为不同的单元，也可将基于音素文本的虚拟人脸构建装置中各单元采取不同的连接顺序和方式，以完成上述基于音素文本的虚拟人脸构建装置的全部或部分功能。

上述基于音素文本的虚拟人脸构建装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备，也可以是其他设备中的组件或者部件。

参阅图8，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504，存储器也可以为易失性计算机可读存储介质。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种上述基于音素文本的虚拟人脸构建方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种上述基于音素文本的虚拟人脸构建方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图8所示实施例一致，在此不再赘述。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：获取目标文本，并将所述目标文本通过预设TTS方式生成音频；将所述音频进行音素切分，以得到所述音频所对应的音素文本；将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征；根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸。

在一实施例中，所述处理器502在实现所述将所述音素文本输入至预设循环神经网络模型，以得到所述音素文本所对应的预设真人主播的人脸特征的步骤之前，还实现以下步骤：

获取预设真人主播所录制的训练视频样本，所述训练视频样本包括训练音频样本及所述预设真人主播的形象；

将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征；

将所述训练音素文本及所述训练真人主播的人脸特征输入预设循环神经网络模型，以对所述预设循环神经网络模型进行训练。

在一实施例中，所述处理器502在实现所述将所述训练音频样本进行音素切分，以得到训练音素文本，并从所述预设真人主播的形象中提取所述训练音素文本所对应的训练真人主播的人脸特征的步骤时，具体实现以下步骤：

获取所述训练视频样本所对应的训练音频样本；

根据时间先后顺序，将所述训练音频样本按照预设音素进行音素切分，以得到按照所述时间先后顺序所排列的训练音素文本序列，所述训练音素文本序列包含若干个训练音素文本元素；

按照所述时间先后顺序，从所述训练视频样本中获取所述训练音素文本元素所对应的视频帧，所述视频帧中包含所述预设真人主播的形象；

提取所述训练音素文本元素所对应的视频帧中所包含的所述预设真人主播的外形特征、表情特征及姿势特征，以得到所述训练音素文本所对应的训练真人主播的人脸特征。

在一实施例中，所述处理器502在实现所述根据所述预设真人主播的人脸特征，构建所述音素文本所对应的所述预设真人主播的虚拟人脸的步骤之后，还实现以下步骤：

获取所述音频所包含的所有所述音素文本及所述音素文本所对应的虚拟人脸；

按照所述音素文本在所述音频中的时间先后顺序，将所有所述虚拟人脸组合成视频帧序列；

将所述音频与所述视频帧序列组合以得到虚拟视频。

将所述目标文本通过其它预设TTS方式生成其它音频，其中，所述其它音频与所述音频为不同音频风格类型的音频；

将所述其它音频与所述视频帧序列组合以得到其它虚拟视频。

在一实施例中，所述处理器502在实现所述将所述目标文本通过预设TTS方式生成音频的步骤之前，还实现以下步骤：

统计所述目标文本所对应的文本长度；

判断所述文本长度是否大于或者等于预设文本长度阈值；

若所述文本长度大于或者等于所述预设文本长度阈值，执行所述将所述目标文本通过预设TTS方式生成音频的步骤。

在一实施例中，所述处理器502在实现所述若所述文本长度大于或者等于所述预设文本长度阈值，执行所述将所述目标文本通过预设TTS方式生成音频的步骤之后，还实现以下步骤：

若所述文本长度小于所述预设文本长度阈值，发出所述目标文本不符合预设要求的告警。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来完成，该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质，也可以为易失性计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的所述基于音素文本的虚拟人脸构建方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述，仅为本申请的具体实施方式，但本申请明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

18页详细技术资料下载

虚拟人脸构建方法、装置、计算机设备及计算机可读介质

相关技术

网友询问留言