电子装置及其控制方法

文档序号:144506 发布日期:2021-10-22 浏览:17次 >En<

阅读说明:本技术 电子装置及其控制方法 (Electronic device and control method thereof ) 是由 V.S.莱姆皮茨基 A.P.希谢亚 E.O.扎卡罗夫 E.A.伯科夫 于 2020-03-20 设计创作,主要内容包括:提供一种电子装置以及其控制方法。一种根据本公开的电子装置的控制方法包括:基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列,基于包括不同于所述多个用户的第一用户的谈话头部的至少一个图像以及所述至少一个图像中包括的第一界标信息而执行第二次学习以微调所述神经网络模型,以及使用执行了所述第一次学习和所述第二次学习的所述神经网络模型基于所述至少一个图像和预先存储的第二界标信息而获取包括所述第一用户的所述谈话头部的第一视频序列。(An electronic device and a control method thereof are provided. A control method of an electronic device according to the present disclosure includes: the method includes performing a first learning on a neural network model based on a plurality of learning video sequences including talking heads of a plurality of users to obtain a video sequence including the talking heads of random users, performing a second learning based on at least one image including a talking head of a first user different from the plurality of users and first landmark information included in the at least one image to fine-tune the neural network model, and obtaining a first video sequence including the talking head of the first user based on the at least one image and pre-stored second landmark information using the neural network model on which the first learning and the second learning are performed.)

电子装置及其控制方法

技术领域

本公开涉及一种电子装置以及所述电子装置的控制方法,并且例如涉及一种能够基于相对少量的图像而获取包括用户的谈话头部的视频序列的电子装置,以及其控制方法。

背景技术

最近,随着人工智能模型领域的发展,与能够生成表达用户谈话的模样的视频序列的谈话头部模型相关的技术引起了关注。

作为常规技术,存在通过使静态帧扭曲(warping)来实现包括谈话头部的视频序列的生成的技术,并且根据此项技术,可仅用少量图像,类似于一个图像来获取视频序列。然而,在基于扭曲的技术的情况下,指出了无法逼真地反映头部的移动或旋转等的限制。

作为常规技术,存在使用生成对抗网络(GAN)来实现包括谈话头部的视频序列的生成的技术,并且根据此项技术,可以获取具有高度真实性的视频序列。然而,到目前为止,在基于GAN的技术的情况下,指出了需要大量学习数据和长时间学习的限制。

因此,对使用学习数据中不包括的相对少量的用户的图像,并实现包括具有用户的高度真实性的谈话头部的视频序列的获取的技术的需求正在上升。特别地,存在对神经网络模型的结构和神经网络模型的学习方法的极大需求,所述结构用于高效且有效地对能够生成包括谈话头部的视频序列的神经网络模型进行训练。

发明内容

技术问题

本公开的实施例提供了能够用包括特定用户的谈话头部的少量图像获取逼真的视频序列的电子装置,以及其控制方法。

问题的解决方案

根据本公开的一个示例实施例,一种控制电子装置的方法包括:基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列,基于包括不同于多个用户的第一用户的谈话头部的至少一个图像以及至少一个图像中包括的第一界标信息而执行第二次学习以微调神经网络模型,以及使用执行了第一次学习和第二次学习的神经网络模型基于至少一个图像和预先存储的第二界标信息而获取包括第一用户的谈话头部的第一视频序列。

根据一个示例实施例,一种电子装置包括:存储器,所述存储器存储至少一个指令;以及处理器,所述处理器被配置为执行至少一个指令。通过执行至少一个指令,所述处理器被配置为:基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列,基于包括不同于多个用户的第一用户的谈话头部的至少一个图像以及至少一个图像中包括的第一界标信息而执行第二次学习以微调神经网络模型,以及使用执行了第一次学习和第二次学习的神经网络模型基于至少一个图像和预先存储的第二界标信息而获取包括第一用户的谈话头部的第一视频序列。

根据一个示例实施例,一种非暂时性计算机可读记录介质在上面记录有程序,所述程序在由电子装置的处理器执行时致使所述电子装置执行包括以下项的操作:基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列,基于包括不同于多个用户的第一用户的谈话头部的至少一个图像以及至少一个图像中包括的第一界标信息而执行第二次学习以微调神经网络模型,以及使用执行了第一次学习和第二次学习的神经网络模型基于至少一个图像和预先存储的第二界标信息而获取包括第一用户的谈话头部的第一视频序列。

附图说明

通过以下结合附图而进行的详细描述,可更清楚了解本公开的某些实施例的上述和其他方面、特征以及优点,在附图中:

图1是示出根据本公开的一个实施例的控制电子装置的示例方法的流程图;

图2是示出根据本公开的一个实施例的示例第二次学习过程的流程图;

图3是示出根据本公开的一个实施例的示例第一次学习过程的流程图;

图4是示出根据本公开的一个实施例的示例神经网络模型的示例架构以及通过嵌入器、生成器和鉴别器执行的示例操作的图;

图5是示出根据本公开的一个实施例的示例电子装置的示例配置的框图;并且

图6是示出根据本公开的一个实施例的示例电子装置的示例配置的框图。

具体实施方式

可以对本公开的各种示例实施例进行各种修改,并且可能存在各种类型的实施例。因此,将在附图中示出具体实施例,并且在公开内容中详细地描述实施例。然而,应注意,各种实施例不意图将本公开的范围限制于具体实施例,而是应将它们理解为包括本公开的实施例的各种修改、等同物和/或替代方案。同时,关于附图的描述,类似的部件可以用类似的附图标记表示。

在描述本公开时,如果确定对相关已知功能或部件的详细解释可能会不必要地使本公开的主旨模糊时,可以省略详细描述。

此外,以下实施例可以各种不同的形式进行修改,并且本公开的技术精神的范围不限于下文说明的示例实施例。

本公开中使用的术语用于解释本公开的具体实施例,并且不意图限制本公开的范围。另外,除非上下文明确说明,否则单数表达包括复数表达。

在本公开中,诸如“具有”、“可以具有”、“包括”和“可以包括”的表达应被理解为表示存在此类特性(例如:诸如数值、功能、运算和部件的元素),并且所述表述并不意图排除存在附加特性。

在本公开中,表达“A或B”、“A和/或B中的至少一个”或“A和/或B中的一个或多个”等等可以包括所列项目的所有可能组合。例如,“A或B”、“A和B中的至少一个”或“A或B中的至少一个”可以是指以下所有情况:(1)包括至少一个A、(2)包括至少一个B、或(3)包括至少一个A和至少一个B。

此外,在本公开中使用的诸如“第一”、“第二”等等的表达可以用于描述各种元件,而不管任何顺序和/或重要性程度。另外,此类表达可以用于将一个元件与另一元件区分开,并且不意图限制元件。

在本公开中关于一个元件(例如,第一元件)与另一个元件(例如,第二元件)“(操作地或连通地)耦接/(操作地或连通地)耦接到”或“连接到”所述另一个元件的描述应被理解为包括一个元件直接耦接到另一个元件的情况以及一个元件通过又一个元件(例如,第三元件)耦接到另一个元件的情况两者。

另一方面,关于一个元件(例如,第一元件)“直接耦接”或“直接连接”到另一个元件(例如,第二元件)的描述,在一个元件与另一个元件之间不存在又一个元件(例如,第三元件)。

此外,在本公开中使用的表达“被配置为”可以根据情况而与诸如“适合于”、“有能力”、“被设计为”、“适于”、“被制造为”和“能够做”等的其他表达互换使用。术语“被配置为”可能不一定例如是指装置在硬件方面“专门被设计为……”。

在一些情况下,表达“被配置为……的装置”可以例如是指装置“能够”与另一个装置或部件一起执行操作。例如,短语“被配置为执行A、B和C的处理器”可以例如是指用于执行对应操作的专用处理器(例如:嵌入式处理器),或者可以通过执行存储在存储器装置中的一个或多个软件程序来执行对应操作的通用处理器(例如:CPU或应用处理器)。然而,本公开不限于此。

在本公开的实施例中,‘模块’或‘零件’执行至少一个功能或操作,并且这些元件可以被实现为硬件或软件,或者被实现为硬件和软件的组合。另外,除了需要被实现为特定硬件的‘模块’或‘零件’之外,多个‘模块’或‘零件’可以被集成到至少一个模块中并且实现为至少一个处理器(未示出)。

可以在附图中示意性地示出各种元件和区域。因此,本公开的技术精神不受附图中所绘制的相对大小或间距的限制。

在下文中,将参考附图更详细地描述根据本公开的各种示例实施例。

图1是示出根据本公开的一个实施例的控制电子装置的示例方法的流程图。

根据本公开的电子装置可以使用神经网络模型来获取包括用户的谈话头部的视频序列。神经网络模型可以例如是指包括人工神经网络的人工智能模型,并且因此,术语神经网络模型可以与术语人工智能模型互换使用。例如,神经网络模型可以是包括嵌入器、生成器和鉴别器的生成对抗网络(GAN)模型,并且可以被配置为获取包括随机用户的谈话头部的视频序列。谈话头部可以例如是指表达用户谈话的模样的头部分。

参考图1,电子装置可以根据本公开来对神经网络模型执行第一次学习。例如,电子装置可以在操作S110处基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列。

第一次学习可以使用例如元学习方法来执行。元学习可以例如是指使机器学习过程自动化并由此使机器自身学习学习规则(元知识)的方法。例如,元学习可以例如是指学习一种学习方法。对于第一次学习,使用包括多个用户的谈话头部的多个学习视频序列,并且学习视频序列是指用于第一次学习的视频序列。

例如,根据本公开的第一次学习可以通过以下过程来执行:以与下文将描述的第二次学习类似的形式执行训练任务,并且学习一般化规则以获取包括随机用户的谈话头部的视频序列。在执行第一次学习过程时,可以学习根据本公开的嵌入器、生成器和鉴别器中的每一个的输入值和输出值以及多个参数等,并且基于这些,神经网络模型可以获取包括随机用户的谈话头部的视频序列。下文将参考图3和图4来更详细地描述第一次学习。

电子装置可以根据本公开来对神经网络模型执行第二次学习。例如,电子装置可以基于包括前述多个学习视频序列中不包括的用户(在下文被称为第一用户)的谈话头部的至少一个图像而执行第二次学习。例如,电子装置可以在操作S120处基于包括(多个学习视频序列中不包括的)第一用户的谈话头部的至少一个图像以及至少一个图像中包括的第一界标信息而执行第二次学习以微调神经网络模型。

第二次学习可以使用例如少样本学习方法来执行。少样本学习可以例如是指用少量数据有效地训练神经网络模型的方法。对于第二次学习,可以使用第一界标信息,并且界标信息可以例如是指有关图像中包括的用户的面部的主要特性的信息,并且第一界标信息可以是指包括第一用户的谈话头部的至少一个图像中包括的界标信息。

例如,根据本公开的第二次学习可以包括以下过程:在通过前述第一次学习学习到用于获取包括随机用户的谈话头部的视频序列的一般化规则之后,基于包括第一用户的谈话头部的至少一个图像而微调神经网络模型以针对第一用户实现个性化。在执行第二次学习时,可以微调根据本公开的生成器的参数集以与包括第一用户的谈话头部的至少一个图像匹配,并且基于此,神经网络模型可以获取包括第一用户的谈话头部的视频序列。下文将参考图2和图4来更详细地描述第二次学习。

当如上所述执行第一次学习和第二次学习时,电子装置可以在操作S130处使用执行了第一次学习和第二次学习的神经网络模型基于至少一个图像和预先存储的第二界标信息而获取包括第一用户的谈话头部的第一视频序列。

例如,电子装置可以将至少一个图像和第一界标信息输入到执行第一次学习的嵌入器中,并且获取第一嵌入矢量。第一嵌入矢量可以例如是由嵌入器获取的第N维度的矢量,并且可以包括有关第一用户的身份的信息。在获取了第一嵌入矢量时,电子装置可以将第一嵌入矢量和预先存储的第二界标信息输入到生成器中,并且获取包括第一用户的谈话头部的第一视频序列。第二界标信息可以例如是事先存储的从多个学习视频序列中包括的多个图像中获取的界标信息。

最终,根据本公开的电子装置可以例如基于多个学习视频序列而根据元学习方法来执行第一次学习,并且由此使神经网络模型获取包括随机用户的谈话头部的视频序列,并且基于作为多个学习视频序列中不包括的新用户的第一用户的至少一个图像而根据少样本学习方法来执行第二次学习,并且由此微调神经网络模型以针对第一用户实现个性化,并且使用执行了第一次学习和第二次学习的神经网络模型来获取包括第一用户的谈话头部的视频序列。

根据本公开的各种示例实施例,电子装置可以高效且有效地对能够生成包括谈话头部的视频序列的神经网络模型进行训练,并且据此,使用学习数据中不包括的用户的相对少量的图像,并且获取包括具有用户的高度真实性的谈话头部的视频序列。

在下文中,将更详细地描述根据本公开的各种示例实施例的第一次学习过程、第二次学习过程以及获取视频序列的过程。

图2是示出根据本公开的一个实施例的示例第二次学习过程的流程图。

将更详细地解释上文参考图1论述的第二次学习步骤S120中包括的多个操作。如上所述,根据本公开的第二次学习过程可以通过少样本学习方法来执行,并且可以例如是指用于获取包括第一次学习过程的学习视频序列中不包括的用户的谈话头部的视频序列的过程。如上所述,第一次学习是在执行第二次学习过程之前执行。然而,在下文中,为了更详细地解释根据本公开的主要特性,将首先解释第二次学习过程,然后解释第一次学习过程。

如图2所示,根据本公开的电子装置可以在操作S210处获取包括第一用户的谈话头部的至少一个图像。至少一个图像可以例如是1至32个图像。这仅仅是指根据本公开的第二次学习使用少量图像来执行,并且用于根据本公开的第二次学习的图像的数量不限于此。即使第二次学习是基于一个图像而执行,也可以获取包括第一用户的谈话头部的视频序列。随着用于第二次学习的图像的数量的增加,针对第一用户的个性化程度也可能会增加。

在获取了至少一个图像时,电子装置可以在操作S220处基于至少一个图像而获取第一界标信息。例如,界标信息可以包括有关图像中包括的头姿势的信息以及有关模拟物描述符的信息,并且除此之外,还可以包括与谈话头部中包括的各种特性相关的各种信息。根据本公开的一个实施例,界标可以使用例如预定义的颜色集格栅化为3通道的面部界标图像,以将特定界标与线段连接起来。

在获取了第一界标信息时,电子装置可以在操作S230处将至少一个图像和第一界标信息输入到执行了第一次学习的嵌入器中,并且获取包括有关第一用户的身份的信息的第一嵌入矢量。例如,第一嵌入矢量可以包括有关第一用户的谈话头部中包括的第一用户的独有特性的信息,但是就第一用户的头姿势而言可能是独立的。在第二次学习过程中,电子装置可以基于第一次学习中获取的嵌入器的参数而获取第一用户的第一嵌入矢量。

在获取了第一嵌入矢量时,电子装置可以在操作S240处基于第一嵌入矢量而微调生成器的参数集以与包括第一用户的谈话头部的至少一个图像匹配。微调生成器的参数集的特征可以例如是指微调生成器以及包括生成器的神经网络模型,并且这可以例如是指将生成器优化为与第一用户相对应。

例如,微调过程可以包括基于生成器的参数集和第一嵌入矢量而将生成器实例化的过程。可以例如通过诸如自适应实例归一化(AdaIN)的方法来执行实例化。

例如,在第二次学习中,根据本公开的神经网络模型不仅可以学习与针对多个用户一般化的特性相关的个体通用参数,而且可以学习个体专用参数。

下文将参考图4更详细地描述更详细的第二次学习方法,例如根据本公开的用于微调神经网络模型的少样本学习的详细方法。

图3是示出根据本公开的一个实施例的示例第一次学习过程的流程图。

在下文中,将更详细地解释参考图1解释的第一次学习步骤S110中包括的多个操作。如上所述,根据本公开的第一次学习过程可以通过元学习方法来执行,并且可以例如是指用于基于包括多个用户的谈话头部的多个学习视频序列而获取包括随机用户的谈话头部的视频序列的过程。如下文将更详细地描述的,在第一次学习过程中,可以通过对抗方法来学习神经网络模型的多个参数。

如图3所示,根据本公开的电子装置可以在操作S310处从多个学习视频序列中的包括第二用户的谈话头部的学习视频序列中获取至少一个学习图像。例如,第一次学习可以通过K样本学习方法来执行,所述K样本学习方法可以例如是指通过从多个学习视频序列中的一个学习视频序列中获取数量为K的随机图像帧来执行学习的方法。第二用户可以例如是指多个学习视频序列中包括的多个用户中的特定用户,并且可以与术语第一用户区分开,第一用户用于指代多个学习视频序列中不包括的用户。

在从包括第二用户的谈话头部的学习视频序列中获取了至少一个学习图像时,电子装置可以在操作S320处基于所获取的至少一个学习图像而获取第二用户的第三界标信息。第三界标信息可以例如是指包括第二用户的谈话头部的至少一个图像中包括的界标信息。例如,第三界标信息可以包括与第一界标信息相同的信息,因为所述第三界标信息是有关图像中包括的特定用户的面部的主要特性的信息,但是与第一界标信息的不同之处在于:所述第三界标信息是关于第二用户,而不是第一用户的界标信息。

在获取了第三界标信息时,电子装置可以在操作S330处将从包括第二用户的谈话头部的学习视频序列中获取的至少一个学习图像以及第三界标信息输入到嵌入器中,并且获取包括有关第二用户的身份的信息的第二嵌入矢量。第二嵌入矢量可以例如是指由嵌入器获取的第N维度的矢量,并且可以包括有关第二用户的身份的信息。例如,第二嵌入矢量可以例如是指通过将矢量与包括有关第一用户的身份的信息的第一嵌入矢量区分开来指定所述矢量。例如,第二嵌入矢量可以是对从来自学习视频序列的随机采样图像(例如,帧)中获取的嵌入矢量进行平均的结果。

在获取了第二嵌入矢量时,电子装置可以在操作S340处基于生成器的参数集和第二嵌入矢量而将生成器实例化。在生成器已被实例化时,电子装置可以在操作S350处将第三界标信息和第二嵌入矢量输入到生成器中,并且获取包括第二用户的谈话头部的第二视频序列。嵌入器的参数和生成器的参数可以被优化以最小化和/或减小目标函数,所述目标函数包括例如下文将更详细地描述的内容损失项、对抗项以及嵌入匹配项。

在获取了第二视频序列时,电子装置可以在操作S360处基于第二视频序列与学习视频序列之间的相似性程度而更新生成器的参数集和嵌入器的参数集。例如,电子装置可以通过鉴别器来获取针对第二视频序列的逼真度评分,并且基于所获取的逼真度评分而更新生成器的参数集、嵌入器的参数集以及鉴别器的参数集。例如,鉴别器的参数集可以被更新来提高针对学习视频序列的逼真度评分,并且降低针对第二视频序列的逼真度评分。

鉴别器可以例如是基于不同于第一嵌入矢量和第二嵌入矢量的第三嵌入矢量而获取逼真度评分的投影鉴别器。第三嵌入矢量可以例如是由鉴别器获取的第N维度的矢量,并且可以与由嵌入器获取的第一嵌入矢量和第二嵌入矢量区分开。例如,第三嵌入矢量可以与包括第二用户的谈话头部的至少一个图像中的每一个图像相对应,并且可以包括与针对第二视频序列的逼真度评分相关的信息。在执行第一次学习步骤时,可以对第二嵌入矢量与第三嵌入矢量之间的差异进行惩罚,并且可以在第二次学习步骤开始时基于第一嵌入矢量而初始化第三嵌入矢量。换句话说,在执行第一次学习步骤时,可以将第二嵌入矢量和第三嵌入矢量学习成彼此相似。另外,在第二次学习步骤开始时,可以在基于包括与第一次学习步骤的学习中不使用的第一用户的身份相关的信息的第一嵌入矢量而初始化第三嵌入矢量时使用所述第三嵌入矢量。

下文将参考图4更详细地描述更详细的第一次学习方法,例如根据本公开的用于对神经网络模型执行元学习的详细方法。

图4是示出根据本公开的一个实施例的神经网络模型的示例架构以及通过嵌入器、生成器和鉴别器执行的示例操作的图。

在下文中,在更详细地解释公开内容之前,将解释与本公开相关的若干常规技术,并且将解释根据本公开的用于克服常规技术的限制的神经网络模型。在解释神经网络模型时,将更详细地解释神经网络模型的架构,以及用于通过神经网络模型实现根据本公开的各种实施例的方法。

本公开涉及一种用于合成具有高度真实性(照片级)并被个性化的谈话头部模型,例如具有有关特定个体的语音表达和仿真的高度真实性的视频序列的方法。例如,本公开涉及一种用于在给出使模型的动画运行的一组面部界标时合成具有高度真实性并被个性化的头部图像的方法。这种方法实际可应用于远程呈现(telepresence),不仅包括视频会议和多玩家游戏,而且包括特效行业。

已知出于两个原因合成具有高度真实性的谈话头部序列是困难的。首先,人类头具有较高的光度、几何和动态复杂性。这种复杂性可能不仅出现在存在大量访问建模方法的面部建模中,而且出现在口腔、头发和衣着建模中。关于复杂性的第二个原因是人类视觉系统对人类头的外貌建模中可能会出现的微小错误的敏锐度(所谓的恐怖谷效应[参考文献24],在下文中,在以下有关图6的解释中将阐述解释本公开时提及的参考文献的列表)。由于对建模错误的容忍度如上所述是较低的,也即,由于人类视觉系统是非常敏锐的,因此即使谈话头部序列与人类谈话的实际面部存在微小差异,用户还是可能会有强烈的排斥感,并且在此情况下,使用不逼真的化身反而可能会给用户带来更良好的印象。因此,在许多当前的远程会议系统中,正在使用类似于不逼真的卡通的化身。

作为用于克服前述任务的常规技术,有一些方法通过使单个或多个静态帧扭曲来合成连接的头部序列。使用传统扭曲算法[参考文献5,28]和机器学习(包括深度学习)[参考文献11,29,40]合成的所有扭曲场景都可以用于这个目的。基于扭曲的系统可以从诸如一个图像的少量图像生成谈话头部序列,但是在没有人工处理的情况下处理去遮挡、运算量、头的旋转等方面具有限制性。

作为常规技术,存在使用经过对抗训练的深度卷积网络(ConvNet)来直接(不经过扭曲)合成视频帧的方法[参考文献16,20,37]。然而,为了使这种方法取得成功,应对大规模网络进行训练,其中生成器和鉴别器中的每一者都具有关于谈话头部的数千万个参数。因此,为了根据这个系统生成新近个性化的谈话头部模型,不仅需要长度为几分钟[参考文献20,37]的视频或照片[参考文献16]的庞大数据集,而且需要几个小时的GPU训练。可以说,这种训练数据和训练时间对于应用于大多数实际远程呈现场景而言是过分的,在大多数实际远程呈现场景中需要让用户通过尽可能少的努力来生成个性化的头部模型,但是这种需求低于使用繁复的物理和光学建模构建具有高度真实性的头模型的系统[参考文献1]的需求。

作为常规技术,存在对人体面部的外貌进行统计建模的方法[参考文献6],并且具体地,存在使用经典技术的方法[参考文献35],并且最近,存在使用深度学习的方法[参考文献22,25]。面部建模与谈话头部建模具有高度相关性,但是谈话头部建模包括对头发、颈部、口腔以及往往诸如肩部/上身的非面部部分进行建模,并且因此,面部建模和谈话头部建模是不相同的。这种非面部部分可能无法通过简单地扩展面部建模方法来处理,并且这是因为非面部部分在配准方面不太适宜,并且往往具有比面部部分更高的可变性和复杂性。原则上,可以将面部建模[参考文献35]或唇部建模[参考文献31]的结果拼接到头部视频。然而,在以下这种方法的情况下,在最终视频中可能无法完全控制头的旋转,并且因此,可能无法提供真正的谈话头部系统。

如果使用作为常规技术的与模型无关的元学习(MAML)[参考文献10],则使用元学习来获取图像分类器的初始状态,并且基于此,在存在很少的训练样本的情况下,图像分类器可以灵活地转换到未见过的分类的图像分类器。这种方法可以通过根据本公开的方法来使用,但是在其实现方式上,该种方法是不同的。同时,存在用于组合对抗训练和元学习的各种方法。数据增强GAN[参考文献3]、元GAN[参考文献43]和对抗元学习[参考文献41]可以在元学习步骤中使用经过对抗训练的网络来生成关于未见过的分类的附加图像。此类方法主要集中于提高少样本分类性能,但是根据本公开的方法处理使用对抗目标对图像生成模型进行的训练。总之,在本公开中,可以将对抗微调引入到元学习框架中。可以在生成器的初始状态之后应用微调,并且可以通过元学习步骤来获取鉴别器网络。

作为常规技术,存在最近的与文本-语音生成相关的两种方法[参考文献4,18]。所述方法的设置(生成模型的少样本学习)和一些部件(独立嵌入器网络,微调生成器)也可以用于本公开中。然而,本公开至少在以下方面不同于常规技术:其应用领域、对抗学习的使用、元学习过程的具体应用以及各种实现方式的细节。

根据本公开,提供了一种用于从少数照片生成谈话头部模型的方法(所谓的少样本学习)。根据本公开的方法可以用单张照片生成合理的结果(单样本学习),但是如果添加了少数照片,可以进一步提高个性化的程度。以与参考文献16、20和37类似的方式,根据本公开的通过神经网络模型生成的谈话头部可以通过深度ConvNet来生成,所述深度ConvNet通过一系列卷积运算而不是扭曲以直接方式合成视频帧。因此,根据本公开生成的谈话头部可以处理超出基于扭曲的系统的能力的姿势的大变换。

少样本学习能力可以通过针对与彼此不同的具有各种外貌的多个用户相对应的谈话头部视频的大型语料库进行广泛范围的预训练(元学习)来获取。在根据本公开的元学习过程中,根据本公开的方法可以学习模拟少样本学习任务,并且将界标位置收敛于某一照片,所述照片具有高度真实性并且基于少量训练集而被个性化。之后,新用户的少量图像可能会给事先通过大容量生成器和元学习训练的鉴别器带来新的对抗性学习问题。新的对抗性学习问题可以收敛于在一些训练步骤之后生成具有高度真实性并被个性化的图像的状态。

根据本公开的神经网络模型的架构可以根据图像生成建模的最新发展使用至少一些结果来实现。例如,根据本公开的架构可以使用对抗训练[参考文献12],以及例如用于包括投影鉴别器[参考文献32]的条件鉴别器[参考文献23]的方法。元学习步骤可以使用例如被示出为可用于大规模条件生成任务[参考文献2,34]的自适应实例归一化(AdaIN)机制[参考文献14]。因此,根据本公开,可以提高合成图像的品质,并且可以从合成图像消除和/或减少恐怖谷效应。

根据本公开的元学习步骤可以假设数量为M的视频序列(例如,学习视频序列)的可用性,所述视频序列包括彼此不同的多个用户的谈话头部。xi指示第i个视频序列,并且xi(t)指示视频序列的第t个视频帧。不仅在元学习期间而且在测试时间期间,都可以假设,面部界标的位置可用于所有帧(例如,标准面部对齐码[参考文献7]可以用于获得面部界标的位置)。界标可以使用预定义的颜色集格栅化为3通道图像(例如,面部界标图像),以将特定界标与线段连接起来。yi(t)指示相对于xi(t)计算的所得的面部界标图像。

如图4所示,根据本公开的元学习架构可以包括:嵌入器网络,所述嵌入器网络将头部图像(具有估计的面部界标)映射到包括与姿势无关的信息的嵌入矢量;以及生成器网络,所述生成器网络通过一组卷积层将输入面部界标映射到输出帧,该组卷积层通过嵌入矢量经由自适应实例归一化(AdaIN)来调制。一般而言,在元学习步骤期间,从同一个视频中获取的帧集可以通过嵌入器网络,并且可以对所得的嵌入进行平均并将其用于预测生成器网络的自适应参数。之后,在另一个帧的界标通过生成器网络之后生成的图像可以与真实状况(ground truth)进行比较。目标函数可以包括感知损失和对抗损失。对抗损失可以通过条件投影鉴别器网络来实现。下文将更详细地描述根据本公开的元学习架构以及与之对应的操作。

在根据本公开的元学习操作中,可以对以下三个网络(通常被称为对抗网络或生成对抗网络(GAN))进行训练(参考图4)。

1.嵌入器E(xi(S),yi(S);φ).嵌入器可以被配置为获取视频帧xi(S),以及相关联的面部界标图像yi(S),并且将这些输入映射到嵌入N维矢量视频帧xi(S)可以从学习视频序列,也即,多个学习视频序列中获取,其中谈话头部模型包括与将来将会合成的随机用户不同的多个用户的谈话头部图像。φ指示在元学习步骤期间学习的嵌入器参数。一般而言,针对嵌入器E的元学习步骤的目的是学习φ,使得嵌入N维矢量包括视频特定信息(诸如人类的身份),所述视频特定信息不会随着特定帧中的姿势和模拟物而变化。由嵌入器计算的嵌入N维矢量被抄写为

2.生成器生成器可以被配置为针对由嵌入器E计算的与之对应的嵌入N维矢量获取未见过的视频帧xi(t)和面部界标图像yi(t),并且生成合成视频帧可以对生成器G进行训练以最大化和/或增加输出(例如,合成视频帧)与对应的真实状况帧之间的相似性。生成器G的参数可以被分为两组,例如,个人通用参数ψ和个人专用参数在元学习步骤期间,个人专用参数可以在元学习的微调步骤(下文更详细地描述)期间使用可训练的投影矩阵从嵌入N维矢量中进行预测,而个人通用参数ψ是直接训练的。

3.鉴别器D(xi(t),yi(t);i;θ,W,wo,b).鉴别器可以被配置为获取输入视频帧xi(t)、相关联的面部界标图像yi(t)以及学习视频序列的索引i,并且计算逼真度评分r(单个标量)。θ,W,wo,b指示在元学习步骤期间学习的鉴别器参数。鉴别器可以包括卷积网络(ConvNet)部分V(xi(t),yi(t);θ),所述部分被配置为将输入视频帧xi(t)和相关联的面部界标图像yi(t)映射到N维矢量。之后,可以由鉴别器基于N维矢量和鉴别器参数W,w0,b而计算逼真度评分r。逼真度评分r指示输入视频帧xi(t)是否是第i个学习视频序列的实际(例如,非合成)视频帧,以及输入视频帧xi(t)是否与相关联的面部界标图像yi(t)匹配。输入到鉴别器中的视频帧xi(t)可以是合成视频帧但是鉴别器并不知道输入视频帧是合成视频帧的事实。

在示例方法的元学习操作期间,所有三个网络的参数都可以通过对抗方法来训练。这可以通过模拟K样本学习的阶段来执行。K可以例如是8,但是不限于此,并且根据元学习步骤中使用的硬件的性能,或通过经过元学习的GAN生成的图像的准确性以及这种GAN的元学习的目的,K可以被选择为大于或小于8。在每个阶段中,可以随机地提取学习视频序列i以及所述序列中的单个真实状况视频帧xi(t)。除了xi(t)之外,可以从同一个学习视频序列i提取数量为K(s1,s2,…,sK)的附加视频帧。之后,在嵌入器E处,可以对相对于数量为K的附加视频帧计算的嵌入N维矢量进行平均,并且因此,可以相对于学习视频序列i计算嵌入N维矢量

在生成器G处,可以计算基于所计算的嵌入N维矢量ei而合成的视频帧(例如,第t个帧的重建):

嵌入器E和生成器G的参数可以被优化以最小化和/或减小包括内容损失项LCNT、对抗项LADV和嵌入匹配项LMCH的目标函数:

L(φ,ψ,P,θ,W,w0,b)=LCNT(φ,ψ,P)+LADV(φ,ψ,P,θ,W,w0,b)+LMCH(φ,W) (3)

在公式(3)中,内容损失项LCNT可以使用感知相似性度量来测量真实状况视频帧xi(t)与合成视频帧之间的差距[参考文献19]。作为一个实例,可以使用感知相似性度量,其对应于与相对于ILSVRC分类训练的VGG19[参考文献30]网络以及被训练来验证面部的VGGFace[参考文献27]网络。然而,从常规技术中已知的任何感知相似性度量都可以用于本公开中,并且因此,本公开不限于前述实例。在VGG19和VGGFace网络用作感知相似度度量的情况下,内容损失项LCNT可以被计算为网络的特征中的L1损失的加权和。

公式(3)中的对抗项LADV可以与以下项相对应:由鉴别器D计算的逼真度评分r,所述逼真度评分r需要被最大化和/或增加,以及原本作为使用鉴别器计算的感知相似性度量的特征匹配项LFM[参考文献38](这可以提高元学习的稳定性):

根据投影鉴别器访问方法[参考文献32],矩阵w的列可以包括与单独视频相对应的嵌入N维矢量。鉴别器D可以首先将(例如,输入视频帧xi(t)、相关联的面部界标图像yi(t)以及学习视频序列的索引i)输入到N维矢量V(xi(t),yi(t);θ),并且如下计算逼真度评分r:

在此处,Wi指示矩阵W的第i列。同时,由于W0和b不取决于视频索引,因此此类项可以与的一般程度的真实性以及与面部界标图像yi(t)的相容性相对应。

因此,在根据本公开的方法中,可以存在两种类型的嵌入N维矢量,例如,由嵌入器E计算的矢量以及鉴别器D处与矩阵W的列相对应的矢量。以上公式(3)中的匹配项LMCH(φ,W)可以对与Wi之间的L1差异进行惩罚,并且提高两种类型的嵌入N维矢量的相似性。

随着嵌入器E的参数φ和生成器G的参数ψ的更新,也可以更新鉴别器D的参数θ,W,w0,b。更新可以通过如下的合页损失目标函数(6)的最小化和/或减小来驱动,并且这可以促进针对实际(例如,非虚假)视频帧xi(t)的逼真度评分r的增加以及针对合成(例如,虚假)视频帧的所述逼真度评分的减小:

因此,根据公式(6),根据本公开的神经网络模型可以将虚假实例与实际实例xi(t)的真实性程度进行比较,并且更新鉴别器参数,并由此相应地使评分小于-1和大于+1。元学习可以通过以下方式来进行:交替地对嵌入器E和生成器G执行更新,从而最小化损失LCNT、LADV以及LMCH,并且对鉴别器D执行更新,从而最小化损失LDSC

在元学习收敛时,根据本公开的神经网络模型可以在元学习操作期间另外地被训练来针对未见过的新用户合成谈话头部模型。合成可能以面部界标图像为条件。根据本公开的神经网络模型可以通过少样本方法来训练,同时假设为面部界标图像,针对所述面部界标图像,提供了数量为T(x(1)、x(2)、...、x(T))的训练图像(例如,T数量个相同视频中的帧),并且y(1)、y(2)、...、y(T)与所述训练图像相对应。在此处,帧数量T不必与元学习步骤中使用的K相同。根据本公开的神经网络模型可以基于单张照片(单样本学习,T=1)而生成合理的结果,并且如果另外添加了几张照片(少样本学习,T>1),则可以进一步提高个性化的程度。例如,T可以覆盖例如从1至32的范围。然而,本公开不限于此,并且根据用于少样本学习的硬件的性能、通过在元学习之后学习的GAN少样本生成的图像的准确性以及经过元学习的GAN的少样本学习(例如,微调)的目的,T可以各种方式进行选择。

经过元学习的嵌入器E可以用于计算新个体的嵌入N维矢量在少样本学习中将合成所述新个体的谈话头部。例如,的计算可以根据以下来执行:

在元学习步骤中,可以再次使用先前获取的嵌入器E的参数φ。响应于新的界标图像而生成新的合成帧的简单方法是不仅使用投影矩阵P而且使用所计算的嵌入N维矢量和生成器G的经过元学习的参数ψ来应用生成器G。然而,在这种情况下,已发现,虽然合成的谈话头部图像看起来是可信的和逼真的,但是对于旨在于合成个性化的谈话头部图像的大多数应用而言,在不可接受的程度上存在大量身份差距。

此类身份差距可以根据本公开通过微调过程来克服。微调过程可能看起来好像是元学习的简化版本,所述元学习基于单个视频序列和较少数量的帧而执行。例如,微调过程可以包括以下部件:

1.生成器现可以由生成器G'(yy(t);ψ,ψ′)代替。就像在元学习步骤中一样,生成器G'可以被配置为获取面部界标图像y(t)并且生成合成视频帧重要的是,当前转录为ψ′的个体专用生成器参数可以在少样本学习步骤中连同个体通用参数ψ一起直接进行优化。在元学习步骤中获取的嵌入N维矢量和投影矩阵P仍然可以用于初始化个体专用生成器参数ψ′(例如,)。

2.在元学习操作中,鉴别器D'(x(t),y(t);θ,w′,b)可以被配置为像先前一样计算逼真度评分r。鉴别器D’的ConvNet部分v(x(r),y(t);θ)的参数θ和偏差b可以被初始化为在元学习步骤中获取的相同的参数θ和b。下文将解释初始化w′。

在微调步骤期间,可以与元学习步骤类似的方式获取鉴别器D’的逼真度评分r:

如从公式(5)和(8)的比较中可以看到的,矢量w′在微调步骤中的作用可能与矢量Wi+w0在元学习步骤中的作用相同。在少样本学习步骤中的w′的初始化过程中,Wi的类似量可能无法用于新个体。这是因为新个体的视频帧并未用于元学习训练数据集中。然而,元学习过程中的匹配项LMCH可以确保鉴别器的嵌入N维矢量与由嵌入器计算的嵌入N维矢量之间的相似性。因此,w′可以在少样本学习步骤中被初始化为w0的总和。

当设定了新的学习问题时,微调步骤的损失函数可以直接从元学习变量推导。因此,生成器G’的个体专用参数ψ′和个体通用参数ψ可以被优化以最小化以下简化的目标函数:

L′(ψ,ψ′,θ,w′,b)=L′CNT(ψ,ψ′)+L′ADV(ψ,ψ′,θ,w′,b) (9)

在此处,t∈{1...T}是训练样本的数量。

鉴别器的参数θ、wNEW和b可以通过像(6)中那样最小化相同的合页损失来优化:

在大多数情形下,经过微调的生成器可以提供对于学习视频序列而言更适宜的结果。通过元学习步骤初始化所有参数也是很重要的。正如通过实验所发现的,在这种初始化中,首先输入具有极高程度真实性的谈话头部,并且由此使根据本公开的神经网络模型相对于各种头部姿势和面部表情外推并预测具有高度真实性的图像。

生成器网络可以是基于由Johnson等人[参考文献19]提出的图像到图像的转换架构,但是下采样层和上采样层可以通过实例归一化[参考文献2,15,36]由剩余块代替。个体专用参数根据相关技术领域中已知的自适应实例归一化技术[参考文献14]作为实例归一化层的仿射系数来发挥作用,但是仍然可以使用对面部界标图像yi(t)进行编码的下采样块的常规(非自适应)实例归一化层。

可以使用嵌入器E(xi(s),yi(s);φ)以及包括剩余下采样块(与生成器中使用的那些相同,但是不包括归一化层)的鉴别器相似网络的ConvNet部分V(xi(t),yi(t);θ)。鉴别器网络与嵌入器相比较在其末端上具有额外的剩余块,并且它们可以4x4空间分辨率进行操作。为了在两个网络中获取矢量化的输出,针对空间维度的全局累加池化可以在修正线性单元(ReLU)之前执行。

频谱归一化[参考文献33]可以用于所有网络中的所有卷积层和完全连接的层。另外,可以使用自注意块[参考文献2,42]。所述自注意块可以32x32空间分辨率插入网络的所有下采样部分中,并且以64x64分辨率插入生成器的上采样部分中。

为了计算LCNT,可以在用于实际图像和虚假图像的Conv1,6,11,20,29VGG19层与Conv1,6,11,18,25VGGFace层的激活之间评估L1损失。在VGG19的情况下,具有某一权重的损失是1·10-2,并且在VGGFace项的情况下,可以求和得到2·10-3。对于两个网络,可以使用经过caffe训练的版本[参考文献17]。在LFM的情况下,可以使用在每个鉴别器网络的剩余块之后进行的激活以及等同于1·101的权重。最后,在LMCH的情况下,权重可以被设置为8·101

卷积层中的通道的最小数量可以例如被设置为64,并且不仅是嵌入矢量N的大小而且通道的最大数量都可以例如被设置为512。总之,嵌入器可以具有一千五百万个参数,并且生成器可以具有三千八百万个参数。鉴别器的ConvNet部分可以具有两千万个参数。使用Adam[参考文献21],可以优化网络。在鉴别器的情况下,嵌入器和生成器网络的学习率可以被设置为5 x 10-5和2 x 10-4,并且可以针对前者中的每一者为后者执行两个更新步骤[参考文献42]。

本公开不意图受前述访问方法、值和细节的限制,并且这是因为相关技术领域的普通技术人员不需要任何进步努力就可以想出前述访问方法、值和细节的修改和修正。因此,假设了此类修改和修正在权利要求的范围内。

可以根据本公开提供一种使用生成器网络来合成随机个体的谈话头部序列的方法,所述生成器网络被配置为用电子装置中的某一个体的谈话头部序列的至少一个图像对头姿势和模拟物描述符进行映射。所述方法可以包括:执行生成器网络的少样本学习,所述生成器网络相对于多个M视频序列进行了元学习,所述多个M视频序列包括不同于随机个体的人的谈话头部图像;以及在实现经过微调的生成器网络、头姿势和模拟物描述符yNEW(t)之前使用未见过的序列来合成某一个体的谈话头部序列。

执行生成器网络的少样本学习(所述生成器网络相对于多个M视频序列进行了元学习,所述多个M视频序列包括不同于随机个体的人的谈话头部图像)可以包括以下项:接收来自将合成谈话头部序列的某一个体的帧的单个序列的至少一个视频帧x′(t);针对至少一个视频帧x′(t)估计头姿势和模拟物描述符y′(t);使用经过元学习的嵌入器网络基于至少一个视频帧x′(t)而计算表征个体专用信息的嵌入N维矢量基于经过元学习的生成器网络的参数集和嵌入N维矢量而将生成器网络实例化;以及基于提供给生成器网络的头姿势和模拟物描述符y′(t)而微调生成器网络的参数以与至少一个视频帧x′(t)匹配。经过元学习的生成器网络的参数集可以是少样本学习步骤的输入,并且经过微调的生成器网络的参数集可以是少样本学习步骤的输出。

头姿势以及模拟物描述符y′(t)和yNEW(t)可以包括但不限于面部界标。头姿势和模拟物描述符y′(t)可以与至少一个视频帧x′(t)一起使用来计算嵌入N维矢量

生成器网络和嵌入器网络的元学习可以在K样本学习阶段中执行,并且在此处,K是预定义的整数,并且每个阶段可以包括以下项:接收来自多个M视频序列中的某一视频序列的至少一个视频帧x(t),所述多个M视频序列包括不同于随机个体的人的谈话头部图像;针对至少一个视频帧x(t)估计头姿势和模拟物描述符y(t);基于至少一个视频帧x(t)而计算表征个体专用信息的嵌入N维矢量基于当前生成器网络的参数集和嵌入N维矢量而将生成器网络实例化;以及基于生成器网络针对所估计的头姿势和模拟物描述符y(t)实现的输出以及至少一个视频帧x(t)的序列之间的匹配而更新生成器网络的参数集和嵌入器网络的参数集。

生成器网络和嵌入器网络可以例如是卷积网络。在实例化步骤期间,被实例化的生成器网络内部的归一化系数可以基于由嵌入器网络计算的嵌入N维矢量而计算。鉴别器网络可以与生成器网络和嵌入器网络一起进行元学习,并且所述方法还可以包括:使用鉴别器网络来计算对生成器网络的输出的逼真度评分r,并且基于逼真度评分r而更新生成器网络和嵌入器网络的参数;以及更新鉴别器网络的参数来增加针对多个M视频序列中的某一视频帧的逼真度评分r并且减小针对生成器网络的输出(例如,合成图像)的逼真度评分r。

鉴别器网络可以是投影鉴别器网络,所述投影鉴别器网络被配置为使用嵌入N维矢量w来计算对生成器网络的输出的逼真度评分r,所述嵌入N维矢量w不同于相对于多个M视频序列中的每个视频序列训练的嵌入N维矢量可以对嵌入N维矢量与嵌入N维矢量w之间的差异进行惩罚,并且可以在微调步骤期间使用投影鉴别器,并且可以在微调开始时将投影鉴别器的嵌入N维矢量w初始化为嵌入N维矢量

本公开的前述各种实施例可以由电子装置执行。下文将参考图5和图6更详细地描述根据本公开的电子装置。

图5是示出根据本公开的一个实施例的示例电子装置的示例配置的框图。

如图5所示,根据本公开的电子装置100可以包括存储器110和处理器(例如,包括处理电路)120。

存储器110可以存储有关电子装置100的至少一个指令。另外,存储器110可以存储操作系统(O/S)以驱动电子装置100。此外,存储器110可以存储各种软件程序或应用程序以使电子装置100根据本公开的各种实施例来操作。此外,存储器110可以包括半导体存储器(诸如闪存)、或磁性存储介质(诸如硬盘)。

例如,在存储器110中,可以存储用于使电子装置100根据本公开的各种实施例来操作的各种类型的软件模块,并且处理器120可以包括各种处理电路并且通过执行存储在存储器110中的各种类型的软件模块来控制电子装置100的操作。例如,存储器110可以被处理器120访问,并且可以执行由处理器120执行的对数据的读取/记录/校正/删除/更新等。

在本公开中,术语存储器110可以包括存储器110、处理器120内部的ROM(未示出)和RAM(未示出),和/或安装在电子装置100上的存储卡(未示出)(例如,微型SD卡、记忆棒)。

例如,在根据本公开的各种实施例中,在存储器110中,可以存储根据本公开的神经网络模型,以及被实现为能够使用神经网络模型来实现本公开的各种实施例的模块。另外,在存储器110中,可以存储与用于根据本公开执行第一次学习和第二次学习的算法相关的信息。此外,在存储器110中,可以存储根据本公开的多个视频序列、各种图像、界标信息以及有关嵌入器的参数、生成器的参数和鉴别器的参数的信息。

除了上述之外,用于实现本公开的目的的一定范围内的各种必要信息也可以存储在存储器110中,并且存储在存储器110中的信息可以从服务器或外部装置接收,或者在由用户输入时进行更新。

处理器120可以包括各种处理电路并且控制电子装置100的总体操作。例如,处理器120可以与电子装置100的包括前述存储器的各部件进行连接,并且可以通过执行存储在前述存储器110中的至少一个指令来控制电子装置100的总体操作。

处理器120可以通过各种方式来实现。例如,处理器120可以包括各种处理电路,例如但不限于以下项中的至少一个:专用集成电路(ASIC)、嵌入式处理器、微处理器、硬件控制逻辑、硬件有限状态机(FSM)、数字信号处理器(DSP)、CPU、专用处理器等等。在本公开中,术语处理器120可以包括,例如但不限于:中央处理单元(CPU)、图形处理单元(GPU)、主处理单元(MPU)等。

例如,在根据本公开的各种实施例中,处理器120可以根据元学习方法基于多个学习视频序列而执行第一次学习,并且使神经网络模型获取包括随机用户的谈话头部的视频序列。处理器120可以根据少样本学习方法基于作为多个学习视频序列中不包括的新用户的第一用户的至少一个图像而执行第二次学习,并且微调神经网络模型以针对第一用户实现个性化,并且使用执行了第一次学习和第二次学习的神经网络模型来获取包括第一用户的谈话头部的视频序列。由于上文参考图1、图2、图3、图4和图5描述了根据本公开的各种实施例,因此在此处将不重复重叠的说明。

图6是示出根据本公开的一个实施例的示例电子装置的示例配置的框图。

如图6所示,根据本公开的电子装置100可以不仅包括存储器110和处理器120,而且还包括通信器(例如,包括通信电路)130、图像传感器(未示出)、输出器(例如,包括输出电路)140以及输入器(例如,包括输入电路)150。然而,此类部件仅仅是实例,并且在实现本公开时,除了此类部件之外可以添加新的部件,或者可以省略一些部件。

通信器130可以包括各种通信电路,并且执行与外部装置(例如,包括服务器)的通信。例如,处理器120可以从通过通信器130连接的外部装置接收各种数据或信息,并且将各种数据或信息传输到外部装置。通信器130可以包括各种通信模块中包括的各种通信电路,所述通信模块例如是但不限于以下项中的至少一个:WiFi模块、蓝牙模块、无线通信模块、NFC模块等等。

例如,在根据本公开的各种实施例中,处理器120可以通过通信器130从外部装置接收包括第一用户的谈话头部的至少一个图像。处理器120可以通过通信器130从外部装置接收以下项中的至少一些:与用于根据本公开执行第一次学习和第二次学习的算法相关的信息、根据本公开的多个视频序列、各种图像、界标信息以及有关嵌入器的参数、生成器的参数和鉴别器的参数的信息。处理器120可以控制通信器130以将根据本公开获取的第一视频序列传输到外部装置。

输出器140可以包括各种输出电路,并且处理器120可以输出电子装置100通过输出器140可以执行的各种功能。另外,输出器140可以包括例如但不限于以下项中的至少一个:显示器、扬声器、指示器等等。

例如,在根据本公开的各种实施例中,处理器120可以根据本公开的各种实施例来控制显示器以显示视频序列或图像。例如,当通过前述过程获取了包括第一用户的谈话头部的第一视频序列时,处理器120可以控制显示器以显示所获取的第一视频序列。

输入器150可以包括各种输入电路,并且处理器120可以通过输入器150接收用户指令以控制电子装置100的操作。例如,输入器150可以包括包含输入电路的各种部件,例如但不限于:麦克风、相机、信号接收器等。输入器150可以被实现为作为触摸屏包括在显示器中的形式。

例如,在根据本公开的各种实施例中,相机可以包括图像传感器,并且将通过透镜进入的光转换为电子图像信号。处理器120可以通过相机获取对象的原始图像。图像传感器可以是电荷耦合器件(CCD)传感器、或互补金属氧化物半导体(CMOS)传感器,但是并不限于此。

例如,根据本公开的一个实施例,处理器120可以通过相机获取包括第一用户的谈话头部的至少一个图像。在获取了包括第一用户的谈话头部的至少一个图像时,可以将所获取的至少一个图像存储在存储器110中。存储在存储器110中的至少一个图像可以用于前述神经网络模型通过处理器120的控制进行的第一次学习或第二次学习中的至少一个,并且还可以用于获取第一视频序列。

根据前述实施例控制电子装置100的方法可以被实现为程序并且提供到电子装置100。例如,可以提供包括电子装置100的控制方法的程序,同时将所述程序存储在非暂时性计算机可读介质中。

例如,在包括执行电子装置100的控制方法的程序的计算机可读记录介质中,电子装置100的控制方法可以包括:基于包括多个用户的谈话头部的多个学习视频序列而对神经网络模型执行第一次学习以获取包括随机用户的谈话头部的视频序列,基于包括不同于多个用户的第一用户的谈话头部的至少一个图像以及至少一个图像中包括的第一界标信息而执行第二次学习以微调神经网络模型,以及使用执行了第一次学习和第二次学习的神经网络模型基于至少一个图像和预先存储的第二界标信息而获取包括第一用户的谈话头部的第一视频序列。

在上文中,示意性地解释了根据本公开的电子装置100,以及包括执行电子装置100的控制方法的程序的计算机可读记录介质,但是这仅仅是为了省略重叠的解释,并且有关电子装置100的控制方法的各种实施例都可以应用于根据本公开的电子装置100,以及包括执行电子装置100的控制方法的程序的计算机可读记录介质。

根据本公开的前述各种实施例,电子装置可以高效且有效地对能够生成包括谈话头部的视频序列的神经网络模型进行训练,并且据此,使用学习数据中不包括的用户的少量图像,并且获取包括具有用户的高度真实性的谈话头部的视频序列。另外,根据本公开,基本上从所生成的视频序列中消除了恐怖谷效应,并且可以提供具有高品质的视频序列,所述视频序列包括具有高度真实性并针对特定用户进行优化的谈话头部。

根据本公开的电子装置100可以是电子装置100,例如但不限于:智能手机、平板计算机、PC、膝上型计算机、或例如AR眼镜、VR眼镜、智能手表等。然而,电子装置100并不限于此,并且能够根据本公开执行包括第一次学习、第二次学习以及视频序列的获取的过程的任何电子装置都可以被包括在根据本公开的电子装置100中。

可以基于前述公开内容而实现提供具有高度真实性的化身的各种方法、装置和系统。可以基于前述公开内容而产生使用模型/网络的不同方法、装置和系统,所述模型/网络被训练来提供具有高度真实性的谈话头部模型和/或具有高度真实性的化身的少样本学习。本公开的各种示例实施例可以被实现为非暂时性机器可读介质,所述非暂时性机器可读介质包括计算机可执行指令,所述计算机可执行指令在被执行时,在指令被装置的处理单位执行时致使电子装置执行使用对抗网络合成随机个体的谈话头部模型的公开方法。

本公开可以被实现为一种用于使用对抗网络合成随机个体的谈话头部模型的系统。在这种系统中,方法的操作可以被实现为不同的功能单元、电路和/或处理器120。然而,在不脱离所解释的实施例的情况下,在不同的功能单元、电路和/或处理器120中可以使用任何适宜的功能分散。

本公开的各种示例实施例可以被实现为包括硬件、软件、固件或其任何组合的任何适宜的形式。实施例可以至少部分地被实现为在至少一个数据处理器120和/或数字信号处理器120上选择性地执行的计算机软件。任何实施例的元件和部件可以通过任何适宜的方法物理地、功能地和逻辑地实现。实际上,功能可以被实现为单个单元、多个单元或另一个通用单元的一部分。

本公开的实施例的前述描述仅仅是实例,并且配置和实现方式的各种修改应被视为在本公开的包括所附权利要求的范围内。例如,本公开的实施例通常相对于示例方法进行解释,但是这种解释被提供为实例。尽管使用特定于结构特性或方法操作的语言说明了本公开,但是应理解,所附权利要求不一定限于前述特定特性或操作。而是,前述特定特性和操作被公开为示例形式。本公开不受所提出方法的步骤顺序的限制,并且相关技术领域的普通技术人员不用付出很大的努力就可以修改顺序。此外,方法的一些或所有操作可以顺序地或同时地执行。

根据本公开的前述各种实施例的部件中的每一个(例如,模块或程序)可以包括单个对象或多个对象。在前述对应的子部件中,可以省略一些子部件,或者在各种实施例中可以进一步包括其他子部件。通常或另外,一些部件(例如:模块或程序)可以被集成为对象,并且在集成之前以相同或相似的方式执行由每个部件执行的功能。

根据各种实施例的由模块、程序或其他部件执行的操作可以顺序地、并行地、重复地或以启发式方式执行。操作中的至少一些可以不同顺序执行或被省略,或者可以添加其他操作。

本公开中使用的术语“部件”或“模块”包括包含硬件、软件或固件的单元,并且它可以与术语,例如逻辑、逻辑块、部件或电路互换使用。另外,“部件”或“模块”可以是包括执行一个或多个功能或其一部分的集成体或最小单元的组件。例如,模块可以包括专用集成电路(ASIC)。

本公开的各种实施例可以被实现为软件,所述软件包括存储在机器可读存储介质中的可以由机器(例如,计算机)读取的指令。机器可以例如是指调用存储在存储介质中的指令,并可以根据所调用的指令来操作的装置,并且所述装置可以包括根据本公开中描述的实施例的电子装置(例如,电子装置100)。

当指令由处理器120执行时,处理器120可以独自地或使用在处理器的控制下的其他组件来执行对应于指令的功能。指令可以包括由编译器生成的代码或者可由解释器执行的代码。

可以以非暂时性存储介质的形式提供可由机器读取的存储介质。‘非暂时性存储介质’是有形装置,并且可能不包括信号(例如,电子波),并且术语不会将数据半永久地存储于存储介质中的情况与暂时地存储数据的情况区分开。例如,‘非暂时性存储介质’可以包括临时地存储数据的缓冲器。

根据本公开的一个实施例,可以在将根据本公开中描述的各种实施例的方法包括在计算机程序产品中时提供该方法。计算机程序产品是产品,并且它可以在卖方与买方之间交易。计算机程序产品可以可由机器读取的存储介质的形式(例如,光盘只读存储器(CD-ROM))分配,或者直接在两个用户装置(例如:智能手机)之间分配并且通过应用商店(例如:Play StoreTM)在线(例如:下载或上传)分配。在在线分配的情况下,计算机程序产品(例如,可下载的app)的至少一部分可以至少临时地存储在可由诸如制造商的服务器、应用商店的服务器和中继服务器的存储器110的机器读取的存储介质中,或者可以临时地生成。

与根据本公开的神经网络模型相关的功能和与人工智能相关的功能可以通过存储器110和处理器120来执行。

处理器120可以包括一个或多个处理器120。一个或多个处理器120可以是通用处理器,例如但不限于:CPU、AP等;图形专用处理器,诸如GPU、VPU等;人工智能专用处理器,诸如NPU等等。

一个或多个处理器120可以执行控制,使得输入数据根据预定义的操作规则或存储在存储器110中的人工智能模型来处理。预定义的操作规则或人工智能模型的特征在于:它们通过学习来实现。

通过学习来实现的特征例如是指通过将学习算法应用于多个学习数据来实现期望的特性的预定义的操作规则或人工智能模型。这种学习可以由装置独自地执行,其中执行根据本公开的人工智能,或者通过单独的服务器/系统执行。

人工智能模型可以包括多个神经网络层。每个层可以包括例如多个权重值,并且通过前一个层的运算结果和多个权重值的运算来执行层的运算。作为神经网络的非限制性实例,存在卷积神经网络(CNN)、深度神经网络(DNN)、递归神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向递归深度神经网络(BRDNN)、生成对抗网络(GAN)、深度Q网络等等,并且本公开中的神经网络不限于前述实例,明确指明的情况除外。

学习算法可以例如是指使用多个学习数据训练特定主题机器(例如,机器人)并且使特定主题机器独自地做出决策或做出预测的方法。作为学习算法的实例,存在监督式学习、非监督式学习、半监督式学习或强化学习,并且本公开中的学习算法不限于前述实例,明确指明的情况除外。

虽然已经示出和描述了本公开的各种示例实施例,但是本公开不限于前述实施例,并且将理解,在不脱离本公开的包括所附权利要求的精神和范围的情况下,本公开所属的技术领域的普通技术人员可以做出各种修改。

上文提及的参考文献列表如下。应注意,以下参考文献仅仅是为了解释本公开才引用,并且不意图被解释为约束或限制本公开。另外,以下参考文献以引用的方式整体并入本文。

[1]O.Alexander,M.Rogers,W.Lambeth,J.-Y.Chiang,W.-C.Ma,C.-C.Wang,andP.Debevec.The Digital Emily project:Achieving a photorealistic digitalactor.IEEE Computer Graphics and Applications,30(4):20-31,2010.

[2]K.S.Andrew Brock,Jeff Donahue.Large scale gan training for highfidelity natural image synthesis.arXiv:1809.11096,2018.

[3]A.Antoniou,A.J.Storkey,and H.Edwards.Augmenting image classifiersusing data augmentation generative adversarial networks.In Artificial NeuralNetworks and Machine Learning-ICANN,pages 594-603,2018.

[4]S.Arik,J.Chen,K.Peng,W.Ping,and Y.Zhou.Neural voice cloning with afew samples.In Proc.NIPS,pages 10040-10050,2018.

[5]H.Averbuch-Elor,D.Cohen-Or,J.Kopf,and M.F.Cohen.Bringing portraitsto life.ACM Transactions on Graphics(TOG),36(6):196,2017.

[6]V.Blanz,T.Vetter,et al.Amorphable model for the synthesis of 3dfaces.In Proc.SIGGRAPH,volume 99,pages 187-194,1999.

[7]A.Bulat and G.Tzimiropoulos.How far are we fromsolving the 2d&3dface alignment problem?(and a dataset of 230,000 3d facial landmarks).In IEEEInternational Conference on Computer Vision,ICCV 2017,Venice,Italy,October22-29,2017,pages 1021-1030,2017.

[8]J.S.Chung,A.Nagrani,and A.Zisserman.Voxceleb2:Deep speakerrecognition.In INTERSPEECH,2018.

[9]J.Deng,J.Guo,X.Niannan,and S.Zafeiriou.Arcface:Additive angularmargin loss for deep face recognition.In CVPR,2019.

[10]C.Finn,P.Abbeel,and S.Levine.Model-agnostic metalearning for fastadaptation of deep networks.In Proc.ICML,pages 1126-1135,2017.

[11]Y.Ganin,D.Kononenko,D.Sungatullina,and V.Lempitsky.Deepwarp:Photorealistic image resynthesis for gaze manipulation.In European Conferenceon Computer Vision,pages 311-326.Springer,2016.

[12]I.Goodfellow,J.Pouget-Abadie,M.Mirza,B.Xu,D.Warde-Farley,S.Ozair,A.Courville,and Y.Bengio.Generative adversarial nets.In Advances inneuralinformation processing systems,pages 2672-2680,2014.

[13]M.Heusel,H.Ramsauer,T.Unterthiner,B.Nessler,and S.Hochreiter.Ganstrained by a two time-scale update rule converge to a local nashequilibrium.In I.Guyon,U.V.Luxburg,S.Bengio,H.Wallach,R.Fergus,S.Vishwanathan,and R.Garnett,editors,Advances inNeural Information ProcessingSystems 30,pages 6626-6637.Curran Associates,Inc.,2017.6

[14]X.Huang and S.Belongie.Arbitrary style transfer inrealtime withadaptive instance normalization.In Proc.ICCV,2017.

[15]S.Ioffe and C.Szegedy.Batch normalization:Accelerating deepnetwork training by reducing internal covariate shift.In Proceedings of the32Nd International Conference on International Conference on MachineLearning-Volume 37,ICML'15,pages 448-456.JMLR.org,2015.

[16]P.Isola,J.Zhu,T.Zhou,and A.A.Efros.Image-to-image translationwith conditional adversarial networks.In Proc.CVPR,pages 5967-5976,2017.

[17]Y.Jia,E.Shelhamer,J.Donahue,S.Karayev,J.Long,R.Girshick,S.Guadarrama,and T.Darrell.Caffe:Convolutional architecture for fast featureembedding.arXiv preprint arXiv:1408.5093,2014.

[18]Y.Jia,Y.Zhang,R.Weiss,Q.Wang,J.Shen,F.Ren,P.Nguyen,R.Pang,I.L.Moreno,Y.Wu,et al.Transfer learning from speaker verification tomultispeaker text-tospeech synthesis.In Proc.NIPS,pages 4485-4495,2018.

[19]J.Johnson,A.Alahi,and L.Fei-Fei.Perceptual losses for real-timestyle transfer and super-resolution.In Proc.ECCV,pages 694-711,2016.

[20]H.Kim,P.Garrido,A.Tewari,W.Xu,J.Thies,M.Nieβner,P.Perez,C.Richardt,M.Zollh′ofer,and C.Theobalt.Deep¨video portraits.arXiv preprintarXiv:1805.11714,2018.

[21]D.P.Kingma and J.Ba.Adam:A method for stochasticoptimization.CoRR,abs/1412.6980,2014.

[22]S.Lombardi,J.Saragih,T.Simon,and Y.Sheikh.Deep appearance modelsfor face rendering.ACM Transactions on Graphics(TOG),37(4):68,2018.

[23]S.O.Mehdi Mirza.Conditional generative adversarial nets.arXiv:1411.1784.

[24]M.Mori.The uncanny valley.Energy,7(4):33-35,1970.

[25]K.Nagano,J.Seo,J.Xing,L.Wei,Z.Li,S.Saito,A.Agarwal,J.Fursund,H.Li,R.Roberts,et al.paGAN:real-time avatars using dynamic textures.InSIGGRAPH Asia 2018 Technical Papers,page 258.ACM,2018.

[26]A.Nagrani,J.S.Chung,and A.Zisserman.Voxceleb:a large-scalespeaker identification dataset.In INTERSPEECH,2017.

[27]O.M.Parkhi,A.Vedaldi,and A.Zisserman.Deep face recognition.InProc.BMVC,2015.

[28]S.M.Seitz and C.R.Dyer.View morphing.In Proceedings of the 23rdannual conference on Computer graphics and interactive techniques,pages 21-30.ACM,1996.

[29]Z.Shu,M.Sahasrabudhe,R.Alp Guler,D.Samaras,N.Paragios,andI.Kokkinos.Deforming autoencoders:Unsupervised disentangling of shape andappearance.In The European Conference on Computer Vision(ECCV),September2018.

[30]K.Simonyan and A.Zisserman.Very deep convolutional networks forlarge-scale image recognition.In Proc.ICLR,2015.

[31]S.Suwajanakorn,S.M.Seitz,and I.KemelmacherShlizerman.SynthesizingObama:learning lip sync from audio.ACM Transactions on Graphics(TOG),36(4):95,2017.

[32]M.K.Takeru Miyato.cgans with projection discriminator.arXiv:1802.05637,2018.

[33]M.K.Y.Y.Takeru Miyato,Toshiki Kataoka.Spectral normalization forgenerative adversarial networks.arXiv:1802.05957,2018.

[34]T.A.Tero Karras,Samuli Laine.A style-based generator architecturefor generative adversarial networks.arXiv:1812.04948.

[35]J.Thies,M.Zollhofer,M.Stamminger,C.Theobalt,and M.Nieβner.Face2face:Real-time face capture and reenactment of RGB videos.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,pages 2387-2395,2016.

[36]D.Ulyanov,A.Vedaldi,and V.S.Lempitsky.Instance normalization:Themissing ingredient for fast stylization.CoRR,abs/1607.08022,2016.

[37]T.-C.Wang,M.-Y.Liu,J.-Y.Zhu,G.Liu,A.Tao,J.Kautz,andB.Catanzaro.Video-to-video synthesis.arXiv preprint arXiv:1808.06601,2018.

[38]T.-C.Wang,M.-Y.Liu,J.-Y.Zhu,A.Tao,J.Kautz,and B.Catanzaro.High-resolution image synthesis and semantic manipulation with conditional gans.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition,2018.

[39]Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli.Image qualityassessment:From error visibility to structural similarity.Trans.Img.Proc.,13(4):600-612,Apr.2004.

[40]O.Wiles,A.Sophia Koepke,and A.Zisserman.X2face:A network forcontrolling face generation using images,audio,and pose codes.In The EuropeanConference on Computer Vision(ECCV),September 2018.

[41]C.Yin,J.Tang,Z.Xu,and Y.Wang.Adversarial metalearning.CoRR,abs/1806.03316,2018.2

[42]H.Zhang,I.J.Goodfellow,D.N.Metaxas,and A.Odena.Self-attentiongenerative adversarial networks.arXiv:1805.08318,2018.

[43]R.Zhang,T.Che,Z.Ghahramani,Y.Bengio,and Y.Song.Metagan:Anadversarial approach to few-shot learning.In NeurIPS,pages 2371-2380,2018.

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于连续检测、诊断和优化的深度因果学习

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!