一种用于虚拟形象的肢体动作与语言因素匹配方法及装置

文档序号：138445 发布日期：2021-10-22 浏览：49次 >En<

阅读说明：本技术 一种用于虚拟形象的肢体动作与语言因素匹配方法及装置 (Method and device for matching body movement and language factor of virtual image ) 是由余国军虞强尹川于 2021-07-19 设计创作，主要内容包括：本发明公开一种用于虚拟形象的肢体动作与语言因素匹配方法及装置,通过虚拟形象肢体动作生成：预设自定义动作,自定义动作包括虚拟形象在地图中的位置和肢体运动路径,将自定义动作生成对应的动作二维数据；虚拟形象与语言匹配交互：对动作二维数据进行语义学习,并进行虚拟形象与语言匹配交互,生成运动控制信息；虚拟形象骨骼驱动：将运动控制信息传送至虚拟形象的底层驱动,底层驱动根据运动控制信息控制虚拟形象的骨骼驱动动作。本发明实现虚拟形象的语义与动作的匹配,使沟通过程中的情绪表达、表情互动、肢体动作等最大限度地接近真人,做到语言与动作同步,表述一致。(The invention discloses a method and a device for matching limb actions and language factors of an avatar, which are generated through the limb actions of the avatar: presetting a custom action, wherein the custom action comprises the position of a virtual image in a map and a limb movement path, and generating corresponding action two-dimensional data from the custom action; matching and interacting the virtual image and the language: semantic learning is carried out on the action two-dimensional data, matching interaction between the virtual image and the language is carried out, and motion control information is generated; virtual image bone drive: the motion control information is transmitted to a bottom layer driver of the avatar, and the bottom layer driver controls the skeletal driving action of the avatar according to the motion control information. The invention realizes the matching of the semantics and the actions of the virtual image, enables the emotion expression, expression interaction, limb actions and the like in the communication process to be close to the real person to the maximum extent, and realizes the synchronization of the language and the actions and the consistent expression.)

技术领域

本发明属于数据处理技术领域，具体涉及一种用于虚拟形象的肢体动作与语言因素匹配方法及装置。

背景技术

近年来，虚拟人物技术越来越受到科技大厂的关注，虚拟数字人物利用语音交互、虚拟形象生成等AI技术，赋予文娱IP角色多模态交互的能力，助力媒体、教育、会展、客服等行业的智能娱乐化双升级。

随着我国经济社会的发展，服务行业的专业化水平不断提高，人们对服务行业的要求也不断提高，所以出现了很多种虚拟数字人形象，与知识库或学习模型项结合，替代部分人工服务，但是在实际场景中，往往带来了很多的使用问题，比如答非所问、形象呆板等，在语言交互与肢体动作中存在衔接延迟、动作与表述不一致、动作单一等，没有多姿多态的动作，在使用过程中，都当成了语音虚拟人，单单的语音播报。如何让虚拟形象的肢体动作与语言因素匹配是一个亟待解决的技术问题。

发明内容

为此，本发明提供一种用于虚拟形象的肢体动作与语言因素匹配方法及装置，解决现有技术中虚拟数字人动作与语言不匹配，语言与动作同步性差，表述不一的问题。

为了实现上述目的，本发明提供如下技术方案：一种用于虚拟形象的肢体动作与语言因素匹配方法，包括以下步骤：

虚拟形象肢体动作生成：预设自定义动作，所述自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将所述自定义动作生成对应的动作二维数据；

虚拟形象与语言匹配交互：对所述动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；

虚拟形象骨骼驱动：将所述运动控制信息传送至所述虚拟形象的底层驱动，所述底层驱动根据所述运动控制信息控制所述虚拟形象的骨骼驱动动作。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，所述语义学习的方式采用监督学习、非监督学习或强化学习中的至少一种。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，所述虚拟形象与语言匹配交互包括进行语音获取、语音分析、语音合成、地图数据分析和触摸动作分析。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，所述语音获取采用麦克风阵列进行拾音；所述语音分析配置有语音识别引擎和/或英文音识别引擎；所述语音合成配置有语音合成引擎。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，所述地图数据分析配置有地图引擎，将所述虚拟形象置于预设的电子地图中，使所述虚拟形象根据给定指令转移至指定位置执行预设的肢体动作；

所述触摸动作分析采用触摸屏获取到语音信号，通知肢体动作系统执行筛选逻辑处理，确定待执行的肢体动作后输送到骨骼驱动。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，还包括智能服务引擎，通过智能服务引擎调取信息存储系统中的信息，使虚拟形象具有自然语言会话功能；

所述智能服务引擎将语音转化为文字和命令，使虚拟形象与用户以自然语言对话的形式互动，并通过语义分析结合自定义动作匹配虚拟形象的肢体动作。

作为用于虚拟形象的肢体动作与语言因素匹配方法优选方案，所述骨骼驱动包括数据存储、图像显示和帧动画处理。

本发明还提供一种用于虚拟形象的肢体动作与语言因素匹配装置，采用上述的用于虚拟形象的肢体动作与语言因素匹配方法，包括：

虚拟形象肢体动作生成模块，用于预设自定义动作，所述自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将所述自定义动作生成对应的动作二维数据；

虚拟形象与语言匹配交互模块，用于对所述动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；

虚拟形象骨骼驱动模块，用于将所述运动控制信息传送至所述虚拟形象的底层驱动，所述底层驱动根据所述运动控制信息控制所述虚拟形象的骨骼驱动动作。

作为用于虚拟形象的肢体动作与语言因素匹配装置的优选方案，所述语义学习的方式采用监督学习、非监督学习或强化学习中的至少一种；

所述虚拟形象与语言匹配交互包括进行语音获取、语音分析、语音合成、地图数据分析和触摸动作分析；

所述语音获取采用麦克风阵列进行拾音；所述语音分析配置有语音识别引擎和/或英文音识别引擎；所述语音合成配置有语音合成引擎；

所述地图数据分析配置有地图引擎，将所述虚拟形象置于预设的电子地图中，使所述虚拟形象根据给定指令转移至指定位置执行预设的肢体动作；

所述触摸动作分析采用触摸屏获取到语音信号，通知肢体动作系统执行筛选逻辑处理，确定待执行的肢体动作后输送到骨骼驱动。

作为用于虚拟形象的肢体动作与语言因素匹配装置的优选方案，还包括智能服务引擎，通过智能服务引擎调取信息存储系统中的信息，使虚拟形象具有自然语言会话功能；

所述智能服务引擎将语音转化为文字和命令，使虚拟形象与用户以自然语言对话的形式互动，并通过语义分析结合自定义动作匹配虚拟形象的肢体动作；

所述骨骼驱动包括数据存储、图像显示和帧动画处理。

本发明具有如下优点：通过虚拟形象肢体动作生成：预设自定义动作，自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将自定义动作生成对应的动作二维数据；虚拟形象与语言匹配交互：对动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；虚拟形象骨骼驱动：将运动控制信息传送至虚拟形象的底层驱动，底层驱动根据运动控制信息控制虚拟形象的骨骼驱动动作。本发明实现虚拟形象的语义与动作的匹配，使沟通过程中的情绪表达、表情互动、肢体动作等最大限度地接近真人，做到语言与动作同步，表述一致。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例1提供的用于虚拟形象的肢体动作与语言因素匹配方法示意图；

图2为本发明实施例1提供的用于虚拟形象的肢体动作与语言因素匹配装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，提供一种用于虚拟形象的肢体动作与语言因素匹配方法，包括以下步骤：

S1、虚拟形象肢体动作生成：预设自定义动作，所述自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将所述自定义动作生成对应的动作二维数据；

S2、虚拟形象与语言匹配交互：对所述动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；

S3、虚拟形象骨骼驱动：将所述运动控制信息传送至所述虚拟形象的底层驱动，所述底层驱动根据所述运动控制信息控制所述虚拟形象的骨骼驱动动作。

具体的，所述骨骼驱动包括数据存储、图像显示和帧动画处理。根据接受到的不同语义让虚拟形象像‘人’一样，自然的做出沟通情感、传递信息的肢体动作，通过强大的学习训练方式(监督学习、非监督学习、强化学习)来实现多变的使用场景与人群。所述的学习训练是针对语义的，肢体动作通过骨骼驱动及动作系统协同完成。

具体的，帧动画的实现原理是不断切换视觉内图片内容，利用视觉滞留生理现象来实现连续播放的动画效果。帧动画的素材先在时间轴上设计好，然后导出图片给前端人员，制作时间轴动画一般是用来制作稍微简单的动画，操作简单，方便。或者是由设计师在AE的时间轴进行设计，因为AE内置了更丰富的动作效果，比如转换，翻转之类的，AE可以帮助我们实现更复杂的效果，然后再导出图片给前端人员。

本实施例中，所述语义学习的方式采用监督学习、非监督学习或强化学习中的至少一种。

具体的，监督学习是用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法，是从标签化训练数据集中推断出模型的机器学习任务。

监督学习过程，需要构建问题，选择模型。首先找出个人更容易与虚拟形象交互的影响因素，从逻辑上讲个人的语音跟他的心情、动作有关；如果一个人愿意去跟虚拟形象互动，那么可以根据他的表情、言语对话中进行分析。对各个相关的数据进行打上标签。比如：一张猫的图片，作为自然人都知道它是只猫，但是计算机不知道它是只猫。但通过给这张图片打上标签，然后计算机就知道可以知道这是只猫，计算机根据这个标签对所有的猫进行学习，就能通过这一只猫认识所有的猫。

监督学习过程，通过已有的训练样本去训练得到一个最优模型，再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现预测和分类的目的，也就具有了对未知数据进行预测和分类的能力。简单来说，就像有标准答案的练习题，然后再去考试，相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的，训练样本中是同时包含有特征和标签信息的，因此根据这些来得到相应的输出。

监督学习和非监督学习的区别就是一个有目标值，一个没有目标值；非监督学习的数据都是未经标记的。

而强化学习是在环境中与环境的互动不停地学习的，像人类学习走路，学习骑车，学习游泳等。当运用到虚拟形象上，就是通过不断的监督学习与非监督学习来自主完善的部分，当标签数据达到一定的量时(因为有各种标签的积累)在一类标签中可以完成自动分拣与归类；对未学习的部分进行非监督学习操作，统一进入到非监督学习中。

非监督学习训练数据是无标签的，训练目标是能对观察值进行分类或者区分等。相对于监督学习，非监督学习使用的是没有标签的数据。机器会主动学习数据的特征，并将它们分为若干类别，相当于形成未知的标签。

非监督性学习是只给特征，没有给标签，类似高考前的一些模拟试卷，是没有标准答案的，也就是没有参照是对还是错，但是我们还是可以根据这些问题之间的联系将语文、数学、英语分开，常采用的算法：k-聚类。

本实施例中，所述虚拟形象与语言匹配交互包括进行语音获取、语音分析、语音合成、地图数据分析和触摸动作分析。所述语音获取采用麦克风阵列进行拾音；所述语音分析配置有语音识别引擎和/或英文音识别引擎；所述语音合成配置有语音合成引擎。所述地图数据分析配置有地图引擎，将所述虚拟形象置于预设的电子地图中，使所述虚拟形象根据给定指令转移至指定位置执行预设的肢体动作；所述触摸动作分析采用触摸屏获取到语音信号，通知肢体动作系统执行筛选逻辑处理，确定待执行的肢体动作后输送到骨骼驱动。

具体的，语音获取、语义分析、声音合成与肢体动作驱动、骨骼驱动等技术，在对话的时候可以根据语义驱动数字人肢体动作，做到语义与动作的表述一致，不同的语义通过学习模型展开不同的上下关联文，可以做到多个关联文和多动作展示，让其更形象生动。

具体的，语音信号的接收主要由拾音器来完成，通过VAD端点检测，避免背景噪音和人声噪音的误识别，使识别结果更加准确。利用语音转写技术，集成说话人自适应、文本处理、文本顺滑、异常检测等技术，将语音流逐字实时转换成文字，推送至后端动作程序，动作程序根据语音识别后的文字，进行模型动作确定(通过打标签的形式)。比如：你真好看呀！标签类型为：拟人---自然态势---高兴；动作程序匹配当前虚拟人像，对人像骨骼进行指定部位动画，进行实时展示。

具体的，多方位拾音采用全向型麦克风阵列拾音，能够得到远近四周的声音，可以通过远近的距离来获取或屏蔽其他声音，如果与虚拟人像对话，它的音频频率会偏高，这样就可以快速对这段语音进行反馈，利用语音转写技术(ASR-TTS-NLP)，对文字进行传化，如果包含具体的语气词、感情色彩的词、拟人词、拟物词、褒义词等等，会形成内定的一套命令标准，在提及这些词的时候，会触发虚拟人像内置的动作，如果语句叫复杂，人像有2秒的延迟，会自动链接上知识库(知识库类似于各种问题的问法和答案)进行信息的检索，推送信息到人像程序，匹配动作为内置标准动作(如：抬手、颔首、眨眼睛、微笑、侧身等)。

具体的，语音转写技术中，语音识别(Automatic Speech Recognition)简称ASR，通常语音识别有两种方法：“传统”的识别方法，一般采用隐马尔可夫模型(HMM)；基于深度神经网络的“端到端”方法，语音识别是将声音转化成文字的过程，相当于耳朵。

自然语言处理(Natural Language Processing)简称NLP，是理解和处理文本的过程，相当于大脑，NLP主要涉及的技术有：文本预处理、词法分析、句法分析、语义理解、分词、文本分类、文本相似度处理、情感倾向分析、文本生成等等。

语音合成(Text-To-Speech)简称TTS，是把文本转化成语音的过程，相当于嘴巴，比较成熟的有两种方法：“拼接法”和“参数法”。

本实施例中，还包括智能服务引擎，通过智能服务引擎调取信息存储系统中的信息，使虚拟形象具有自然语言会话功能；

具体的，智能服务引擎，能够调取信息存储系统中的任何信息，使其具有自然语言会话功能，具体功能如下：能多方位拾音，可有效将语音转化为文字和命令，与用户以自然语言对话的形式互动，通过复杂的语义分析，结合自定义肢体动作，自行匹配动作。

综上所述，本发明通过虚拟形象肢体动作生成：预设自定义动作，自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将自定义动作生成对应的动作二维数据；虚拟形象与语言匹配交互：对动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；虚拟形象骨骼驱动：将运动控制信息传送至虚拟形象的底层驱动，底层驱动根据运动控制信息控制虚拟形象的骨骼驱动动作。本发明实现虚拟形象的语义与动作的匹配，使沟通过程中的情绪表达、表情互动、肢体动作等最大限度地接近真人，做到语言与动作同步，表述一致。

实施例2

参见图2，本发明还提供一种用于虚拟形象的肢体动作与语言因素匹配装置，采用实施例1的用于虚拟形象的肢体动作与语言因素匹配方法，包括：

虚拟形象肢体动作生成模块1，用于预设自定义动作，所述自定义动作包括虚拟形象在地图中的位置和肢体运动路径，将所述自定义动作生成对应的动作二维数据；

虚拟形象与语言匹配交互模块2，用于对所述动作二维数据进行语义学习，并进行虚拟形象与语言匹配交互，生成运动控制信息；

虚拟形象骨骼驱动模块3，用于将所述运动控制信息传送至所述虚拟形象的底层驱动，所述底层驱动根据所述运动控制信息控制所述虚拟形象的骨骼驱动动作。

本实施例中，所述语义学习的方式采用监督学习、非监督学习或强化学习中的至少一种；

所述虚拟形象与语言匹配交互包括进行语音获取、语音分析、语音合成、地图数据分析和触摸动作分析；

所述语音获取采用麦克风阵列进行拾音；所述语音分析配置有语音识别引擎和/或英文音识别引擎；所述语音合成配置有语音合成引擎；

所述地图数据分析配置有地图引擎，将所述虚拟形象置于预设的电子地图中，使所述虚拟形象根据给定指令转移至指定位置执行预设的肢体动作；

所述触摸动作分析采用触摸屏获取到语音信号，通知肢体动作系统执行筛选逻辑处理，确定待执行的肢体动作后输送到骨骼驱动。

本实施例中，还包括智能服务引擎，通过智能服务引擎调取信息存储系统中的信息，使虚拟形象具有自然语言会话功能；

所述骨骼驱动包括数据存储、图像显示和帧动画处理。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种计算机可读存储介质，所述计算机可读存储介质中存储用于虚拟形象的肢体动作与语言因素匹配方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的用于虚拟形象的肢体动作与语言因素匹配方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，当所述处理器执行存储介质中的指令时，使得所述电子设备执行实施例1或其任意可能实现方式的用于虚拟形象的肢体动作与语言因素匹配方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

12页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：物体数字化系统、方法、服务端、客户端及存储介质

一种用于虚拟形象的肢体动作与语言因素匹配方法及装置

相关技术

网友询问留言