依据音频信号产生动作的方法及电子装置

文档序号:170876 发布日期:2021-10-29 浏览:28次 >En<

阅读说明:本技术 依据音频信号产生动作的方法及电子装置 (Method for generating action according to audio signal and electronic device ) 是由 杨东庭 王钧立 郭曜祯 杨宏毅 于 2020-04-29 设计创作,主要内容包括:本发明提供一种依据音频信号产生动作的方法及电子装置。所述方法包括:接收音频信号,并从中撷取高阶音频特征;从高阶音频特征中撷取潜在音频特征;反应于判定音频信号对应于节拍,依据潜在音频特征取得关节角度分布矩阵;反应于判定音频信号对应于音乐,基于关节角度分布矩阵取得对应于关节点的多个指定关节角度;依据前述指定关节角度调整虚拟化身上各关节点的关节角度。借此,本发明可让虚拟化身随着当下音乐即兴呈现对应的动作。(The invention provides a method for generating actions according to audio signals and an electronic device. The method comprises the following steps: receiving an audio signal and extracting high-order audio features from the audio signal; extracting potential audio features from the high-order audio features; obtaining a joint angle distribution matrix according to the potential audio features in response to determining that the audio signal corresponds to the beat; acquiring a plurality of designated joint angles corresponding to joint points based on the joint angle distribution matrix in response to determining that the audio signal corresponds to music; and adjusting the joint angle of each joint point on the virtual body according to the specified joint angle. Therefore, the invention can enable the virtual avatar to present corresponding actions along with the current music.)

依据音频信号产生动作的方法及电子装置

技术领域

本发明涉及一种控制虚拟化身(avatar)的技术,且特别涉及一种依据音频信号产生动作的方法及电子装置。

背景技术

在虚拟现实(virtual reality,VR)及增强实境(augmented reality,AR)体验中,虚拟化身是这些应用中的关键部分。如果化身可以具有与用户相同的感知能力和感觉,并且能够对环境做出相应的反应,此将极大地改善用户的沉浸感。

在现有技术中,存在一种让虚拟化身能够依据音乐跳舞的技术。然而,为实现上述目的,此种技术需维护存储有大量默认舞步的数据库以用于产生舞步,因而将耗用较多的内存,故较不容易实现在边缘装置(edge device)(例如嵌入式系统或行动装置)的应用程序上。

进一步而言,当VR/AR环境中出现音乐时,上述技术将会基于某些预定的手工特征(hand-crafted feature)从数据库中选出一或多个舞步,并将这些舞步重组为对应于当下音乐的一连串舞步。因此,上述技术并无法让虚拟化身有创意地舞动。

发明内容

有鉴于此,本发明提供一种依据音频信号产生动作的方法及电子装置,其可用于解决上述技术问题。

本发明提供一种依据音频信号产生动作的方法,包括:接收一第一音频信号,并从第一音频信号撷取一第一高阶音频特征;从第一高阶音频特征中撷取一第一潜在音频特征;反应于判定第一潜在音频特征指示第一音频信号对应于一第一节拍,依据第一潜在音频特征取得一第一关节角度分布矩阵,其中第一关节角度分布矩阵包括多个高斯分布参数,且前述高斯分布参数对应于一虚拟化身上的多个关节点;反应于判定第一潜在音频特征指示第一音频信号对应于一第一音乐,基于第一关节角度分布矩阵取得对应于前述关节点的多个指定关节角度;依据前述指定关节角度调整虚拟化身上各关节点的关节角度。

本发明提供一种电子装置,其包括存储电路及处理器。存储电路存储多个模块。处理器耦接存储电路,并存取前述模块以执行下列步骤:接收一第一音频信号,并从第一音频信号撷取一第一高阶音频特征;从第一高阶音频特征中撷取一第一潜在音频特征;反应于判定第一潜在音频特征指示第一音频信号对应于一第一节拍,依据第一潜在音频特征取得一第一关节角度分布矩阵,其中第一关节角度分布矩阵包括多个高斯分布参数,且前述高斯分布参数对应于一虚拟化身上的多个关节点;反应于判定第一潜在音频特征指示第一音频信号对应于一第一音乐,基于第一关节角度分布矩阵取得对应于前述关节点的多个指定关节角度;依据前述指定关节角度调整虚拟化身上各关节点的关节角度。

基于上述,在不需维护舞步数据库的情况下,本发明的方法可让虚拟化身随着当下音乐即兴呈现对应的动作(例如舞步),因而适于应用在实现为边缘装置的电子装置上。

附图说明

包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。

附图说明

本发明的实施例,并与描述一起用于解释本发明的原理。

图1是依据本发明实施例图示的电子装置示意图。

图2是依据本发明实施例图示的依据音频信号产生动作的方法流程图。

图3是依据本发明实施例图示的系统架构图。

图4是依据本发明第一实施例图示的用以模型化第一可动角度范围的第一高斯分布模型。

图5是依据本发明第二实施例图示的用以模型化第一、第二可动角度范围的第一多变量混合高斯分布模型。

图6是依据本发明实施例的BVH动态捕捉数据文件及对应的虚拟化身示意图。

图7是依据本发明实施例图示的训练阶段示意图。

具体实施方式

现将详细地参考本发明的示范性实施例,示范性实施例的实例说明于附图中。只要有可能,相同组件符号在图式和描述中用来表示相同或相似部分。

请参照图1,其是依据本发明实施例图示的电子装置示意图。在不同的实施例中,电子装置100例如是可用于提供AR/VR或其他类似服务的计算机装置、嵌入式系统、行动装置等装置,但可不限于此。如图1所示,电子装置100包括存储电路102及处理器104。

存储电路102例如是任意型式的固定式或可移动式随机存取内存(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash memory)、硬盘或其他类似装置或这些装置的组合,而可用以记录多个程序代码或模块。

处理器104耦接于存储电路102,并可为一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可程序门阵列电路(Field Programmable Gate Array,FPGA)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(Advanced RISCMachine,ARM)的处理器以及类似品。

在本发明的实施例中,处理器104可存取存储电路102中记录的模块、程序代码来实现本发明提出的依据音频信号产生动作的方法,其细节详述如下。

请参照图2,其是依据本发明实施例图示的依据音频信号产生动作的方法流程图。本实施例的方法可由图1的电子装置100执行,以下即搭配图1所示的组件说明图2各步骤的细节。另外,为使本案内容更易于理解,以下将另辅以图3所示的系统架构图作说明,但其仅用以举例,并非用以限定本发明可能的实施方式。

概略而言,本发明的方法可在接收到一段音频信号(例如一个音频帧)时,据以决定虚拟化身上的各个关节在各个维度上的关节角度,从而让虚拟化身整体呈现适当的动作。在不同的实施例中,上述音频信号可来自于任何种类的声音,例如音乐、环境音、语音等,但不限于此。

在图3中,音频信号F1~FN例如是连续的多个音讯帧,而对于每个音频信号F1~FN而言,处理器104可对其进行类似的处理,以产生对应于所考虑的音频信号的虚拟化身动作。为便于说明,以下暂以音频信号F1为例进行说明,但其并非用以限定本发明可能的实施方式。

首先,在步骤S210中,处理器104可接收音频信号F1,并从音频信号F1撷取高阶(high level)音频特征H1。在一实施例中,音频信号F1可包括一音讯帧,而其可表征为具有特定维度(例如2048x1)的向量(或称数组),但可不限于此。在一实施例中,处理器104可将上述音讯帧输入卷积神经网络(convolutional neural network,CNN)N1,以由CNN N1从此音频帧撷取高阶音频特征H1。在本发明的实施例中,CNN N1可包括一或多个卷积层,用以从所接收的音讯帧中撷取对应的高阶音频特征,但可不限于此。以上由CNN N1撷取高阶音频特征H1的技术细节可参照相关的现有技术文献,于此不另赘述。

之后,在步骤S220中,处理器104可从高阶音频特征H1中撷取潜在(latent)音频特征L1。在一实施例中,处理器104可将高阶音频特征H1输入第一递归神经网络(recurrentneural network,RNN)N2,以由第一RNN N2从高阶音频特征H1撷取潜在音频特征L1。以上由第一RNN N2撷取潜在音频特征L1的技术细节可参照相关的现有技术文献,于此不另赘述。

此外,在本实施例中,第一RNN N2除了可基于高阶音频特征H1输出潜在音频特征L1之外,还可一并输出一第一内部状态(internal state)IS11,其细节可参照RNN的相关技术文件,于此不另赘述。在本发明的实施例中,第一RNN N2可包括一多堆栈(multi-stack)结构,用以从所接收的高阶音频特征中撷取对应的潜在音频特征,但可不限于此。

此外,在一实施例中,第一内部状态IS11可让第一RNN N2在处理对应于下一个音频信号F2的高阶音频特征H2时,进一步参考前一级的高阶音频特征H1来产生对应的潜在音频特征L2,而相关细节将在之后另作说明。

在一实施例中,处理器104可基于潜在音频特征L1判断音频信号F1是否对应于节拍(即是否在节拍上(on beat)),以及基于潜在音频特征L1判断音频信号F1是否对应于音乐。在本发明的实施例中,处理器104可将潜在音频特征L1输入一特定神经网络N3(其例如由多个全连接层(fully-connected layer)组成),以由特定神经网络N3基于潜在音频特征L1判断音频信号F1是否对应于节拍以及是否对应于音乐,但可不限于此。

为便于说明,以下假设音频信号F1是对应于节拍且对应于音乐(即,不为噪声、人声或其他非音乐声响)。因此,在步骤S230中,反应于判定潜在音频特征L1指示音频信号F1对应于节拍,处理器104可依据潜在音频特征L1取得关节角度分布矩阵M1,其中关节角度分布矩阵M1可包括多个高斯分布参数,且前述高斯分布参数可对应于一虚拟化身上的多个关节点。在一实施例中,处理器104可将潜在音频特征L1输入第二RNN N4,以由第二RNN N4基于潜在音频特征L1产生关节角度分布矩阵M1。此外,第二RNN N4还可基于潜在音频特征L1产生第二内部状态IS12。

在一实施例中,上述虚拟化身例如是AR/VR环境中经配置以依据音乐舞动的角色。另外,依据生物视觉层次(biovision hierarchy,BVH)的相关规格,一个虚拟化身上可经定义有一个髋关节点绝对位置(可由x、y、z表示)以及52个其他关节点,而所述52个其他关节点个别可以一组在三度空间中的关节旋转角度表示,例如(Rx,Ry,Rz)。举例而言,对于虚拟化身上的一第一关节点而言,对应的Rx、Ry及Rz分别例如是在第一维度(例如X轴)、第二维度(例如Y轴)及第三维度(例如Z轴)上的关节角度,但可不限于此。

为便于说明本发明的概念,以下假设所考虑的虚拟化身上的关节点可包括上述髋关节点及52个其他关节点,但本发明可不限于此。此外,以下亦假设所考虑的虚拟化身的动作可基于BVH的相关规格进行定义,但本发明可不限于此。在此情况下,虚拟化身的动作可依据BVH动态捕捉(motion capture)数据文件而决定。在一实施例中,一个BVH动态捕捉数据文件可包括159个值,其个别对应于上述髋关节点绝对位置(即x、y、z)及所述52个其他关节点个别的(Rx,Ry,Rz)。因此,在取得BVH动态捕捉数据文件之后,即可相应地决定虚拟化身的动作,而本发明可基于所产生的关节角度分布矩阵M1决定BVH动态捕捉数据文件中的159个值,进而决定虚拟化身的动作。

具体而言,在第一实施例中,关节角度分布矩阵M1可实现为一个维度为159x2的矩阵,而其中的所述159个行分别对应于上述x、y、z及所述52个其他关节点个别的(Rx,Ry,Rz)。举例而言,假设虚拟化身上的某关节点(下称第一关节点)在第一维度上具有一第一可动角度范围(可理解为对应于第一关节点的Rx的可动角度范围),而此第一可动角度范围在本发明中可模型化为一第一高斯分布模型。在此情况下,关节角度分布矩阵M1中对应于第一关节点的Rx的行可包括2个元素,而此2元素可分别是第一高斯分布模型的期望值(以μ表示)及标准偏差(以σ表示)。举另一例而言,假设第一关节点在第二维度上还具有另一可动角度范围(可理解为对应于第一关节点的Ry的可动角度范围),而此另一可动角度范围在本发明中可模型化为一另一高斯分布模型。在此情况下,关节角度分布矩阵M1中对应于第一关节点的Ry的行可包括2个元素,而此2元素可分别是所述另一高斯分布模型的期望值及标准偏差。

基于以上教示,本领域技术人员应可相应理解关节角度分布矩阵M1中其余各行的意义及内容,于此不另赘述。此外,在第一实施例中,关节角度分布矩阵M1的第1列例如可由各行中的期望值组成,而关节角度分布矩阵M1的第2列例如可由各行中的标准偏差组成,但可不限于此。

在取得关节角度分布矩阵M1之后,在步骤S240中,反应于判定潜在音频特征L1指示音频信号F1对应于音乐,处理器104可基于关节角度分布矩阵M1取得对应于关节点的多个指定关节角度。

再以第一关节点为例,假设处理器104欲取得第一关节点在第一维度上的第一指定关节角度,则处理器104可基于上述第一高斯分布模型在上述第一可动角度范围内取样第一角度以作为第一关节点在第一维度上的第一指定关节角度。为便于理解,以下将另辅以图4作说明。

请参照图4,其是依据本发明第一实施例图示的用以模型化第一可动角度范围的第一高斯分布模型。在图4中,假设第一关节点在第一维度上具有第一可动角度范围R1,而第一高斯分布模型G1例如可用于模型化第一可动角度范围R1。在此情况下,处理器104可基于第一高斯分布模型G1在第一可动角度范围R1内取样第一角度以作为第一关节点在第一维度上的第一指定关节角度。在一实施例中,处理器104例如可基于第一高斯分布模型G1在第一可动角度范围内R1随机取样第一角度作为上述第一指定关节角度。在另一实施例中,处理器104亦可直接在第一可动角度范围内R1中取样对应于期望值(即,μ)的第一角度作为上述第一指定关节角度,但可不限于此。

同理,假设处理器104欲取得第一关节点在第二维度上的指定关节角度,则处理器104可基于所述另一高斯分布模型在所述另一可动角度范围内(随机)取样一角度以作为第一关节点在第二维度上的另一指定关节角度。基于以上教示,本领域技术人员应可相应理解处理器103取得各关节点在各维度上的指定关节角度的方式,于此不另赘述。

在取得各关节点对应的多个指定关节角度之后,在步骤S250中,处理器104可依据指定关节角度调整虚拟化身上各关节点的关节角度。在第一实施例中,处理器104可将各关节点对应的指定关节角度以指定关节角度向量S1(其维度例如是159x1)的形式输出。举例而言,假设处理器104对于各关节点皆是取样对应于期望值的角度作为各关节点的指定关节角度,则处理器104可直接取用关节角度分布矩阵M1的第1列作为指定关节角度向量S1,但本发明可不限于此。

在此情况下,处理器104例如可基于指定关节角度向量S1中的指定关节角度产生对应的BVH动态捕捉数据文件,并基于此BVH动态捕捉数据文件调整虚拟化身上各关节点的关节角度。例如,处理器104可将第一关节点在第一维度上的关节角度调整为对应于上述第一指定关节角度(例如第一高斯分布模型G1的期望值)。并且,处理器104还可将第一关节点在第二维度上的关节角度调整为对应于上述另一指定关节角度(例如上述另一高斯分布模型的期望值)。基此,处理器104可依据BVH动态捕捉数据文件的内容调整虚拟化身上各关节点在不同维度上的关节角度,从而令虚拟化身呈现特定的动作(例如舞步)。

由上可知,有别于现有的从数据库中挑选既有舞步进行重组的做法,本发明的方法可依据当下的音频信号决定虚拟化身上各关节点在各维度上的关节角度,从而让虚拟化身可基于当下的音乐而即兴在节拍上舞动。

在其他实施例中,单一关节点在单一维度上可具有两个以上的可动角度范围,而这些可动角度范围可模型化为一个多变量混合高斯模型,以下将以第二实施例作进一步说明。

在第二实施例中,假设单一关节点在单一维度上具有两个可动角度范围,但可不限于此。在此情况下,关节角度分布矩阵M1可实现为一个维度为159x4的矩阵,而其中的所述159个行分别对应于上述x、y、z及所述52个其他关节点个别的(Rx,Ry,Rz)。再以第一关节点为例,假设第一关节点在第一维度上具有第一及第二可动角度范围(可理解为对应于第一关节点的Rx的可动角度范围),而此第一、第二可动角度范围在本发明中可模型化为一第一多变量混合(multi variate mixture)高斯分布模型。在此情况下,关节角度分布矩阵M1中对应于第一关节点的Rx的行可包括4个元素,而此4元素可分别是第一多变量混合高斯分布模型的第一期望值(以μ1表示)、第一标准偏差(以σ1表示)、第二期望值(以μ2表示)及第二标准偏差(以σ2表示)。

基于以上教示,本领域技术人员应可相应理解第二实施例中关节角度分布矩阵M1中其余各行的意义及内容,于此不另赘述。此外,在第二实施例中,关节角度分布矩阵M1的第1列例如可由各行中的第一期望值组成,关节角度分布矩阵M1的第2列例如可由各行中的第一标准偏差组成,关节角度分布矩阵M1的第3列例如可由各行中的第二期望值组成,关节角度分布矩阵M1的第4列例如可由各行中的第二标准偏差组成,但可不限于此。

在取得关节角度分布矩阵M1之后,在步骤S240中,反应于判定潜在音频特征L1指示音频信号F1对应于音乐,处理器104可基于关节角度分布矩阵M1取得对应于关节点的多个指定关节角度。

再以第一关节点为例,假设处理器104欲取得第一关节点在第一维度上的第一指定关节角度,则处理器104可基于上述第一多变量混合高斯分布模型在上述第一可动角度范围或第二可动角度范围内取样第一角度以作为第一关节点在第一维度上的第一指定关节角度。为便于理解,以下将另辅以图5作说明。

请参照图5,其是依据本发明第二实施例图示的用以模型化第一、第二可动角度范围的第一多变量混合高斯分布模型。在图5中,假设第一关节点在第一维度上具有第一可动角度范围R11及第二可动角度范围R12,而第一多变量混合高斯分布模型G1’例如可用于模型化第一可动角度范围R11(其对应于μ1及σ1)及第二可动角度范围R2(其对应于μ2及σ2)。在此情况下,处理器104可基于第一多变量混合高斯分布模型G1’在第一可动角度范围R11内或第二可动角度范围R12内取样第一角度以作为第一关节点在第一维度上的第一指定关节角度。在一实施例中,处理器104例如可基于第一高斯分布模型G1’在第一可动角度范围内R11或第二可动角度范围R12内随机取样第一角度作为上述第一指定关节角度。在另一实施例中,处理器104亦可直接在第一可动角度范围内R11或第二可动角度范围R12内中取样对应于期望值(即,μ1或μ2)的第一角度作为上述第一指定关节角度,但可不限于此。

在其他实施例中,假设AR/VR环境中存在两个可控制的虚拟化身A、B,且此二虚拟化身A、B上皆具有第一关节点,则处理器104可基于第一多变量混合高斯分布模型G1’在第一可动角度范围R11内取样一角度以作为虚拟化身A上第一关节点在第一维度上的第一指定关节角度。另外,处理器104还可基于第一多变量混合高斯分布模型G1’在第二可动角度范围R12内取样一角度以作为虚拟化身B上第一关节点在第一维度上的第一指定关节角度,从而让不同的虚拟化身因应当下的音乐呈现不同舞步,但可不限于此。基于以上教示,本领域技术人员应可相应理解处理器103在第二实施例中取得各关节点在各维度上的指定关节角度的方式,于此不另赘述。

此外,第一关节点在第二维度上亦可具有两个可动角度范围,而此二可动角度范围亦可模型化为另一多变量高斯分布模型。在此情况下,处理器104决定第一关节点在第二维度上的指定关节角度的方式可参照以上的教示,于此不另赘述。并且,其他关节点的在各维度上的可动角度范围亦可基于以上教示模型化为对应的多变量高斯模型,其细节亦可参照以上的教示,于此不另赘述。

在取得各关节点对应的多个指定关节角度之后,在第二实施例的步骤S250中,处理器104可依据指定关节角度调整虚拟化身上各关节点的关节角度。在第二实施例中,处理器104可将各关节点对应的指定关节角度以指定关节角度向量S1(其维度例如是159x1)的形式输出。举例而言,假设处理器104对于各关节点皆是取样对应于第一期望值的角度作为各关节点的指定关节角度,则处理器104可直接取用关节角度分布矩阵M1的第1列作为指定关节角度向量S1。举另一例而言,假设处理器104对于各关节点皆是取样对应于第二期望值的角度作为各关节点的指定关节角度,则处理器104可直接取用关节角度分布矩阵M1的第3列作为指定关节角度向量S1,但本发明可不限于此。

在此情况下,处理器104例如可基于指定关节角度向量S1中的指定关节角度产生对应的BVH动态捕捉数据文件,并基于此BVH动态捕捉数据文件调整虚拟化身上各关节点的关节角度。例如,处理器104可将第一关节点在第一维度上的关节角度调整为对应于上述第一指定关节角度(例如第一多变量高斯分布模型G1’的第一期望值或第二期望值)。基此,处理器104可依据BVH动态捕捉数据文件的内容调整虚拟化身上各关节点在不同维度上的关节角度,从而令虚拟化身呈现特定的动作(例如舞步)。

请参照图6,其是依据本发明实施例的BVH动态捕捉数据文件及对应的虚拟化身示意图。在本实施例中,在处理器104依先前教示产生BVH动态捕捉数据文件610之后,处理器104可依据其中的内容调整虚拟化身620上各关节点在各维度上的关节角度,从而让虚拟化身620呈现特定的动作、舞步、姿态等,但不限于此。

应了解的是,以上实施例是假设音频信号F1是对应于节拍及音乐,而对于未对应于节拍或音乐的其他音频信号而言,本发明可基于不同的机制执行本发明的方法,以下将以第三实施例作进一步说明。

举例而言,在第三实施例中,假设接续于音频信号F1的音频信号F2是对应于音乐但未对应于节拍(即,不在节拍上)。在此情况下,处理器104仍可执行步骤S210以接收音频信号F2,并从音频信号F2撷取高阶音频特征H2。在一实施例中,处理器104可将音频信号F2(例如是一音讯帧)输入CNN N1,以由CNN N1从音频信号F2中撷取高阶音频特征H2。

之后,在步骤S220中,处理器104可从高阶音频特征H2中撷取潜在音频特征L2。在一实施例中,处理器104可将高阶音频特征H2输入第一RNN N2,以由第一RNN N2基于第一内部状态IS11从高阶音频特征H2撷取潜在音频特征L2。在本实施例中,由于第一内部状态IS11可理解为来自前一级的操作,故第一内部状态IS11可视为是第三实施例中的历史内部状态。并且,由于第一内部状态IS11带有前一级的高阶音频特征H1的相关信息,因而可使得第一RNN N2所撷取的潜在音频特征L2一并考虑先前的一级(或多级)的信息,但可不限于此。

此外,在本实施例中,第一RNN N2除了可基于高阶音频特征H2输出潜在音频特征L2之外,还可输出第一内部状态IS21以供下一级使用,但可不限于此。

在第三实施例中,处理器104同样可将潜在音频特征L2输入特定神经网络N3,以由特定神经网络N3基于潜在音频特征L2判断音频信号F2是否对应于节拍以及是否对应于音乐,但可不限于此。

由于第三实施例中的音频信号F2已假设为对应于音乐但不在节拍上,故处理器104可采用不同于第一、第二实施例的方式来执行步骤S230以产生对应的关节角度分布矩阵M2。具体而言,在第三实施例中,处理器104可取得一历史关节角度分布矩阵,其中此历史关节角度分布矩阵可包括多个历史高斯分布参数,且前述历史高斯分布参数可对应于虚拟化身上的关节点。在第三实施例中,上述历史关节角度分布矩阵例如是前一级操作中所产生的关节角度分布矩阵M1,而上述历史高斯斯分布参数即为关节角度分布矩阵M1中的内容,但可不限于此。

之后,处理器104可将此历史关节角度分布矩阵(即,关节角度分布矩阵M1)转换为参考音频特征L2’,并将此参考音频特征L2’定义为(新的)潜在音频特征L2。之后,处理器104例如可将参考音频特征L2’(即,新的潜在音频特征L2)输入第二RNN N4,以由第二RNNN4取得关节角度分布矩阵M2。

简言之,由于音频信号F2未在节拍上,故处理器104可忽略原本的潜在音频特征L2,而是以由关节角度分布矩阵M1转换而来的参考音频特征L2’作为(新的)潜在音频特征L2而输入至第二RNN N4,以由第二RNN N4据以取得关节角度分布矩阵M2。

在一实施例中,为了将关节角度分布矩阵M1的维度转换为适于输入第二RNN N4的参考音频特征L2’,处理器104可简易地采用一个全连接层神经网络来进行转换。此外,处理器104亦可基于卷积层、池化层(pooling layer)来进行前述转换,但可不限于此。将(转换后的)关节角度分布矩阵M1馈入第二RNN N4以取得关节角度分布矩阵M2的相关原理可参照”Auto-Conditioned Recurrent Networks for Extended Complex Human MotionSynthesis,cs.LG,2017”,于此不另赘述。

此外,在第三实施例中,第二RNN N4还可进一步基于参考音频特征L2’及第二内部状态IS12来产生关节角度分布矩阵M2,以在考虑先前一或多级信息的情况下产生更佳的关节角度分布矩阵M2,但可不限于此。

在产生关节角度分布矩阵M2之后,处理器104例如可基于第一、第二实施例中教示的机制来产生对应的指定关节角度向量S1,并据以将虚拟化身的动作/舞步/姿态调整为对应于音频信号F2的态样。

在第四实施例中,假设音频信号F3是对应于节拍及音乐,故处理器104可基于第一、第二实施例中教示的机制来将虚拟化身的动作/舞步/姿态调整为对应于音频信号F3的态样,其细节于此不另赘述。

此外,在第五实施例中,假设特定神经网络R3判定音频信号FN的潜在音频特征(未另标示)指示音频信号FN既未对应于节拍亦未对应于音乐,则处理器104可不调整虚拟化身上各关节点的关节角度,或是将虚拟化身调整为呈现闲置姿态。藉此,可避免虚拟化身在没有音乐的情况下自行舞动,但可不限于此。

请参照图7,其是依据本发明实施例图示的训练阶段示意图。在图7中,所示的训练机制可用于产生先前实施例中所提及的CNN N1、第一RNN N2、特定神经网络N3及第二RNNN4。具体而言,在本实施例中,处理器104可先将音乐训练数据输入至待训练的上述神经网络(即,CNN N1、第一RNN N2、特定神经网络N3及第二RNN N4)中。在一实施例中,各神经网络的相关模型参数可初始化为随机数值,但可不限于此。

之后,处理器104可基于舞步训练数据将虚拟化身上的各关节点在各维度上的可动角度范围模型化对应的(单变量/多变量)高斯模型,并据以产生一预测舞步。之后,处理器104可基于预测舞步及对应的舞步训练数据计算一损失函数,并依据损失函数的结果调整上述各神经网络的相关模型参数(例如神经元的权重)。以上流程可反复执行,直至所产生的预测舞步足够接近于对应的舞步训练数据。以上训练阶段技术细节可参照相关的现有技术文献,于此不另赘述。

综上所述,本发明提出的方法及电子装置可在不需维护舞步数据库的情况下,让AR/VR环境中的虚拟化身依据当下的音乐即兴地在节拍上舞动。此外,本发明的方法可让电子装置耗用较少的内存,并可让电子装置实时地进行相关的运算。因此,即便电子装置属于资源较受限的边缘装置,本发明的方法仍可让电子装置流畅地控制虚拟化身随音乐而舞动。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于深度学习声纹识别的困难气道评估方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!