神经网络模型的训练方法及装置、手势识别的方法及装置

文档序号:20850 发布日期:2021-09-21 浏览:20次 >En<

阅读说明:本技术 神经网络模型的训练方法及装置、手势识别的方法及装置 (Neural network model training method and device and gesture recognition method and device ) 是由 钱程浩 黄雪峰 熊海飞 于 2021-08-24 设计创作,主要内容包括:本申请实施例提供了一种神经网络模型的训练方法及装置、手势识别的方法及装置,其中,该神经网络模型的训练方法包括:将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据;其中,所述样本图像中包括手势,所述特征数据包括以下至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图;获取所述特征数据与对应的原始数据之间的损失值;基于所述损失值更新所述神经网络模型,并对更新后的神经网络模型进行继续进行训练,直到所述损失值小于预设阈值。通过本申请,解决了现有技术中手势识别的准确率较低的问题。(The embodiment of the application provides a training method and a device of a neural network model and a gesture recognition method and a device, wherein the training method of the neural network model comprises the following steps: inputting the sample image and the corresponding thermal image into a neural network model for feature extraction to obtain feature data; wherein the sample image includes a gesture therein, and the feature data includes at least one of: a predicted gesture category, a predicted gesture scaling box, a predicted gesture key point, a predicted gesture thermodynamic diagram; obtaining a loss value between the characteristic data and corresponding original data; and updating the neural network model based on the loss value, and continuing training the updated neural network model until the loss value is smaller than a preset threshold value. Through the method and the device, the problem that the accuracy rate of gesture recognition is low in the prior art is solved.)

神经网络模型的训练方法及装置、手势识别的方法及装置

技术领域

本申请涉及神经网络模型

技术领域

,特别是涉及神经网络模型的训练方法及装置、手势识别的方法及装置。

背景技术

手势是一种非语言的交流形式,可用于多个领域 例如聋哑人之间的交流,机器人控制,人机交互(Human-Computer Interaction,HCI), 家庭自动化和医疗应用。目前手势识别已采用许多不同的方式,主要包括:

1)模板匹配,即将待识别手势的特征参数与预先存储的模板特征参数进行匹配,通过测量两者之间的相似度来完成识别任务。例如,将待识别手势和模板手势的边缘图像变换到欧式距离空间,求出它们的Hausdorff(豪斯多夫)距离或修正Hausdorff距离,用该距离值代表待识别手势和模板手势的相似度,识别结果取与最小距离值对应的模板手势。

2)统计分析,即通过统计样本特征向量来确定分类器的基于概率统计理论的分类方法。对于每幅图像提取出指尖和重心特征,然后计算出距离和夹角,对于不同手势分别进行距离和夹角的统计,得到其分布的数字特征,根据基于最小错误率的贝叶斯决策得到用于分割不同手势的距离和夹角的值,得到分类器以后,对于采集的手势图像进行分类识别。

对于上述手势识别的方式存在以下问题:1)对于模板匹配方式,需要大量的人工设计特征操作,且在不同的环境背景下,所考虑的特征较为多样,导致工程量较大,系统实现复杂,从而导致手势识别率较低;2)对于统计分析,虽然允许其定义不同手势类别特点的特征集,估计一个局部最优的线性分辨器,根据手势图像中提取的大量特征识别相应的手势类别,但其学习的效率不高,随着样本量的不断增大,算法识别率的提高不明显,从而导致手识别率较低。

发明内容

本申请实施例的目的在于提供一种神经网络模型的训练方法及装置、手势识别的方法及装置,以解决现有技术中手势识别的准确率较低的问题。具体技术方案如下:

在本申请实施的第一方面,提供了一种神经网络模型的训练方法,包括:将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据;其中,所述样本图像中包括手势,所述特征数据包括以下至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图;获取所述特征数据与对应的原始数据之间的损失值;基于所述损失值更新所述神经网络模型,并对更新后的神经网络模型进行继续进行训练,直到所述损失值小于预设阈值。

在本申请实施的第二方面,提供了一种基于第一方面中训练方法中的神经网络模型进行手势识别的方法,包括:获取待识别的图像数据;其中,所述图像数据中包括手势;将所述待识别的图像数据输入到所述神经网络模型中,得到输出结果;其中,所述输出结果用于表征对所述手势的识别结果。

在本申请实施的第三方面,提供了一种神经网络模型的训练装置,包括:第一处理模块,用于将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据;其中,所述样本图像中包括手势,所述特征数据包括以下至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图;第一获取模块,用于获取所述特征数据与对应的原始数据之间的损失值;训练模块,用于基于所述损失值更新所述神经网络模型,并对更新后的神经网络模型进行继续进行训练,直到所述损失值小于预设阈值。

在本申请实施的第四方面,提供了一种基于第三方面中训练装置中的神经网络模型进行手势识别的装置,包括:第二获取模块,用于获取待识别的图像数据;其中,所述图像数据中包括手势;第二处理模块,用于将所述待识别的图像数据输入到所述神经网络模型中,得到输出结果;其中,所述输出结果用于表征对所述手势的识别结果。

在本申请实施的第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的第一方面的方法,或使得计算机执行上述任一所述的第二方面的方法。

在本申请实施的第六方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的第一方面方法,或使得计算机执行上述任一所述的第二方面的方法。

本申请实施例中,由于特征数据中包括至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图,因此,通过特征数据与对应的原始数据之间的损失值对神经网络模型进行更新,手势热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,另外,手势关键点描绘了手的轮廓和手势标定框定位了手的范围从而可以更加准确的对手势进行识别,也就是说,本申请实施例中训练好的神经网络模型提升了对手势识别的准确率,从而解决了现有技术中手势识别的准确率较低的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本申请实施例中神经网络模型的训练方法的流程图;

图2为本申请实施例中神经网络模型的训练示意图;

图3为本申请实施例中手势识别方法的流程图;

图4为本申请实施例中神经网络模型的训练装置的结构示意图;

图5为本申请实施例中手势识别装置的结构示意图;

图6为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

本申请实施例提供了一种神经网络模型的训练方法,如图1所示,该方法的步骤包括:

步骤102,将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据;其中,样本图像中包括手势,特征数据包括以下至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图;

需要说明的是,手势标定框是指手势在图像中的位置区域;手势关键点通常包括手上的21个点,如指关节上的点、指尖上的点等;在本申请实施例的其他应用场景中也可以是多于或少于21个点,具体可以根据实际情况确定。

此外,手势类别是指手势姿势,如“ok”手势,“耶”手势,“八字”手势等,另外,本申请实施例中的手势标定框与手势关键点用于确定手势类别。手势热力图是指以特殊高亮的形式显示访客热衷的手势区域的图示。

步骤104,获取特征数据与对应的原始数据之间的损失值;

步骤106,基于损失值更新神经网络模型,并对更新后的神经网络模型进行继续进行训练,直到损失值小于预设阈值。

需要说明的是,本申请实施例中的预设阈值可以根据实际情况进行相应的设置。

通过本申请实施例的上述步骤102至步骤106,由于特征数据中包括至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图,因此,通过特征数据与对应的原始数据之间的损失值对神经网络模型进行更新,手势热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,另外,手势关键点描绘了手的轮廓和手势标定框定位了手的范围从而可以更加准确的对手势进行识别,也就是说,本申请实施例中训练好的神经网络模型提升了对手势识别的准确率,从而解决了现有技术中手势识别的准确率较低的问题。

在本申请实施例的可选实施方式中,对于上述步骤104中涉及到的获取特征数据与对应的原始数据之间的损失值的方式,包括以下至少一项:

1)获取预测的手势热力图与样本图像对应的热力图之间的第一损失值;

在一示例中,将第一损失值记作Loss热,即Loss热是指预测出的热力图和样本图像对应的原热力图之间的差值。例如,原热力图的像素尺寸是128x128,预测出的热力图的像素尺寸是128x128,这128x128个像素点有各自的值,这里的Loss热就可以用原热图上的128x128个点的值减去预测处的热图的128x128个点的值后再平方得到。

2)获取预测的手势关键点的坐标与样本图像中手势关键点的坐标之间的第二损失值;

在一示例中,将第二损失值记作Loss点,Loss点是指预测出的手势关键点和样本图像中的原关键点之间的差值。例如,原关键点有21个,也就是21个(x,y)这样的坐标对。预测的关键点也有21个,拿这对应的21个关键点的坐标对进行相减再平方就得到关键点的Loss点。

3)获取预测的手势标定框与样本图像中手势标定框之间的第三损失值;

在一示例中,将第三损失值记作Loss框,Loss框是指预测的手势位置的标定框和样本图像中的原手势的标定框之间的差值。需要说明的是,标定框的数据可以由(x,y,w,h)来表示,其中,x,y是手势的中心点坐标,w,h是标定框的长和宽。

4)获取预测的手势类别与样本图像中手势类别之间的第四损失值。

在一示例中,将第四损失值记作Loss类,该Loss类可以基于交叉熵损失函数确定。

基于上述1)至4)中的损失值,对于本申请实施例步骤106中涉及到的基于损失值更新神经网络模型的方式,进一步可以包括:基于以下至少一项的和值更新神经网络模型:第一损失值、第二损失值、第三损失值、第四损失值。

在一示例中,如果损失值包括第一损失值、第二损失值、第三损失值以及第四损失值,该损失值为第一损失值、第二损失值、第三损失值以及第四损失值的和。也就是说,该损失值包括哪些损失值,其结果就是所包括的损失值的和为更新神经网络模型的损失值。

在本申请实施例的可选实施方式中,对于上述步骤104中涉及到的获取特征数据与对应的原始数据之间的损失值的方式,进一步可以包括:

步骤11,确定特征数据与对应的原始数据之间的差值;

步骤12,对差值进行平方,得到损失值。

通过上述步骤11和步骤12,在本申请实施例中是基于特征数据与对应的原始数据之间的差值的平方得到损失值,通过该方式能够使得得到的损失值更加准确,即通过该损失值更新的神经网络模型对手势的识别率更加准确。

在本申请实施例中,在特征数据为预测的手势热力图的情况下,对于上述步骤102中涉及到的将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据的方式进一步可以包括:

步骤21,将样本图像对应的热力图输入到神经网络模型,经过神经网络模型中的卷积层降低样本图像对应的热力图尺寸;

步骤22,对降低尺寸后的样本图像对应的热力图进行上采样得到预测的手势热力图。

在本申请实施例中,通过训练热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,从而提高手势识别的准确率。

下面结合本申请实施例的具体实施方式,对本申请进行举例说明;该具体实施方式提供了一种手势识别方法,图2是本申请实施例中神经网络模型训练示意图,基于图2,该方法的步骤包括:

步骤201,将包含手势的原图(样本图像)和生成的热力图送入卷积神经网络,得到特征层。

步骤202,由于经过卷积层的热力图分辨率尺寸降低,所以经过上采样的方式还原到原图分辨率尺寸,得到预测的手势热力图。

步骤203,训练过程中,将预测的热力图和由原手势生成的热力图相减再平方得到MSE(均方差)loss,作为预测热力图任务的loss热。预测手势关键点和预测手势位置坐标得到loss点和loss框。预测手势类别采用常用的多分类交叉熵损失函数得到loss类。最终由四个任务的Loss总来更新整个神经网络模型:

Loss总=Loss热+Loss点+Loss框+Loss类

其中,Loss热是指预测出的热力图和原热力图之间的差值。Loss点是指预测出的关键点和原关键点之间的差值。Loss框是指指预测出的手势位置的标定框和原手势的标定框之间的差值。Loss类是指预测出的手势分类的差值。

在本申请实施例的另一实施例中,还提供了一种基于图1中的训练方法中的神经网络模型进行手势识别的方法,如图3所示,该方法的步骤包括:

步骤302,获取待识别的图像数据;其中,图像数据中包括手势;

步骤304,将待识别的图像数据输入到神经网络模型中,得到输出结果;其中,输出结果用于表征对手势的识别结果。

可见,由于更新神经网络模型的损失值包括以下至少一项的差值得到:手势类别的差值、手势标定框的差值、手势关键点的差值、手势热力图的差值。而手势热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,另外,手势关键点描绘了手的轮廓和手势标定框定位了手的范围从而可以更加准确的对手势进行识别,也就是说,本申请实施例中训练好的神经网络模型提升了对手势识别的准确率。

对应于上述图1,本申请实施还提供了一种神经网络模型的训练装置,如图4所示,该装置包括:

第一处理模块42,用于将样本图像与对应的热力图像输入到神经网络模型中进行特征提取,得到特征数据;其中,样本图像中包括手势,特征数据包括以下至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图;

第一获取模块44,用于获取特征数据与对应的原始数据之间的损失值;

训练模块46,用于基于损失值更新神经网络模型,并对更新后的神经网络模型进行继续进行训练,直到损失值小于预设阈值。

通过本申请实施例的装置,由于特征数据中包括至少一项:预测的手势类别、预测的手势标定框、预测的手势关键点、预测的手势热力图,因此,通过特征数据与对应的原始数据之间的损失值对神经网络模型进行更新,手势热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,另外,手势关键点描绘了手的轮廓和手势标定框定位了手的范围从而可以更加准确的对手势进行识别,也就是说,本申请实施例中训练好的神经网络模型提升了对手势识别的准确率,从而解决了现有技术中手势识别的准确率较低的问题。

可选地,本申请实施例中的第一获取模块44包括以下至少一项:第一获取单元,用于获取预测的手势热力图与样本图像对应的热力图之间的第一损失值;第二获取单元,用于获取预测的手势关键点的坐标与样本图像中手势关键点的坐标之间的第二损失值;第三获取单元,用于获取预测的手势标定框与样本图像中手势标定框之间的第三损失值;第四获取单元,用于获取预测的手势类别与样本图像中手势类别之间的第四损失值。

可选地,本申请实施例中的训练模块46进一步可以包括:更新单元,用于基于以下至少一项的和值更新神经网络模型:第一损失值、第二损失值、第三损失值、第四损失值。

可选地,本申请实施例中的第一获取模块包括:确定单元,用于确定特征数据与对应的原始数据之间的差值;第一处理单元,用于对差值进行平方,得到损失值。

可选地,在特征数据为预测的手势热力图的情况下,本申请实施例中的第一处理模块42进一步可以包括:第二处理单元,用于将样本图像对应的热力图输入到神经网络模型,经过神经网络模型中的卷积层降低样本图像对应的热力图尺寸;第三处理单元,用于对降低尺寸后的样本图像对应的热力图进行上采样得到预测的手势热力图。

基于上述图4,本申请实施例还提供了一种基于上述图4中训练方法中的神经网络模型进行手势识别的装置,如图5所示,该装置包括:

第二获取模块52,用于获取待识别的图像数据;其中,图像数据中包括手势;

第二处理模块54,用于将待识别的图像数据输入到神经网络模型中,得到输出结果;其中,输出结果用于表征对手势的识别结果。

可见,由于更新神经网络模型的损失值包括以下至少一项的差值得到:手势类别的差值、手势标定框的差值、手势关键点的差值、手势热力图的差值。而手势热力图可以使得神经网络模型在训练时将更多注意力放在手部,而减少将人脸等相似物体误识成手势的情况,另外,手势关键点描绘了手的轮廓和手势标定框定位了手的范围从而可以更加准确的对手势进行识别,也就是说,本申请实施例中训练好的神经网络模型提升了对手势识别的准确率。

本申请实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,

存储器603,用于存放计算机程序;

处理器601,用于执行存储器603上所存放的程序时,实现如下图1或图3中的方法步骤。

此外,在实现如下图1或图3中的方法步骤的过程中所起到的作用也是类似的,在此不再赘述。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的神经网络模型的训练方法或任一所述的手势识别方法。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的神经网络模型的训练方法或任一所述的手势识别方法。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk (SSD))等。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于主动学习的模型在线增量训练方法、设备及介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!