一种基于射频信号多任务学习网络的室内场景理解方法

文档序号：187718 发布日期：2021-11-02 浏览：20次 >En<

阅读说明：本技术 一种基于射频信号多任务学习网络的室内场景理解方法 (Indoor scene understanding method based on radio frequency signal multitask learning network ) 是由王林王新雨高畅石中玉张德安厉斌斌于 2021-08-04 设计创作，主要内容包括：本发明涉及行为感知技术领域,一种基于射频信号多任务学习网络的室内场景理解方法,包括如下步骤,数据采集：使用搭载Atheros无线网卡进行信道状态信息的采集；数据预处理：滤除原始信号中包含的噪声,完成去噪后合成多链路数据,规范数据格式,构建神经网络的输入数据集；多任务识别网络：使用多任务学习网络Wisenet实现室内场景理解,其中Wisenet包含共享表示层、以及使用共享表示层多任务之间梯度信息的域识别网络Dom-Net、位置识别网络Loc-Net和行为识别网络Act-Net。本方法使用多任务学习的方法同时对用户所处的场景,包括用户所在的域、位置和动作,进行识别,从多个角度感知用户,从而理解其行为的含义。(The invention relates to the technical field of behavior perception, in particular to an indoor scene understanding method based on a radio frequency signal multitask learning network, which comprises the following steps of: collecting channel state information by using a wireless network card carrying Atheros; data preprocessing: filtering noise contained in an original signal, synthesizing multilink data after denoising is finished, standardizing a data format, and constructing an input data set of a neural network; multitask identification network: indoor scene understanding is achieved by using a multitask learning network wisnet, wherein the wisnet comprises a shared representation layer, and a domain identification network Dom _ Net, a position identification network Loc _ Net and a behavior identification network Act _ Net which use gradient information between multitasks of the shared representation layer. The method uses a multi-task learning method to simultaneously identify the scene where the user is located, including the domain, the position and the action where the user is located, and senses the user from multiple angles, so as to understand the meaning of the behavior of the user.)

技术领域

本发明涉及行为感知技术领域，特别是一种基于射频信号多任务学习网络的室内场景理解方法。

背景技术

在使用商用WiFi实现行为感知时，动作语义往往与发生场景密切相关，单一的动作识别无法满足动作在特定场景中的语义理解需求。本专利设计并实现一个基于信道状态信息的场景理解多任务学习方法。该方法利用注意力机制赋予不同来源的信号不同的权重，利用多任务学习网络实现隐藏信息的挖掘，具有较强的跨域性和可扩展性。

基于WiFi的行为感知和室内定位均已有很多成熟的工作。然而，在室内家居环境中，用户的动作与其发生的环境和位置是分不开的。同一动作或者相似动作在不同的环境中可能代表着截然不同的语义。比如同样是躺着，用户在卧室的床上躺着很大概率是在睡眠中，而在客厅的地板上躺着可能代表着用户已经摔倒、休克甚至是更严重的死亡；为避免在家庭环境中造成类似的误解，区分相同或相似动作的语义尤为重要。尤其是在独居老人的监护中，知道他们所处的位置，再去判断他们所发生的动作能更好地去理解老人的行为，从而避免不必要的误会。在AR游戏中，在不同位置发生的相同动作可能代表着游戏角色的不同操作，如果能在识别出动作的同时能够得知用户所处的位置和当前所处的区域，就可以为用户的行为赋予明确的语义，届时AR支持的场景将会更丰富。用户所处的环境和位置约束用户所能执行的动作，换句话说，用户执行的动作是对用户所处环境和位置的反映，不应该将二者割裂开来。

现有接触式感知如可穿戴设备等受限于其有限的电池容量，设备一旦电池耗尽就无法继续工作，而频繁地充电无疑会给用户带来一定的负担。非接触式感知如RFID，毫米波和红外传感器等设备造价昂贵，比较适合在商场、机场和车站等人流量大的地方使用。WiFi在家庭环境中的普遍存在使得它避开应用场景的限制，且WiFi成本低可以大规模部署。基于WiFi信号室内行为语义理解的诸多关键技术有待突破，准确的动作语义理解不仅需要识别用户行为，同时还需要用户所处域和位置的信息支持。目前还没有相关工作将这三个维度的信息融合到一起。

发明内容

为解决上述问题，本发明提出一种基于射频信号多任务学习网络的室内场景理解方法，本方法使用多任务学习的方法同时对用户所处的场景，包括用户所在的域、位置和动作，进行识别，从多个角度感知用户，从而理解其行为的含义。

为实现上述目的，本发明采用的技术方案是：

一种基于射频信号多任务学习网络的室内场景理解方法，包括如下步骤，

步骤1、数据采集：使用搭载Atheros无线网卡进行信道状态信息的采集；

步骤2、数据预处理：滤除原始信号中包含的噪声，完成去噪后合成多链路数据，规范数据格式，构建神经网络的输入数据集；

步骤3、多任务识别网络：使用多任务学习网络Wisenet实现室内场景理解，其中Wisenet包含共享表示层、以及使用共享表示层多任务之间梯度信息的域识别网络Dom_Net、位置识别网络Loc_Net和行为识别网络Act_Net。

作为优选的，其特征在于：

在步骤1中，采集数据的设备包括两台电脑、两台搭载Atheros无线网卡的路由器和网线，电脑和路由器之间通过网线连接，通过笔记本可以访问路由器系统，完成模式、中心频率和发包速率等参数设置，并向路由器传达发送信号和接收信号指令；两台路由器根据终端发来的命令控制CSI信号的发送和接收，命令中包含目的地址和发包数量，每台路由器有两对收发端天线，发送端发包率为500包/秒，带宽为20MHZ，中心频率采用2.4GHZ。

作为优选的，在步骤2中，去噪方法为小波变换中的小波分解与重构，利用db3小波对CSI的振幅进行单尺度小波变换分析，随机选取原始信号中的一个子载波数据进行db3小波系数分解与重构，以完成滤噪。

作为优选的，在步骤2中，将两对收发端的所有链路数据合成为2000,56,4的数据格式，合成后的数据连同其对应的三个标签，分别为域、位置、动作，合成后的数据生成数据集。

作为优选的，在步骤3中，域识别网络Dom_Net使用基于最小池化的卷积注意力机制可以赋予振幅值较小的信息更大的权重，来区分不同的域；行为识别网络Act_Net基于使用基于最大池化的卷积注意力机制可以赋予振幅值较大的信息更大的权重，来区分不同的动作。

作为优选的，将步骤2获得的输入数据集输入卷积注意力机制AM，卷积注意力机制AM包括通道注意力模块和空间注意力模块。

作为优选的，将步骤2获得的输入数据集输入正常卷积操作，的同时加入注意力机制，通道注意力模块表示为下式：

M_c(F)＝σ(MLP(AvgPool(X))+MLP(MinPool(X)))，

其中，X为神经网络的输入数据，Avgpool和Minpool分别为平均池化层和极限池化层，MLP为共享层，在共享层主要通过卷积操作实现数据降维和特征提取，σ为对应的Sigmoid激活函数；通道注意力模块将特征图在空间维度上进行压缩，仅考虑各个通道内部的特征，输入的特征图在卷积操作的同时，分别经过通道注意力模块的全局平均池化层和全局极限池化层，平均池化层对每一个特征点都有反馈，被用来保留特征图中的背景信息，极限池化层在梯度反向传播计算时，只有特征图上响应小的特征点才有梯度的反馈；经过平均池化层和极限池化层的两个特征图被输入到共享层MLP中实现降维和特征提取，压缩特征图的空间维度，将MLP的输出加和后经过sigmoid函数激活，可得到通道注意力矩阵，该结果与经过卷积的特征矩阵进行智能乘积运算，得到调整后的特征F′；

空间注意力模块对通道进行压缩，空间注意力模块表示为下式：

M_s(F)＝σ(f^n*n([AvgPool(F′)；MinPool(F′)]))，

其中，其中F′为经过通道注意力机制后的特征，f对应于二维卷积操作，n为卷积核的维度，AvgPool用来提取通道上的平均值，MinPool用来提取通道上的极限值；将平均池化层和极限池化层提取到的特征矩阵连接起来，经过卷积层后被sigmoid激活，得到空间注意力矩阵(Spatial Attention)，将此空间注意力矩阵与调整后的特征F′进行智能乘积运算，得到下式：

C_A＝M_c(F)·M_s(F)，

C_A即为在CNN基础上添加注意力机制的结果，在具体的域识别应用中，C_A包含采集的数据中的背景信息，用来表征当前用户所处的域，当网络包含多层时，C_A作为输入迭代到下一层的计算中。

作为优选的，所述共享表示层包含两层卷积，每层卷积操作后，都有批量归一化层和带泄露的修正线性单元的结构，来避免梯度消失和梯度爆炸现象的发生。

作为优选的，在步骤3中，利用Wisenet网络结构，数据输入到输出计算过程如下：

原始数据集D＝{(x₁，y₁)，(x₂，y₂)...(x_n，y_n)}，其中x_i经过两层硬共享层得到共享层输出S_i：

S_i＝LeaklyRelu(f(∑_i∈Dx_i*k^s _i+b^s _i))，

其中k为对应的卷积核参数，b为偏置量；卷积后的x_i经过LeaklyRelu激活后，在三个任务之间共享k和b；在梯度更新过程中，返回任务特定梯度信息的同时返回共享参数的梯度信息；

为判断出用户所处的域，使用Dom_Net所示的网络结构；经过共享层后的S_i首先经过卷积后得到

在训练过程中，中间层数据分布发生改变可能会出现梯度消失或爆炸的问题；为解决此问题同时加快训练速度，需要经过批量归一化层BN；经过BN层后得到经过LeaklyRelu后使用最大池化得到一维卷积后的结果F^dom：

首先在其各个通道上提取最小值，即添加通道注意力机制CA，得到

接着，将通道信息进行压缩，即添加空间注意力机制SA，得到

卷积完以后的数据x_i经过两次上述步骤后，经过一层线性全连接层输出得到

其中W_dom和b_dom分别为全连接层迭代更新的权值矩阵和偏置矩阵；

各行的最大值对应的索引值即为网络预测的输出，其对应的损失函数为L_dom：

同理S_i经过Act_Net后得到的输出经过三层卷积层后得到F^act；由于变化幅度较大的信号中包含了更多用户的行为信息，所以添加由平均池化和最大池化层组成的注意力机制；添加上注意力机制后得到

经过一层线性全连接层得到

其对应的损失函数分别为：

相对来说，Loc_Net的网络结构比较简单，这是因为CNN卷积神经网络本身对空间信息较为敏感，因此不需要添加注意力机制也能很好地对位置进行识别；经过Loc_Net后卷积层后到的输出为

经过批量归一化层和激活函数层后得到F^loc:

S_i经过两层卷积最后经过全连接层得到

同样地，最终Loc_Net的损失函数为：

由于共享层嵌在每个子网络中，各个子网中返回的loss中既包含特定任务的梯度信息，也包含来自共享层的梯度信息，即Θ包含θ^sh，θⁱ两部分，Wisenet的优化目标函数为：

其中L_i＝{L_dom，L_act，L_loc},通过更新参数以使目标函数达到最小；

Wisenet最终的输出为三个网络的输出，和分别对应于用户所处的域、所在当前域的位置以及执行的动作；根据域和位置的信息可以推断出动作所包含的具体含义。

使用本发明的有益效果是：

在图像识别领域最小池化的方法使用得较少，主要是因为在图像的表现形式RGB表示中，000表示黑色，数值越小越趋近于黑色。采用最小池化提取出来的图片信息是特征相较少的背景信息，特征本身没有什么意义。但在信号处理领域，0是具有实际意义的。来自不同域反射的信号，由于房间位置和室内陈设的不同，信号振幅所处的范围也不尽相同。以此为出发点，基于空间相对静止时的振幅水平来区分不同的域。使用基于最小池化的卷积注意力机制可以赋予振幅值较小的信息更大的权重。从而忽略掉振幅起伏较大的信息的影响。在基于CSI的行为感知技术中，还从未有过多任务并发的方法。针对多任务场景理解问题，本专利提出的基于硬共享机制的多任务学习网络结构Wisenet，利用卷积层的共享机制提取子任务间的隐藏信息，为跨场景动作识别和室内定位提供可能性。

由上述可知，本发明的优点是：

(1)本系统分辨了相同动作在不同场景和位置下的不同含义，解决传统方法不能实现行为语义理解的问题。

(2)本系统将所有收发端子载波信号作为网络输入，定义了有效的数据拼接格式，更加有效地利用室内多径信息。

(3)本系统提出一个基于CSI的多任务场景理解网络Wisenet，无需重新训练模型即可在多个场景下进行行为识别和室内定位。

附图说明

图1为本发明基于射频信号多任务学习网络的室内场景理解方法的流程图。

图2为本发明基于射频信号多任务学习网络的室内场景理解方法志愿者执行的动作图。

图3为本发明基于射频信号多任务学习网络的室内场景理解方法大厅场景示意图。

图4为本发明基于射频信号多任务学习网络的室内场景理解方法办公室场景示意图。

图5为本发明基于射频信号多任务学习网络的室内场景理解方法不同尺度小波重构信号示意图。

图6为本发明基于射频信号多任务学习网络的室内场景理解方法数据集构建示意图。

图7为本发明基于射频信号多任务学习网络的室内场景理解方法Wisenet网络结构图。

图8为本发明基于射频信号多任务学习网络的室内场景理解方法Dom_Net注意力机制结构图。

图9为本发明基于射频信号多任务学习网络的室内场景理解方法训练过程子网络准确率度和损失值示意图。

图10为本发明基于射频信号多任务学习网络的室内场景理解方法Wisenet混淆矩阵示意图。

图11为本发明基于射频信号多任务学习网络的室内场景理解方法Wisenet性能评价示意图。

图12为本发明基于射频信号多任务学习网络的室内场景理解方法Act_Net不同结构训练准确率对比图。

图13为本发明基于射频信号多任务学习网络的室内场景理解方法Act_Net在不同网络下的各指标对比图。

具体实施方式

为使本技术方案的目的、技术方案和优点更加清楚明了，下面结合具体实施方式，对本技术方案进一步详细说明。应该理解，这些描述只是示例性的，而不是要限制本技术方案的范围。

如图1-图8所示，本实施例提出一种基于射频信号多任务学习网络的室内场景理解方法，聚焦于跨域动作的语义理解这一智能感知领域的关键技术，提出如图1所示基于室内无线信号的场景理解系统架构Wi-Sesys。Wi-Sesys包含数据采集、数据预处理和多任务识别网络三个部分。首先使用搭载Atheros无线网卡进行信道状态信息(channel StateInformation，CSI)的采集。然后，滤除原始信号中包含的噪声，完成去噪后合成多链路数据，规范数据格式，构建神经网络的输入数据集。最后使用多任务学习网络Wisenet实现室内场景理解，Wisenet包含共享表示层、域识别网络Dom_Net、位置识别网络Loc_Net和行为识别网络Act_Net。

数据采集

其中，采集实验数据的设备包括两台笔记本电脑、两台搭载Atheros无线网卡的路由器和两根5米长网线。电脑和路由器之间通过网线连接，通过笔记本可以访问路由器系统，完成模式、中心频率和发包速率等参数设置。并向路由器传达发送信号和接收信号指令。两台路由器根据终端发来的命令控制CSI信号的发送和接收。命令中包含目的地址和发包数量。每台路由器有两对收发端天线，发送端发包率为500包/秒。带宽为20MHZ，中心频率采用2.4GHZ。

实验设置中，志愿者执行的动作如图2所示，包括蹲起、弯腰、走路、抬手等生活中常见的一些动作。志愿者在域中每个位置执行每个动作10遍，每次动作的采样时间大约是4.5秒。采集到的每个样本由2300个CSI数据包组成。

图3所示场景为某个教学楼较为空旷的大厅，周围布有少许桌具，四周窗户较多。路由器距离地面的高度为85厘米，每个位置指纹快的大小为1.2×1.2米，每个域下包含有9个位置，分别以数字命名为1～9。域大小为13平米左右。在收集CSI过程中有行人经过，给有效信号带来一定的干扰。图4为一个会议室，房间内桌椅排布紧密，房间内墙壁面积大。相对于图4-9所示的大厅场景，该场景空间更大，周围环境更复杂。信号发出后，经过环境中桌椅和墙壁等静态物体的反射次数更多，这导致收集到的CSI信号中包含有更多的不确定因素。志愿者执行的动作如图4中所示，包括蹲起、弯腰、走路、抬手等生活中常见的一些动作。志愿者在域中每个位置执行每个动作10遍，每次动作的采样时间大约是4.5秒。采集到的每个样本由2300个CSI数据包组成。

数据预处理

采集去噪部分，使用Atheros网卡采集CSI时，信号从发送端抵达接收端的过程中，会经过家具等静态物体和人体反射、衍射和散射。在该过程中，设备本身也会产生振动，同时家居环境中其他发送无线信号的设备也会对CSI的传播过程造成干扰。导致信号在双端传输过程中出现丢包、延迟和含噪的情况，这容易导致有效信号被淹没。在提取CSI信号中的有效特征前，需要对数据进行去噪。本文所用去噪方法为小波变换中的小波分解与重构。本文使用的小波分解与重构去噪主要利用db3小波对CSI的振幅进行单尺度小波变换分析。随机选取原始信号中的一个子载波数据进行db3小波系数分解与重构，得到图5所示的结果。随着重构尺度的增加，信号趋向于平滑。当使用尺度6重构时，相对高频的信号丢失较多，部分信号与原始信号不匹配，因此选用a5尺度重构。

数据集构建部分，在实验过程中，通过观察发现，同一个志愿者，即使是处于同一域的同一位置下执行同一动作，不同收发端设备采集到的信号也会不同。如图5所示。即使接收端相同，来自不同发送端的振幅值区间和数据变化模式也不一样。不同的收发端链路形成了对空间中人体变化的不同视角。常识告诉我们，视角越丰富我们看到的变化也越全面真实。为了更好利用多径带来的数据冗余同时满足神经网络的输入，将两对收发端的所有链路数据合成为(2000,56,4)的数据格式。合成后的数据连同其对应的三个标签(域、位置、动作)一起生成数据集。将两对收发端的设备采集的数据连接起来，做纵向拼接后数据格式为(2000,56,4)。拼接完的数据连同其对应的三个标签，一起生成数据集，数据格式如图6。

多任务识别网络

与单任务学习网络不同，多任务学习网络的数据集同时包含域、位置和动作三个维度的信息。使用多任务学习的方法来实现三种信息的同时读取与处理，可以充分挖掘各任务之间的隐藏信息。这一过程主要由参数共享机制完成，共享层可以综合多个任务之间的梯度信息，对多任务同步更新。本文采用的场景理解神经网络多任务学习结构图如图7所示。

注意力机制中，Dom_Net基于空间相对静止时的振幅水平来区分不同的域。使用基于最小池化的卷积注意力机制可以赋予振幅值较小的信息更大的权重。从而忽略掉振幅起伏较大的信息的影响。而Act_Net添加基于最大池化的注意力机制，使得振幅较大的信息占据主导地位。不同的网络添加不同的注意力机制可以实现对不同信号的聚焦。Dom_Net采用的注意力模块如图8所示

卷积注意力机制AM主要包括分为两个部分：通道注意力模块和空间注意力模块。特征的每一个通道都代表着一个专用的检测器，通道注意力模块将特征矩阵进行空间维度上的压缩，在各个通道提取需要关注的特征信息。而空间注意力机制则是对通道进行压缩，从整个数据的特征维度考虑，综合各个通道提取的特征。

输入数据正常卷积操作的同时加入注意力机制。通道注意力模块表示为下式：

M_c(F)＝σ(MLP(AvgPool(X))+MLP(MinPool(X)))，

其中，X为神经网络的输入数据，Avgpool和Minpool分别为平均池化层和最小池化层，MLP为共享层，在共享层主要通过卷积操作实现数据降维和特征提取，σ为对应的激活函数，此处使用的为Sigmoid激活函数。

通道注意力模块将特征图在空间维度上进行压缩，仅考虑各个通道内部的特征。输入的特征图在卷积操作的同时，分别经过通道注意力模块的全局平均池化层和全局最小池化层。平均池化层对每一个特征点都有反馈，被用来保留特征图中的背景信息，最小池化层在梯度反向传播计算时，只有特征图上响应小的特征点才有梯度的反馈，因此最小池化可以被用来选择特征图上变化不怎么明显的特征。经过平均池化层和最小池化层的两个特征图被输入到共享层MLP中实现降维和特征提取，压缩特征图的空间维度。将MLP的输出加和后经过sigmoid函数激活，可得到通道注意力矩阵(Channel Attention)，该结果与经过卷积的特征矩阵进行智能乘积运算，得到调整后的特征F′。

空间注意力模块对通道进行压缩，综合考虑各个通道之间的关系。空间注意力模块表示为下式：

M_s(F)＝σ(f^n*n([AvgPool(F′)；MinPool(F′)]))，

其中F′为经过通道注意力机制后的特征，f对应于二维卷积操作，n为卷积核的维度。

AvgPool用来提取通道上的平均值，MinPool用来提取通道上的最小值。将平均池化层和最小池化层提取到的特征矩阵连接起来，经过卷积层后被sigmoid激活，得到空间注意力矩阵(Spatial Attention)，将此空间注意力矩阵与调整后的特征F′进行智能乘积运算，得到下式：。

C_A＝M_c(F)·M_s(F)，

其中，C_A即为在CNN基础上添加注意力机制的结果，在具体的域识别应用中，C_A包含采集的数据中的背景信息，用来表征当前用户所处的域。当网络包含多层时，C_A作为输入迭代到下一层的计算中。

Act_Net中注意力机制的结构与图8相似，在使用过程中，需要把最小池化替换为最大池化。

Wisenet包含共享表示层、域识别网络Dom_Net、位置识别网络Loc_Net和动作识别网络Act_Net。共享表示层包含两层卷积，每层卷积操作后，都有批量归一化层和带泄露的修正线性单元的结构来避免梯度消失和梯度爆炸现象的发生。三个子任务的网络结构如图7所示，数据输入到输出计算过程如下：

原始数据集D＝{(x₁，y₁)，(x₂，y₂)...(x_n，y_n)}，其中x_i经过两层硬共享层得到共享层输出S_i：

S_i＝LeaklyRelu(f(∑_i∈Dx_i*k^s _i+b^s _i))，

其中，k为对应的卷积核参数，b为偏置量。卷积后的x_i经过LeaklyRelu激活后，在三个任务之间共享k和b。在梯度更新过程中，返回任务特定梯度信息的同时返回共享参数的梯度信息。

为判断出用户所处的域，使用图5中Dom_Net所示的网络结构。经过共享层后的S_i首先经过卷积后得到

在训练过程中，中间层数据分布发生改变可能会出现梯度消失或爆炸的问题。为解决此问题同时加快训练速度，需要经过批量归一化层BN。经过BN层后得到经过LeaklyRelu后使用最大池化得到一维卷积后的结果F^dom：

首先在其各个通道上提取最小值，即添加通道注意力机制CA，得到

接着，将通道信息进行压缩，即添加空间注意力机制SA，得到

卷积完以后的数据x_i经过两次上述步骤后，经过一层线性全连接层输出得到

其中，W_dom和b_dom分别为全连接层迭代更新的权值矩阵和偏置矩阵。

各行的最大值对应的索引值即为网络预测的输出，其对应的损失函数为L_dom：

同理S_i经过Act_Net后得到的输出经过三层卷积层后得到F^act。由于变化幅度较大的信号中包含了更多用户的行为信息，所以添加由平均池化和最大池化层组成的注意力机制。添加上注意力机制后得到

经过一层线性全连接层得到

其对应的损失函数分别为：

相对来说，Loc_Net的网络结构比较简单，这是因为CNN卷积神经网络本身对空间信息较为敏感，因此不需要添加注意力机制也能很好地对位置进行识别。经过Loc_Net后卷积层后到的输出为

经过批量归一化层和激活函数层后得到F^loc:

S_i经过两层卷积最后经过全连接层得到

同样地，最终Loc_Net的损失函数为：

其中，L_i＝{L_dom，L_act，L_loc},通过更新参数以使目标函数达到最小。

Wisenet最终的输出为三个网络的输出分别对应于用户所处的域、所在当前域的位置以及执行的动作。根据域和位置的信息可以推断出动作所包含的具体含义。

实施例1

本实施例，验证上述方法的精度和系统健壮性。

识别精度

使用两个域下的数据集训练。每个域的数据集下包含的动作不完全一样，域中没有涉及到的动作被单独归为一类。在训练过程中的准确率和损失变化情况如图9所示。

在添加共享层后，随着训练轮数的增加，准确率在逐渐升高同时损失在慢慢下降。在训练200轮以后，三个任务的准确率均达到95％以上，损失平均下降到0.1以下。

使用两个域下的数据集训练Wisenet。Wisenet在测试集的混淆矩阵如图10。

观察图10a)图、b)图可以看出，Act_Net的每一个类别准确率均在80％以上，Loc_Net更是高达95％以上。

在测试集上的其他评价指标召回率(Recall)、精准率(Percission)和宏F1如图11所示。

从图11中可以得知，Dom_Net和Loc_Net表现最好，各指标均在95％以上。Act_Net由于在变化域和位置后，特征富有变化性，因此识别在统计特征时比较困难。即便如此，精准率、召回率和宏-F1值也达到83％。总体来看，在多个域下进行动作和位置识别，添加硬共享机制可以显著提高模型的性能。

Wisenet的各个子任务正确实现分类是进行场景理解的必要条件，在场景理解任务中，只有当(域、位置和动作)都分类正确时，才可以正确解析动作语义。为评估Wisenet的分类性能，本文在测试集上进行测试。测试指标详细说明如下表1。

表1 Wisenet测试结果

其中√为分类正确，×为分类错误。

1888条数据中TTT为1553条，占比82.3％。1888条数据中TTT为1553条，占比82.3％。其余分类错误的335条数据中，TTF为291条。这说明在Loc_Net和Dom_Net正确分类的前提下，Act_Net分类错误导致整体分类错误的概率为87％。而TTF、TFF、FFF和FTF的和为300，其中，TTF为291。即在Act_Net分类错误时，Loc_Net和Dom_Net分类正确的占比为97％。且TTF和TTT的和为1844，占比97.6％，Loc_Net和Dom_Net能将很大一部分数据正确分类，对整体分类的影响不大。由此分析，Wisenet出现了“短板效应”，其整体分类性能由子任务网络Act_Net决定。因此在采用不同结构和参数的对Wisenet进行改进时，应重点关注Act_Net的分类性能。

系统健壮性

为观察注意力机制的作用，本文针对不同的网络结构做如下对比实验。根据是否添加注意力机制命名为Act_o_Dom_o、Act_o_dom_w、Act_w_dom_o和Act_w_dom_w。相同数据集下，不同网络结构的Act_Net训练准确率如图9所示。图12为Act_Net在上述四种网络结构下100轮训练过程中的准确率，可以明显的观察到，不添加注意力机制的网络表现最差，准确率只达到80％左右，而添加注意力机制的网络，性能相对较好，其中同时添加两种注意力机制的Act-w-Dom-w即Wisenet的性能最好。

图13为在四种不同的网络结构下Wisenet语义识别的准确率。可以得出，Act_Net和Dom_Net同时添加注意力后动作语义识别准确率得到了明显的提升。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本技术内容的思想，在具体实施方式及应用范围上可以作出许多变化，只要这些变化未脱离本发明的构思，均属于本专利的保护范围。

22页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：等离子体分析仪数据处理方法及系统

一种基于射频信号多任务学习网络的室内场景理解方法

相关技术

网友询问留言