一种基于注意力机制与全局推理的目标跟踪方法及系统

文档序号：192683 发布日期：2021-11-02 浏览：31次 >En<

阅读说明：本技术 一种基于注意力机制与全局推理的目标跟踪方法及系统 (Target tracking method and system based on attention mechanism and global reasoning ) 是由鲍华束平许克应于 2021-06-11 设计创作，主要内容包括：本发明公开了一种基于注意力机制与全局推理的目标跟踪方法及系统,属于计算机视觉技术领域,包括：利用基于孪生网络的目标跟踪模型进行目标跟踪,目标跟踪模型包括模板分支和搜索分支,模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块,包括：获取初始帧图片和当前帧图片,分别作为模板分支和搜索分支分的输入,得到第一得分图和第二得分图；将第一得分图和第二得分图进行加权求和,得到回归图；根据回归图,确定目标所在位置。本发明相较于现有的跟踪算法,具有更好的跟踪效果。(The invention discloses a target tracking method and a system based on an attention mechanism and global reasoning, which belong to the technical field of computer vision and comprise the following steps: the target tracking is carried out by utilizing a target tracking model based on a twin network, the target tracking model comprises a template branch and a search branch, the template branch and the search branch respectively comprise a main network, a parallel attention mechanism and a global reasoning module, and the target tracking method comprises the following steps: acquiring an initial frame picture and a current frame picture, and respectively taking the initial frame picture and the current frame picture as the input of a template branch and a search branch to obtain a first score map and a second score map; carrying out weighted summation on the first score map and the second score map to obtain a regression map; and determining the position of the target according to the regression graph. Compared with the existing tracking algorithm, the method has better tracking effect.)

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种基于注意力机制与全局推理的目标跟踪方法及系统。

背景技术

目标跟踪是计算机视觉领域的难题之一，它是更高级的视觉理解和场景分析的基础。目标跟踪技术广泛用于视频监视，人机交互，机器人技术，视频编辑和无人驾驶。视觉对象跟踪任务就是根据初始帧目标位置和大小信息，在后续帧中实现对移动目标的连续和稳定跟踪。由于受到目标的尺度变化，旋转，变形，快速运动以及背景照明的变化等类似的物体干扰，实现长期稳定的目标跟踪仍然是一项艰巨的任务。

近年来，对视觉跟踪任务的研究集中在两个方面，一方面是提高算法的速度，另一方面是提高跟踪的准确性。在速度方面，相关过滤算法是最成功的跟踪框架之一，主要使用了快速傅里叶傅里叶变换和更简单的手动功能，运行速度接近每秒700帧。但是这种方法在复杂的情况下通常很难处理，并且性能将大大降低。在准确性方面，基于深度学习的目标跟踪方法显示出非常强大的效果。与相关过滤算法相比，基于深度学习的目标跟踪方法的目标跟踪性能具有很大的提高，可以更好地处理最困难的场景，但其速度较慢。

为解决上述基于深度学习的目标跟踪算法跟踪速度慢的问题，提出了基于孪生网络的目标跟踪算法。相关研究人员首次提出孪生网络的目标跟踪，即将目标跟踪问题转化为一个patch块匹配问题，并用神经网络来实现；也有研究者提出了一个端到端的孪生网络跟踪算法SiamFC，其速度很快，所以接下来的几年中出现了许多基于孪生网络的目标跟踪。

基于孪生网络的目标跟踪方法具有很高的速度和准确率优势，因而受到了很强的关注度，但已有的一些孪生网络跟踪算法仍存在一些不足。下面针对典型的孪生网络SiamFC和SiamRPN，指出其存在的两方面不足，其一，它们使用的网络结构较浅，提取的特征不充分，没有很好的关注跟踪目标本身，所以在面对一些跟踪挑战时会出现跟踪失败的情况。其二，它们都没有考虑到上下文信息，在面对遮挡较大或者形变过大的物体容易导致跟踪失败。

发明内容

本发明的目的在于克服现有技术存在的缺陷，取得更好的跟踪效果。

为实现以上目的，一方面，本发明采用一种基于注意力机制与全局推理的目标跟踪方法，利用基于孪生网络的目标跟踪模型进行目标跟踪，所述目标跟踪模型包括模板分支和搜索分支，模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块，包括：

获取初始帧图片和当前帧图片，分别作为模板分支和搜索分支分的输入，得到第一得分图和第二得分图；

将第一得分图和第二得分图进行加权求和，得到回归图；

根据回归图，确定目标所在位置。

进一步地，所述主干网络采用ReNeXt网络结构，其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取，得到特征图并作为所述注意力机制的输入。

进一步地，所述注意力机制包括通道注意力机制和空间注意力机制，其中：

空间注意力机制用于对输入的特征图进行处理，得到第一特征图；

通道注意力机制用于对输入的特征图进行处理，得到第二特征图；

将第一特征图和第二特征图并行相加，得到注意力特征图，并作为所述全局推理模块的输入。

进一步地，所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上，进行推理，然后将交互空间节点的特征映射到原空间，得到新特征图；将新特征图与所述注意力特征图相加，得到新特征图。

进一步地，所述获取初始帧图片和当前帧图片，分别作为模板分支和搜索分支分的输入，得到第一得分图和第二得分图，包括：

将所述模板分支中的全局推理模块输出的新特征图与所述搜索分支中的全局推理模块输出的新特征图执行互相关运算，分别得到所述第一得分图和所述第二得分图。

另一方面，采用一种基于注意力机制与全局推理的目标跟踪系统，包括图片获取模块和目标跟踪模块，其中：

图片获取模块用于获取初始帧图片和当前帧图片；

目标跟踪模块用于利用目标跟踪模型对初始帧图片和当前帧图片进行处理，确定目标所在位置，所述目标跟踪模型包括模板分支和搜索分支，模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块，所述模板分支和搜索分支分别对初始帧图像和当前帧图像进行处理，得到第一得分图和第二得分图，并将第一得分图和第二得分图进行加权求和，得到回归图，确定目标所在位置。

进一步地，所述注意力机制包括通道注意力机制和空间注意力机制，其中：

空间注意力机制用于对输入的特征图进行处理，得到第一特征图；

通道注意力机制用于对输入的特征图进行处理，得到第二特征图；

将第一特征图和第二特征图并行相加，得到注意力特征图，并作为所述全局推理模块的输入。

与现有技术相比，本发明存在以下技术效果：本发明使用了更深的网络结构并加入了并行的注意力机制，使得提取的特征更加的充分，同时还加入了全局推理模块，全局推理模块的加入更好的考虑到了全局上下文的消息，从而取得更好的跟踪效果，相较于已有的跟踪算法，本发明取得了较有竞争的精度和成功率结果。

附图说明

下面结合附图，对本发明的

具体实施方式

进行详细描述：

图1是一种基于注意力机制与全局推理的目标跟踪方法的流程图；

图2是目标跟踪方法的整体跟踪框图，其中包含三部分，分别是主干网络，并行注意力机制以及全局推理模块；

图3是空间注意力机制框图；

图4是通道注意力机制框图；

图5是全局推理模块结构图；

图6是本发明跟踪算法与其他5种高性能主流算法在OTB100基准数据集上进行对比评估，(a)为成功率图，(b)为精度图；

图7是本发明跟踪算法与其他5种高性能主流算法在OTB100数据集上面对各种挑战时的精度图；

图8是本发明中跟踪算法与其他5种高性能主流算法在OTB100数据集上面对各种挑战时的成功率图；

图9是本发明种跟踪算法与其他三种跟踪算法在OTB100中四个视频帧上的定性分析比较。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1至图2所示，本实施例公开了一种基于注意力机制与全局推理的目标跟踪方法，利用基于孪生网络的目标跟踪模型进行目标跟踪，所述目标跟踪模型包括模板分支和搜索分支，模板分支和搜索分支均包括主干网络、并行的注意力机制和全局推理模块，包括如下步骤S1至S3：

S1、获取初始帧图片和当前帧图片，分别作为模板分支和搜索分支分的输入，得到第一得分图和第二得分图；

S2、将第一得分图和第二得分图进行加权求和，得到回归图；

S3、根据回归图，确定目标所在位置。

需要说明的是，目标跟踪模型中提取特征的主干网络采用最新的ReNeXt网络结构，其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取，得到特征图并作为所述注意力机制的输入，具体如下：

孪生网络有两个分支，模板分支和搜索分支，模板分支将给定的初始帧图片作为输入，而搜索分支将当前帧的图片用作输入。这两个分支经过完整的卷积网络进行特征提取，然后执行互相关运算，最后得到一个得分图，具体情况可以用以下公式表示：

其中，z表示模板图片，x表示搜索图片，表示经过卷积神经网络生成的特征图，b表示偏置值，I表示单位矩阵，S(z，x)为最终的得分图，由两个分支获得的特征图经过互相关运算以获得S(z，x)，得分最高的是目标的位置。

作为进一步优选的技术方案，所述注意力机制包括通道注意力机制和空间注意力机制，其中：

空间注意力机制用于对输入的特征图进行处理，得到第一特征图；

通道注意力机制用于对输入的特征图进行处理，得到第二特征图；

将第一特征图和第二特征图并行相加，得到注意力特征图，并作为所述全局推理模块的输入。

如图3所示，本实施例中空间注意力机制采用了简洁、高效、计算量小的空间注意力模块，将输入的特征图按照空间的位置进行分割得：

F_SA＝[f^1，1，f^1，2，…，f^i，j，…，f^H，W]

其中，表示空间位置(i，j)处的特征张量，其中i∈{1，2，…，H}，j∈{1，2，…，W}。特征图F_SA由两个分支输入，一个分支生成权重系数，而另一个保持不变。最后，对权重系数和分割后的特征图中的每个对应位置张量进行相乘运算，输出处理后的特征图如下式所示：

其中，μ_i，j由特征张量f^i，j通过1×1的卷积操作得来，σ(·)代表sigmoid激活函数。

如图4所示，本实施例中的通道注意力机制将输入的特征图F_CA分成俩个分支，其一保持原特征图不变，其二分别经过全局平均池化，1×1的卷积压缩通道，1×1的卷积扩张通道，再经过sigmoid激活函数，最终产生权重系数，将原特征图与生成的权重系数进行加权得到新的特征图。

将输入的特征图按通道数进行分割，具体情况如下式：

F_CA＝[f₁，f₂，…，f_k，…，f_C]

其中，k∈{1，2，…，C}。

特征图经过全局平均池化后生成特征张量第k通道的值如下式所示：

将生成特征张量在经过俩个1×1的卷积操作之后得到新的特征张量z′，如下式所示：

z′＝W₁(δ(W₂z))

其中，是第一个卷积层的权重值，是第二个卷积层的权重值，δ(·)是ReLU激活函数。得到最终的特征图如下式所示：

最后，基于并行注意力机制将空间注意力机制产生的特征图和通道注意力机制产生的特征图并行相加得到新的特征图F，如下式所示：

作为进一步优选的技术方案，所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上，形成一个完全相连的图，进行推理，然后将交互空间节点的特征映射到原空间，得到新特征图；将新特征图与所述注意力特征图相加，得到新特征图。

如图5所示，全局推理模块由五个卷积组成，两个用于在输入特征图X和输出特征图Y上进行尺寸缩减和扩展(最左侧和最右侧)，一个用于在坐标和潜在交互空间之间生成双投影B(顶部)，而两个用于基于交互空间(中间)中的图Ag的全局推理。在这里，V将区域特征编码为图节点，W_g表示图卷积的参数。将输入特征图其中c为通道数，L＝H×W，通过线性转化映射到交互空间，具体如下式所示：

其中，

在交互空间中的图卷积可用下式表示：

Z＝GVW_g＝((I-A_g)V)W_g

其中，G和A_g表示N×N节点邻接矩阵，用于跨节点之间扩散信息；W_g表示状态更新，表示节点矩阵。

再将交互空间映射到原空间得到新的特征图，具体如下式线性映射所示：

最后将新的特征图与原特征图相加得到最终的具有上下文信息的特征图。

本实施例向孪生网络的两个分支分别添加全局推理模块，并与另一分支执行互相关运算以获得得分图，将得到的得分图执行加权和，具体公式如下：

S(z，x)＝φS₁(z，x)+(1-φ)S₂(z，x)

其中，S₁(z，x)是全局推理模块加在模板分支所得到的得分图，S₂(z，x)是全局推理模块加在搜索分支得到的得分图，φ是权重系数，本实施例中φ取0.5，S(z，x)是最终输出的得分图。

本实施例还公开了一种基于注意力机制与全局推理的目标跟踪系统，包括图片获取模块和目标跟踪模块，其中：

图片获取模块用于获取初始帧图片和当前帧图片；

作为进一步优选的技术方案，所述主干网络采用ReNeXt网络结构，其用于对输入的所述初始帧图片或所述当前帧图片进行特征提取，得到特征图并作为所述注意力机制的输入。

作为进一步优选的技术方案，所述注意力机制包括通道注意力机制和空间注意力机制，其中：

空间注意力机制用于对输入的特征图进行处理，得到第一特征图；

通道注意力机制用于对输入的特征图进行处理，得到第二特征图；

将第一特征图和第二特征图并行相加，得到注意力特征图，并作为所述全局推理模块的输入。

作为进一步优选的技术方案，所述全局推理模块用于将注意力特征图的特征投影到交互空间的节点上，进行推理，然后将交互空间节点的特征映射到原空间，得到新特征图；将新特征图与所述注意力特征图相加，得到新特征图。

本实施例公开的一种基于注意力机制与全局推理的目标跟踪系统与上述实施例公开的一种基于注意力机制与全局推理的目标跟踪方法具有相同的技术特征和技术效果，该处不再赘述。

相较于现有的跟踪算法，本发明取得了更好的跟踪效果，实验验证如下：

本实施例的实验采取的数据集是OTB100[Yi Wu,Jongwoo Lim,and Ming-HsuanYang.Object tracking benchmark.IEEE Transactions on Pattern Analysis andMachine Intelligence,37(9):1834–1848,2015.2]。它由100个视频帧组成，并于2015年提出。不同的数据集还标有不同的属性。共有11种不同的属性。这些属性可能代表目标跟踪领域的常见困难。例如光照变化(IV)，尺度变化(SV)，遮挡(OCC)，形变(DEF)，运动模糊(MB)，快速运动(FM)，平面内旋转(IPR)，平面外旋转(OPR)，出视野(OV)，背景相似(BC)，低分辨率(LR)。

跟踪算法的质量取决于OTB100数据集的精度图和成功图，精度图是指视频帧的跟踪算法估计的目标位置的中心点与手动标记的距离目标中心点小于给定阈值帧数的百分比。由于精度图无法反映目标对象的大小和比例的变化，因此提出了成功率图。成功图是计算给定重合率阈值下大于重合率阈值的帧数占总帧数的百分比，重合率的计算公式如下：

其中，O是重合率，B是跟踪算法得到的边界框区域，G是真实值的边界框区域，∩是交集运算，∪是并集运算。

如图6所示，将本发明的跟踪算法在OTB100数据集上进行测试，并将得出的结果与SiamRPN[Li B,Yan J,Wu W,et al.High performance visual tracking with siameseregion proposal network[C]//Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition.2018:8971-8980.]、CFNet[Valmadre J,BertinettoL,Henriques J,et al.End-to-end representation learning for correlation filterbased tracking[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017:2805-2813.]、SiamFC3s[Wang L,Ouyang W,Wang X,etal.Visual tracking with fully convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:3119-3127.]、Staple[Bertinetto L,Valmadre J,Golodetz S,et al.Staple:Complementary learners forreal-time tracking[C]//Proceedings of the IEEE conference on computer visionand pattern recognition.2016:1401-1409.]、fDSST[Danelljan M,G,Khan F S,et al.Discriminative scale space tracking[J].IEEE transactions on patternanalysis and machine intelligence,2016,39(8):1561-1575.]五种近几年的主流算法得到的结果进行对比，本发明的算法都取得了较好的效果。相比较于SiamFC算法，本发明的跟踪算法在平均成功率和精度上都有所提升，其中成功率提高了6.9个百分点，精度提高了9.6个百分点。相较于SiamRPN算法也都有所提高，其中成功率和精度分别提高了1.8个百分点和2.4个百分点。

如图7和图8所示，将上述五种经典跟踪算法与本发明的算法在OTB100的不同属性上得到成功率和精度的显现出了不错的效果。其中图7和图8中的(a)，(b)，(c)，(d)，(e)，(f)，(g)和(h)分别代表的跟踪挑战的属性是背景相似，形变，低分辨率，运动模糊，遮挡，平面外旋转，出视野和尺度变化。图7和图8可以显示出在面临上述挑战时，本发明的跟踪算法在成功率和精度上均要优于SiamRPN，CFNet，SiamFC3s，Staple和fDSST算法。

如图9所示，选取OTB2015数据集中的四个具有挑战性的视频序列，将本发明的跟踪算法得出的结果与真实值、SiamFC得出的结果、Staple得出的结果进行比较，可以发现本发明中跟踪算法在处理遮挡、形变、运动模糊、尺度变化的困难上有着明显的优势。

“Bolt2”视频序列中具有的跟踪挑战有形变和背景相似，对于形变这个挑战上述算法表现的情况都较好，但对于背景相似这个挑战，由图中的第235帧和第252帧可知，SiamFC表现的较差，而本发明的算法依旧表现较好。

“Box”视频序列中具有的跟踪挑战有光照变化、尺度变化、遮挡、运动模糊、平面内旋转、平面外旋转、出视野、背景相似和低分辨率，对于光照变化、出视野、低分辨率这三种跟踪算法的挑战，图中三种算法表现的状态相似，但对于尺度变化、遮挡、运动模糊、平面内旋转、平面外旋转和背景相似这六种挑战，本发明的算法表现的较好。图中的第43帧图片、第357帧图片和第945帧图片SiamFC算法会跟丢目标，第641帧Staple算法会跟丢目标，但本发明提出的算法跟踪的状态一直很稳定，没有出现跟丢情况。

“Dragon Baby”视频序列中具有的跟踪挑战有尺度变化、遮挡、运动模糊、快速运动、平面内旋转、平面外旋转和出视野。如图所示，当视频处于19帧时，三种算法基本都能跟住，但在第44帧出现运动模糊和快速运动、第48帧出现遮挡和第80帧出现平面外旋转情况时只有本发明的跟踪算法可以跟住目标。

“Girl2”视频序列中具有的跟踪挑战有尺度变化、遮挡、形变、运动模糊和平面外旋转。如图所示，在第107帧即将发生遮挡时，三种算法跟踪状态相似，但发生遮挡之后的第239帧只有本发明的跟踪算法跟住了目标。同样，在第842帧和第927帧发生形变时本发明算法依旧可以跟住目标，但其他俩种算法表现较差。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

16页详细技术资料下载

一种基于注意力机制与全局推理的目标跟踪方法及系统

相关技术

网友询问留言