一种面向实时视频流的边缘环境行为识别系统

文档序号:191457 发布日期:2021-11-02 浏览:15次 >En<

阅读说明:本技术 一种面向实时视频流的边缘环境行为识别系统 (Real-time video stream-oriented edge environment behavior recognition system ) 是由 翟仲毅 陈晓峰 赵岭忠 于 2021-07-28 设计创作,主要内容包括:本发明公开了一种面向实时视频流的边缘环境行为识别系统,包括视频流获取模块、视频流存储模块、视频流预处理模块、缓存模块、滑窗定位模块、行为识别模块和用户界面模块;滑窗定位模块基于弹性跳跃滑窗的动作启动在线检测方法通过定位动作发生的位置节省了大量的计算资源,同时,并没有因为放弃滑动窗口的逐帧滑动致使原本性能优良的模型的检测性能产生较大的损失,在一定程度上实现了模型轻量化效果,避免大量无效数据送入行为识别模块,提高了行为识别的效率,提高了识别的实时性,通过数据本地化处理,更好得保护了敏感场景下边缘设备获取到的数据的隐私安全问题,该系统相较于普遍基于云中心的行为识别服务更有利于资源受限的边缘设备使用。(The invention discloses a real-time video stream oriented edge environment behavior recognition system, which comprises a video stream acquisition module, a video stream storage module, a video stream preprocessing module, a cache module, a sliding window positioning module, a behavior recognition module and a user interface module, wherein the video stream acquisition module is used for acquiring a video stream; the sliding window positioning module starts an online detection method based on the action of the elastic jumping sliding window, a large amount of computing resources are saved through the position where the positioning action occurs, meanwhile, the detection performance of an original model with excellent performance is not greatly lost due to the fact that frame-by-frame sliding of the sliding window is abandoned, the lightweight effect of the model is achieved to a certain extent, a large amount of invalid data is prevented from being sent into the action recognition module, the action recognition efficiency is improved, the recognition real-time performance is improved, the privacy safety problem of data acquired by edge equipment in a sensitive scene is better protected through data local processing, and compared with the action recognition service based on a cloud center, the system is more beneficial to the use of the edge equipment with limited resources.)

一种面向实时视频流的边缘环境行为识别系统

技术领域

本发明涉及计算机视觉研究技术领域,具体是一种面向实时视频流的边缘环境行为识别系统。

背景技术

视频行为识别技术经过近几年的快速发展,已被广泛应用于安防、医疗、人机交互等众多领域。在过去,行为识别服务大都部署在云中心上,但随着行为识别研究逐渐由离线处理转为对视频流的实时计算和分析,以及大量视频数据源逐渐转移到边缘节点,云计算正变得不适合行为识别服务。因为远离数据源的云服务在接收数据时可能会面临网络拥塞、带宽不足等问题,不能满足较高的实时性要求。

行为识别任务的相关方法主要可以分为传统的方法和基于深度学习的方法。传统的方法大多是基于手工或者规则提取的途径来提取视频中的行为特征,如HOG、SURF、iDT等。另外,有的方法则是利用图像分割技术先把目标对象从每个视频帧中分割开来,再从视频帧序列中学习动作特征。虽然传统方法取得了一定的成果,但其计算复杂度高、收敛速度缓慢、泛化效果差等特点,限制了在实际应用中的发展。基于深度学习的行为识别方法经过了多年的发展,在识别性能上取得了惊人的成功,但是大部分方法存在计算复杂度高、模型过大等问题,这就造成了这些方法应用于复杂的场景时计算密集。正因为如此,大多数深度学习模型通常都会选择部署在云数据处理中心上。这在处理一些离线任务,如视频检索、线下行为分析等,都取得了不错的成绩。而目前的行为识别研究正逐渐转向对视频流的实时计算和分析,如在线动作检测、早期动作识别和行为预测等,这对实时性的要求较高。目前,物联网边缘设备无时无刻都在产生数据,如果所有边缘设备产生的视频数据全部都要传输到云服务中心进行统一的处理和识别,势必会占用庞大的传输资源,海量的数据传输有时还会导致数据丢失等问题,并且不可避免地会造成服务延迟。

此外,已有的基于云的行为识别服务在面对一些应用领域,如智能家居、智慧医疗等场景时,边缘设备获取的是一些用户的敏感数据,这些数据含有大量隐私信息,相较于其他数据对于安全保护的要求更高。考虑到隐私泄露的风险,用户不一定愿意将这些数据传输到云上处理。此时,云中心也变得不适合完成边缘的行为识别任务。

因此,目前海量实时流数据进行传输时会占用大量的网络资源,以此导致服务延迟;云服务面对敏感场景的隐私数据时,存在隐私泄露风险。

发明内容

本发明的目的在于解决现有技术的不足,而提供一种面向实时视频流的边缘环境行为识别系统,该系统使用边缘计算代替云计算,避免边缘视频数据传输消耗网络资源,并采用一种弹性跳跃滑动窗口动作定位方法,降低无效数据对计算资源的占用,提高实时性。数据本地化处理,避免将敏感场景下的隐私数据传送到云端处理,保护使用者的隐私安全。

实现本发明目的的技术方案是:

一种面向实时视频流的边缘环境行为识别系统,包括视频流获取模块、视频流存储模块、视频流预处理模块、缓存模块、滑窗定位模块、行为识别模块和用户界面模块;

所述的视频流获取模块用于实时获取视频流数据,并将获取到的数据传输至视频流存储模块和用户界面模块中,用户界面模块对原始获得的视频流数据进行显示;

所述的视频流存储模块接收视频流获取模块获取到的数据并保存;

所述的视频流预处理模块提取视频流存储模块中存储的数据,进行帧归一化、裁剪、缩放、随机生成样本的数据增加和图片翻转增加数据多样性处理,并将预处理后的数据输入缓存模块中进行缓存;

所述的滑窗定位模块,采用弹性跳跃滑动窗口动作定位方法进行滑窗定位,读取缓存模块中的数据,并进行滑动策略的选择,滑窗定位模块将读取到的新一帧数据输入预先建立好的背景模型中,对比该帧与当前背景模型的相似度,若该帧判断为背景帧,则更新背景模型;否则计算滑动窗口的滑动距离,寻找下一个动作的开始位置进行识别窗口的滑动,最终将识别窗口送入识别模型中;

所述的行为识别模块,包括提取时空特征单元、特征优化单元和行为分类单元,提取时空特征单元对行为识别模块接收到的识别窗口视频帧序列进行特征提取,在特征图数据库中找到视频帧对应的特征图组成时序序列,并将找到的特征图组成时序序列输入特征优化单元中进行优化,优化后的特征图组成时序序列送入行为识别模块中,采用SoftMax激活函数完成视频行为的分类,并将分类结果在用户界面模块中显示。

所述的背景模块,是采用混合高斯模型,利用像素在一段时间内大量样本值的概率密度统计信息表示背景,对这些像素点建立各自的背景模块,概率密度的计算公式如下:

公式(1)中,Xt为视频帧特定空间位置(x,y)的像素点X的t时刻的历史值,B为背景模式总数,η(·)是指高斯分布概率密度函数,ωm,t为第m种背景模式下t时刻的高斯分布对应的权重,μ为均值,为第m种背景模式下t时刻的协方差,I为单位矩阵,协方差为第m种背景模式下t时刻的协方差矩阵;

每当有新一帧ft+1输入背景模块中,ft+1将与建立好的背景模型进行模式匹配,若帧中特定空间位置(x,y)的像素点X找到至少一个背景模式匹配,则标记X为背景像素点,即否则然后,将得到的分割了前景目标的二值化图像Mt与Mt+1进行基于皮尔森相似度的相似度比较,相似度γ1计算公式如式下:

公式(2)中,N为视频帧中总像素点数,∑Mt指将t时刻输入的帧图像中的图像所有特定空间位置(x,y)的二值化图像M值进行相加,∑Mt·Mt+1是指将t时刻输入的帧图像的空间位置(x,y)的二值化图像M值与t+1时刻输入的帧图像的空间位置(x,y)的二值化图像M值相乘最后所有空间位置的结果相加,其他式子以此类推;

将计算得到的相似度与设定的阈值T进行比较,T通过在训练背景模型时,使用高斯分布统计训练集视频中真实的背景窗口与其它类别窗口交界处帧间的相似度值的分布情况,并根据分布情况选择合适的阈值,若相似度低于设定的阈值,则标记ft+1属于背景帧,此时,将背景模型在与帧ft+1匹配过程中匹配的背景模式按照下述公式(3)更新各自的参数,未被匹配为背景模式,则ω、μ和σ2不变。最后像素点根据降序排序各自的模式并重新选择前B个模式作为背景;

公式(3)中,ωt+1为t+1时刻的高斯分布对应的权重,α为指权值更新率,Mt为t时刻分割了前景目标的二值化图像,μt+1为t+1时刻的均值,η(·)是指高斯分布概率密度函数,Xt+1为视频帧特定空间位置(x,y)的像素点X的t+1时刻的历史值,为t+1时刻的协方差,T为转置操作;

背景模型更新完成后,继续读取新一帧重复以上的比较,直到新一帧与背景模型的相似度高于阈值,新一帧被标记为非背景类;此时,滑动窗口以预标记期间累计被标记为背景的总帧数n作为新的滑动步长进行一次滑动并输入行为识别模块,背景类窗口滑动策略算法如下:

假设在时刻t,时间窗口Wt经过一次滑动并输入背景模型,经过模型的检测后,被分类为动作类窗口,此时,滑动窗口暂停滑动,重新计算滑窗的滑动步长,当新一帧ft+1到来,将ft+1与ft进行相似度比较,计算公式如下:

其中,N为第t个视频帧中像素的总数量,Xt为视频帧中特定位置像素的像素值;

将得到的相似度将与设定的阈值T进行比较,T通过在训练背景模型时,使用高斯分布统计测试集视频中动作窗口与动作开始窗口交界处帧间的相似度值的分布情况,自学习得到一个合适的阈值,若帧间的相似度低于设定的阈值,则认为新一帧中的运动信息是重复的,无新的动作变化的帧无需重新检测,之后,继续读取新一帧重复以上的比较,直到新一帧的相似度高于阈值,新一帧被标记为非动作类,此时,时间窗口按照预标记期间累计被标记为动作类的帧数n作为步长进行一次滑动,并输入行为识别模块,具体的动作类窗口滑动策略算法如下所示:

本发明提供的一种面向实时视频流的边缘环境行为识别系统,与现有技术相比,本发明具有如下特点:

1、本发明的基于弹性跳跃滑窗的动作启动在线检测方法通过定位动作发生的位置节省了大量的计算资源,而与此同时,并没有因为放弃滑动窗口的逐帧滑动致使原本性能优良的模型的检测性能产生较大的损失,这在一定程度上实现了模型轻量化效果。

2、本发明的数据处理流程,避免了大量无效数据送入检测模型,提高了行为识别的检测效率,提高了识别的实时性。

3、通过数据本地化处理,更好得保护了敏感场景下边缘设备获取到的数据的隐私安全问题。

4、该系统相较于普遍基于云中心的行为识别服务更有利于资源受限的边缘设备使用。

附图说明

图1为一种面向实时视频流的边缘环境行为识别系统的框架图;

图2为特征优化单元的特征图优化流程图。

具体实施方式

下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。

实施例:

一种面向实时视频流的边缘环境行为识别系统,如图1所示,包括视频流获取模块、视频流存储模块、视频流预处理模块、缓存模块、滑窗定位模块、行为识别模块和用户界面模块;

所述的视频流获取模块用于实时获取视频流数据,并将获取到的数据传输至视频流存储模块和用户界面模块中,用户界面模块对原始获得的视频流数据进行显示;具体是:通过不同类型的摄像头或包含摄像头的智能设备,实时获取监控区域内的原始视频数据,并为整个系统提供实时流。这些原始的视频流将分别被传输到用户界面和存储在一个持久化数据库中,该数据库可以为后续的数据并行化处理提供支持,此外对于存储在持久化数据库中的数据,设置一个周期,定期清理过期数据,以确保数据库存储容量的稳定性。

所述的视频流存储模块接收视频流获取模块获取到的数据并保存;

所述的视频流预处理模块提取视频流存储模块中存储的数据,进行帧归一化、裁剪、缩放、随机生成样本的数据增加和图片翻转增加数据多样性处理,并将预处理后的数据输入缓存模块中进行缓存;具体是:

对所有帧进行归一化,并将获取到的数据按照规定好的帧大小进行统一缩放和裁剪,采用随机生成训练样本的方式进行数据增强,具体过程为:在视频训练样本段中随机选择一个时间点,在此时间点附近通过均匀采样形成一个16帧的clip。随机选择一个时间点是因为大多数情况下,通过视频内容的一小段就可以判断出其标签,均匀采样保证了视频时间属性的一致,因为有些动作慢与快所表示含义是不同的。录制的视频一般帧率是25帧/秒或30帧/秒,而所谓的均匀采样是指以相同时间尺度采样,比如每隔0.2秒进行采样,这样所有行为都是在相同时间分辨率下比较的;如果视频长度达不到16帧,那么需要对视频进行循环。上述过程实现了时间维度上的数据增强,在空间维度上增强的做法为机选择从四个边角或是中间进行裁剪,裁剪的尺度也是随机选择的;裁剪框为正方形,尺度为1时其长度为视频尺寸的短边长度,裁剪完成后将其归一化为112*112,最终预处理得到的样本为3通道×16帧×112像素×112像素。

除上述增强方式外,样本还以50%的概率进行水平翻转,因为一般情况下即使视频左右翻转,也不影响对视频内容的理解,另外为了避免偏置引起的数据溢出,对每个通道都进行了减去平均值的处理,所有生成的样本标签都和原始视频一致。

所述的滑窗定位模块,采用弹性跳跃滑动窗口动作定位方法进行滑窗定位,读取缓存模块中的数据,并进行滑动策略的选择,滑窗定位模块将读取到的新一帧数据输入预先建立好的背景模型中,对比该帧与当前背景模型的相似度,若该帧判断为背景帧,则更新背景模型;否则计算滑动窗口的滑动距离,寻找下一个动作的开始位置进行识别窗口的滑动,最终将识别窗口送入识别模型中;

所述的背景模块,是采用混合高斯模型,利用像素在一段时间内大量样本值的概率密度统计信息表示背景,对这些像素点建立各自的背景模块,概率密度的计算公式如下:

公式(1)中,Xt为视频帧特定空间位置(x,y)的像素点X的t时刻的历史值,B为背景模式总数,η(·)是指高斯分布概率密度函数,ωm,t为第m种背景模式下t时刻的高斯分布对应的权重,μ为均值,为第m种背景模式下t时刻的协方差,I为单位矩阵,协方差为第m种背景模式下t时刻的协方差矩阵;

每当有新一帧ft+1输入背景模块中,ft+1将与建立好的背景模型进行模式匹配,若帧中特定空间位置(x,y)的像素点X找到至少一个背景模式匹配,则标记X为背景像素点,即否则然后,将得到的分割了前景目标的二值化图像Mt与Mt+1进行基于皮尔森相似度的相似度比较,相似度γ1计算公式如式下:

公式(2)中,N为视频帧中总像素点数,∑Mt指将t时刻输入的帧图像中的图像所有特定空间位置(x,y)的二值化图像M值进行相加,∑Mt·Mt+1是指将t时刻输入的帧图像的空间位置(x,y)的二值化图像M值与t+1时刻输入的帧图像的空间位置(x,y)的二值化图像M值相乘最后所有空间位置的结果相加,其他式子以此类推;

将计算得到的相似度与设定的阈值T进行比较,T通过在训练背景模型时,使用高斯分布统计训练集视频中真实的背景窗口与其它类别窗口交界处帧间的相似度值的分布情况,并根据分布情况选择合适的阈值,若相似度低于设定的阈值,则标记ft+1属于背景帧,此时,将背景模型在与帧ft+1匹配过程中匹配的背景模式按照下述公式(3)更新各自的参数,未被匹配为背景模式,则ω、μ和σ2不变,最后像素点根据降序排序各自的模式并重新选择前B个模式作为背景;

公式(3)中,ωt+1为t+1时刻的高斯分布对应的权重,α为指权值更新率,Mt为t时刻分割了前景目标的二值化图像,μt+1为t+1时刻的均值,η(·)是指高斯分布概率密度函数,Xt+1为视频帧特定空间位置(x,y)的像素点X的t+1时刻的历史值,为t+1时刻的协方差,T为转置操作;

背景模型更新完成后,继续读取新一帧重复以上的比较,直到新一帧与背景模型的相似度高于阈值,新一帧被标记为非背景类;此时,滑动窗口以预标记期间累计被标记为背景的总帧数n作为新的滑动步长进行一次滑动并输入行为识别模块,背景类窗口滑动策略算法如下:

假设在时刻t,时间窗口Wt经过一次滑动并输入背景模型,经过模型的检测和识别后,被分类为动作类窗口,此时,滑动窗口暂停滑动,重新计算滑窗的滑动步长,当新一帧ft+1到来,将ft+1与ft进行相似度比较,计算公式如下:

其中,N为第t个视频帧中像素的总数量,Xt为视频帧中特定位置像素的像素值;

将得到的相似度将与设定的阈值T进行比较,T通过在训练背景模型时,使用高斯分布统计测试集视频中动作窗口与动作开始窗口交界处帧间的相似度值的分布情况,自学习得到一个合适的阈值,若帧间的相似度低于设定的阈值,则认为新一帧中的运动信息是重复的,无新的动作变化的帧无需重新检测,之后,继续读取新一帧重复以上的比较,直到新一帧的相似度高于阈值,新一帧被标记为非动作类,此时,时间窗口按照预标记期间累计被标记为动作类的帧数n作为步长进行一次滑动,并输入行为识别模块,具体的动作类窗口滑动策略算法如下所示:

所述的行为识别模块,包括提取时空特征单元、特征优化单元和行为分类单元,提取时空特征单元对行为识别模块接收到的识别窗口视频帧序列进行特征提取,在特征图数据库中找到视频帧对应的特征图组成时序序列,并将找到的特征图组成时序序列输入特征优化单元中进行优化,优化后的特征图组成时序序列送入行为识别模块中,采用SoftMax激活函数完成视频行为的分类,并将分类结果在用户界面模块中显示;具体是:

如图2所示,在优化过程中,特征图经过正则化、Dropout、Max-Pool以及MLP网络等操作交替组成的优化层,得到进一步的抽象和简化。特征优化可以降低模型的过拟合风险,提高模型的泛化能力;优化后的特征图被送入SoftMax激活函数中完成视频行为的分类;一个基于web的用户界面,实现边缘设备捕获的实时视频和行为识别系统识别结果等信息的同步显示。在应用在不同的边缘场景中,用户界面可以将行为识别结果同步传送给使用者,为其提供决策辅助。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:图像识别模型的构建方法、装置、设备以及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!