利用多维度感测器数据的监控方法及监控系统

文档序号:1617238 发布日期:2020-01-10 浏览:1次 >En<

阅读说明:本技术 利用多维度感测器数据的监控方法及监控系统 (Monitoring method and monitoring system using multi-dimensional sensor data ) 是由 郭方文 陈志明 于 2018-08-01 设计创作,主要内容包括:本发明提出一种利用多维度感测器数据的监控方法及监控系统,该监控方法用于一监控系统。该监控系统包括设置于一场景中的多个感测器,且该多个感测器分为多个类型。该监控方法包括:利用该多个感测器检测该场景以取得各类型的一感测数据;分别对各类型的该感测数据进行一本地物件处理以产生一本地物件特征信息;依据该本地物件特征信息进行一全局物件处理以产生一全局物件特征信息;以及对该全局物件特征信息进行一全局物件辨识以产生一全局辨识结果。采用本方案可利用不同类型的感测器以取得场景的感测数据,进行同类型的本地物件的检测、对应、及辨识,且可利用不同类型的本地物件进行对应以产生全局的感测数据的全局物件,其具有全局融合特征。(The invention provides a monitoring method and a monitoring system using multi-dimensional sensor data. The monitoring system comprises a plurality of sensors arranged in a scene, and the sensors are divided into a plurality of types. The monitoring method comprises the following steps: detecting the scene by using the plurality of sensors to obtain sensing data of each type; respectively carrying out local object processing on the sensing data of each type to generate local object characteristic information; performing global object processing according to the local object feature information to generate global object feature information; and performing global object recognition on the global object feature information to generate a global recognition result. The scheme can utilize different types of sensors to obtain the sensing data of the scene, detect, correspond and identify local objects of the same type, can utilize different types of local objects to correspond to generate global objects of global sensing data, and has global fusion characteristics.)

利用多维度感测器数据的监控方法及监控系统

技术领域

本发明有关于监控系统,特别是有关于一种利用多维度感测器数据的监控方法及监控系统。

背景技术

为了维护私人与公众的身家财产与交通行车安全,预防及打击罪犯等需求,视频监视系统或视频摄影机已广泛设置于居家、私人区域、公共场所、及交通要道,用以即时监控或录影存证。然而,传统的视频监视系统只能持续地录制视频,且因大量装设,长时间下来产生了极为庞大的视频数据。当特殊事件发生的当下,不一定能被及时发现与处置,且得再耗费大量的人力与时间去调阅及观看录影内容。

然而,在现实环境中,单靠视频摄影机并无法收集到完整的信息。例如:当火灾刚发生或是油气泄漏刚发生的时候,在隐密处尚未被察觉,灾害尚未扩大前,通过检测空气中飘散异常气味,可预先探知可能将有灾害发生。因此,单一类型的感测器对于安全监控与维护其实是有所限制的。

发明内容

本发明实施例提供一种利用多维度感测器数据的监控方法,用于一监控系统,该监控系统包括设置于一场景中的多个感测器,且该多个感测器分为多个类型,该监控方法包括:利用该多个感测器检测该场景以取得各类型的一感测数据;分别对各类型的该感测数据进行一本地物件处理以产生一本地物件特征信息;依据该本地物件特征信息进行一全局物件处理以产生一全局物件特征信息;以及对该全局物件特征信息进行一全局物件辨识以产生一全局辨识结果。

本发明实施例更提供一种监控系统,包括:多个感测器,其中该多个感测器分为多个类型,且用以检测一场景以取得各类型的一感测数据;以及一运算装置,用以分别对各类型的该感测数据进行一本地物件处理以产生一本地物件特征信息,其中该运算装置更依据该本地物件特征信息进行一全局物件处理以产生一全局物件特征信息,并对该全局物件特征信息进行一全局物件辨识以产生一全局辨识结果。

在本发明实施例中,提出的利用多维度感测器数据的监控方法及监控系统,其可利用不同类型的感测器以取得场景的感测数据,并进行同类型的本地物件的检测、对应、及辨识,且可利用不同类型的本地物件进行对应以产生全局的感测数据的全局物件,其具有全局融合特征。此外,其更可执行全局的全局物件辨识,使得监控场景中的物件的可靠度及准确度更高。

附图说明

图1显示依据本发明一实施例中的监控系统的功能方块图。

图2显示依据本发明一实施例中的监控程序的功能方块图。

图3A及图3B显示依据本发明一实施例中用于视频物件的本地物件对应处理、本地细致特征融合处理、与本地物件身份辨识的流程图。

图4A及图4B显示依据本发明一实施例中用于音频物件的本地物件对应处理、本地细致特征融合处理、与本地物件身份辨识的流程图。

图5显示依据本发明一实施例中的全局物件对应处理及建立全局细致特征集的流程图。

图6A显示依据本发明一实施例中利用多个摄影机对一场景撷取视频数据的示意图。

图6B显示依据本发明一实施例中利用多个麦克风对一场景撷取音频数据的示意图。

图7A显示依据本发明一实施例的视频帧中的不同空间分割方式的示意图。

图7B显示依据本发明一实施例的音频段中的不同时间分割方式的示意图。

图8A显示依据本发明一实施例中的依据上下文分析处理以选择全局细致特征融合的系数的流程图。

图8B显示依据本发明图8A的实施例中全局上下文分析处理及权重判断步骤的流程图。

图8C-1及图8C-2显示依据本发明一实施例中的全局细致特征融合及全局物件辨识的流程图。

图8D显示依据本发明一实施例中的全局细致特征融合与全局物件辨识的数据管线的示意图。

图8E显示依据本发明一实施例中的辨识结果回馈与强化的全局回馈的流程图。

图8F显示依据本发明一实施例中的辨识结果回馈与强化的本地回馈的流程图。

图9A-1及图9A-2显示依据本发明一实施例中的监控方法的方块图。

图9B-1及图9B-2显示依据图9A-1及图9A-2的实施例的全局上下文分析处理的详细方块图。

图9C显示依据本发明一实施例中的利用多维度感测器数据的监控方法的流程图。

图10显示依据本发明一实施例中的一场景及监控系统的示意图。

图11显示依据本发明一实施例中的利用多维度感测器数据的监控方法的流程图。

附图标号:

100~监控系统;

110~感测器;

120~运算装置;

121~存储单元;

130~监控程序;

110A~摄影机;

110B~麦克风;

110C~味觉感测器;

110D~气味感测器;

110E~触觉感测器;

110A-1~110A-4~摄影机;

110B-1~110B-3~麦克风;

O1、O2、O3~物件;

131~本地物件辨识模块

132~特征融合模块;

133~全局辨识模块;

1311~本地物件检测及对应模块;

1312~本地物件特征抽取及融合模块;

1313~本地物件辨识模型;

1314~回馈路径;

1321~全局物件及特征集对应模块;

1322~上下文区域分析模块;

1323~加权参数选择模块;

1331~回馈路径;

1324~全局细致特征融合模块;

700~视频帧;

710~感兴趣区域;

715~视频物件;

720~探索区域;

730~上下文区域;

750~音频段;

755~音频物件;

760~感兴趣区域;

770~探索区域;

780~上下文区域;

S302-S324~步骤;

S402-S424、S502-S514~步骤;

S802-S812~步骤;

S8021-S8025、S8041-S8043~步骤;

S8201-S8217~步骤;

S832-S840、S850-S856~步骤;

TF1-TF7~时间帧;

ROI1a-ROI7a~感兴趣区域;

Context1-Context7~上下文区域;

902-1-902-N~方块;

904-1-904-N~方块;

904-1A、904-1B、904-1C、904-1D、904-1E~方块;

904-2A、904-2B、904-2C、904-2D、904-2E~方块;

904-NA、904-NB、904-NC、904-ND、904-NE~方块;

906-1-906-N、912-1-912-N~方块;

9120、908、910、912、916、918、920、924、926~方块;

914、922~选择器;

952-966~方块;

959、967~路径;

Video1、Video2、Video3~视频数据;

Audio1、Audio2、Audio3~音频数据;

Smell1、Smell2、Smell3~气味数据;

600、1000~场景;

1001~银行大门;

1002~沙发;

1010-1011~摄影机;

1020-1021~指向性麦克风;

1041-1043~人物;

1031~第一区域;

1032~第二区域;

1033~重叠区域;

S1110-S1140~步骤。

具体实施方式

为使本发明的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附图式,作详细说明如下。

图1显示依据本发明一实施例中的监控系统的功能方块图。如图1所示,监控系统100包括多个感测器110、一个或多个运算装置120。

在一实施例中,感测器110包括多种不同类型的感测器,例如:摄影机110A、麦克风110B、味觉感测器110C、气味感测器110D、触觉感测器110E、或其组合,但本发明的实施例并不限定于上述类型或属性的感测器,且各个类型或属性的感测器的安装数量可视实际情况而定。其中上述不同类型的感测器可分别对应至人类的五个感官,例如摄影机110A可对应至眼,并用于撷取视频图像;麦克风110B可对应至耳,用于接收音频;味觉感测器110C(例如可为一电子舌)可对应至舌,用以检测物件的酸甜苦辣咸味;气味感测器110D(例如可为一电子鼻)可对应至鼻,用于检测空气中的味道;触觉感测器110E(例如可为一电子皮肤)可对应至身,用于检测接触的压力或温度等等。各种类型的感测器的感测数据例如可视为一个维度,本发明的实施例中的监控系统100可利用多种类型的。

在一些实施例中,对应至眼睛的摄影机110A可包括不同类型的摄影机,例如摄影机110A可为撷取彩色图像(例如RGB图像)的彩色摄影机,其可撷取场景的彩色图像;摄影机110A亦可为一深度摄影机,其可撷取场景的深度图像(例如为一灰阶图像);摄影机110A亦可为一红外线感测器(infrared sensor),其可检测场景中的辐射能量,并将所检测的辐射能量转换为电信号,并以不同颜色来显示出不同温度的分布,例如可由一红外线热图像表示。为了便于说明,在后述实施例中,摄影机110A以彩色摄影机为例进行说明。

运算装置120例如为一台或多台个人电脑或服务器、或是一中央数据处理中心,用以执行可使用多维度感测器数据的一监控程序130,其中监控程序例如可存储于运算装置120中的一存储单元121。存储单元212为一非挥发性存储器,例如是硬盘驱动器(hard diskdrive)、固态硬盘(solid-state disk)、或只读存储器(read-only memory,ROM)等等,但本发明的实施例并不限于此。运算装置120执行监控程序130,从具有不同类型的各感测器110接收相应的感测数据,并进行本地物件辨识处理、本地物件特征抽取及融合处理、特征信息回馈及强化处理、及全局辨识处理的功能,其细节将详述于后。

在一实施例中,摄影机110A、麦克风110B、味觉感测器110C、气味感测器110D、触觉感测器110E分别以眼、耳、鼻、舌、身的感测模式进行检测(Detection)与辨识(Recognition)物件的动作。然而,检测物件过程及辨识物件的过程中所抽取的物件特征是不同的。检测物件过程使用粗糙特征(Rough Feature),辨识物件过程则是使用细致特征(Detail Feature)。举例来说,粗糙特征有方向、距离、概略、结构等,但本发明的实施例并不限于此。细致特征亦可针对不同类型的感测器进行分类,例如视频细致特征包括:颜色、纹理及形状等;音频细致特征包括:音量、音高、音色等;气味细致特征包括:芳香味、腐败味、醚味、辛辣味、焦臭味、树脂味等;味道细致特征包括:甜、咸、酸、苦、辣、鲜等;触感细致特征包括:压力、温度等,但本发明的实施例并不限于此。

举例来说,物件的结构粗糙特征用于描述物件轮廓,例如:圆柱形的桶子,长方形的立牌,人,汽车,摩托车等。声音的结构就是声纹。声纹可表现出发声器官的差异,因为人的声音是多种频率声音的集合。每个人的声纹不同,因每个人的发声器官(声带、口鼻腔)、嘴唇和舌头的形状差异。声音的三要素为音色、音量、及频率,其中“音色”取决于口鼻腔的容积以及结构。因此根据声纹的特点,就可以大致掌握发声者的年龄、性别、脸型,甚至于身高等粗糙的特征。

在一实施例中,运算装置120可计算各摄影机110A所撷取的视频图像的颜色直方图以获取颜色的分布信息,再以概率质量函数(probability mass function,PMF)计算就可以知道概略的颜色特征。运算装置120可分析麦克风110B所撷取的音频信号以获得音频频谱,再计算音频信号的频率的分布信息,再以概率密度函数(probability densityfunction,PDF)计算出概略的频率特征。

化学性的感觉可以分为检测液态化学物质的味觉(taste)及检测气体中物质的嗅觉(smell)。举例来说,运算装置120可由气味感测器110D所撷取到的感测数据以获取七种味道的感知分子(例如:樟脑味、麝香味、花卉味、薄荷味、***味、辛辣味和腐腥味)的分布信息,再以概率质量函数计算就可以知道概略的嗅觉特征。运算装置120亦可由味觉感测器110C所撷取到的感测数据以获取六种味道(例如:甜、咸、酸、苦、鲜和肥)的分布信息,再以概率密度函数计算出概略的味觉特征。

触觉是指皮肤受到机械刺激时所引起的感觉。触点在皮肤表面的分布密度以及大脑皮层对应的感受区域面积与该部位对触觉的敏感程度呈正相关。举例来说,运算装置120可由触觉感测器110E所撷取到的感测数据获取三种物理性质(例如:种类、强度、大小)的分布信息,再以概率质量函数计算就可以知道概略的触觉特征。

详细而言,在监控系统100中,可在场景中安置指向性的远距化学感受器(例如气味感测器110D)、指向性的接触化学感受器(例如味觉感测器110C)、及指向性的机械感受器(例如触觉感测器110E),并可利用上述实施例中所揭示的定位技术以计算出在场景中的物件的方向、距离的粗糙特征,并可概略地定出物件所在的空间及移动的向量值。

机率密度函数(PDF)和机率质量函数(PMF)是描述随机变量(random variables)的输出值,在某个确定的取值点附近的可能性的函数。借由前几名最高机率的取值,以及这些取值的机率相互间的大小比率,我们可以得到物件概略的特征。

在一实施例中,气味感测器110D或味觉感测器110C可安装于一移动载体上或机动电子警犬身上,如同拥有敏锐嗅觉的缉私犬或者警犬,在一场域内来回搜索探询,其身上配置定位系统,再通过无线传输将探测到的气味或味道信息传送到数据处理中心内,再与其他类型的特征数据配对运用。

在另一实施例中,假设某区域其中心点向东偏北30度的扇型区域一公尺内有一位小孩,五公尺外有两位成人,其中一人穿白色衣服,另一位是黑色衣服。白色成人向北以低于3.0公里/小时(0.83公尺/秒)的速度慢速移动,黑色成人向西以高于12公里/小时(3.33公尺/秒)的速度快速移动,并发出振幅变化频率介于30次/秒~150次/秒之间的尖叫声。运算装置120可利用以三维摄影机/深度摄影机或指向性麦克风三角定位的技术计算出三个人物相应的方向及距离等等的粗糙特征,概略地定出物件所在的空间及移动的向量值。接着,运算装置120可分析在此场景中的视频图像及音频信号以得到此三个人物的颜色直方图及音色等信息,并藉以得到此三个人物的概略及结构等等的粗糙特征。

需注意的是,各类型的感测数据的粗糙特征与细致特征的差异在于取样与取值的细致度与精确度。粗糙特征只需要判定数据在一范围区间内。以颜色来说,粗糙特征可利用颜色直方图来粗略判断颜色,若要取得细致特征就需要进行各种图像特征比对及计算,故所需的计算量极大,但是准确度较高,故细致特征可以用于辨识身份,粗糙特征例如可用于进行简单分类。以纹理来说,运算装置120也是判定线条图样(pattern)、以及直向线条与横向线条的数量。依据取样与取值的细致度与精确度,数据量越多也表示所取出的特征越细致,但也表示计算量大且计算时间也会比较长。

以音频数据为例,一般人的耳朵能听见的音量范围在0分贝~140分贝(dB)之间。分贝是用来表示声音强度或是音量的单位。40分贝~50分贝的声音会干扰睡眠,60分贝~70分贝的声音会干扰学习,120分贝以上的噪音量会导致耳痛,甚至听力永久丧失。

以下为一些音量的例子,例如:树叶的摩擦声:20分贝。郊区的深夜:30分贝。郊区的住宅区的深夜:40分贝。安静的办公室里:50分贝。人平常讲话的声音:60分贝。车内的声音或电话的铃声:70分贝。大巴士的行进声:80分贝。狗的叫声:90分贝。电车通过铁桥的声音:100分贝。汽车的喇叭声、警笛声、卡拉OK舞厅内的音乐声:110分贝。修马路时打碎机的声音:120分贝。喷射机起飞时的引擎声:130分贝。

人耳是一个非常特别的器官,为了将噪音仪器测量到的噪音信号,转换成人耳听到感受到的噪音量,必须对噪音仪器测量到的不同频率域的信号,进行频域加权或进行权重计算。人耳可听到声音的频率范围约为20赫兹-20K赫兹(Hz),而对于不同声音强度人耳又有不同的加权曲线(Weighting Curve)。最常见的加权曲线为A加权(A-Weighting)、C加权、D加权、及G加权。其中,C加权(C-Weighting)一般用于测定较为吵杂的机械噪音,D加权(D-Weighting)一般用于测定航空噪音,而G加权(G-Weighting)则用于测定超低频噪音,大部分皆为低频振动引起的结构噪音。

音色即因发声体的谐音(泛音)成份比例不同而产生的不同声音。大自然中的任何声音皆为复杂的波形,这复杂的波形除了基本频率的波形之外,还会有一系列的谐振频率,也就是所谓的“泛音”(Harmonic),它与基音有一定的“倍音”关系。例如某物体振动的基本频率为240Hz,也会发生480Hz(二次谐波),720Hz(三次谐波)等频率,每一个物体的倍音组成成份比例都不相同,这种不同物体发生不同的倍音成份的声音就是音色(Timbre)。

图2显示依据本发明一实施例中的监控程序130的功能方块图。监控程序130例如包括一本地物件辨识模块131、一特征融合模块132、及一全局辨识模块133。本地物件辨识模块131用以对各类型的该感测数据进行一本地物件处理以产生一本地物件特征信息。

举例来说,本地物件辨识模块131包括一本地物件检测及对应模块1311、一本地物件特征抽取及融合模块1312、及一本地物件辨识模型1313。本地物件处理例如包括本地物件检测及对应模块1311、一本地物件特征抽取及融合模块1312、及一本地物件辨识模型1313所执行的关于本地物件的各种处理。

本地物件检测及对应模块1311分别接收来自摄影机110A、麦克风110B、味觉感测器110C、气味感测器110D、及触觉感测器110E的感测数据,并进行相应的感测类型的一本地物件检测及对应处理以产生一本地物件识别码清单(local object ID list,LOID list)及本地粗糙特征集(local rough feature set,LRFS),其细节将详述于后。

本地物件特征抽取及融合模块1312执行一本地特征抽取及融合处理,其包括一本地细致特征抽取(local detail feature extraction,LDFE)处理及一本地细致特征融合(local detail feature fusion,LDFF)处理。举例来说,运算装置120依据本地物件辨识模块131所产生的本地物件清单及本地粗糙特征集,对各不同类型的感测数据抽取其本地细致特征并建立各类型的感测数据相应的本地细致特征集(local detail feature set,LDFS)。接着,运算装置120依据各类型的本地物件清单对各类型的感测数据相应的本地细致特征集融合为各本地物件的一本地融合特征(local fusion feature,LFF)。在一些实施例中,本地物件特征抽取及融合模块1312更执行了各类型的感测数据的上下文获取处理及上下文融合处理以产生一融合上下文区域。

本地物件辨识模型1313执行本地物件身份辨识以产生各类型的感测数据相应的本地身份识别清单。举例来说,运算装置120将本地物件特征抽取及融合模块1312所产生的各类型的本地融合特征输入本地物件辨识模型1313以执行一本地物件身份辨识处理,并将辨识结果以一本地身份识别码(local identity ID,LIID)标示,再汇集各本地身份识别码以产生一本地身份识别清单(LIID list)。在一实施例中,本地物件辨识模型1313执行本地物件辨识后可产生本地辨识结果及相应的信心度,本地物件辨识模型1313可通过一回馈路径1314将所产生的各类型的本地辨识结果及相应的信心度回馈至本地物件检测及对应模块1311,使得本地物件检测及对应模块1311可依据相应类型的本地物件辨识结果进行自我学习(self-learning)。

因此,本地物件辨识模块131所产生的本地物件特征信息包括各类型的感测数据的本地物件清单、本地粗糙特征集、本地融合特征、及本地身份识别清单。

特征融合模块132用以依据该本地物件特征信息进行一全局物件处理以产生一全局物件特征信息。举例来说,特征融合模块132包括一全局物件及特征集对应模块1321、一上下文区域分析模块1322、一加权参数选择模块1323、及一全局细致特征融合模块1324。全局物件处理例如包括全局物件及特征集对应模块1321、上下文区域分析模块1322、加权参数选择模块1323、及全局细致特征融合模块1324所执行关于全局物件的各种处理。

全局物件及特征集对应模块1321执行一全局物件对应(global objectcorrespondence,GOC)处理及一全局细致特征对应(global detail featurecorrespondence,GDFC)处理以产生一全局物件清单及相应的全局细致特征集。上下文区域分析模块1322对本地物件特征抽取及融合模块1312所产生的各类型的感测数据的融合上下文区域进行本地上下文分析,并将各类型的感测数据的本地上下文分析结果合并以产生一本地上下文合并结果。

加权参数选择模块1323依据上下文区域分析模块1322所产生的本地上下文合并结果以判断要使用邻近可区分度加权系数或自适应加权系数以进行全局细致特征融合处理(Global Detail Feature Fusion,GDFF)。全局细致特征融合模块1324依据来自加权参数选择模块1323所输出的加权参数以执行全局细致特征融合(global detail featurefusion,GDFF)处理,例如是将全局物件及特征集对应模块1321所产生的全局细致特征集融合为一全局融合特征。

因此,特征融合模块132所产生的全局物件特征信息包括:全局物件清单及相应的全局细致特征集、及全局融合特征。

全局辨识模块133对特征融合模块132所产生的该全局物件特征信息进行一全局物件辨识以产生一全局辨识结果。举例来说,全局辨识模块133将全局细致特征融合模块1324所产生的全局融合特征输入一全局物件辨识模型以辨识各全局融合特征的全局身份,例如可建立记录各全局融合特征的全局身份识别码的一全局身份识别清单。此外,全局身份识别清单更记录了全局物件辨识模型的全局辨识结果及其信心度。

全局辨识模块133更可通过一回馈路径1331将其所产生的辨识结果及其信心度回馈至本地物件辨识模型1313。此外,全局辨识模块133更将全局细致特征融合模块1324所产生的全局融合特征进行拆解以得到各类型的感测数据的物件细致特征,并将所得到的各类型的感测数据的物件细致特征回馈至本地物件辨识模型1313中的相应类型的本地物件辨识模型,藉以增进各本地物件辨识模型1313进行本地物件辨识的准确度,其中回馈路径1331可称为协同学习(co-learning)。

为了便于说明,在后述实施例中主要是以摄影机110A搭配麦克风110B的配置为例,其他类型的感测器可以用类似的方式运作,并与摄影机110A及麦克风110B搭配使用。

图3A及图3B显示依据本发明一实施例中用于视频物件的本地物件对应处理、本地细致特征融合处理、与本地物件身份辨识的流程图。

在步骤S302,利用多个摄影机110A分别撷取多笔视频数据。

在步骤S304,执行本地物件检测(local object detection,LOD)以判断各视频数据中是否有需要被关注的视频物件,并在步骤S306,判断是否发现值得关注的视频物件。若发现值得关注的视频物件,则执行步骤S308以记录相应的视频物件。若没有发现值得关注的视频物件,则回到步骤S302。

举例来说,运算装置120例如可在各视频数据的视频框内的一空间探索区域中检测是否有需要被关注的视频物件。在一些实施例中,运算装置120由各视频数据检测特定物件,例如人物、人脸、手、汽车、枪、刀、棍等等,但本发明的实施例并不限于此。运算装置120亦可由各视频数据检测特定行为,例如聚集、追逐、抢夺、斗殴、跌倒等行为,但本发明的实施例并不限于此。意即,运算装置120可判断上述特定物件或特定行为是属于需关注的视频物件。

在一实施例中,运算装置120由各视频数据检测不同的特定行为时会有不同的判断方式。以聚集行为为例,运算装置120由摄影机110A所撷取的视频数据中判断在某个空间区域中是否有超过一预定人均密度的情况且持续超过一预定时间,例如可判断在5平方公尺的区域内中的每个平方公尺的范围内有3人至5人,且持续了10分钟~30分钟且没有彼此移动的趋向等条件。

以追逐行为为例,运算装置120由摄影机110A所撷取的视频数据中判断出人与人之间的运动轨迹及速率,当两个人物的运动轨迹类似且速度维持超过一预定速度时,运算装置120可判断在视频数据中有追逐行为发生。以跌倒行为为例,运算装置120由摄影机110A所撷取的视频数据中判断人物的四肢的位置是否落下的角速度大于一预定角速度并且停留一预定时间。此外,监控系统100亦可取得在使用者身上所穿的穿戴式装置(wearable device)所检测的感测数据,藉以判断在视频数据中是否有跌倒行为发生。以抢夺或斗殴行为为例,运算装置120例如可使用已知的行为判断演算法以分析视频数据中是否有抢夺或斗殴行为发生。

详细而言,在人工智能(artificial intelligence)及计算机视觉(computervision)领域中,行为检测是个非常高阶的应用,除了物件辨识之外,还得运用动态时序、物件移动轨迹、物件交互、物件分布、密度等关系的信息。本发明可融合各类型的感测器,以达到互补与全局性的执行物件辨识,且视频数据仅是本发明中的监控系统100中的其中一种感测数据。本发明并不限定于在上述实施例中所揭示的由视频数据进行不同行为检测的技术。

此外,运算装置120可进一步计算所检测到的各视频物件的世界坐标定位。举例来说,运算装置120可取得各摄影机110A的设置位置(例如GPS坐标)、拍摄角度、视角等信息,并计算在各摄影机110A所拍摄的视频数据中的各视频物件的世界坐标定位信息。各摄影机110A在撷取场景的视频图像时,亦可加入相应的时间戳记(time stamp),以利后续的本地物件对应处理(local object correspondence,LOC)及全局物件对应处理(global objectcorrespondence,GOC)。

在步骤S310,判断是否已检测出在各视频数据中所有视频物件。若是,则执行步骤S312;若否,则回到步骤S304。

在步骤S312,汇集并分析被检测出的所有视频物件。举例来说,在各视频数据中可能会检测出一个视频物件或多个视频物件,且各视频物件亦带有相应的世界坐标定位信息及时间戳记。因此,运算装置120可依据各视频物件相应的世界坐标定位信息及时间戳记来判断在不同视频数据中的各视频物件彼此之间是否相关。

在步骤S314,依据被检测出的各视频物件相应的世界坐标定位信息(及/或时间戳记)以进行一本地物件对应处理(local object correspondence,LOC),藉以将与同一本地视频物件相关的多个视频物件进行对应及联结,并将同一本地视频物件相关的多个视频物件标示相应的一本地物件识别码(local object ID,LOID)。以本地视频物件为例,其本地物件识别码可称为本地视频物件识别码(local image object ID,LIOID)。

在步骤S316,建立一本地视频物件清单(LOID list),其中本地视频物件清单记录了带有不同本地视频物件识别码的一个本地视频物件或多个本地视频物件。

在步骤S318,依据本地视频物件清单,汇集并建立各本地视频物件的一本地粗糙特征集(local rough feature set,LFRS),其中本地粗糙特征集包括各本地视频物件的方向、距离、概略、与结构等信息。

在步骤S320,依据本地视频物件清单,依序对各本地视频物件相关的各视频数据进行一本地物件细致特征抽取处理以建立各本地视频物件相关的各视频数据的一本地细致特征集(local detail feature set,LDFS)。

在步骤S322,依据本地视频物件清单,执行一本地细致特征融合(local detailfeature fusion,LDFF)处理以依序将各本地视频物件相关的各视频数据所相应的本地细致特征集融合为各本地视频物件的一本地融合特征(local fusion feature,LFF)。

在步骤S324,将各本地视频物件的本地融合特征输入至一本地物件辨识(localobject recognition,LOR)模型以执行一本地物件身份辨识处理,并将辨识结果以一本地身份识别码标示,再汇集各本地身份识别码(local identity ID,LIID)以产生一本地身份识别清单(LIID list)L1。其中在图3B的流程中所产生的各本地身份识别码标示在视频数据中相应的各视频物件,故亦可称为本地视频身份识别码(local video identity ID,LVIID),且本地身份识别清单L1亦可称为本地视频身份识别清单。

图4A及图4B显示依据本发明一实施例中用于音频物件的本地物件对应处理、本地细致特征融合处理、与本地物件身份辨识的流程图。

在步骤S402,利用多个麦克风110B分别撷取多笔音频数据。

在步骤S404,执行本地物件检测(local object detection,LOD)以判断各音频数据中是否有需要被关注的音频物件(audio object),并在步骤S406,判断是否发现值得关注的音频物件。若发现值得关注的音频物件,则执行步骤S408以记录相应的音频物件。若没有发现值得关注的音频物件,则回到步骤S402。

举例来说,运算装置120例如可在各音频数据的一音频段内的一时间探索区域中检测是否有需要被关注的音频物件。在一些实施例中,运算装置120由各音频数据检测特定物件声响或事件声响,例如枪声、***声、哭声、吵闹声、撞击声等等,但本发明的实施例并不限于此。意即,运算装置120可判断上述特定物件声响或事件声响即为现实环境中的异常声音,故属于需关注的音频物件。对上述异常声音进行特征提取例如可使用传统的语音信号处理方法如梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient、MFCC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient、LPCC)等。

然而,现实环境中还存在许多其他类型的声音,例如:车辆鸣笛声、脚步声,还有其他低频大气噪声等等,且传统的语音信号处理方法并无法处理上述其他类型的声音。在一实施例中,运算装置120将各麦克风所撷取的音频信号转换为异常声音的声谱图,并采用2D-Gabor滤波器对声谱图时频特征进行特征描述。接着,运算装置120采用随机非负独立成分分析(Stochastic Non-negative Independent Component Analysis,SNICA)提取异常声音的声谱图特征,再采用稀疏表示分类(Sparse Representation Classification,SRC)方法进行分类识别,藉以判断出现实环境中的其他类型的异常声音。

此外,运算装置120可进一步计算所检测到的各音频物件的世界坐标定位。举例来说,运算装置120可取得各麦克风110B的设置位置(例如世界坐标)、收音角度、间隔距离等信息,并计算在各麦克风110B所接收的音频数据中的各音频物件的世界坐标定位信息。各麦克风110B在撷取场景的音频数据时,亦可加入相应的时间戳记(time stamp),以利后续的本地物件对应处理(local object correspondence,LOC)及全局物件对应处理(globalobject correspondence,GOC)。

在步骤S410,判断是否已检测出在各音频数据中所有音频物件。若是,则执行步骤S412;若否,则回到步骤S404。

在步骤S412,汇集并分析被检测出的所有音频物件。举例来说,在各音频数据中可能会检测出一个音频物件或多个音频物件,且各音频物件亦带有相应的世界坐标定位信息及时间戳记。因此,运算装置120可依据各音频物件相应的世界坐标定位信息及时间戳记来判断在不同音频数据中的各音频物件彼此之间是否相关。

在步骤S414,依据被检测出的各音频物件相应的世界坐标定位信息(及/或时间戳记)以进行一本地物件对应处理(local object correspondence,LOC),藉以将与同一本地音频物件相关的多个音频物件进行对应及联结,并将同一本地音频物件相关的多个视频物件标示相应的一本地物件识别码(local object ID,LOID)。以本地音频物件为例,其本地物件识别码可称为本地音频物件识别码(local audio object ID,LAOID)。

在步骤S416,建立一本地音频物件清单,其中本地音频物件清单记录了带有不同本地音频物件识别码的一个本地音频物件或多个本地音频物件。

在步骤S418,依据本地音频物件清单,汇集并建立各本地视频物件的一本地粗糙特征集(local rough feature set,LFRS),其中本地粗糙特征集包括各本地音频物件的方向、距离、概略、与结构等信息。

在步骤S420,依据本地音频物件清单,依序对各本地音频物件相关的各音频数据进行一本地物件细致特征抽取处理以建立各本地音频物件相关的各音频数据的一本地细致特征集(local detail feature set,LDFS)。各本地音频物件的本地细致特征集例如包括各本地音频物件的音量、音高、音色等音频细致特征。

在步骤S422,依据本地音频物件清单,执行一本地细致特征融合处理以依序将各本地音频物件相关的各音频数据所相应的本地细致特征集融合为各本地音频物件的一本地融合特征(local fusion feature,LFF)。

在步骤S424,将各本地音频物件的本地融合特征输入至一本地物件辨识(localobject recognition,LOR)模型以执行一本地物件身份辨识处理,并将辨识结果以一本地身份识别码(local identity ID,LIID)标示,再汇集各本地身份识别码以产生一本地身份识别清单(LIID list)L2。其中在图4B的流程中所产生的各本地身份识别码标示在音频数据中相应的各音频物件,故亦可称为本地音频身份识别码,且本地身份识别清单L2亦可称为本地音频身份识别清单。

图5显示依据本发明一实施例中的全局物件对应处理及建立全局细致特征集的流程图。在一实施例中,在图5中全局物件对应处理及建立全局细致特征集的流程使用图3A和图3B及图4A和图4B中关于视频物件及音频物件的各种处理所产生的信息及物件清单。

在步骤S502,逐一比对本地视频物件清单中的各本地视频物件及本地音频物件清单中的各本地音频物件的时间戳记。

在步骤S504,判断本地视频物件及本地音频物件的时间戳记是否吻合。若时间戳记吻合,则执行步骤S506;若时间戳记不吻合,则执行步骤S508。

在步骤S506,将本地视频物件的第一本地粗糙特征集及第一世界坐标定位信息与本地音频物件的第二本地粗糙特征集及第二世界坐标定位信息进行比对。

在步骤S508,判断在本地视频物件清单中的各本地视频物件及本地音频物件清单中的各本地音频物件是否比对完毕。若是,则执行步骤S514;若否,则回到步骤S502。

在步骤S510,判断第一本地粗糙特征集与第二本地粗糙特征集以及世界坐标定位信息是否吻合。若是,则执行步骤S512;若否,则执行步骤S508。举例来说,若步骤S510的判断结果为“是”,则表示在本地视频物件清单中所选择的本地视频物件与在本地音频物件清单中所选择的本地音频物件的时间戳记吻合,且两者相应的本地粗糙特征集及世界坐标定位信息皆吻合。因此,运算装置120可判断此本地视频物件及此本地音频物件与同一物件有关。

在步骤S512,记录对应成功的本地视频物件及本地音频物件,并建立一全局物件清单(global object identity list)及全局粗糙特征集(global rough feature set)。举例来说,对应成功的本地视频物件及本地音频物件即可互相联结且可视为一全局物件(global object),且运算装置120指派一全局物件识别码(global object id,GOID)至该全局物件。因此,运算装置120可将各全局物件及相应的全局物件识别码记录于全局物件清单中。此外,对应成功的本地视频物件及本地音频物件亦分别有相应的本地粗糙特征集,因此运算装置120亦将此本地视频物件的本地粗糙特征集及此本地音频物件的本地粗糙特征集互相联结以形成该全局物件的全局粗糙特征集(global rough feature set,GRFS)。

在步骤S514,将全局物件清单中的各全局物件所相应的不同类型的本地物件清单及相应的本地融合特征合并成全局物件清单所属的全局细致特征集(global detailfeature set,GDFS)。举例来说,在全局物件清单中已包括对应成功的本地视频物件及本地音频物件,且对应成功的本地视频物件及本地音频物件亦分别有相应的本地融合特征(LFF),因此运算装置120亦将此本地视频物件的本地融合特征及此本地音频物件的本地融合特征互相联结以产生该全局物件相应的全局细致特征集。

图6A显示依据本发明一实施例中利用多个摄影机对一场景撷取视频数据的示意图。

举例来说,若监控系统100在场景600中配置4个摄影机110A用以分别撷取场景600中的视频数据。在场景600中有三个物件,例如人物1(即物件O1)、人物2(即物件O2)、及人物3(即物件O3),分别为一男性大人、一男性儿童、及一女性大人,如图6A所示。4个摄影机110A例如为分别安装于不同位置的摄影机110A-1、110A-2、110A-3、及110A-4。在此情境中,因为物件被遮蔽或拍摄角度的关系,这三个物件O1、O2、及O3可能只被部分的摄影机所拍摄到。例如物件O1仅被摄影机110A-1、110A-2、及110A-3拍摄到,物件O2仅被摄影机110A-1及110A-2拍摄到,且物件O3仅被摄影机110A-1、110A-2、及110A-4拍摄到。运算装置120会先针对于各个摄影机所拍摄到的内容进行物件检测,例如可检测出视频物件VO1、VO2、VO3。运算装置120并将对各视频物件VO1、VO2、VO3指派相应的一物件识别码(Object Identifier,OID)进行标示,例如视频物件VO1、VO2、VO3所相应的物件识别码分别为VOID1、VOID2、及VOID3。其中,视频物件VO1、VO2、VO3所相应的物件识别码VOID1、VOID2、及VOID3即可称为视频数据的本地物件识别码(Local Object ID,LOID)。

对于物件O1来说,因为物件O1仅被摄影机110A-1、110A-2、及110A-3拍摄到,故运算装置120接着对摄影机110A-1、110A-2、110A-3的视频数据进行本地细致特征抽取处理以取得其本地视频细致特征(例如物件的颜色、纹理、及形状等等),例如可分别得到关于物件O1有关的本地视频细致特征集VidF1_O1、VidF2_O1、VidF3_O1。运算装置120接着对本地视频细致特征集VidF1_O1、VidF2_O1、VidF3_O1执行本地细致特征融合处理,可得到有关于物件O1的融合视频细致特征VidFF_O1。简单来说,融合视频细致特征VidFF_O1可表示在不同角度的摄影机110A所拍摄到的同一物件O1的不同视频特征。

类似地,对于物件O2来说,因为物件O2仅被摄影机110A-1及110A-2拍摄到,故运算装置120对摄影机110A-1及110A-2的视频数据进行本地细致特征抽取处理以取得其视频细致特征(例如物件的颜色、纹理、及形状等等),例如可分别得到物件O2有关的本地视频细致特征集VidF1_O2、VidF2_O2。运算装置120接着对本地视频细致特征集VidF1_O2、VidF2_O2执行本地细致特征融合处理后会得到关于物件O2的融合视频细致特征VidFF_O2。融合视频细致特征VidFF_O2可表示在不同角度的摄影机110A所拍摄到的同一物件O2的不同视频特征。

类似地,对于物件O3来说,因为物件O3仅被摄影机110A-1、110A-2、及110A-4拍摄到,故运算装置120对摄影机110A-1、110A-2、及110A-4的视频数据进行本地细致特征抽取处理以取得其视频细致特征(例如物件的颜色、纹理、及形状等等),例如可分别得到关于物件O3的本地视频细致特征集VidF1_O3、VidF2_O3、及VidF4_O3。运算装置120接着对本地视频细致特征集VidF1_O3、VidF2_O3、及VidF4_O3执行本地细致特征融合处理后会得到关于物件O3的融合视频细致特征VidFF_O3。融合视频细致特征VidFF_O3可表示在不同角度的摄影机110A所拍摄到的同一物件O3的不同视频特征。

需注意的是,摄影机110A-1、110A-2、110A-3、及110A-4在撷取场景的视频图像时,即已加入相应的时间戳记(time stamp),且融合视频细致特征VidFF_O1、VidFF_O2、VidFF_O3亦带有相应的时间戳记。举例来说,本地视频物件清单包括融合视频细致特征VidFF_O1、VidFF_O2、VidFF_O3及相应的时间戳记。

运算装置120将融合视频细致特征VidFF_O1、VidFF_O2、VidFF_O3输入一本地视频物件辨识模型以辨识融合视频细致特征VidFF_O1、VidFF_O2、VidFF_O3的每一者所相应的身份,例如运算装置120可分别指派一本地视频身份识别码(local video identityidentifier,LVIID)至融合视频细致特征VidFF_O1、VidFF_O2、VidFF_O3,例如分别为本地视频身份识别码LVIID1、LVIID2、及LVIID3。其中,运算装置120将本地视频身份识别码LVIID1、LVIID2、及LVIID3记录于一本地视频身份识别清单(例如本地身份识别清单L1)中。

图6B显示依据本发明一实施例中利用多个麦克风对一场景撷取音频数据的示意图。

若监控系统100在场景600中更配置了3个麦克风110B用以分别撷取场景600中的音频数据,如图6B所示。3个麦克风110B例如为分别安装于不同位置的麦克风110B-1、110B-2、及110B-3。其中麦克风110B-1、110B-2、及110B-3例如可分别依附于摄影机110A-1、110A-2、及110A-3以撷取音频数据,亦可分别设置于在场景600中的不同位置以撷取音频数据。

在此情境中,因为物件被遮蔽、音量、或距离的关系,这三个物件O1、O2、及O3所发出的声音可能只被部分的麦克风110B所接收到。例如物件O1的声音仅被麦克风110B-2、及110B-3所撷取到,物件O2的声音仅被麦克风110B-1、及110B-3所撷取到,且物件O3的声音仅被麦克风110B-3所撷取到。

对于物件O1来说,因为物件O1仅被麦克风110B-2及110B-3所撷取到,故运算装置120接着对麦克风110B-2及110B-3所撷取的音频数据进行本地细致特征抽取处理以取得其音频细致特征(例如音量、音调、音色等等),例如可得到关于物件O1有关的本地音频细致特征集AudF2_O1、AudF3_O1。对本地音频细致特征集AudF2_O1、AudF3_O1在执行本地细致特征融合后会得到有关于物件O1的融合音频细致特征AudFF_O1。简单来说,融合音频细致特征AudFF_O1可表示在不同位置的麦克风110B所撷取到的同一物件O1的不同音频特征。

类似地,对于物件O2来说,因为物件O2仅被麦克风110B-1及110B-3所撷取到,故运算装置120接着对麦克风110B-1及110B-3所撷取的音频数据进行本地细致特征抽取处理以取得其音频细致特征(例如音量、音调、音色等等),例如可得到关于物件O2有关的本地音频细致特征集AudF1_O2及AudF3_O2。对本地音频细致特征集AudF1_O2及AudF3_O2执行本地细致特征融合后会得到融合音频细致特征AudFF_O2。融合音频细致特征AudFF_O2可表示在不同位置的麦克风110B所接收到的同一物件O2的不同音频特征。

类似地,对于物件O3来说,因为物件O3仅被麦克风110B-3所撷取到,故运算装置120接着对麦克风110B-3所撷取的音频数据进行本地细致特征抽取处理以取得其音频细致特征(例如音量、音调、音色等等),例如可得到关于物件O3有关的本地音频细致特征集AudF3_O3。对本地音频细致特征集AudF3_O3执行本地细致特征融合后,会得到融合音频细致特征AudFF_O3。在此实施例中,融合音频细致特征集AudFF_O3即等于音频细致特征集AudF3_O3。融合音频细致特征AudFF_O3可表示在不同位置的麦克风110B所接收到的同一物件O3的不同音频特征。

需注意的是,麦克风110B-1、110B-2、110B-3在撷取场景600的音频信号时,亦加入相应的时间戳记(time stamp),且融合音频细致特征AudFF_O1、AudFF_O2、AudFF_O3均带有相应的时间戳记。意即,本地音频物件清单包括融合音频细致特征AudFF_O1、AudFF_O2、AudFF_O3及相应的时间戳记。

运算装置120将融合音频细致特征AudFF_O1、AudFF_O2、AudFF_O3输入一本地音频物件辨识模型以辨识融合音频细致特征AudFF_O1、AudFF_O2、AudFF_O3的每一个所相应的身份,例如运算装置120可分别指派一本地音频身份识别码(local audio identityidentifier,AIID)至融合音频细致特征AudFF_O1、AudFF_O2、AudFF_O3,例如分别为LAIID1、LAIID2、及LAIID3。其中,运算装置120将本地音频身份识别码LAIID1、LAIID2、及LAIID3记录于一本地音频身份识别清单(例如本地身份识别清单L2)中。

图7A显示依据本发明一实施例的视频帧中的不同空间分割方式的示意图。

如图7A所示,在每一张视频帧(video frame)中,可分为不同的空间分割方式,以利于运算装置120进行不同的图像检测、图像辨识、及图像分析处理。举例来说,视频帧700可包括不同的区域,例如是感兴趣区域(region of interest,ROI)710、探索区域720、及上下文区域730。感兴趣区域710例如为视频物件715在视频帧700中的空间范围。探索区域720表示视频物件715所属的感兴趣区域710的周围,意即在电脑视觉中用于追踪(Tracking)视频物件715时所运作的范围。上下文(context)区域730则会比探索区域720大,且上下文区域730是用于视频物件715的上下文分析(context analysis)所使用的空间范围。

图7B显示依据本发明一实施例的音频段中的不同时间分割方式的示意图。

如图7B所示,在每一个音频段(audio segment)中,可分为不同的时间分割方式,以利于运算装置120进行不同的音频检测、音频辨识、及音频分析处理。举例来说,音频段750可包括不同的区域,例如是感兴趣区域(region of interest,ROI)760、探索区域770、及上下文区域780。感兴趣区域760例如为音频物件755在音频段750中的时间范围。探索区域770表示音频物件755所属的感兴趣区域760的邻近时间范围,意即在运算装置120中用于追踪(Tracking)音频物件755时所运作的范围。上下文(context)区域780则会比探索区域770大,且上下文区域780是用于音频物件715的上下文分析(context analysis)所使用的空间范围。

从图7A及图7B的实施例,可得知感兴趣区域可为物件所在的空间区域或时间区域。当运算装置120要追踪物件时,则采用在空间及时间上比感兴趣区域(例如感兴趣区域710及760)大探索区域(例如探索区域720及770)。此外,当运算装置120欲进行上下文分析时,运算装置120会采用在空间及时间上比探索区域(例如探索区域720及770)大的上下文区域,例如图7A的上下文区域730或图7B的上下文区域780。

详细而言,上下文区域(Context)的功能是定义一个探索的边界作为最大探索区域(Exploration Region),而最小探索区域即为感兴趣区域(ROI)。当运算装置120执行物件追踪时,会先由用户或者由运算装置120自行定义一个预测感兴趣区域(PredictedROI),再由辨识模型(例如本地物件辨识模型1313)于探索区域内搜索该物件。在一实施例中,运算装置120例如可设定探索区域的范围为感兴趣区域的两倍(非限定)。在另一实施例中,运算装置120亦可根据物件的运动速度与方向自动调整探索区域的大小。然而,但为了顾及运算与反应效率,运算装置120通常不会设定过大的探索区域,且用户可以自己设定上下文区域(Context)加以限制。

在一实施例中,在运算装置120要执行全局细致特征融合之前,运算装置120会先执行上下文分析(例如上下文区域分析模块1322)计算出各特征的权重分布。若运算装置120依据上下文分析的结果判断各类型的本地融合特征(LFF)的权重分布偏向某些本地融合特征时(例如可视为本地融合特征的差异很大),这将导致全局物件辨识的结果产生偏差,此时需采用自适应加权系数(Adaptive Weighting Coefficient,AWC)来进行特征加权。反之,若运算装置120依据上下文分析的结果判断各类型的本地特征的权重差异不大,此时各类型的本地特征的权重可称为邻近可区分度加权系数(Adjacent DifferentialWeighting Coefficient,ADWC)。若运算装置120针对预测感兴趣区域执行上下文分析时,运算装置120在计算不同类型的特征值的差异量时的计算范围即为预测感兴趣区域,此预测感兴趣区域亦可称之为感兴趣上下文区域(Interested Context)。此外,在经过辨识模型对其探索区域进行搜索与辨识之后以确认物件所存在的范围的感兴趣区域,则可称为已辨识感兴趣区域(Recognized ROI)。

图8A显示依据本发明一实施例中的依据上下文分析处理以选择全局细致特征融合的系数的流程图。

在步骤S802,执行一全局上下文分析处理。举例来说,全局上下文分析处理是分析各视频物件及各音频物件所相应的一上下文区域。

在步骤S804,判断是否适合采用邻近可区分度加权系数(ADWC)。步骤S804亦可称为权重判断步骤。若判断适合采用邻近可区分度加权系数(ADWC)(例如本地融合特征差异不大),则执行步骤S806,采用邻近可区分度加权系数(ADWC)进行全局细致特征融合处理;若判断不适合采用邻近可区分度加权系数(ADWC)(例如本地融合特征差异很大),则执行步骤S808,采用自适应加权系数(AWC)进行全局细致特征融合处理。

举例来说,在步骤S806,运算装置120采用邻近可区分度加权系数(ADWC)进行全局细致特征融合处理。举例来说,运算装置120可先更新邻近可区分度加权系数(ADWC),再用更新后的邻近可区分度加权系数(ADWC)进行全局细致特征融合处理,藉以将在全局物件清单中的各不同类型的物件的全局细致特征集融合并产生一全局融合特征(global fusionfeature)。

在步骤S808,运算装置120直接采用自适应加权系数(AWC)进行全局细致特征融合处理。其中当运算装置120依据上下文区域的分析结果判断不适合采用邻近可区分度加权系数(ADWC)(例如局部特征明显),运算装置120会以一回馈路径将自适应加权系数作为输入加权系数以进行全局细致特征融合处理,意即将在全局物件清单中的各全局物件所包括的不同类型的物件的全局细致特征集融合以产生一全局融合特征(global fusionfeature)。

在步骤S810,将各全局物件相应的全局融合特征输入一全局物件辨识模型(global object recognition model)以进行全局物件的身份辨识,并产生一全局身份识别清单(global identity ID list)。举例来说,运算装置120可分别指派一全局身份识别码(global identity identifier,GIID)至各全局融合细致特征,且运算装置120将全局身份识别码记录于全局身份识别清单中。此外,全局身份识别清单更记录了全局物件辨识模型的全局辨识结果及其信心度。

在步骤S812,将本地细致特征、及全局辨识结果及其信心度回馈至各本地物件辨识模型。举例来说,全局融合特征除了输入至全局物件辨识模型之外,更会进一步分解为原本的本地细致特征,并回馈至相应的本地物件辨识模型。

图8B显示依据本发明图8A的实施例中全局上下文分析处理及权重判断步骤的流程图。举例来说,图8B显示了图8A中的步骤S802及S804的细部流程,其中步骤S802例如执行了全局上下文分析处理,步骤S804则执行了权重判断步骤。

在步骤S8021,定义一预测感兴趣区域(Predicted ROI)。举例来说,预测感兴趣区域亦可称为感兴趣上下文区域(Interested Context),且可由使用者或是由运算装置120定义。

在步骤S8022,执行各类型的本地上下文分析(local context analysis,LCA)处理,并计算各类型的本地细致特征的特征值的差异值,并将上述差异值进行正规化(normalize)。举例来说,本地上下文分析(LCA)是对当前不同类型(例如视频、音频、气味、味道、触觉等)的感测数据进行特征抽取与融合以取得各类型的感测数据的本地融合特征(LFF)。

运算装置120对当前的各类型的感测数据的本地融合特征(LFF)执行一套特定的计算与分析,以得到当前的各类型的感测数据的本地融合特征(LFF)相应的权重值。上述权重值的计算方式,例如可针对颜色、纹理、形状等视频细致特征、以及针对音量、音高、音色等音频细致特征为例进行计算。其余类型的感测数据的本地融合特征亦可采用类似的方式计算以取得相应的权重值。

以视频细致特征为例,颜色特征可包括疏密、饱和度、亮度等特征值的差异值,纹理特征可包括图样(pattern)特征值的差异值,形状特征则可包括线条、相对位置、相对长度、相对方向等特征值的差异值。以音频细致特征为例,音量特征可包括声音能量的差异值,音高特征可包括声音频率的差异量,音色特征则可包括发声体的谐音或泛音成分比例的差异值。因为每一个本地细致特征的特性彼此不同,还需要将各本地细致特征的差异值经过正规化(Normalization)才能对各本地细致特征的正规化差异值进行评比。上述的正规化差异值表示各被选定的本地融合特征(LFF)在整体评价中的相对重要程度,例如可以用自然数表示,故可能是负数或者是零。

在一些实施例中,运算装置120例如可利用局部二值模式(local binarypatterns,LBP)以计算上述不同类型的各本地细致特征的差异值。

在步骤S8023,合并各类型的所有本地细致特征的本地上下文分析结果。举例来说,在取得各类型的各本地细致特征的正规化差异值后,运算装置120再合并各类型的所有本地细致特征的本地上下文分析结果。

在步骤S8024,依据各本地细致特征的正规化差异值指派各本地细致特征相应的一权重值。若有一本地细致特征所相应的正规化差异值的数值较大,该本地细致特征的权重值也会较大。若有一本地细致特征所相应的正规化差异值的数值较小,则该本地细致特征的权重值也会较小。

在步骤S8025,取得一预定区间的上阈值及下阈值。举例来说,运算装置120可取得其类型或应用的实际情况所定义的权重值的预定区间的上/下阈值(upper/lowerthreshold)(例如可由使用者定义或由运算装置120自行定义)。

在步骤S8041,判断各本地细致特征相应的权重值是否均在该预定区间。当各本地细致特征相应的权重值均在该预定区间时,表示各本地细致特征相应的权重值的差异不大,故可执行步骤S8042,判断适合采用邻近可区分度加权系数(ADWC)。当有任一本地细致特征相应的权重值不在该预定区间时(意即有任一本地细致特征的正规化差异值超出上阈值或下阈值),即可认定过于偏向此本地细致特征,故可执行步骤S8043,判断不适合采用邻近可区分度加权系数(ADWC),意即适合采用自适应加权系数(AWC)。

在一实施例中,假设选定三个视频有效的本地融合特征(LFF)分别称之为特征A、B、C,还有两个音频有效的本地融合特征(LFF)分别称之为特征D、E,分别以各本地上下文分析并正规化合并其结果,以获得特征A~E相应的权重值WA~WE,例如WA=5、WB=2、WC=4、WD=6、WE=3。若预定区间为3~6,表示下阈值为3且上阈值为6,在此状况下并没有偏向某个特征,故可将权重值WA~WE设定为邻近可区分度加权系数(ADWC),并套用到各特征以改变各特征的相对重要程度。但若得到特征A~E相应的权重值WA~WE分别为WA=7、WB=2、WC=4、WD=6、WE=3,当使用下阈值为3且上阈值为6的预定区间,因为WA=7已经超出上阈值,此即表示已经判断结果会偏向特征A,此时运算装置120则会采用自适应加权系数(AWC)。

详细而言,为了增强物件辨识能力、准确性以及预测能力,运算装置120可依用户需求采纳不同类型的有效特征信息,再以全局上下文分析来决定要采用哪一个加权系数,并融合运用所选定的特征。此外,运算装置120可将全局物件辨识结果回馈给本地物件辨识模型。举例来说,当运算装置120欲将全局细致特征集(GDFS)融合成全局融合特征(GFF)前,运算装置120需先挑选出有效的本地融合特征。所谓的有效或无效特征指的是对于辨识精确度能否起作用的特征,如皮肤的纹理对于预测年纪就是有效的特征,皮肤的颜色对于预测年纪是无效的特征。意即,针对不同类型的感测数据,使用者可设定哪些本地融合特征在进行全局物件辨识或本地物件辨识时是属于有效特征。

图8C-1及图8C-2显示依据本发明一实施例中的全局细致特征融合及全局物件辨识的流程图。

在步骤S8201,分别设定邻近可区分度加权系数(ADWC)及自适应加权系数(AWC)的初始权重值。

在步骤S8202,取得追踪条件,再依追踪条件定义预测感兴趣区域。举例来说,追踪条件可由使用者定义,例如可定义为穿特定颜色或花纹的人物、或是移动最快的人物等条件。接着,运算装置120会由不同类型的感测数据中分别定义出预测感兴趣区域。

在步骤S8203,融合所有本地的上下文及预测感兴趣区域。举例来说,各类型的感测数据的上下文及感兴趣区域会被合并。若是第一次执行步骤S8203,则合并后的所产生的合并感兴趣区域可称为初始感兴趣区域(initial ROI)。

在步骤S8204,进行全局上下文分析处理。其中,全局上下文分析处理的细节可参考图8A-图8B的流程。

在步骤S8205,判断是否适合采用邻近可区分度加权系数(ADWC)。步骤S8205的细节可参考图8B中的流程,故不再赘述。当判断适合采用邻近可区分度加权系数(ADWC),则执行步骤S8206;当判断不适合采用邻近可区分度加权系数(ADWC),则执行步骤S8210。

在步骤S8206,将上下文分析所得到的权重值设定为邻近可区分度加权系数(ADWC)。举例来说,当各类型的感测数据的各本地融合特征相应的权重值均在预定区间内时,表示全局物件辨识的结果不会偏向某一特征,故可将上下文分析所得到的权重值设定为邻近可区分度加权系数(ADWC)。

在步骤S8207,套用邻近可区分度加权系数(ADWC)以执行全局细致特征融合(GDFF)处理以建立一全局融和特征。举例来说,因为已判断适合采用邻近可区分度加权系数(ADWC),且已将上下文分析所得到的权重值设定为邻近可区分度加权系数(ADWC),故运算装置120可依据各类型的各本地融合特征相应的权重值进行运算,以执行全局细致特征融合处理以产生全局融和特征。

在步骤S8208,将全局融和特征输入一全局物件辨识模型进行全局物件辨识。其中,全局物件辨识模型例如可为图9A-2所示的全局物件辨识模型920。

在步骤S8209,依据全局物件辨识的辨识结果产生已辨识感兴趣区域的边界(boundary)。需注意的是,当执行完步骤S8209,即表示完成当前时间帧(time frame)的全局物件辨识流程,且可进行下一个时间帧的全局物件辨识流程。

在步骤S8210,套用自适应加权系数(AWC)以执行全局细致特征融合(GDFF)以建立一全局融和特征。举例来说,因为已判断适合采用自适应加权系数(AWC),且全局上下文分析所得到的权重值可能会偏重某些特征,故运算装置120套用自适应加权系数(AWC)以执行全局细致特征融合(GDFF)以建立一全局融和特征。

在步骤S8211,将全局融和特征输入一全局物件辨识模型进行全局物件辨识。其中,全局物件辨识模型例如可为图9A-2所示的全局物件辨识模型920。

在步骤S8212,依据全局物件辨识的辨识结果产生已辨识感兴趣区域的边界(boundary)。需注意的是,当执行完步骤S8212,还需执行步骤S8213以判断是否为第一次执行全局上下文分析,若步骤S8213的判断结果为“是”,则执行步骤S8214;若步骤S8213的判断结果为“否”,则执行步骤S8215。

在步骤S8214,进行前感兴趣区域及后感兴趣区域的特征近似度评比。其中,在步骤S8214中,因为是第一次执行全局上下文分析,故前感兴趣区域指对当前时间帧执行全局物件辨识前的感兴趣区域,后感兴趣区域指对当前时间帧执行全局物件辨识后的感兴趣区域。

在步骤S8215,进行前感兴趣区域及后感兴趣区域的特征近似度评比。其中,在步骤S8215中,因为并非第一次执行全局上下文分析,故前感兴趣区域指对上一个时间帧(previous time frame)执行全局物件辨识后的感兴趣区域,后感兴趣区域指对当前时间帧执行全局物件辨识前的感兴趣区域。

在步骤S8214及S8215中所执行的前感兴趣区域及后感兴趣区域的特征近似度评比通常采用巴式距离(Bhattacharyya distance)计算。因为每一个特征的特性不同,其特征值需经过正规化(Normalization)才能彼此评比。若在前感兴趣区域及后感兴趣区域中的同一特征值的相似度越高,相应的该特征的权重值也会随之变大。将上述特征的权重值进行正规化后即可得到自适应加权系数(AWC)。

在步骤S8216,更新自适应加权系数(AWC)。需注意的是,更新后的自适应加权系数(AWC)是用于处理下一个时间帧的数据。

在步骤S8217,将当前时间帧所得到的已辨识感兴趣区域的边界套用至下一个时间帧,以作为下一个时间帧的预测感兴趣区域,接着再重复执行步骤S8203~S8217的流程。

图8D显示依据本发明一实施例中的全局细致特征融合与全局物件辨识的数据管线的示意图。请同时参考图8C-1、图8C-2及图8D。

在图8D中,左边标示阶段1至阶段9表示全局细致特征融合与全局物件辨识的数据管线的不同阶段。TF1至TF7表示时间帧。ROI1至ROI7分别表示在时间帧TF1~TF7的预测感兴趣区域,且Context1~Context7表示在时间帧TF1~TF7的上下文区域。

在阶段1,进行本地上下文融合及预测ROI融合。在时间帧TF1,因为是第一张时间帧,故可直接使用融合上下文区域及融合感兴趣区域进行阶段2的全局上下文分析(GCA)。邻近可区分度加权系数(ADWC)或自适应加权系数(AWC)在第一张时间帧时会设定为预设值(default)。

在阶段3,依据全局上下文分析(GCA)的结果判断要使用何种加权系数(weightingcoefficient,WC)。若判断使用自适应加权系数(AWC),则在图8D上的阶段3标示A;若判断使用邻近可区分度加权系数(ADWC),则在图8D上的阶段3标示AD。

在阶段4,依据所选择的加权系数进行全局细致特征融合(GDFF),并产生阶段5的全局融合特征(GFF)。

在阶段6,依据阶段5所产生的全局融合特征以进行全局物件辨识(GOR)。并在阶段7中,依据全局物件辨识的辨识结果产生已辨识感兴趣区域的边界。

在阶段8,进行前感兴趣区域及后感兴趣区域的特征近似度评比。若是第一次执行全局上下文分析(即时间帧TF1),故前感兴趣区域指对当前时间帧执行全局物件辨识前的感兴趣区域,后感兴趣区域指对当前时间帧执行全局物件辨识后的感兴趣区域。若非第一次执行全局上下文分析,故前感兴趣区域指对上一个时间帧执行全局物件辨识后的感兴趣区域,后感兴趣区域指对当前时间帧执行全局物件辨识前的感兴趣区域。

在阶段9,更新自适应加权系数(AWC)。举例来说,若在阶段3的标记为A,则表示使用自适应加权系数(AWC),故需在阶段9更新自适应加权系数(AWC)。若在阶段3的标记为AD,则表示使用邻近可区分度加权系数(ADWC),故可省略阶段8及阶段9。例如在时间帧TF1、TF2、TF4、及TF5均判断使用自适应加权系数(AWC),故均会执行阶段8的进行前感兴趣区域及后感兴趣区域的特征近似度评比。

此外,在阶段9中的当前时间帧所更新的自适应加权系数(AWC)亦会用于下一个时间帧的阶段3。例如在时间帧TF1的阶段9所产生的自适应加权系数(AWC)已更新为AWC1,故在时间帧TF2的阶段3中的自适应加权系数(AWC)即为AWC1,依此类推。

若在阶段3中决定使用邻近可区分度加权系数(ADWC),则在会当前时间帧中更新邻近可区分度加权系数(ADWC)的数值。例如在时间帧TF3的阶段3中已决定使用邻近可区分度加权系数(ADWC),故会将邻近可区分度加权系数(ADWC)更新为当前时间帧的邻近可区分度加权系数ADWC3,依此类推。

需注意的是,在阶段7中所得到的已辨识感兴趣区域,例如ROI1a~ROI7a的边界会套用至下一个时间帧,例如在时间帧TF1所得到的已辨识感兴趣区域ROI1a的边界会套用至时间帧TF2中的预测感兴趣区域ROI2的边界,依此类推。

图8E显示依据本发明一实施例中的辨识结果回馈与强化的全局回馈的流程图。

在步骤S832,将全局融合特征(GFF)传送至全局物件辨识模型以进行全局物件辨识,并产生一全局辨识结果及相应的信心度。举例来说,全局物件辨识模型所输出的全局辨识结果会表示由目前不同类型的感测数据所检测出的人物(即全局物件),且信心度愈高,表示全局辨识结果的可信度也愈高。

在步骤S834,定义一信心度阈值。举例来说,使用者可自行设定所需的信心度阈值,或是可由运算装置120自行决定信心度阈值,其中信心度阈值例如可表示对于全局辨识果所需的最低限度的可信度。

在步骤S836,判断信心度是否低于信心度阈值。若是,则结束此流程;若否,则执行步骤S838。举例来说,若全局辨识结果的信心度低于信心度阈值,则表示目前的全局辨识结果的可信度不高,可能需要待感测器的数据更新或是场景中的物件移动后再更新全局辨识结果。若全局辨识结果的信心度不低于信心度阈值,则表示目前的全局辨识结果有一定的可信度。

在步骤S838,将全局细致特征(GDFF)分解为各本地融合特征。举例来说,因为目前的全局辨识结果有一定的可信度,故可将在全局物件辨识模型中用于进行全局物件辨识的全局细致特征分解为原本各类型的本地融合特征。

在步骤S840,将全局辨识结果及相应的信心度、及各本地融合特征回馈至各本地物件辨识模型(例如图2所示的本地物件辨识模型1313)。

经由图8E的流程,各本地物件辨识模型可利用此回馈路径以进行本地物件辨识(local object recognition,LOR)模型及全局物件辨识(global object recognition,GOR)模型的协同学习(co-learning),故可全局性地自动强化本地物件辨识的能力及准确度。

图8F显示依据本发明一实施例中的辨识结果回馈与强化的本地回馈的流程图。在图8E的流程中,主要是针对全局回馈并可进行本地物件辨识模型及全局物件辨识模型的协同学习。此外,本地端亦可进行类似的回馈,此即称为本地回馈。

在步骤S850,将本地融合特征(LFF)传送至本地物件辨识模型以进行本地物件辨识,并产生一本地辨识结果及相应的信心度(例如可包含于本地身份识别清单中)。举例来说,本地物件辨识模型所输出的本地辨识结果会表示由目前相同类型的感测数据所检测出的人物(即本地物件),且信心度愈高,表示本地辨识结果的可信度也愈高。

在步骤S852,定义一信心度阈值。举例来说,使用者可自行设定所需的信心度阈值,或是可由运算装置120自行决定信心度阈值,其中信心度阈值例如可表示对于本地辨识果所需的最低限度的可信度。用于本地物件辨识的信心度阈值可与用于全局物件辨识的信心度阈值相同或不同。

在步骤S854,判断信心度是否低于信心度阈值。若是,则结束此流程;若否,则执行步骤S856。举例来说,若本地辨识结果的信心度低于信心度阈值,则表示目前的本地辨识结果的可信度不高,可能需要待感测器的数据更新或是场景中的物件移动后再更新本地辨识结果。若本地辨识结果的信心度不低于信心度阈值,则表示目前的本地辨识结果有一定的可信度。

在步骤S856,将本地辨识结果及相应的信心度、及各本地融合特征回馈至各本地物件检测模型(例如图2所示的本地物件检测及对应模块1311)。

经由图8F的流程,各本地物件检测模型可利用此回馈路径以进行本地物件检测(local object detection,LOD)模型及本地物件辨识(LOR)模型的自我学习(self-learning),故可自动强化本地物件检测及辨识的能力及准确度。在一些实施例中,本地物件检测模型及本地物件辨识模型可选择性地参考回馈信息,亦可依据实际情况及需求以自行决定要如何运用回馈信息。

图9A-1及图9A-2显示依据本发明一实施例中的监控方法的方块图。

在一实施例中,在方块902-1~902-N,运算装置120执行一本地物件检测与对应处理,其包括一本地物件检测处理及一本地物件对应处理。在方块902-1~902-N的每一个均会分别接收不同类型的感测器的感测数据,例如方块902-1接收来自一个摄影机110A或多个摄影机110A(例如摄影机110A-1~110A-4)所拍摄的视频数据,方块902-2接收来自一个麦克风110B或多个麦克风110B(例如麦克风110B-1~110B-3)所接收的音频数据,方块902-N则接收来自一个气味感测器110D或多个气味感测器110D(例如气味感测器110D-1~110D-3)所检测到的气味数据。各个方块902会产生各类型的感测数据的本地物件清单及相应的本地粗糙特征集。举例来说,不同类型的感测数据所相应的本地粗糙特征集例如包括各不同类型的感测数据的本地物件的方向、距离、概略、与结构等信息。此外,视频数据及音频数据建立关于视频物件及音频物件的本地物件清单及相应的本地粗糙特征集的流程可参考图3A、图3B及图4A、图4B的实施例。

在方块904-1~904-N,运算装置120分别执行不同类型的感测数据的一本地物件细致特征抽取及融合处理,其包括一本地物件细致特征抽取处理及本地细致特征融合处理。举例来说,运算装置120依据本地物件清单,依序对各本地物件相关的感测数据进行一本地物件细致特征抽取处理以建立各本地物件相关的各感测数据的一本地细致特征集。运算装置120更依据本地物件清单,执行一本地细致特征融合处理以依序将各本地视频物件相关的各视频数据所相应的本地细致特征集融合为各本地视频物件的一本地融合特征。

在方块906-1~906-N,运算装置120分别将将各本地视频物件的本地融合特征输入至一本地物件辨识(local object recognition,LOR)模型以执行一本地物件身份辨识处理,并将辨识结果以一本地身份识别码标示,再汇集各本地身份识别码(local identityID,LIID)以产生一本地身份识别清单。

在方块908,运算装置120执行一全局物件对应处理以产生一全局物件清单及各全局物件相应的一全局粗糙特征集。举例来说,全局物件处理的流程例如可参考图5的实施例,惟在此处不只有视频物件及音频物件的对应处理,但其流程是类似的。举例来说,运算装置120同样逐一比对在不同类型的感测数据的本地物件清单中的本地物件的时间戳记。当时间戳记吻合时,运算装置120再比对时间戳记吻合的各本地物件的世界坐标定位信息。当世界坐标定位信息亦吻合时,运算装置120再进一步判断不同类型的感测数据的本地粗糙特征集是否吻合。当本地粗糙特征集亦吻合时,运算装置120则可将对应成功的不同类型的感测数据的本地物件及相应的本地粗糙特征集互相联结并建立相应的一全局物件及相应的全局粗糙特征集,其中各全局物件均具有相应的全局物件识别码。

在方块910,运算装置120执行一全局细致特征集对应处理。举例来说,运算装置120将全局物件清单中的各全局物件所相应的不同类型的本地物件清单及相应的本地融合特征合并成全局物件清单所属的全局细致特征集。因为在全局物件清单中已包括对应成功的不同类型的本地物件,且对应成功的不同类型的本地物件亦分别有相应的本地融合特征,故运算装置120亦将不同类型的本地物件所相应的本地融合特征互相联结以产生该全局物件相应的全局细致特征集。

在方块912,运算装置120执行一全局上下文分析处理。举例来说,运算装置120分析在全局物件清单中的各全局物件中的不同类型(跨类型)的本地物件所相应的一上下文区域。以视频物件为例,可参考图7A,运算装置120对视频帧700中的上下文区域730的空间范围进行上下文分析。若以音频物件为例,可参考图7B,运算装置120则对音频段750中的上下文区域780的时间范围进行上下文分析。

运算装置120更判断在各本地物件中的上下文区域中是否有任一细致特征为明显。例如视频细致特征包括颜色、纹理、形状等等,且音频细致特征包括音量、音色、音高等等,且上下文分析处理的结果会选择要采用邻近可区分度加权系数或自适应加权系数进行后续的全局细致特征融合。此外,每个加权系数均对应至一个细致特征。因此,以视频数据及音频数据为例,总共有6个加权系数。

在选择器914中,若在方块912是判断要采用邻近可区分度加权系数以进行全局细致特征融合,则由方块910所产生的本地身份清单、全局物件清单及相应的全局细致特征集会输入方块916,且运算装置120更新邻近可区分度加权系数(ADWC)。

在选择器914中,若在方块912是判断要采用自适应加权系数(AWC)以进行全局细致特征融合,则由方块910所产生的本地身份清单、全局物件清单及相应的全局细致特征集会直接输入至方块918以进行全局细致特征融合。此外,在方块924中所产生的更新后的自适应加权系数亦会输入至方块918以进行全局细致特征融合。其中,方块924所产生自适应加权系数例如是由上一次的全局物件辨识模型的辨识结果所决定并进行更新。

在方块918,运算装置120执行全局细致特征融合处理。如上所述,全局细致特征融合处理的输入参数可为邻近可区分度加权系数(ADWC)或自适应加权系数(AWC),视在方块912的全局上下文分析的结果而定。详细而言,运算装置120将各全局物件相应的全局细致特征集再进行一次特征融合以得到各全局物件相应的一全局融合特征(global fusionfeature,GFF)。

在方块920,运算装置120将全局融合特征输入一全局物件辨识模型以进行全局物件的身份辨识,并产生一全局身份识别清单(global identity ID list)。举例来说,运算装置120可分别指派一全局身份识别码(global identity identifier,GIID)至各全局融合特征,且运算装置120将全局身份识别码记录于全局身份识别清单中。此外,全局身份识别清单更记录了全局物件辨识模型的辨识结果及其信心度。

在选择器922,若在方块912的判断结果为使用邻近可区分度加权系数进行全局细致特征融合,则方块920所输出的辨识结果及相应的信心度(两者可称为回馈信息)会直接输出至不同类型的感测数据的本地物件辨识模型,例如方块906-1~906-N。在一些实施例中,若一特定类型的感测数据的辨识结果相应的信心度小于一预定比例(例如80%)时,选择器922则不会将特定类型的感测数据的辨识结果及相应的信心度回馈至方块906-1~906-N中的本地物件辨识模型。在另一些实施例中,方块906-1~906-N中的本地物件辨识模型亦可自行决定是否要采用回馈信息。

在方块924,运算装置120更新自适应加权系数,例如可依据上一次的全局物件辨识模型的辨识结果进行更新。

在方块926,运算装置120将全局细致特征进行分解,以得到不同类型的细致特征。需注意的是,在方块926中分解所得到的不同类型的细致特征会分别输入至方块906-1~906-N的本地物件辨识模型。

因此,方块901-6~906-N中的各本地物件辨识模型则可依据相应类型的辨识结果及其信心度(来自方块920并经过选择器922)、以及相应类型的细致特征(来自方块926)以调整或更新目前的本地物件辨识模型,使得下一次的物件辨识可以得到更准确的结果。

图9B-1及图9B-2显示依据图9A-1及图9A-2的实施例的全局上下文分析处理的详细方块图。在一实施例中,在图9A-1及图9A-2的方块912中所执行的全局上下文分析处理可参考图9B-1及图9B-2的内容。在图9A-1及图9A-2中的方块904-1~904-N的每一个除了执行相应类型的感测数据的本地物件细致特征抽取处理及本地细致特征融合处理之外,还会执行相应类型的感测数据的上下文获取处理及上下文融合处理。运算装置120在执行本地物件细致特征抽取处理的同时,亦会执行上下文获取处理,如图9B-1及图9B-2的方块904-1~904-N所示。

详细而言,以方块904-1为例,由摄影机110A-1~110A-3所撷取的视频数据Video1、Video2、Video3在经过图9A-1中的方块902-1后,视频数据Video1、Video2、Video3仍会输入至方块904-1,意即不同的摄影机110A所拍摄的视频数据均会输入至方块904-1以分别进行本地物件细致特征抽取处理及上下文获取处理,如方块904-1A、904-1B、及904-1C。在方块904-1A~904-1C中所得到的本地物件细致特征集会输入至904-1D以进行本地细致特征融合处理以产生关于视频数据的本地物件清单及本地融合特征,并本地物件清单及本地融合特征会输入至方块910进行全局细致特征集建立处理。

此外,在方块904-1A、904-1B、及904-1C中所分别执行的上下文获取处理,例如可参考已辨识出的视频物件,并进一步在相应的视频帧中取得上下文区域及预测感兴趣区域。在方块904-1E,运算装置120执行一本地上下文融合处理及ROI融合处理以将来自方块904-1A、904-1B、及904-1C的上下文区域及预测感兴趣区域分别进行融合,例如可得到一融合上下文区域及一融合感兴趣区域。在图9B-1及图9B-2中的方块904-2(例如针对音频数据Audio1、Audio2、及Audio3)至904-N(例如针对气味数据Smell1、Smell2、及Smell3)均可对相应类型的感测数据进行处理,并可得到相应类型的融合上下文区域及融合感兴趣区域。

在方块904-1~904-N所分别得到的融合上下文区域及融合感兴趣区域会输入至方块912中相应的方块912-1~912-N进行一上下文分析处理,并将方块912-1~912-N的本地上下文分析结果传送至方块9120以进行一上下文分析结果合并处理及全局感兴趣区域(ROI)合并处理。运算装置120依据方块9120所产生的上下文合并结果以判断要使用邻近可区分度加权系数或自适应加权系数以进行全局细致特征融合处理。

图9C显示依据本发明一实施例中的利用多维度感测器数据的监控方法的流程图。在图9A-1~图9A-2及图9B-1~图9B-2的流程图及方块图可合并简化为图9C的流程。请同时参考图9C及图2。

在方块952,利用同类型感测器组取得感测数据。举例来说,相同类型的感测器所取得的感测数据是传送至相应的本地物件检测与对应模块1311。

在方块954,进行本地物件检测与对应(LOD及LOC)。举例来说,本地物件检测及对应模块1311分别接收来自摄影机110A、麦克风110B、味觉感测器110C、气味感测器110D、及触觉感测器110E的感测数据,并进行相应的感测类型的一本地物件检测及对应处理(即包括本地物件检测处理(LOD)及本地物件对应处理(LOC))以产生一本地物件识别码清单(LOID list)及本地粗糙特征集(LRFS)。

在方块956,进行本地细致特征抽取与融合。举例来说,本地物件特征抽取及融合模块1312执行一本地特征抽取及融合处理,其包括一本地细致特征抽取处理(LDFE)及一本地物件融合处理(LDFF)。举例来说,运算装置120依据本地物件辨识模块131所产生的本地物件清单及本地粗糙特征集,对各不同类型的感测数据抽取其本地细致特征并建立各类型的感测数据相应的本地细致特征集。接着,运算装置120依据各类型的本地物件清单对各类型的感测数据相应的本地细致特征集融合为各本地物件的一本地融合特征。在一些实施例中,本地物件特征抽取及融合模块1312更执行了各类型的感测数据的上下文获取处理及上下文融合处理以产生一融合上下文区域。此外,本地物件特征抽取及融合模块1312还可将各类型的感测数据的感兴趣区域融合以产生融合感兴趣区域。

在方块958,进行本地物件辨识(LOR)。举例来说,本地物件辨识模型1313执行本地物件身份辨识以产生各类型的感测数据相应的本地身份识别清单。运算装置120将来自方块956的各类型的本地融合特征输入本地物件辨识模型1313以执行一本地物件身份辨识处理,并将辨识结果以一本地身份识别码标示,再汇集各本地身份识别码以产生一本地身份识别清单(LIID list)。在一实施例中,本地物件辨识模型1313可通过一回馈路径(例如箭头959)将所产生的各类型的本地物件辨识结果回馈至本地物件检测及对应模块1311,使得本地物件检测及对应模块1311可依据相应类型的本地物件辨识结果进行自我学习(self-learning)。

在方块960,进行全局物件对应(GOC)。举例来说,全局物件及特征集对应模块1321可依据来自方块954的本地物件识别码清单(LOID list)及本地粗糙特征集(LRFS)、及来自方块958的本地身份识别清单(LIID list)进行全局物件对应(GOC)以产生一全局物件识别码清单(GOID list)及全局粗糙特征集(GRFS)。

在方块962,进行全局细致特征对应(GDFC)。举例来说,全局物件及特征集对应模块1321可依据来自方块960的全局物件识别码清单(GOID list)及全局粗糙特征集(GRFS)、来自方块958的本地身份识别清单(LIID list)、及来自方块956的各类型的融合上下文区域及融合感兴趣区域以进行全局细致特征对应处理以产生一全局细致特征集(GDFS)。

在方块964,进行全局细致特征融合(GDFF)。举例来说,全局细致特征融合模块1324依据来自加权参数选择模块1323所输出的加权参数以执行全局细致特征融合处理,例如是将全局物件及特征集对应模块1321所产生的全局细致特征集融合为一全局融合特征。其中加权参数例如可为自适应加权系数(AWC)或邻近可区分度加权系数(ADWC),视全局上下文分析的结果而定,其细节可参考图8C-1、图8C-2及图9B-1~图9B-2的实施例。

在方块966,进行全局物件辨识(GOR)。举例来说,全局辨识模块133将全局细致特征融合模块1324所产生的全局融合特征输入一全局物件辨识模型以辨识各全局融合特征的全局身份,例如可建立记录各全局融合特征的全局身份识别码的一全局身份识别清单。此外,全局身份识别清单更记录了全局物件辨识模型的辨识结果及其信心度。

在一些实施例中,例如在缺乏光线的黑暗环境中,可以通过耳朵的听觉(例如可利用麦克风110B),听闻人的说话的声调来判定讲话的是谁。在一些实施例中,通过听闻动物的叫声来判定是狗叫、猫叫、或是其他动物的叫声,甚至在经常接触特定动物且熟稔其叫声的状况下,只靠听闻叫声就能判定是哪个特定的动物叫声,听出是某个邻居的狗在叫。

在一些实施例中,可通过气味嗅觉(例如可利用气味感测110D)来检测周遭环境,并预测可能有危险,例如闻到烧焦味、闻到瓦斯味、闻到汽油味等。

在一些实施例中,当在与他人对话或谈判的情境下,通过听闻对方的言语音调,观察其行为举止,甚至从对方身上发出的味道,例如有酒味或香水味等。

监控系统100可融合上述来自不同类型的感测器(可类比于不同感官)所采集到的感测信息,统合后再来做出适当的反应。详细而言,监控系统100所监测的场景中可能会有部分的感测器的感测数据并没有检测到任何需要关注的物件,例如在黑暗环境或低光源的环境下,摄影机110A所撷取的视频数据则通常无助于辨识全局物件。此时,运算装置120可会判断出视频数据并没有值得关注的物件,但是可由音频数据或其他类型的感测数据判断出有值得关注的物件。此外,因为有部分类型的细致特征无助于辨识全局物件,故运算装置120所执行的上下文分析处理的判断结果会使用邻近可区分度加权系数以进行全局细致特征融合处理。意即可将视频数据有关视频细致特征(例如包括颜色、纹理、及形状)的加权系数均设定为0,并进行全局细致特征融合处理。

类似地,在另一实施例中,监控系统100所监测的场景可能为一吵杂环境,且麦克风110B所接收的音频数据中可能混合了各种环境噪音,此时,虽然运算装置120可判断出音频数据有值得关注的物件,但是判断结果可能受到噪音的影响,使得判断音频物件的信心度(或准确度)下降。运算装置120所执行的上下文分析处理的判断结果会使用邻近可区分度加权系数以进行全局细致特征融合处理。意即可将视频数据有关音频细致特征(例如包括音量、音高、及音色)的加权系数均设定为0,并进行全局细致特征融合处理。

图10显示依据本发明一实施例中的一场景及监控系统的示意图。

传统的视频监视系统,每个摄影机是独立持续地拍摄视频图像并存储在视频监视系统的硬盘内。装设摄影机后,视频监视系统可将拍摄到的图像即时显示在监视荧幕上,由安全人员随时监看。若有事件发生,需要靠人工调阅硬盘内的图像档案,但由于拍摄角度与设置空间位置等因素,还得靠人工去追踪衔接不同摄影机所拍摄下来的图像画面。因为各个独立的摄影机之间的信息不能即时融合交流,也缺乏跨类型感测融合分析的能力,容易受到光线干扰、遮蔽、物件交叉重叠等状况,无法获取完整信息,导致辨识以偏概全且辨识结果不稳定。

本发明的监控系统可解决上述问题。如图10所示,场景1000例如为一银行大门口附近的区域,其中银行大门口上安装有摄影机1010及一指向性麦克风1020,用于监看银行大门1001的出入情况,且此区域例如定义为第一区域1031。由银行大门1001进入银行后,有一客户等待区,例如设有沙发1002。且客户等待区架设了摄影机1011及一指向性麦克风1021,用于监看由银行大门进入到银行大厅及客户等待区的范围,且此监看范围定义为第二区域1032。第一区域1031及第二区域1032有一重叠区域,例如定义为第三区域1033,且摄影机1010~1011及指向性麦克风1020~1021均能监看第三区域1033。

在监控系统100中的各类型的感测器所安装的位置与其所监控拍摄与收音的场景空间,能被运用世界坐标定位信息。所有被检测辨识到的物件其所在空间位置能被转换成世界坐标定位。此外,所有的感测器所收集到的信息可传送至一中央数据处理中心(未绘示),中央数据处理中心可以执行本发明前述实施例的方法以将各类型的感测器的感测数据经由AI辨识系统融合运用,并且产生回馈达到自我训练自我强化检测与辨识的能力与精确度。

举例来说,若有三人(例如分别为人物1041、1042、及1043)到银行大门并进入第一区域1031时,会被摄影机1010及指向性麦克风1020检测到,且运算装置120可利用上述实施例中的流程分别对人物1041、1042、及1043建立了相应的标签ID#01、ID#02、及ID#03。此外,运算装置120更对人物1041、1042、及1043被拍摄到的视频数据及被收录的音频数据分别进行细致特征抽取,例如视频细致特征包括:颜色、纹理、及形状,且音频细致特征包括:音量、音高、音色。

人物1041的标签ID#01相应的视频细致特征例如为:黑色、无条纹、大人、女性,且音频细致特征例如为:很大声、尖噪、明朗。人物1042的标签ID#02相应的视频细致特征例如为:蓝色、无条纹、大人、男性,且音频细致特征例如为:中等音量、浑厚深沉、饱满。人物1043的标签ID#03相应的视频细致特征例如为:黑色、横条纹、小孩,且音频细致特征例如为:大声、明亮清晰、有活力。

请同时参考图9A-1及图9A-2及图10,详细而言,当人物1041、1042、及1043位于第一区域1031时,运算装置120可撷取人物1041、1042、及1043的标签ID#01、ID#02、及ID#03相应的视频细致特征及音频细致特征,并将标签ID#01、ID#02、及ID#03相应的视频细致特征及音频细致特征输入个别的本地物件辨识模型(例如方块906-1及906-2),并产生个别的视频物件及音频物件的辨识结果,例如记录于用于视频物件的一本地身份识别清单L1及用于音频物件的一本地身份识别清单L2。

接着,经过方块908及910以进行全局物件对应及全局细致特征集对应以产生本地物件识别码清单、及全局粗糙特征集及相应的全局细致特征集。假设在方块912中是选择自适应加权系数(AWC)更新,本地物件识别码清单、及全局粗糙特征集及相应的全局细致特征集会在方块918中进行全局细致特征融合以产生全局融合特征,并在方块920的全局物件辨识模型中产生辨识结果,例如可辨识出全局物件P1、P2、及P3,并指派相应的全局身份识别码GIID1、GIID2、及GIID3至所辨识出的全局物件P1、P2、及P3。

简单来说,全局身份识别码GIID1、GIID2、及GIID3所相应的全局物件即分别带有上述标签ID#01、ID#02、及ID#03中的所有视频细致特征及音频细致特征。

因此,当人物1041、1042、及1043进入第一区域1031时,运算装置120即已建立出人物1041、1042、及1043相应的ID#01、ID#02、及ID#03、以及其全局身份识别码GIID1、GIID2、及GIID3与相应的所有视频细致特征及音频细致特征。

当人物1041、1042、及1043由第一区域1031进入重叠区域1033时,因为区域1033已可同时由摄影机1010~1011及指向性麦克风1020~1021进行监看。在人物1041、1042、及1043由第一区域1031进入第三区域1033的过程中,摄影机1010及指向性麦克风1020会持续地收集视频与音频数据并进行物件追踪与辨识,但可能会因为感测器设置的位置、角度与当时环境的光线背景声音,亦或是人员交叠等遮蔽等状况导致特征信息有所缺漏。因此,当人物1041、1042、及1043由第一区域1031进入重叠区域1033后,除了可利用摄影机1010及指向性麦克风1020所撷取的视频数据及音频数据之外,运算装置120可利用摄影机1011及指向性麦克风1021在不同位置及角度所撷取的视频数据及音频数据再依据上述步骤建立出各物件的全局融合特征。此外,运算装置120还能融合摄影机1010及指向性麦克风1020所收集到的特征数据。再经过方块920的全局物件辨识模型判断由上述全局融合特征是否与先前所辨识出的全局身份识别码GIID1、GIID2、及GIID3所相应的全局物件的全局融合特征相同。若全局融合特征相同,则可判断是相同的人物;若全局融合特征不同,则可判断是不同的人物。

当人物1041、1042、及1043离开重叠区域1033并进入第二区域1032时,运算装置120仅能利用摄影机1011及指向性麦克风1021所撷取的视频数据及音频数据再依据上述步骤建立出各物件的全局融合特征。再经过方块920的全局物件辨识模型判断由上述全局融合特征是否与先前所辨识出的全局身份识别码GIID1、GIID2、及GIID3所相应的全局物件的全局融合特征相同。若全局融合特征相同,则运算装置120可判断是相同的人物;若全局融合特征不同,则运算装置120可判断是不同的人物。因此,本发明的监控系统用于进行物件辨识的信息比传统的监控系统更为丰富且完整,还有回馈补强的机制,可以让追踪与辨识的能力与精确度大幅提高。

图11显示依据本发明一实施例中的利用多维度感测器数据的监控方法的流程图。请同时参考图2及图11。

在步骤S1110,利用感测器(例如感测器110A-110E)检测该场景以取得各类型的一感测数据。感测器110包括多种不同类型的感测器,例如:摄影机110A、麦克风110B、味觉感测器110C、气味感测器110D、触觉感测器110E、或其组合,但本发明的实施例并不限定于上述类型或属性的感测器。

在步骤S1120,分别对各类型的该感测数据进行一本地物件处理以产生一本地物件特征信息。举例来说,本地物件处理例如包括本地物件检测及对应模块1311、一本地物件特征抽取及融合模块1312、及一本地物件辨识模型1313所执行的关于本地物件的各种处理。此外,本地物件辨识模块131所产生的本地物件特征信息包括各类型的感测数据的本地物件清单、本地粗糙特征集、本地融合特征、及本地身份识别清单。

在步骤S1130,依据该本地物件特征信息进行一全局物件处理以产生一全局物件特征信息。举例来说,全局物件处理例如包括全局物件及特征集对应模块1321、上下文区域分析模块1322、加权参数选择模块1323、及全局细致特征融合模块1324所执行关于全局物件的各种处理。此外,特征融合模块132所产生的全局物件特征信息包括:全局物件清单及相应的全局细致特征集、及全局融合特征。

在步骤S1140,对该全局物件特征信息进行一全局物件辨识以产生一全局辨识结果。举例来说,全局辨识模块133将全局细致特征融合模块1324所产生的全局融合特征输入一全局物件辨识模型以辨识各全局融合特征的全局身份,例如可建立记录各全局融合特征的全局身份识别码的一全局身份识别清单。

综上所述,本发明的实施例提供一种利用多维度感测器数据的监控方法及监控系统,其可利用不同类型的感测器以取得场景的感测数据,并进行同类型的本地物件的检测、对应、及辨识,且可利用不同类型的本地物件进行对应以产生全局的感测数据的全局物件,其具有全局融合特征。此外,本发明的实施例中的利用多维度感测器数据的监控系统及监控方法更可执行全局的全局物件辨识,使得监控场景中的物件的可靠度及准确度更高。

本发明虽以较佳实施例揭露如上,然其并非用以限定本发明的范围,任何所属本领域技术人员,在不脱离本发明的精神和范围内,当可做些许的更动与润饰,因此本发明的保护范围当视权利要求所界定的为准。

54页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种智能监控视频处理方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类