基于多级滤波的移动信令轨迹去噪方法、介质和计算设备
阅读说明:本技术 基于多级滤波的移动信令轨迹去噪方法、介质和计算设备 (Mobile signaling trajectory denoising method, medium and computing device based on multistage filtering ) 是由 蒋志鹏 戴帅夫 刘丙双 于 2021-08-18 设计创作,主要内容包括:本发明公开了一种基于多级滤波的移动信令轨迹去噪方法、介质和计算设备,首先提取用户信令轨迹数据并按时间排序,计算每个轨迹点的Geohash网格以及两两轨迹点间的曼哈顿距离,依次以Geohash网格和轨迹点为单位,对移动速度和轨迹夹角进行合理性判定,通过由粗到细的方式过滤轨迹噪声数据。目前基站位置信息不准确导致的连续型轨迹噪声数据,基于聚类或单一滤波的轨迹去噪方法通常无法去除,本发明不仅可以去除移动通信机制所产生的噪声数据,而且能够去除连续型轨迹噪声数据,并且实施方案更加简单有效。(The invention discloses a multistage filtering-based mobile signaling track denoising method, medium and computing equipment. The invention can remove not only the noise data generated by a mobile communication mechanism, but also the continuous track noise data, and the implementation scheme is simpler and more effective.)
技术领域
本发明涉及信令数据分析技术领域,更具体的说是涉及基于多级滤波的移动信令轨迹去噪方法、介质和计算设备。
背景技术
位置信息作为移动通信用户信令的重要组成部分,其精准度直接决定各类应用的输出结果。然而,由于环境地形复杂、外部信号干扰、基站信息不准确等原因,位置信息中存在着大量的噪声,导致在计算轨迹相似度时,存在严重的漏报和误报问题。
目前常见的去噪方法包括速度过滤、中值滤波、Kalman滤波、聚类分析等,一方面,这些方法各自存在不同的局限性;另一方面,这些方法主要面向移动通信机制所产生的定位误差,例如用户位于基站交界处产生的乒乓数据,用户在高速移动过程中产生的记忆数据等。在实际应用中,基站位置信息不准确导致的定位错误同样占较大比例,并且与移动通信机制所产生的定位误差特征表现不尽相同,使已有去噪方法难以有效处理。
具体来说,录入基站信息表时包含大量人为错误,造成表中某些基站与实际位置相距较远,导致用户信令轨迹中出现一条或多条错误的离群子轨迹,在不考虑定位误差的情况下,这些子轨迹内部的基站转移不会出现异常,并且当时间跨度足够大时,从正常轨迹转移到离群子轨迹也不会出现异常,导致仅依靠速度阈值或聚类的方法无法发现并去除这些噪声数据。
因此,如何删除连续轨迹噪声是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种基于多级滤波的移动信令轨迹去噪方法,不仅可以去除移动通信机制所产生的噪声数据,而且能够去除连续型轨迹噪声数据,并且实施方案更加简单有效。
为了实现上述目的,本发明采用如下技术方案:
一种基于多级滤波的移动信令轨迹去噪方法,包括:
步骤一:将实时接收的手机信令数据按用户唯一标识分组,只存储用户发生基站切换时的信令数据,形成离线轨迹库,并从所述离线轨迹库中提取一定周期内的轨迹数据;
步骤二:将所述轨迹数据按用户唯一标识分组,并根据信令时间进行组内生序排列,基于排序轨迹依次计算相邻两个轨迹点间的移动速度,只保留移动速度小于速度阈值的轨迹点;
步骤三:将轨迹点的经纬度坐标依次编码为特定位数的Geohash字符串,并纳入该Geohash分组;
步骤四:当第i个与第i-1个Geohash字符串不同,并且第i-1个与第i-2个Geohash字符串也不同时,将上述三个Geohash字符串解码为对应各自Geohash中心点的经纬度坐标,依次计算第i个Geohash中心点和第i-1个Geohash中心点间的;曼哈顿距离、第i-1个Geohash中心点和第i-2个Geohash中心点间的;曼哈顿距离以及第i个Geohash中心点、第i-1个Geohash中心点和第i-2个Geohash中心点所形成的轨迹夹角,基于Geohash网格进行空间滤波;
步骤五:重复执行步骤三至步骤四,直至该用户所有轨迹点遍历结束,最终生成新的用户轨迹;
步骤六:遍历所述新的用户轨迹的轨迹点,计算其轨迹中心点坐标,以及每个轨迹点与轨迹中心点间的曼哈顿距离,将曼哈顿距离最小的轨迹点坐标编码为特定位数的Geohash字符串,记为中心Geohash网格;
步骤七:遍历步骤五所述新的用户轨迹的轨迹点,当第i个轨迹点满足合理性判定条件时,基于轨迹点坐标进行二次空间滤波;
步骤八:重复执行步骤三至步骤七,直至完成所有用户轨迹去噪工作。
优选的,所述轨迹数据至少包括户唯一标识、轨迹点经度、轨迹点纬度和信令时间,所述轨迹点经度和所述轨迹点纬度通过基站唯一标识获取。
优选的,基于Geohash网格进行空间滤波,具体包括:
设定夹角阈值和距离阈值,当第i个Geohash中心点、第i-1个Geohash中心点和第i-2个Geohash中心点所形成的轨迹夹角小于夹角阈值,且第i个Geohash中心点和第i-1个Geohash中心点间的曼哈顿距离以及第i-1个Geohash中心点和第i-2个Geohash中心点间的曼哈顿距离均大于距离阈值时,删除第i个Geohash字符串以及第i-1个Geohash分组所包含的全部轨迹点。
优选的,所述轨迹中心点坐标包括轨迹中心点经度和轨迹中心点纬度,所述轨迹中心点经度为所述新的用户轨迹中轨迹点经度的算术平均数,所述轨迹中心点纬度为所述新的用户轨迹中轨迹点纬度的算术平均数。
优选的,满足合理性判定条件即满足下述条件之一:(1)第i个轨迹点所在Geohash网格为中心Geohash网格;(2)用户从第i-1个轨迹点移动到第i个轨迹点的速度小于速度阈值;(3)第i-1个轨迹点到轨迹中心点的距离大于第i个轨迹点到轨迹中心点的距离;(4)当i=1时,用户从第i个轨迹点移动到轨迹中心点的速度小于速度阈值。
优选的,基于该轨迹点坐标进行二次空间滤波,具体包括:
依次计算第i个轨迹点和第i-1个轨迹点、第i-1个轨迹点和第i-2个轨迹点间的曼哈顿距离和时间间隔,以及第i个轨迹点、第i-1个轨迹点和第i-2个轨迹点所形成的轨迹夹角;设定夹角阈值、距离阈值、时间间隔阈值,当第i个轨迹点、第i-1个轨迹点和第i-2个轨迹点所形成的轨迹夹角小于夹角阈值,第i个轨迹点和第i-1个轨迹点间的曼哈顿距离、第i-1个轨迹点和第i-2个轨迹点间的曼哈顿距离均大于距离阈值,且第i个轨迹点和第i-1个轨迹点间的时间间隔和第i-1个轨迹点和第i-2个轨迹点间的时间间隔均大于时间间隔阈值时,删除第i-1个轨迹点。
优选的,所述夹角阈值为0°~45°,所述距离阈值为0km~10km,所述速度阈值为40km/h~605km/h,所述时间间隔阈值为0s~60s。
优选的,所述特定位数为5~7位,所述一定周期为一天或者一个月。
一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括执行上述方法中各步骤的指令。
一种计算设备,包括处理器以及用于存储处理器可执行计算机程序的存储器,所述处理器执行存储器存储的计算机程序时,实现上述方法。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于多级滤波的移动信令轨迹去噪方法,本发明采用由粗粒度到细粒度的多级滤波,一方面,组合移动速度、移动距离、轨迹夹角、时间间隔等多维阈值,能够删除乒乓数据、记忆数据等常规的定位噪声;另一方面,结合连续轨迹噪声的空间分布特点,先将离群子轨迹压缩到一定范围的Geohash网格内,再利用多维阈值过滤,达到删除连续轨迹噪声的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供的一种基于多级滤波的移动信令轨迹去噪方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了去除信令轨迹数据中定位误差和连续轨迹噪声,本发明提供了一种基于多级滤波的移动信令轨迹去噪方法,以下结合实施例,对本发明进行进一步详细说明。需要注意,此处所描述的具体实施例仅用以解释本发明,不可视为对本发明的限定。
下面结合某城区内信令数据示例,描述本发明提供的基于多级滤波的移动信令轨迹去噪方法实施过程:
(1)将实时接入的用户信令数据按用户唯一标识分组,只存储用户发生基站切换时的信令数据,形成离线轨迹库,从中提取一天的轨迹数据,通过基站唯一标识获取该基站所在位置的经纬度坐标,用户轨迹数据示例如表1所示。
表1用户轨迹数据示例
用户唯一标识
经度
纬度
信令时间
user1
u1_lon1
u1_lat1
u1_time1
user2
u2_lon1
u2_lat1
u2_time1
user1
u1_lon2
u1_lat2
u1_time2
user1
u1_lon3
u1_lat3
u1_time3
user2
u2_lon2
u2_lat2
u2_time2
user1
u1_lon4
u1_lat4
u1_time4
user3
u3_lon1
u3_lat1
u3_time1
user1
u1_lon5
u1_lat5
u1_time5
(2)将步骤(1)处理后的轨迹数据按用户唯一标识分组,并根据信令时间进行组内升序排列,基于分组排序轨迹依次两两计算轨迹点间的移动速度,只保留移动速度小于速度阈值200km/h的轨迹点,速度过滤后user1的轨迹数据如表2所示,这里只描述user1的轨迹去噪过程,其他用户方法相同不再赘述。
表2 user1轨迹数据示例
用户唯一标识
经度
纬度
信令时间
user1
u1_lon1
u1_lat1
u1_time1
user1
u1_lon2
u1_lat2
u1_time2
user1
u1_lon3
u1_lat3
u1_time3
user1
u1_lon4
u1_lat4
u1_time4
user1
u1_lon5
u1_lat5
u1_time5
(3)将user1轨迹中所有轨迹点的经纬度坐标依次编码为7位的Geohash字符串,并纳入该Geohash分组,Geohash分组后的数据如表3所示。
表3 Geohash分组数据示例
(4)当Geohash1≠Geohash2,且Geohash2≠Geohash3时,将这三个Geohash字符串解码为其中心点的经纬度坐标,记为center1,center2,center3,依次计算center1与center2、center2与center3间的轨迹夹角和曼哈顿距离,当轨迹夹角小于夹角阈值34°,且两段曼哈顿距离均大于5km时,删除轨迹点(u1_lon3,u1_lat3)和(u1_lon4,u1_lat4),最终生成新的user1轨迹,如表4所示。
表4 Geohash滤波后的轨迹数据示例
用户唯一标识
经度
纬度
信令时间
Geohash
user1
u1_lon1
u1_lat1
u1_time1
Geohash1
user1
u1_lon2
u1_lat2
u1_time2
Geohash1
user1
u1_lon5
u1_lat5
u1_time5
Geohash3
(5)遍历表4中各轨迹点,将user1轨迹点经纬度的算术平均数作为其轨迹中心点坐标,进一步计算每个轨迹点与轨迹中心点间的曼哈顿距离,将曼哈顿距离最小的轨迹点坐标编码为6位的Geohash字符串作为中心Geohash网格。
(6)遍历表4中各轨迹点,尽管轨迹点(u1_lon5,u1_lat5)所在Geohash网格不是中心Geohash网格,但user1从轨迹点(u1_lon2,u1_lat2)移动到轨迹点(u1_lon5,u1_lat5)的速度小于200km/h,所以依次计算轨迹点(u1_lon1,u1_lat1)和轨迹点(u1_lon2,u1_lat2)、轨迹点(u1_lon2,u1_lat2)和轨迹点(u1_lon5,u1_lat5)的轨迹夹角、曼哈顿距离、时间间隔,当轨迹夹角小于夹角阈值34°,两段曼哈顿距离均大于距离阈值5km,且两段时间间隔大于时间间隔阈值30s时,删除轨迹点(u1_lon2,u1_lat2)。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种多张SIM卡流量通用方法及装置