时空数据流模型自增强方法

文档序号：1952739 发布日期：2021-12-10 浏览：21次 >En<

阅读说明：本技术 时空数据流模型自增强方法 (Self-enhancement method of space-time data flow model ) 是由廖泓舟高翔丁洪丽于 2021-08-31 设计创作，主要内容包括：本发明公开的时空数据流模型自增强方法,能根据飞行器相关时空数据生成新的增强型时空数据,提高时空数据数量。本发明通过下述技术方案予以实现：首先,根据原始时空轨迹数据创建时空数据流模型,对输入时空数据流进行数据归一化、采样及映射、验证和筛选缺失值,基于流模型的算法对时空数据缺失信息进行补全及轨迹数据的生成；然后,基于时空对象的特征,构建多个地理字段统一坐标系的时空预测模型,对原始时空数据进行数量上的扩充,提升时空数据的丰富度；最后,基于当前时空数据对目标行动轨迹进行预测,验证增强算法的有效性并进行效能实时反馈,实现时空数据自增强。通过以上技术方案,可以解决小样本时空数据情况下模型训练不充分的问题。(The space-time data flow model self-enhancement method disclosed by the invention can generate new enhanced space-time data according to the relevant space-time data of the aircraft, and improve the quantity of the space-time data. The invention is realized by the following technical scheme: firstly, a spatio-temporal data flow model is established according to original spatio-temporal trajectory data, input spatio-temporal data flow is subjected to data normalization, sampling and mapping, verification and missing value screening, and spatio-temporal data missing information is completed and trajectory data is generated based on an algorithm of the flow model; then, based on the characteristics of the space-time object, a space-time prediction model of a unified coordinate system of a plurality of geographic fields is constructed, the original space-time data is expanded quantitatively, and the richness of the space-time data is improved; and finally, predicting the target action track based on the current time-space data, verifying the effectiveness of the enhancement algorithm, and feeding back the effectiveness in real time to realize the self-enhancement of the time-space data. Through the technical scheme, the problem of insufficient model training under the condition of small sample space-time data can be solved.)

时空数据流模型自增强方法

技术领域

本发明是关于人工智能、时空数据分析等诸多数据挖掘领域的数据增强技术，特别是涉及时空数据自增强技术。

背景技术

随着信息技术的不断提高以及移动设备和网络的广泛使用，数据产生的速度越来越快，数据收集的频率越来越高，数据密度的增长越来越显著，这些因素都使得大数据问题成为一种必然的趋势。而在大数据时代下很多商业数据都包含有时间和空间信息。在很多特定的应用场景下，比如垂直领域、封闭领域，通常难以获取充足的数据来完成相应的任务，因此，充分利用已有的数据进行数据增强是一个十分迫切的需求，即在保持标签一致的情况下，通过某种转换方法扩充出类似于真实数据的训练数据。数据增强可以实现数据更复杂的表征，从而减小验证集和训练集以及最终测试集的差距，让网络更好地学习迁移数据集上的数据分布，对于提升如目标识别、轨迹预测等下游任务具有重要意义。数据挖掘领域的一些较成熟的技术，如关联规则挖掘、分类、预测与聚类等被逐渐用于时间序列数据挖掘和空间结构数据挖掘，以发现与时间或空间相关的有价值的模式，并且得到了快速发展。信息网络和手持移动设备等的普遍应用，以及遥感卫星和地理信息系统等的显著进步，使人们前所未有地获取了大量的地理科学数据。这些地理科学数据通常与时间序列相互关联，并且隐含许多不易发现的、又潜在有用的模式。从这些非线性、海量、高维和高噪声的时空数据中提取出有价值的信息并用于商业应用，使得时空数据挖掘具有额外的特殊性和复杂性。随着时空数据采集效率的不断提高，时空数据积累越来越大，时空数据挖掘也面临诸多挑战。对于结构复杂且形式多样的时空数据，如何寻找合适的数据挖掘算法或者技术，可以挖掘什么有价值的模式，这些问题的解决都迫切需要构建一个时空数据挖掘的理论框架。因此，寻找有效的时空数据分析技术对于时空数据中有价值的时空模式的自动抽取与分析具有重要意义。

近年来，传感器网络、移动互联网、射频识别、全球定位系统等设备的快速发展和广泛应用，造成数据量的爆炸式增长，数据增加的速度远远超过现有的处理能力。一方面，时空数据本质上是非结构化数据，不仅包含时间序列模型，还存在地图模型。基于地图模型的算法时间复杂度通常比较大，对时空数据的存储管理和索引技术要求比较高。另一方面，MapReduce计算模型的组织形式和数据处理方法不适合处理时空数据模型；Hadoop技术也无法有效支持数据挖掘中监督学习所用的迭代式计算方法，因而无法完全满足时空数据分析的需求。

时空数据流是指在时间和空间中通过时间序列传送可持续数据，是用来表示空间实体的地理位置和分布特征等方面信息的数据，表述了空间实体或目标事件随地理位置的不同而发生的变化。空间数据是数据的一种特殊类型，它是指带有空间坐标的数据，这类数据通常是地图文件，用点、线、面以及实体等基本空间数据结构来表示。时空数据流时间序列(timeseriesmodel)数据是按照其属性(实际上就是时间)的顺序来的。在这种情况下，i＝t，即一个t时刻的更新为(t,ct)。此时对α的更新操作为αt(t)＝ct，且对于i＝t，αi(t)＝αi(t，1)。这种时空数据流模型适用于时序数据，如某特定IP的传出的数据，或股票的定期更新数据等。时空数据流包含随时间变化的空间信息，并且是流数据形式(即数据像一个无限的流，流进流出)。时空数据流每时每刻都在源源不断地产生大量的数据，不断从各种来源收集的时空数据的可用性日益增加，与传统的数据集不同,这些数据是海量的(massive),时序的(temporallyordered),快速变化的和潜在无限的(potentiallyinfinite)我们称这样的数据形态为数据流(DataSteaming,简称Streaming),并用数据流模型(DataStreamingModel)来描述它。在这些数据中发现异常模式构成了重大挑战。时空数据中的时间关系和空间关系通常比较复杂，尤其很多可度量的和不可度量的时间关系和空间关系都是隐含在时空数据中。挖掘数据中隐含的时空关系必然会引入某种程度的不确定性和模糊性，这将很大程度上影响数据挖掘的结果。近年来物理层对时空数据模型的研究主要侧重于对以往模型的修正,应用层的时空数据模型集中于满足各领域具体需求,而逻辑层的研究在表达能力方面有待改进。由于正常模式和异常模式之间通常没有明确的界限，现有的解决方案在识别大型、动态和异构数据中的异常、解释其多层面时空上下文中的异常以及允许用户在分析循环中提供反馈方面的能力有限。空间、属性、时间是地理现象的三个基本特征，也是GIS数据库的三种基本数据成分。这里的“空间”指空间位置数据及其派生数据。“属性”指与空间位置无派生关系的专题属性数据。“时间”则指时间、空间和属性状态的时变信息。

随着近年来以空间数据库为基础的GIS研究和应用的不断深入，随时间而变化的信息越来越受到人们的关注，因而提出了时态GIS(简称TGIS)的概念。时态GIS的组织核心是时空数据库，时空数据模型则是时空数据库的基础。而时空数据库是保存流数据不同时刻的分布状态,以支持离线阶段的分类、聚类和关联规则发现等数据挖掘操作，又是时态GIS(TGIS)的核心。但是由于空间、属性、时间三者之间的关系和结构组织非常复杂，理想的时空数据库和时态GIS系统目前还没有出现。由于数据的时空相关关系，其残差会形成一个零均值的非独立的时空相关随机过程。使得现有时空数据增强不具有针对性和通用性。

国内外关于数据增强的研究持续不断，相关的关键技术也取得了一定的进展，国内外研究存在着一定的相似性及差异性。相似的地方是大部分研究主要是基于图像以及文本数据增强的研究，但对于时空数据增强的研究偏少。不同的地方在于国内研究普遍偏向于有监督数据增强，而国外主要集中于无监督数据增强技术。由于监督学习需要大量的标签，无监督学习虽不需要标签，但是学习的效果不如监督学习。近来研究学者逐步关注和研究自监督学习，平衡了有监督学习和无监督学习之间的矛盾。

目前研究比较有影响的时空数据模型有以下几种：

时空复合模型，将每一次独立的叠加操作转换为一次性的合成叠加，变化的累积形成最小变化单元，由这些最小变化单元构成的图形文件和记录变化历史的属性文件联系在一起表达数据的时空特征。最小变化单元即是一定时空范围内的最大同质单元。其缺点在于多边形碎化和对关系数据库的过分依赖，随着变化的频繁会形成很多的碎片。

连续快照模型。连续快照模型在数据库中仅记录当前数据状态，数据更新后，旧数据变化值不再保留，即“忘记”过去的状态。连续的时间快照模型是将一系列时间片段快照保存起来，以反映整个空间特征的状态。由于快照将对未发生变化的所有特征重复进行存储，会产生大量的数据冗余，当事件变化频繁时，且数据量较大时，系统效率急剧下降。

基态修正模型。为避免连续快照模型将未发生变化部分的特征重复记录，基态修正模型只存储某个时间点的数据状态(基态)和相对于基态的变化量。只有在事件发生或对象发生变化时才将变化的数据存入系统中，时态分辨率刻度值与事件或对象发生变化的时刻完全对应。基态修正模型对每个对象只存储一次，每变化一次，仅有很少量的数据需要记录。基态修正模型也称为更新模型，有矢量更新模型和栅格更新模型。其缺点是较难处理给定时刻时空对象间的空间关系，且对很远的过去状态进行检索时，几乎对整个历史状况进行阅读操作，效率很低。

时空立方体模型。时空立方体模型用几何立体图形表示二维图形沿时间维发展变化的过程，表达了现实世界平面位置随时间的演变，将时间标记在空间坐标点上。给定一个时间位置值，就可以从三维立方体中获得相应截面的状态，也可扩展表达三维空间沿时间变化的过程。缺点是随着数据量的增大，对立方体的操作会变的越来越复杂，以至于最终变的无法处理。

时空对象模型。时空对象模型认为世界是由时空原子(Spatio-temporalAtom)所组成，时空原子为时间属性和空间属性均质的实体。在该模型中时间维是与空间维垂直的，它可表示实体在空间和属性上的变化，但未涉及对渐变实体的表示。缺点是随着时间发生的空间渐进的变化不能在时空对象模型中表示，没有一个描绘变迁、过程的概念。

面向对象的时空数据模型。面向对象方法是在节点、弧段、多边形等几何要素的表达上增加时间信息，考虑空间拓扑结构和时态拓扑结构。一个地理实体，无论多么复杂，总可以作为一个对象来建模。缺点是，没有考虑地理现象的时空特性和内在联系，缺少对地理实体或现象的显式定义和基础关系描述。除这几种之外，常见的时空数据模型还有第一范式(1NF)关系时空数据模型、非第一范式(1NF)关系时空数据模型、基于事件的时空数据模型、历史图模型等等。

发明内容

为进一步提高时空数据的数量和质量，本发明针对现有时空数据增强不具有针对性和通用性的问题，提供一种自增强效果优良、可用性强，能够降低数据冗余的时空数据自增强方法，有利于后续目标行动轨迹预测等下游任务。

为达到上述的目的，本发明提供的一种时空数据流模型自增强方法，其特征在于包括如下步骤：首先，根据原始时空轨迹数据创建时空数据流模型，时空数据流模型根据数据中心输入的时空数据流，进行数据归一化、采样及映射，验证和筛选缺失值，用不同的填充函数对时空数据流缺失信息进行缺失值填充补全，替换字段值生成轨迹数据；然后，对原始时空数据进行数量上的扩充，整合、清洗和转换不同来源的时空数据，提升时空数据的丰富度后，选择基于指定的汇总函数来汇总时间间隔较小的数据，不同类型的数据可以用不同的汇总函数，将不同来源的时间序列数据合并，对各个时间变量的每个时间序列数据时间间隔进行相同时间间隔的构建；选择一个或者多个坐标转换的地理字段，指定要转换的坐标系，通过位置函数获得不同类型的空间数据结构之间的位置关系，基于时空对象的特征构建多个地理字段统一坐标系的时空预测模型，基于当前时空数据预处理，对目标行动轨迹进行预测,预测输入变量，结合空间时间序列，预测时空对象在未来特定时间范围内特定空间位置下的轨迹行为或者状态的概率密度，面向时空数据的轨迹推测移动对象的出行规律，构造神经网络模型拟合隐含的空间相关性，利用各种数据序列的特征，将时间、空间及时空自回归模型捕捉时间自相关性，结合当前预测值自增强时空数据流模型，综合时间和空间属性验证增强算法的有效性并进行算法效能实时反馈。

本发明相比于现有技术具有如下显著的有益效果：

通过以上技术方案，本发明实现了时空数据自增强，可以解决小样本时空数据情况下模型训练不充分的问题，支撑目标行动轨迹预测等下游任务。

性能优良。本发明根据原始时空轨迹数据创建时空数据流模型，时空数据流模型根据数据中心输入的时空数据流，进行数据归一化、采样及映射，验证和筛选缺失值，用不同的填充函数对时空数据流缺失信息进行缺失值填充补全，替换字段值生成轨迹数据，能根据飞行器相关的时空数据生成新的增强型时空数据，提高时空数据数量，改善时空数据质量，并支持基于当前时空数据对飞行器目标行动轨迹进行预测等下游任务。

可用性强，本发明对原始时空数据进行数量上的扩充，整合、清洗和转换不同来源的时空数据，提升时空数据的丰富度后，选择基于指定的汇总函数来汇总时间间隔较小的数据，不同类型的数据可以用不同的汇总函数，将不同来源的时间序列数据合并，对各个时间变量的每个时间序列数据时间间隔进行相同时间间隔的构建；功能实现逻辑清晰，后台算法成熟稳定，自增强效果优良；基于真实数据进行实验训练验证，相比仿真结果具有更强的可用性，基本可满足一定的工程应用需求。

降低数据的冗余。本发明选择一个或者多个坐标转换的地理字段，指定要转换的坐标系，通过位置函数获得不同类型的空间数据结构之间的位置关系，基于时空对象的特征构建多个地理字段统一坐标系的时空预测模型，基于当前时空数据预处理，对目标行动轨迹进行预测,预测输入变量，结合空间时间序列，预测时空对象在未来特定时间范围内特定空间位置下的轨迹行为或者状态的概率密度，面向时空数据的轨迹推测移动对象的出行规律，构造神经网络模型拟合隐含的空间相关性，利用各种数据序列的特征，将时间、空间及时空自回归模型捕捉时间自相关性，结合当前预测值自增强时空数据流模型，综合时间和空间属性验证增强算法的有效性并进行算法效能实时反馈。节约了数据存储空间,降低了数据的冗余，有效保持地理现象的完整性,并具有较高的时空查询效率，显著性不仅在于它可以同时处理时间和空间两种属性并对未来任何时间任何地点的目标值进行预测，更在于可以通过时空预测模型进行假设检验分析从而改善决策。有利于后续目标行动轨迹预测等下游任务。

本发明利用基于流模型的算法对时空数据缺失信息进行补全及轨迹数据的生成；然后，对原始时空数据进行数量上的扩充，提升时空数据的丰富度；最后，基于当前时空数据对目标行动轨迹进行预测,验证增强算法的有效性并进行算法效能实时反馈。通过以上技术方案，本发明实现了时空数据自增强，可以解决小样本时空数据情况下模型训练不充分的问题，支撑飞行器目标行动轨迹预测等下游任务。

附图说明

为了更清楚地理解本发明，以下结合附图及实施例，对本发明进行进一步详细说明，同时参照附图，来描述本发明，其中：

图1是本发明时空数据自增强的流程图；

图2是图1时空流模型原理图；

图3是图1数据归一化原理图；

图4是图1采样及映射的原理图；

图5是本发明更新参数原理图；

图6是图1时空轨迹生成原理图。

具体实施方式

参阅图1。根据本发明，首先，根据原始时空轨迹数据创建时空数据流模型，时空数据流模型根据数据中心输入的时空数据流，进行数据归一化、采样及映射，验证和筛选缺失值，用不同的填充函数对时空数据流缺失信息进行缺失值填充补全，替换字段值生成轨迹数据；然后，对原始时空数据进行数量上的扩充，整合、清洗和转换不同来源的时空数据，提升时空数据的丰富度后，选择基于指定的汇总函数来汇总时间间隔较小的数据，不同类型的数据可以用不同的汇总函数，将不同来源的时间序列数据合并，对各个时间变量的每个时间序列数据时间间隔进行相同时间间隔的构建；选择一个或者多个坐标转换的地理字段，指定要转换的坐标系，通过位置函数获得不同类型的空间数据结构之间的位置关系，基于时空对象的特征构建多个地理字段统一坐标系的时空预测模型，基于当前时空数据预处理，对目标行动轨迹进行预测,预测输入变量，结合空间时间序列，预测时空对象在未来特定时间范围内特定空间位置下的轨迹行为或者状态的概率密度，面向时空数据的轨迹推测移动对象的出行规律，构造神经网络模型拟合隐含的空间相关性，利用各种数据序列的特征，将时间、空间及时空自回归模型捕捉时间自相关性，结合当前预测值自增强时空数据流模型，综合时间和空间属性验证增强算法的有效性并进行算法效能实时反馈。

时空数据自增强流程主要分为三个部分，一是输入，二是处理流程，三是输出，其中，输入对应原始时空轨迹数据的飞行器单条轨迹数据；处理流程对应基于流模型的时空数据自增强过程，主要包括数据归一化、采样及映射、轨迹生成三个部分；输出对应的增强后时空轨迹数据。

参阅图2。时空数据流模型主要包括，输入原始时空数据的归一化模型、采样及映射模块、更新参数模块、轨迹生成模块四个部分，首先，归一化模型依托生产软件和多源现势性资料分析原始数据，采样及映射模块基于归一化模型输入和隐空间之间的可逆映射序列，通过数据转换、采集编辑数据处理手段进行矢量数据的生产，以序列允许精确的隐变量推断和对数似然估计，更新参数模块使用历史数据来模拟时空轨迹，自动标识数据的更新状态和更新时间，高效且可并行的推断和综合增强要素，对增强要素中的标识FID进行匹配，并根据匹配结果进行增强数据属性及更新时间检查，检查增强要素是否更新以及属性上是否有冲突，完成最终的更新，将增强要素提交到轨迹生成模块，通过直接在潜在空间上操作来进行简单且易处理的数据操作，可以准确地捕获具有潜在变量的真实时空轨迹的概率分布，轨迹生成模块通过可逆变换来生成轨迹数据。无需人为地假设真实时空轨迹的概率分布，更新参数模块对采样及映射模块下发的更新状态、更新时间的标识数据进行更新编辑，得到空间范围的增强更新包；匹配采样及映射模块更新轨迹生成模块更新数据，完成要素时序信息与矢量数据更新。

参阅图3。数据归一化模型主要包括标识归一化模块、空间参数归一化模块以及时间归一化模块三部分。其中，标识归一化模块将目标标识为文本的数据，通过one-hot编码进行数值化，采用最值归一化方法进行归一化操作；空间参数归一化模块将高度/速度/转角/经度/纬度归一化为数值数据，直接通过最值归一化方法进行归一化操作；时间归一化模块将时空数据时间维度进行等间隔分割，并对时间进行分组，完成时间归一化操作，输出数据归一化结果。

数据归一化模型在时间自回归模型残差的基础上，检测是否空间中存在随着距离而变化的衰减，检测空间方差在给定区域的普遍性，利用空间残差所形成空间关系矩阵来描述数据中的空间关系，从线性回归的残差中移除空间关系的影响，修正时间自回归模型的参数，更新自回归模型的参数，获得更加准确的时间自回归关系的描述。

参阅图4。采样及映射模块基于数据归一化模型，通过每个可逆函数都是一个附加的耦合层，采用采样及映射为可逆过程对一系列可逆变换元素进行采样及映射，通过采样及映射将真实的时空轨迹样本的概率分布映射到先验概率分布Z-P_Z(z)，如高斯分布，采用服从高斯分布的随机数来生成时空轨迹的复杂概率分布I-P_data(TR)，其中P_Z表示概率分布，z表示满足某个概率分布(如高斯分布)的随机变量，P_data表示概率分布，TR表示满足某个复杂概率分布的轨迹。

参阅图5。更新参数模块包括输入层、中间层和输出层，主要包括激励传播和权重更新两个阶段。在激励传播阶段，输入信息通过中间层的逐层处理结果被发送到输出层，输出层计算权重更新阶段的损失函数。输入层将真实时空数据样本送入第一中间层中，得到参数W₁，然后，将第一中间层的输出用作下一层的输入，并且获得第二中间层中的参数W₂，以此类推，可以获得所有层的网络参数W_n；输出层的输出结果用于计算损失函数，该损失函数用于更新网络的权重。

在权重更新阶段，其核心思想是梯度下降和链式规则，输出层将产生的误差逐渐传播回上一层，根据梯度下降算法对每一层的权重进行连续优化，先将损失函数与输入数据相乘以获得梯度的权重，再将梯度与训练因子的乘积求逆，以获得用于更新旧权重的权重变化。

参阅图6。时空轨迹生成模块基于训练后的更新参数，对先验概率分布Z-P_Z(z)进行采样，获得随机数作为模型的输入数据，并且通过逆函数f^-1(z)生成时空轨迹，生成的时空轨迹数据即是数据增强结果。

以上所述为本发明较佳实施例，应该注意的是上述实施例对本发明进行说明，然而本发明并不局限于此，并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：智慧水利物联管护系统

时空数据流模型自增强方法

相关技术

网友询问留言