基于时间序列数据自增特征的数据清洗方法及装置

文档序号:1671220 发布日期:2019-12-31 浏览:37次 >En<

阅读说明:本技术 基于时间序列数据自增特征的数据清洗方法及装置 (Data cleaning method and device based on time series data self-increment characteristics ) 是由 王典 吕慧华 金丽娟 于 2019-09-23 设计创作,主要内容包括:本发明实施例提供了一种基于时间序列数据自增特征的数据清洗方法及装置,所述方法包括:根据与原始里程时间一一对应的原始里程数据,基于时间序列逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。本发明实施例能够基于时间序列逐个消除车辆在预设时间范围内产生的异常里程数据,从而保证了数据清洗效果,降低了出现异常里程数据误检、漏检的概率,从而能够得到较为干净的里程数据,进而根据清洗后的里程数据可以准确计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。(The embodiment of the invention provides a data cleaning method and device based on time series data self-increment characteristics, wherein the method comprises the following steps: and judging whether each original mileage data is abnormal jump data one by one based on the time sequence according to the original mileage data corresponding to the original mileage time one by one, if so, updating the abnormal jump data, and after all the original mileage data are judged and updated, calculating the relative mileage within the preset time range or the relative mileage between any two original mileage time points. According to the embodiment of the invention, abnormal mileage data generated by the vehicle within the preset time range can be eliminated one by one based on the time sequence, so that the data cleaning effect is ensured, the probability of false detection and missed detection of the abnormal mileage data is reduced, cleaner mileage data can be obtained, and further, the relative mileage within the preset time range or the relative mileage between any two original mileage time points can be accurately calculated according to the cleaned mileage data.)

基于时间序列数据自增特征的数据清洗方法及装置

技术领域

本发明涉及车辆运输技术领域,具体涉及一种基于时间序列数据自增特征的数据清洗方法及装置。

背景技术

在对车辆进行分析过程中,需要经常分析里程油耗数据,统计油气耗报表,此时需要处理脉冲里程和ECU油耗数据。由于车辆运行过程中的突发因素和突发状况比较多,因此容易导致出现各种异常值,因此,为了得到干净的车辆行驶数据,需要对数据进行清洗工作,消除车辆行驶数据中的异常数据,得到准确的车辆行驶数据。

对于车辆行驶数据中的脉冲里程数据,目前大部分终端设备同时上报GPS定位信息和脉冲里程数据。因此可以考虑使用GPS定位坐标通过球面距离公式计算GPS里程,再用GPS里程充当同一时间区间范围内的脉冲里程。而这里有引入几个问题:首先,GPS定位信息因为上报和采集时间间隔的问题,并不是连续的。因此计算相邻两点之间距离的时候,其实是计算球面上两点的最近距离,这就导致累加GPS距离结果比实际行驶轨迹的距离要小。这个误差一般在5%左右。其次,GPS定位信息本身也存在定位点漂移和精度误差。在某些军事敏感区域内或者因为天候地理因素,GPS模块可能无法准确或者正常定位。因此GPS里程只能作为辅助参照值,无法完全取代脉冲里程的实际使用价值。

对于车辆行驶数据中的油耗数据,目前部分终端设备通过监控油位传感器上报的油位液面高度变化来计算油耗。这个不仅精度不高,而且因为车辆行驶过程中,加速度、电磁环境、角速度、温度、坡度变化等外部因素导致液面波动,为精确采集油位增加了难度。导致油位数据上报不准,因此通过油位下降计算出来的油耗只能作为辅助参照值,无法完全取代ECU油耗的实际使用价值。

发明内容

针对现有技术中的问题,本发明实施例提供一种基于时间序列数据自增特征的数据清洗方法及装置。

第一方面,本发明实施例提供了一种基于时间序列数据自增特征的数据清洗方法,包括:

获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据;

根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

进一步地,所述根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程,具体包括:

S1、初始化原始里程时间T0,T1,…,Tn-2,Tn-1以及和原始里程时间T0,T1,…,Tn-2,Tn-1一一对应的原始里程数据为V0,V1,...,Vn-2,Vn-1;其中,Ti<Ti+1,原始里程时间的最小单位为1s,原始里程数据的最小单位是0.01km;

S2、定义累积里程增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始里程数据V0,V1,...,Vn-2,Vn-1和原始里程时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始里程数据为Vi,原始里程时间为Ti;

计算div=Vi-preValue,如果div>G1km或者div<G2km,则inc+=div,如果G3km<div<G1km,则进一步计算:speed=div/(Ti-preTime),如果speed>a0 km/s,则判定原始里程数据Vi发生异常跳变,此时更新累积里程增量inc+=div;其中a0 km/s为每秒最高车速系数,G1为判断里程数据发生剧烈跳变的临界阈值,G2为判断里程数据发生下降变化的临界阈值,[G3,G1]为判断里程数据发生可疑跳变的约束范围,G1、G3均大于零,G2小于零,G1>G3>G2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.00km,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对里程为Vn-1-V0,或者,计算任意两个原始里程时间点之间的相对里程Tk和Tj之间的相对里程为Vj-Vk。

第二方面,本发明实施例还提供了一种基于时间序列数据自增特征的数据清洗方法,包括:

获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;

根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

进一步地,所述根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗,具体包括:

S1、初始化原始油耗时间T0,T1,…,Tn-2,Tn-1以及和原始油耗时间T0,T1,…,Tn-2,Tn-1一一对应的原始油耗数据为V0,V1,...,Vn-2,Vn-1;其中,其中,Ti<Ti+1,原始油耗时间的最小单位为1s,原始油耗数据的最小单位是0.5L;

S2、定义累积油耗增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始油耗数据V0,V1,...,Vn-2,Vn-1和原始油耗时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始油耗数据为Vi,原始油耗时间为Ti;

计算div=Vi-preValue,如果div>H1或者div<H2,则inc+=div,如果H3<div<H1,则进一步计算:limit=b0 L/s*(Ti-preTime),如果div>limit,则判定原始油耗数据Vi发生异常跳变,此时更新累积油耗增量inc+=div;其中b0 L/s为每秒最高油耗系数,H1为判断油耗数据发生剧烈跳变的临界阈值,H2为判断油耗数据发生下降变化的临界阈值,[H3,H1]为判断油耗数据发生可疑跳变的约束范围,H1、H3均大于零,H2小于零,H1>H3>H2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.0L,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对油耗为Vn-1-V0,或者,计算任意两个原始油耗时间点之间的相对油耗Tk和Tj之间的相对油耗为Vj-Vk。

第三方面,本发明实施例还提供了一种基于时间序列数据自增特征的数据清洗装置,包括:

第一获取模块,用于获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据;

第一数据清洗模块,用于根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

进一步地,所述第一数据清洗模块,具体用于执行下面处理过程:

S1、初始化原始里程时间T0,T1,…,Tn-2,Tn-1以及和原始里程时间T0,T1,…,Tn-2,Tn-1一一对应的原始里程数据为V0,V1,...,Vn-2,Vn-1;其中,Ti<Ti+1,原始里程时间的最小单位为1s,原始里程数据的最小单位是0.01km;

S2、定义累积里程增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始里程数据V0,V1,...,Vn-2,Vn-1和原始里程时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始里程数据为Vi,原始里程时间为Ti;

计算div=Vi-preValue,如果div>G1km或者div<G2km,则inc+=div,如果G3km<div<G1km,则进一步计算:speed=div/(Ti-preTime),如果speed>a0 km/s,则判定原始里程数据Vi发生异常跳变,此时更新累积里程增量inc+=div;其中a0 km/s为每秒最高车速系数,G1为判断里程数据发生剧烈跳变的临界阈值,G2为判断里程数据发生下降变化的临界阈值,[G3,G1]为判断里程数据发生可疑跳变的约束范围,G1、G3均大于零,G2小于零,G1>G3>G2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.00km,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对里程为Vn-1-V0,或者,计算任意两个原始里程时间点之间的相对里程Tk和Tj之间的相对里程为Vj-Vk。

第四方面,本发明实施例还提供了一种基于时间序列数据自增特征的数据清洗装置,包括:

第二获取模块,用于获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;

第二数据清洗模块,用于根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

进一步地,所述第二数据清洗模块,具体用于执行下面处理过程:

S1、初始化原始油耗时间T0,T1,…,Tn-2,Tn-1以及和原始油耗时间T0,T1,…,Tn-2,Tn-1一一对应的原始油耗数据为V0,V1,...,Vn-2,Vn-1;其中,其中,Ti<Ti+1,原始油耗时间的最小单位为1s,原始油耗数据的最小单位是0.5L;

S2、定义累积油耗增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始油耗数据V0,V1,...,Vn-2,Vn-1和原始油耗时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始油耗数据为Vi,原始油耗时间为Ti;

计算div=Vi-preValue,如果div>H1或者div<H2,则inc+=div,如果H3<div<H1,则进一步计算:limit=b0 L/s*(Ti-preTime),如果div>limit,则判定原始油耗数据Vi发生异常跳变,此时更新累积油耗增量inc+=div;其中b0 L/s为每秒最高油耗系数,H1为判断油耗数据发生剧烈跳变的临界阈值,H2为判断油耗数据发生下降变化的临界阈值,[H3,H1]为判断油耗数据发生可疑跳变的约束范围,H1、H3均大于零,H2小于零,H1>H3>H2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.0L,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对油耗为Vn-1-V0,或者,计算任意两个原始油耗时间点之间的相对油耗Tk和Tj之间的相对油耗为Vj-Vk。

第五方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述基于时间序列数据自增特征的数据清洗方法的步骤;或,所述处理器执行所述计算机程序时实现如第二方面所述基于时间序列数据自增特征的数据清洗方法的步骤。

第六方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述基于时间序列数据自增特征的数据清洗方法的步骤;或,该计算机程序被处理器执行时实现如第二方面所述基于时间序列数据自增特征的数据清洗方法的步骤。

由上述技术方案可知,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法及装置,首先获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据,然后根据与原始里程时间一一对应的原始里程数据,基于时间序列逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。由此可见,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法及装置,能够基于时间序列逐个消除车辆在预设时间范围内产生的异常里程数据,从而保证了数据清洗效果,降低了出现异常里程数据误检、漏检的概率,从而能够得到较为干净的里程数据,进而根据清洗后的里程数据可以准确计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种基于时间序列数据自增特征的数据清洗方法的流程图;

图2是本发明一实施例提供的另一种基于时间序列数据自增特征的数据清洗方法的流程图;

图3是本发明另一实施例提供的一种基于时间序列数据自增特征的数据清洗装置的结构示意图;

图4是本发明另一实施例提供的另一种基于时间序列数据自增特征的数据清洗装置的结构示意图;

图5是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

车辆在行驶过程中上报的脉冲里程和ECU油耗数据具有显著的数据特征:随着时间的增长,数值维持不变或者小幅度增加。因此可知:时间区间范围内的相对脉冲里程=区间结束脉冲里程-区间开始脉冲里程;时间区间范围内的相对ECU油耗=区间结束ECU油耗-区间开始ECU油耗。然而在实际的生产环境中发现,终端上报的里程和油耗数据存在各种异常值,或者时间相邻两点的数值会发生大幅度的升降变化或者小幅度的下降变化(由于车辆运行过程中的突发因素和突发状况比较多,因此容易导致出现各种异常值)。在这种情况下,时间区间范围内的相对里程和相对油耗有可能计算得到负值或者偏大偏小。所以识别出里程和油耗数据上报了异常数值并且进行车辆行驶数据清洗的重要性就不言而喻。为了消除车辆在行驶过程中产生的异常里程数据点和异常油耗数据点,本发明提供了一种基于时间序列数据自增特征的数据清洗方法及装置,下面将通过具体实施例对本发明提供的内容进行详细说明。

图1示出了本发明实施例提供的一种基于时间序列数据自增特征的数据清洗方法的流程图。如图1所示,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法包括如下步骤:

步骤101:获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据。

在本实施例中,所述预设时间范围可以为一周、一天,或一天中的某个时间段。

步骤102:根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

在本实施例中,基于时间序列数据自增特征的数据是指具有随着时间的增长,数值维持不变或者小幅度增加的特征的数据,如脉冲里程数据和ECU油耗数据,在本实施例中,以脉冲里程数据为例进行详细说明。

在本实施例中,上述步骤102具体可通过如下方式实现:

S1、初始化原始里程时间T0,T1,…,Tn-2,Tn-1以及和原始里程时间T0,T1,…,Tn-2,Tn-1一一对应的原始里程数据为V0,V1,...,Vn-2,Vn-1;其中,Ti<Ti+1,原始里程时间的最小单位为1s,原始里程数据的最小单位是0.01km;

S2、定义累积里程增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始里程数据V0,V1,...,Vn-2,Vn-1和原始里程时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始里程数据为Vi,原始里程时间为Ti;

计算div=Vi-preValue,如果div>G1km或者div<G2km,则inc+=div,如果G3km<div<G1km,则进一步计算:speed=div/(Ti-preTime),如果speed>a0 km/s,则判定原始里程数据Vi发生异常跳变,此时更新累积里程增量inc+=div;其中a0 km/s为每秒最高车速系数,G1为判断里程数据发生剧烈跳变的临界阈值,G2为判断里程数据发生下降变化的临界阈值,[G3,G1]为判断里程数据发生可疑跳变的约束范围,G1、G3均大于零,G2小于零,G1>G3>G2;例如,a0 km/s可以取值0.1km/s,G1km可以取值100km,G2km可以取值-0.01km,G3可以取值2.0km;需要说明的是,这些参数的取值在此只是为了举例说明,在实际应用过程中,还可以根据需要设定其他不同的数值,例如,用于判断里程数据发生剧烈跳变的临界阈值G1还可以根据需要设置为80km等等,本发明对此不做限制。

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.00km,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对里程为Vn-1-V0,或者,计算任意两个原始里程时间点之间的相对里程Tk和Tj之间的相对里程为Vj-Vk。

由上述技术方案可知,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法,首先获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据,然后根据与原始里程时间一一对应的原始里程数据,基于时间序列逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。由此可见,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法,能够基于时间序列逐个消除车辆在预设时间范围内产生的异常里程数据,从而保证了数据清洗效果,降低了出现异常里程数据误检、漏检的概率,从而能够得到较为干净的里程数据,进而根据清洗后的里程数据可以准确计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

此外,在本实施例中,需要说明的是,本实施例提供的基于时间序列数据自增特征的数据清洗方法与通过GPS定位信息计算GPS里程的方案不冲突,二者可以进行缺失填充、参照比较和参数调优。

图2示出了本发明实施例提供的另一种基于时间序列数据自增特征的数据清洗方法的流程图。如图2所示,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法包括如下步骤:

步骤201:获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;

步骤202:根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

基于上述实施例的内容,在本实施例中,上述步骤202具体可通过如下方式实现:

S1、初始化原始油耗时间T0,T1,…,Tn-2,Tn-1以及和原始油耗时间T0,T1,…,Tn-2,Tn-1一一对应的原始油耗数据为V0,V1,...,Vn-2,Vn-1;其中,其中,Ti<Ti+1,原始油耗时间的最小单位为1s,原始油耗数据的最小单位是0.5L;

S2、定义累积油耗增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始油耗数据V0,V1,...,Vn-2,Vn-1和原始油耗时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始油耗数据为Vi,原始油耗时间为Ti;

计算div=Vi-preValue,如果div>H1或者div<H2,则inc+=div,如果H3<div<H1,则进一步计算:limit=b0 L/s*(Ti-preTime),如果div>limit,则判定原始油耗数据Vi发生异常跳变,此时更新累积油耗增量inc+=div;其中b0 L/s为每秒最高油耗系数,H1为判断油耗数据发生剧烈跳变的临界阈值,H2为判断油耗数据发生下降变化的临界阈值,[H3,H1]为判断油耗数据发生可疑跳变的约束范围,H1、H3均大于零,H2小于零,H1>H3>H2;例如,b0 L/s可以取值为0.0417L/s;H1可以取值为50L,H2可以取值为-0.5L,H3可以取值为5.0L,需要说明的是,这些参数的取值在此只是为了举例说明,在实际应用过程中,还可以根据需要设定其他不同的数值,例如,用于判断油耗数据发生剧烈跳变的临界阈值H1还可以根据需要设置为45L等等,本发明对此不做限制。

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.0L,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对油耗为Vn-1-V0,或者,计算任意两个原始油耗时间点之间的相对油耗Tk和Tj之间的相对油耗为Vj-Vk。

由上述技术方案可知,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法,首先获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据,然后根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。由此可见,本发明实施例提供的基于时间序列数据自增特征的数据清洗方法,能够基于时间序列逐个消除车辆在预设时间范围内产生的异常油耗数据,从而保证了数据清洗效果,降低了出现异常油耗数据误检、漏检的概率,从而能够得到较为干净的油耗数据,进而根据清洗后的油耗数据可以准确计算所述预设时间范围内的相对油耗或任意两个原始里程时间点之间的相对油耗。

在本实施例中,需要说明的是,本实施例提供的基于时间序列数据自增特征的数据清洗与通过油位传感器获得油位数据计算耗油量的方案不冲突,二者可以进行缺失填充、参照比较和参数调优。

根据上面的描述可知,本实施例提供的基于时间序列数据自增特征的数据清洗方法,由于可以有效地去除异常数据,因此使得生成的脉冲里程和ECU油耗曲线更平滑和连续,降噪效果非常明显。此外,本实施例提供的基于时间序列数据自增特征的数据清洗方法,具有很好的通用性,对于具有相同特征(数据随着时间的增长,数值维持不变或者小幅度增加)的不同类型的车辆行驶数据均可采用,思路简单易懂。

图3示出了本发明实施例提供的基于时间序列数据自增特征的数据清洗装置的结构示意图。如图3所示,本发明实施例提供的基于时间序列数据自增特征的数据清洗装置包括:第一获取模块11和第一数据清洗模块12,其中:

第一获取模块11,用于获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据;

第一数据清洗模块12,用于根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。

进一步地,所述第一数据清洗模块12,具体用于执行下面处理过程:

S1、初始化原始里程时间T0,T1,…,Tn-2,Tn-1以及和原始里程时间T0,T1,…,Tn-2,Tn-1一一对应的原始里程数据为V0,V1,...,Vn-2,Vn-1;其中,Ti<Ti+1,原始里程时间的最小单位为1s,原始里程数据的最小单位是0.01km;

S2、定义累积里程增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始里程数据V0,V1,...,Vn-2,Vn-1和原始里程时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始里程数据为Vi,原始里程时间为Ti;

计算div=Vi-preValue,如果div>G1km或者div<G2km,则inc+=div,如果G3km<div<G1km,则进一步计算:speed=div/(Ti-preTime),如果speed>a0 km/s,则判定原始里程数据Vi发生异常跳变,此时更新累积里程增量inc+=div;其中a0 km/s为每秒最高车速系数,G1为判断里程数据发生剧烈跳变的临界阈值,G2为判断里程数据发生下降变化的临界阈值,[G3,G1]为判断里程数据发生可疑跳变的约束范围,G1、G3均大于零,G2小于零,G1>G3>G2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.00km,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对里程为Vn-1-V0,或者,计算任意两个原始里程时间点之间的相对里程Tk和Tj之间的相对里程为Vj-Vk。由于本发明实施例提供的基于时间序列数据自增特征的数据清洗装置,可以用于执行上面第一个实施例所述的基于时间序列数据自增特征的数据清洗方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。

图4示出了本发明实施例提供的基于时间序列数据自增特征的数据清洗装置的结构示意图。如图4所示,本发明实施例提供的基于时间序列数据自增特征的数据清洗装置包括:第二获取模块21和第二数据清洗模块22,其中:

第二获取模块21,用于获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;

第二数据清洗模块22,用于根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

进一步地,所述第二数据清洗模块22,具体用于执行下面处理过程:

S1、初始化原始油耗时间T0,T1,…,Tn-2,Tn-1以及和原始油耗时间T0,T1,…,Tn-2,Tn-1一一对应的原始油耗数据为V0,V1,...,Vn-2,Vn-1;其中,其中,Ti<Ti+1,原始油耗时间的最小单位为1s,原始油耗数据的最小单位是0.5L;

S2、定义累积油耗增量inc=0.00km,preValue=V0,preTime=T0;

S3、由1...n-1依次遍历原始油耗数据V0,V1,...,Vn-2,Vn-1和原始油耗时间T0,T1,...,Tn-2,Tn-1;

获取当前第i个元素,读取原始油耗数据为Vi,原始油耗时间为Ti;

计算div=Vi-preValue,如果div>H1或者div<H2,则inc+=div,如果H3<div<H1,则进一步计算:limit=b0 L/s*(Ti-preTime),如果div>limit,则判定原始油耗数据Vi发生异常跳变,此时更新累积油耗增量inc+=div;其中b0 L/s为每秒最高油耗系数,H1为判断油耗数据发生剧烈跳变的临界阈值,H2为判断油耗数据发生下降变化的临界阈值,[H3,H1]为判断油耗数据发生可疑跳变的约束范围,H1、H3均大于零,H2小于零,H1>H3>H2

S4、更新preValue=Vi,preTime=Ti;

S5、如果inc!=0.0L,则更新Vi=Vi-inc;

S6、如果i<n-1,则循环进入步骤S3;

S7、计算T0至Tn-1预设时间范围内的相对油耗为Vn-1-V0,或者,计算任意两个原始油耗时间点之间的相对油耗Tk和Tj之间的相对油耗为Vj-Vk。

由于本发明实施例提供的基于时间序列数据自增特征的数据清洗装置,可以用于执行上面第二个实施例所述的基于时间序列数据自增特征的数据清洗方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。

基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图5,所述电子设备具体包括如下内容:处理器301、存储器302、通信接口303和通信总线304;

其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;所述通信接口303用于实现相关设备之间的信息传输;

所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述基于时间序列数据自增特征的数据清洗方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据;根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。或,所述处理器执行所述计算机程序时实现下述过程:获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于时间序列数据自增特征的数据清洗方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:获取车辆在预设时间范围内产生的与原始里程时间一一对应的原始里程数据;根据与原始里程时间一一对应的原始里程数据,逐个判断每个原始里程数据是否为异常跳变数据,若是,则对异常跳变数据进行更新,当判断和更新完所有的原始里程数据后,计算所述预设时间范围内的相对里程或任意两个原始里程时间点之间的相对里程。或,所述处理器执行所述计算机程序时实现下述过程:获取车辆在预设时间范围内产生的与原始油耗时间一一对应的原始油耗数据;根据与原始油耗时间一一对应的原始油耗数据,逐个判断每个原始油耗数据是否为异常跳变数据,若是,则对异常跳变数据进行更新;当判断和更新完所有的原始油耗数据后,计算所述预设时间范围内的相对油耗或任意两个原始油耗时间点之间的相对油耗。

此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的基于时间序列数据自增特征的数据清洗方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:全压孔可疏通式毕托巴流量传感器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!