一种基于车联网数据的商用车驾驶员驾驶风格识别方法

文档序号:180971 发布日期:2021-11-02 浏览:33次 >En<

阅读说明:本技术 一种基于车联网数据的商用车驾驶员驾驶风格识别方法 (Commercial vehicle driver driving style identification method based on Internet of vehicles data ) 是由 何水龙 王永亮 冯海波 展新 王善超 李超 周志斌 李骏 冯哲 邓聚才 许恩永 于 2021-06-30 设计创作,主要内容包括:本发明公开了一种基于车联网数据的商用车驾驶员驾驶风格识别方法,包括,采集自然驾驶场景下的商用车辆行驶数据和车辆状态数据;对采集的数据进行异常值检测、缺失值填补与剔除、特征提取与建立和数据降维;基于k-means聚类算法对数据降维后的数据进行聚类,根据聚类结果定义驾驶员的驾驶类型;综合驾驶员特征和驾驶员的驾驶类型,建立基于随机森林算法的驾驶风格识别模型,并对驾驶风格识别模型进行训练和测试,完成商用车驾驶员驾驶风格的有效识别;本发明能够较为全面地描述驾驶风格,并且利用主成分分析降低各特征之间的相关性,实现了特征参数的降维优化,对样本数据的准确合理分类,并实现了驾驶风格较高精度的识别。(The invention discloses a commercial vehicle driver driving style identification method based on Internet of vehicles data, which comprises the steps of collecting commercial vehicle driving data and vehicle state data in a natural driving scene; carrying out abnormal value detection, missing value filling and removing, feature extraction and establishment and data dimension reduction on the acquired data; clustering the data subjected to the dimension reduction based on a k-means clustering algorithm, and defining the driving type of a driver according to a clustering result; the method comprises the steps of integrating the characteristics of a driver and the driving type of the driver, establishing a driving style recognition model based on a random forest algorithm, training and testing the driving style recognition model, and completing effective recognition of the driving style of the driver of the commercial vehicle; the invention can describe the driving style more comprehensively, reduces the correlation among all the characteristics by utilizing the principal component analysis, realizes the dimension reduction optimization of characteristic parameters, accurately and reasonably classifies sample data, and realizes the identification of the driving style with higher precision.)

一种基于车联网数据的商用车驾驶员驾驶风格识别方法

技术领域

本发明涉及驾驶员驾驶风格分析识别的技术领域,尤其涉及一种基于车联网数据的商用车驾驶员驾驶风格识别方法。

背景技术

近年来,随着我国经济以及物流业的快速发展,我国公路的货运量和周转量逐年攀升,从而对道路交通安全提出了更为严峻的挑战,商用车驾驶员的基本素质决定了他们发生交通事故的概率,最主要的体现是其驾驶风格,因此对商用车驾驶员驾驶风格的精确判定,显得尤为重要。

激进型的驾驶风格往往频繁操作、不规范操作较多,主要体现在急加速、急刹车、超速行驶等特征参数的数值一般偏高。现阶段的驾驶员驾驶风格识别方法大多集中在乘用车领域,在商用车领域的研究较少,且仅通过少有的几个特征来建立驾驶风格识别模型,经常存在驾驶风格判断不准确的问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有存在的问题,提出了本发明。

因此,本发明提供了一种基于车联网数据的商用车驾驶员驾驶风格识别方法,以解决现有技术识别精度低、实用性差的问题,为汽车公司、物流公司等企业提供了技术参考。

为解决上述技术问题,本发明提供如下技术方案:包括,采集自然驾驶场景下的商用车辆行驶数据和车辆状态数据;对采集的数据进行异常值检测、缺失值填补与剔除、特征提取与建立和数据降维;基于k-means聚类算法对数据降维后的数据进行聚类,根据聚类结果定义驾驶员的驾驶类型;综合驾驶员特征和所述驾驶员的驾驶类型,建立基于随机森林算法的驾驶风格识别模型,并对所述驾驶风格识别模型进行训练和测试,完成商用车驾驶员驾驶风格的有效识别。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述自然驾驶场景下的商用车辆行驶数据和车辆状态数据包括,通过车速传感器、三轴加速度计和GPS设备采集所述自然驾驶场景下的商用车辆行驶数据和车辆状态数据,采集的数据包括底盘号、车辆VIN码、实时经纬度、GPS车速、GPS加速度、GPS里程、ECU车速、加速度、发动机转速、行驶里程、行驶时间、瞬时能耗、ECU总能耗、发动机负荷百分比、发动机扭矩百分比、制动信号、制动踏板行程值、油门开度、档位状态、机油压力和水温。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述异常值检测包括,利用LOF算法检测异常值,其局部离群因子计算过程如下:计算点p的第k距离;根据所述点p的第k距离计算点o到点p的第k可达距离;根据所述点o到点p的第k可达距离计算局部可达密度;根据所述局部可达密度计算局部离群因子。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述缺失值填补包括,对车速数据的缺失采用均值填补,满足公式:

其中vnull为缺失的速度信息,vi为第i条信息的车速,n为采集的总的车速信息帧数;

对油门开度数据的缺失采用中值填补,满足公式:

其中knull为缺失的油门开度信息,ki为第i条信息的油门开度,m为采集的总的油门开度信息帧数。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述特征提取与建立包括,车辆行驶状态特征:行驶里程、行驶时长、加速度均值、减速度均值、车速均值、车速标准差、异常机油压力占比;驾驶行为特征:怠速时长、超速行驶时长、超速行驶里程、单位里程急加速次数、单位里程急刹车次数、夜间行车时长、单位里程空档滑行次数。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述数据降维包括,利用主成分分析策略对驾驶风格特征矩阵标准化、计算协方差矩阵、特征值、特征向量、主成分贡献率、累计贡献率和主成分得分;根据所述主成分贡献率挑选主成分的个数,即提取前80%主成分贡献率的k个主成分信息。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述聚类包括,将生成的k个主成分信息作为新的特征参数,并作为k-means聚类算法的输入,将所述驾驶员的驾驶类型分为3种驾驶风格,即激进型、一般型和谨慎型。

作为本发明所述的基于车联网数据的商用车驾驶员驾驶风格识别方法的一种优选方案,其中:所述驾驶风格识别模型包括,将特征参数和所述驾驶员的驾驶类型作为驾驶风格识别模型的输入。

本发明的有益效果:本发明从车辆行驶状态和驾驶行为两方面构建驾驶员驾驶风格特征,14个特征参数能够较为全面地描述驾驶风格,并且利用主成分分析降低各特征之间的相关性,实现了特征参数的降维优化,同时应用k-means算法实现了对样本数据的准确合理分类,最终建立基于随机森林算法的商用车驾驶风格识别模型,实现驾驶风格较高精度的识别,任何商用车驾驶员都可以依据该模型实现驾驶风格的判断,具有一定的商用价值。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:

图1为本发明第一个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的流程示意图;

图2为本发明第一个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的主成分聚类流程示意图;

图3为本发明第一个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的基于k-mans算法的驾驶员驾驶风格聚类示意图;

图4为本发明第一个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的基于随机森林算法的驾驶风格识别流程示意图;

图5为本发明第二个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的驾驶风格识别模型学习曲线示意图;

图6为本发明第二个实施例所述的一种基于车联网数据的商用车驾驶员驾驶风格识别方法的不同max_depth下的数据对驾驶风格识别模型的拟合示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。

其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。

本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。

同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参照图1~图4,为本发明的第一个实施例,该实施例提供了一种基于车联网数据的商用车驾驶员驾驶风格识别方法,包括:

S1:采集自然驾驶场景下的商用车辆行驶数据和车辆状态数据。

通过车速传感器、三轴加速度计和GPS设备采集自然驾驶场景下的商用车辆行驶数据和车辆状态数据,采集的数据包括底盘号、车辆VIN码、实时经纬度、GPS车速、GPS加速度、GPS里程、ECU车速、加速度、发动机转速、行驶里程、行驶时间、瞬时能耗、ECU总能耗、发动机负荷百分比、发动机扭矩百分比、制动信号、制动踏板行程值、油门开度、档位状态、机油压力和水温。

S2:对采集的数据进行异常值检测、缺失值填补与剔除、特征提取与建立和数据降维。

(1)异常值检测

利用LOF算法检测异常值,其局部离群因子计算过程如下:

①计算点p的第k距离;

dk(p)=d(p,o)

满足:在集合中至少有不包括p在内的k个点o′εC{x≠p},满足d(p,o′)≤d(p,o);在集合中最多有不包括p在内的k-1个点o′εC{x≠p},满足d(p,o′)<d(p,o)。

②根据点p的第k距离计算点o到点p的第k可达距离;

reach-distk(p,o)=max{k-dist(o),d(p,o)}

③根据点o到点p的第k可达距离计算局部可达密度;

④根据局部可达密度计算局部离群因子;

其中,点o和点p均为每个驾驶行程相应的数据点,d(p,o)为数据点p和o之间的距离,Nk(p)为点p的第k距离邻域,LOFk(p)越接近1,说明点p越接近其邻域点密度,点p越可能和邻域同属一簇;LOFk(p)越小于1,说明点p的密度高于其邻域点密度,p为密集点;LOFk(p)越大于1,说明点p的密度小于其邻域点密度,点p越可能是异常点。

(2)缺失值填补

对车速数据的缺失采用均值填补,满足公式:

其中vnull为缺失的速度信息,vi为第i条信息的车速,n为采集的总的车速信息帧数;

对油门开度数据的缺失采用中值填补,满足公式:

其中knull为缺失的油门开度信息,ki为第i条信息的油门开度,m为采集的总的油门开度信息帧数。

(3)特征提取与建立

提取的特征包括车辆行驶状态特征和驾驶行为特征;具体的,车辆行驶状态特征包括行驶里程、行驶时长、加速度均值、减速度均值、车速均值、车速标准差和异常机油压力占比;驾驶行为特征包括怠速时长、超速行驶时长、超速行驶里程、单位里程急加速次数、单位里程急刹车次数、夜间行车时长和单位里程空档滑行次数。

(4)数据降维

利用主成分分析策略(PCA)对驾驶风格特征矩阵标准化、计算协方差矩阵、特征值、特征向量、主成分贡献率、累计贡献率和主成分得分;

具体的,主成分分析策略的步骤如下:

①计算相关系数矩阵:

②计算特征值和特征向量:eig(R)

③计算贡献率:

④计算累计贡献率:

⑤计算各个主成分:

其中,xki为第k行第i列的数据,xkj为第k行第j列的数据,为第i列数据的平均值,为第j列数据的平均值,eig(R)为调用matlab函数eig计算相关系数矩阵R的特征值和特征向量,λi为第i列数据的特征值,li为第i列数据的特征向量,xi为第i列数据,zi为xi的第i主成分。

进一步的,对数据进行主成分分析降维,按照主成分贡献率大于80%的原则挑选主成分的个数,取前80%贡献率共6个主成分得分,其中各个主成分的贡献率如下表所示:

表1:主成分的贡献率。

S3:基于k-means聚类算法对数据降维后的数据进行聚类,根据聚类结果定义驾驶员的驾驶类型。

将生成的k个主成分信息作为新的特征参数,并作为k-means聚类算法的输入,将驾驶员的驾驶类型分为3种驾驶风格,即激进型、一般型和谨慎型,该类型的个数不限于3类。

具体的,k-means聚类算法的步骤如下:

①将上述6个主成分得分作为输入;

②指定需要划分的簇的个数(驾驶员的驾驶类型的个数),本实施例划分为激进型、一般型、谨慎型三类;

③随机地选择k个数据对象作为初始的聚类中心;

④计算其余的各个数据对象到这k个初始聚类中心的距离,把数据对象划归到距离它最近的那个中心所在的簇中;

⑤调整新的簇并且重新计算新簇的中心;

⑥循环步骤③和④,看聚类中心是否收敛,如果收敛或达到迭代次数则停止循环;

⑦聚类结束。

图3为本实施例提供的基于k-mans算法的驾驶员驾驶风格聚类图,具体结果如下表:

总的驾驶行程数为4731,其中谨慎型行程3118个,占比65.9%;一般型行程924个,占比19.5%;激进型行程690个,占比14.6%。可见聚类结果符合金字塔结构,即激进型行程数最少,谨慎型行程数最多,因此聚类结果是合理的。

S4:综合驾驶员特征和驾驶员的驾驶类型,建立基于随机森林算法的驾驶风格识别模型,并对驾驶风格识别模型进行训练和测试,完成商用车驾驶员驾驶风格的有效识别。

具体的,建立驾驶风格识别模型的步骤如下:

(1)综合驾驶员特征和驾驶员的驾驶类型,作为全部样本数据;

(2)有放回地随机抽取部分样本;

(3)随机抽取驾驶风格特征作为待选特征;

(4)利用Gini索引在待选特征中确定测试特征;

(5)产生节点;

(6)判断是否可以成为叶子节点,若是则进行下一步,否则进行分支并返回步骤(2);

(7)判断决策树是否停止生长,若是则进行下一步,否则进行分支并返回步骤(2);

(8)存储决策树;

(9)判断决策树数目是否达到要求,若是则进行下一步,否则返回步骤(2);

(10)生成基于随机森林算法的驾驶风格识别模型。

将特征参数和驾驶员的驾驶类型作为驾驶风格识别模型的输入,对模型进行训练和测试,最后生成一个能将驾驶风格自动识别的程序,实现商用车驾驶员驾驶风格的有效识别。

实施例2

为了对本方法中采用的技术效果加以验证说明,本实施例选择不同max_depth(最大深度)下的数据对本方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。

图5为本实施例提供的基于随机森林算法的驾驶风格识别模型学习曲线,由图可见,随着样本量的增加,驾驶风格识别模型趋于逐步收敛,其训练集与测试集性能存在较小差距。在样本量达到3500以后,驾驶风格识别模型就取得了较好的拟合效果,随着样本量的逐步增加,测试集的性能也逐渐趋于稳定。

图6为本发明实施例提供的不同max_depth(最大深度)下的数据对驾驶风格识别模型的拟合图,当驾驶风格识别模型的max_depth达到9以后,训练集、测试集以及交叉验证对模型的拟合准确度都达到95%以上,模型不仅在训练集上表现优异,在测试集以及10次交叉验证均表现出较好的效果,使得本专利方法更具备说服力。此外,基于python编程对驾驶风格识别模型进行参数寻优,最终确定的最优参数组合如下表所示:

参数 参数解释
random_state 随机数种子 90
n_estimators 森林中树的数量 77
Criterion 衡量不纯度的指标 gini
max_depth 树的最大深度 16
min_samples_leaf 一个叶子节点要存在所需要的最小样本点 1
min_samples_split 一个叶子节点要分枝所需要的最小样本点 2
max_features 在做最佳分枝的时候,考虑的特征个数 none

为进一步检验本方法模型的性能,对训练样本和测试样本进行训练和测试,并采用精确率、召回率、F1值以及杰卡德相似系数等对驾驶风格识别模型的性能进行评价;其中,F1值是精确率和召回率的加权调和均值,相当于精确率和召回率的综合评价指标,可以更好地反映模型的识别性能;杰卡德相似系数是衡量两个集合相似度的一种指标,可以用来判断驾驶风格识别模型的预测精度;杰卡德相似系数取值越大,模型预测精度越高;该驾驶风格识别模型的识别结果如下表所示:

由上表可知,该驾驶风格识别模型识别率达96%,并且其杰卡德相似系数非常接近于1,为0.96,说明采用本方法对商用车驾驶员驾驶风格识别能具备较高的精度。

应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

16页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:车内安全坐姿提醒系统和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!