基于多层模型的“两客一危”车辆行驶状态评价系统①
曹 磊, 裴莉莉, 高 尧, 李 伟, 户媛姣
(长安大学 信息工程学院, 西安 710064)
通讯作者: 李 伟, E-mail: **************
摘 要: 随着我国道路运输行业的快速发展, “两客一危”车辆大幅度增长, 给道路出行和乘客的生命财产安全
带来了极大的考验. 本文基于海量“两客一危”车辆行驶数据提出了多层模型的“两客一危”车辆行驶状态评价系统. 首先,对行驶数据进行特征筛选、异常值清洗、归一化等处理. 然后, 在宏观和微观两个层面上分别使用聚类分析模型和动态阈值模型对车辆行驶数据进行分析. 最后通过将聚类分析的结果与动态阈值的分析结果相结合即可实现对车辆行驶状态以及驾驶员的驾驶习惯的综合评价. 研究结果表明, 本文提出的多层模型能够对车辆行程路况以及车辆驾驶员驾驶习惯进行较为准确的评估, 可为“两客一危”车辆的管理监督部门以及车辆运输企业提供合理的安全生产的科学依据和数据支持.
关键词: 两客一危; 数据挖掘; 聚类分析; 多层模型
引用格式: 曹磊,裴莉莉,高尧,李伟,户媛姣.基于多层模型的“两客一危”车辆行驶状态评价系统.计算机系统应用,2021,30(1):94–100. /1003-3254/7759.html
Driving Status Evaluation System of Special Transportation Vehicle Based on Multi-Layer Model
CAO Lei, PEI Li-Li, GAO Yao, LI Wei, HU Yuan-Jiao
(School of Information Engineering, Chang’an University, Xi’an 710064, China)
Abstract : With the rapid development of road transportation industry in China, special transportation vehicles have increased significantly, which has brought great challenges to road travel and the safety
of passengers’ lives and property.Based on massive special transportation vehicle driving data, this study proposes a multi-layer model of special transportation vehicle driving state evaluation system. Firstly, the data is processed for feature selection, outlier cleaning,and normalization. Then, the cluster analysis model and the dynamic threshold model are used to process vehicle driving data at the macro and micro layers, respectively. Finally, the results of cluster analysis and dynamic threshold analysis are combined to achieve a comprehensive evaluation of the vehicle’s driving status. The research results show that the multi-layer model proposed in this paper can make a more accurate assessment of the vehicle’s travel conditions and driving habits of vehicle drivers. It can provide reasonable scientific basis and data support for the management and supervision departments of special transportation vehicles and the vehicle transportation enterprises.Key words : special transportation vehicle; data mining; clustering analysis; multi-layer model
计算机系统应用 ISSN 1003-3254, CODEN CSAOBN
E-mail: ************ Computer Systems & Applications,2021,30(1):94−100 [doi: 10.15888/jki.csa.007759] ©中国科学院软件研究所版权所有.
Tel: +86-10-62661041
① 基金项目: 陕西省交通运输厅2018年度交通科研项目(18-31X); 长安大学中央高校基本科研业务费专项资金(300102249102, 300102240201)Foundation item: Transportation Scientific Research Project of Shaanxi Provincial Transportation Department in 2018 (18-31X); The Fundamental Research Funds for the Central Universities of China of Chang’an University (300102249102, 300102240201)
收稿时间: 2020-05-21; 修改时间: 2020-06-16, 2020-07-10; 采用时间: 2020-07-14; csa 在线出版时间: 2020-12-31
随着我国道路运输行业的快速发展, “两客一危”道路运输车辆数量出现大幅度的增长, 在方便人们出行、促进地区经济水平发展的同时, 也给道路出行和乘客的生命财产安全带来了极大的考验[1].
然而, 由于“两客一危”车辆的特殊性、高风险性,以及路网中“两客一危”车辆数据的相对独立性和地区差异[2], 各地区(省)对于活动在本省境内的“两客一危”车辆缺乏系统性研究和管理, 没有能够充分挖掘大数据背景下研究分析的方法和优势, 对于“两客一危”重点车辆的跟踪监测、分析、分布与风险预测没有进行深入挖掘, 从而不利于政府等监管部门的监督和决策.
另一方面, 交通安全是交通领域的关键问题. 交通安全条件由驾驶员, 车辆和驾驶环境决定. 先前的研究表明, 超过90%的交通事故与不安全的驾驶行为有关.驾驶行为在驾驶风险分析中起着重要作用. 但是, 在现实生活中很难衡量驾驶风险[3]. 因此驾驶模拟器通常用于调查各种实验环境中的驾驶行为[4]. 诸如自然驾
驶研究(NDS)和DriveCam系统之类的一些车辆仪表技术已被广泛用于监测驾驶行为和运动学特征[5]. 现有的大多数危险驾驶行为分析都依赖于碰撞数据或自我报告的问卷调查[6]. 张辉等[7]通过设计分心模拟驾驶试验来采集驾驶人眼动特征数据, 进行驾驶员的分心状态判别. 侯海晶等[8]利用搭载了眼动仪的驾驶模拟器才采集驾驶员感知与操作的数据, 利用这些数据对驾驶员的驾驶风格进行分类. 薛清文等[9]通过采集高精度车辆轨迹数据评估驾驶员的整体驾驶状态, 利用LGBM (Light Gradient Boosting Machine)算法对危险驾驶行为进行识别. 为了充分探索交通事故中的驾驶行为, 重要的是要保持真实驾驶情况下的驾驶行为习惯.
对于危险驾驶行为的研究, 交通事故数据传统上是主要或唯一的数据源, 但是交通事故在广义上来说是一个小概率事件, 其所包含的信息很少, 因此主动采取有效交通安全措施的方法已被忽略. 其次, 多层次或多结构的模型能够发现数据中所忽略的对交通安全的影响因素, 对数据的多维度挖掘. 最后, 国内很少将积累的“两客一危”车辆大数据用于道路安全以及危险驾驶研究.
为了填补上述研究空白, 本研究的研究目的主要分为以下两点. 第一个目标是从宏观水平上分析不同类型的卡车驾驶员的驾驶习惯和危险驾驶的倾向. 第二个目标是通过在微观层次上对车辆进行动态监控,在这两个水平的基础上建立一个多级模型来对“两客一危”的车辆进行监控和管理. 该研究与现有研究的不同之处在于同时考虑了以下方面:
1) 采用真实的“两客一危”车辆驾驶数据(并不是来源于模拟器产生的实验数据), 并根据多个指标发现识别潜在的危险驾驶行为;
2) 使用大规模数据集, 本文使用的数据集以5 s的间隔记录货车和客车的行车速度, 车辆位置, 车辆信息相关的数据;
3) 建立反映“两客一危”车辆驾驶员危险驾驶倾向的多层次模型.
1 数据集构建
1.1 数据集概述
本文使用的数据为陕西省境内2018年9月至2019年2月共6个月的“两客一危”车辆的行驶数据,其中每天包含大约25 000辆车的行驶信息, 每个车辆每天的行程为一个单独的数据文件, 其中包含的数据项如表1所示.
表1 车辆行驶数据字段解释
数据项示例单位说明
地图经度65 470 092/纠偏后的经度地图纬度20194431/纠偏后的纬度GPS时间20190224/195533年月日/时分秒/
GPS速度22km/h/
方向229度/
事件5//报警编码///
GPS经度65467020//
GPS纬度20195274//
海拔80//
行驶记录仪速度28km/h/里程0km/
错误类型0/
0正常;1经度错误
2纬度错误3:时间
错误:4速度错误;
5:方向错误系统时间20190225/080913年月日/时分秒/
1.2 数据采样与可视化
在原始数据集中, 随机选择不同日期(包含节假日、工作日)、不同天气状况、一天内不同时段、不同颜牌照以及不同道路状况的多类车辆行驶数据对驾驶员的驾驶行为进行分析. 本文共选择了9000辆
2021 年 第 30 卷 第 1 期计算机系统应用
“两客一危”车辆的行程(单位: 天)进行研究.
在对字段的筛选中取出与驾驶员危险驾驶行为相
关的车辆位置信息, 例如车辆的GPS 速度, 车辆时间信息与车辆的方向信息. 其中车辆的位置信息用于判断车辆行驶道路类型, 速度、时间与方向信息用于评判驾驶员的驾驶状态, 在对数据字段进行筛选采样之后, 对现有字段中每辆车每天行程(运行时间大于2小时)的速度变化信息与方向变化信息计算方差,形成新的字段. 9000辆车的速度方差与方向方差部分数据可视化结果如图1所示.
20
40
60
80100120140160180
速度方差方向方差
图1 方差示例数据系统错误
1.3 零值与异常值清洗
从数据可视化图中可以发现, 数据中包含大量的零值, 而这些零值表示这些车辆的没有处在行驶状态,因此需要对这些零值进行清洗, 清洗后的数据如图2所示.
速度方差方向方差
020406080100120140160180
图2 零值清洗后数据
同时, 在这些数据中还有一些由于传感器的误差或者其他原因产生的异常数据, 使用箱型图的方法可以有效检测到这些异常值, 对去除零值后的数据进行箱型图可视化如图3所示.
图3中的“+”表示数据中的异常值, 将这些异常值从原数据中清洗掉, 还有7895辆车的行驶状态数据, 之后再对清洗后的数据示例进行可视化如图4所示
.
图3 箱型图检测异常值结果
020406080100120140160180
速度方差方向方差
图4 数据清洗后结果
1.4 数据归一化
从零值与异常值清洗后的数据可视化图中可以看出, 车辆行驶的速度方差和方向方差的数据分布不均衡, 且波动相差较大这将在之后的距离计算中对计算结果产生影响, 因此需要对数据进行归一化处理, 本文使用的归一化方法为min-max 归一化方法, 如式
(1):
V i V ′i 其中, 是真实值, 是规范化之后的值.
对归一化后的数据进行可视化如图5所示.
速度方差方向方差
020406080100120140160180
图5 归一化数据可视化
从图5中可以看出数 据的分布已经比较均衡, 之后以此数据作为输入样本对驾驶情况进行聚类分析.
2 多层模型构建
本文采用多层次的模型来对“两客一危”车辆驾驶员的驾驶行为进行分析评价, 多层次主要体现在宏观
计算机系统应用
2021 年 第 30 卷 第 1 期
与微观两个层次. 宏观层面上对驾驶员的一次行程信息进行分析以评判其驾驶平稳性, 微观层面对驾驶员驾驶车辆在不同速度下的危险驾驶行为进行识别. 多层模型的结构如图6所示.
图6 “两客一危”车辆行驶状态多层评价模型
2.1 宏观层次聚类分析模型
对车辆行驶数据的宏观层次分析可以使用聚类的方法. 聚类分析是一种无监督的学习技术, 可将一组物理或抽象对象划分为几个相似的聚类以获得全局数据图或对特定聚类进行进一步分析. 通过聚类生成的类是一组数据对象, 与原始组中的其他对象(基于相似性进行聚类)相比, 它们具有更大的相似性. 相似性由研究对象的属性值确定, 相对距离是一种常用的措施.
本文选择基于相对距离的聚类算法K-means 对数据进行聚类, 该方法能够将数据划分为预定数量的聚类(假设有足够多的不同情况).
基于距离的算法依靠距离度量(函数)来度量数据点之间的相似度. 距离度量的标准是欧氏距离、余弦或快速余弦距离. 根据所使用的距离度量将数据点分配给最近的集,该算法认为两个数据对象的距离越近, 相似度就越大; 距离越远, 相似度就越小. 它基于样本空间中最有代表性的点, 迭代地将所有数据样本划分为不同的类别, 使聚类出来的每个簇的聚合度最高,簇间的分离度最高. 对于距离度量本文采用欧式距离计算方法计算, 公式如式(2)
所示:
x i x j 其中, 和为计算距离的两个点, m 为样本维度数,n 为当前维度.
K-means 算法因其算法框架清晰简单易懂, 处理大数据集的算法相对可扩展且高效的优点其才得到大量的应用; 当数据集的类密集且类与类之间的差异明显时, 该算法处理的效果最好. 使用该算法对数据进行聚类分析的首要任务就是给出要生成的类的数目k ,k 值是否合适可以通过计算SSE (簇内误差平方和)来评价. SSE-Kmeans 聚类算法中的核心思想是:
1) 在聚类分析中随着数据簇数k 的增加, 样本拆分变得更加复杂并且精细, 而且每个类别的聚合强度逐渐增加, 因此平方误差和SSE 自然降低.
2) 如果k 小于真实簇的数量, 则k 的增加将大大增加每个簇的内聚性, 因此SSE 的下降程度将会很大.并且当k 达到真实簇的数量时, 再通过增加k 的值得到的聚合程度的增加将会迅速变小, 因此随着k 值的持续增加, SSE 的下降率迅速下降并逐渐趋于平稳. 也就是说, SSE 和聚类类别数k 之间的关系呈肘形, 其中肘形图中肘部对应的k 值就是数据中真实簇的数量.
对于一个特定的d 维数据集合D =(x 1, x 2, …, x n ),SSE-Kmeans 算法的步骤如
图7所示.
图7 SSE-Kmeans 算法步骤
2.2 微观层次动态阈值评判
对车辆行驶数据的微观层次分析中使用动态阈值的分析方法. 在车辆危险行驶状态的评判及等级划分的研究中, 当前学者多采用固定阈值的方法, 但是车辆在不同速度的情况下危险驾驶的评判应当也不相同, 如速度越快急转向的评判阈值应该越小, 因此基于速度的车辆危险行驶状态的动态阈值评判更符合实际情况.
Han 等[10]利用车辆黑匣子收集了速度、加速度及横摆角速度数据, 识别了急加速、急减速、急转弯、突然换道4种车辆危险行驶状态, 并提出了基于不同速度区间的阈值划分方法, 如表2和图8所示.
2021 年 第 30 卷 第 1 期
计算机系统应用
表2 微观模型动态阈值
速度(km/h)
急加速(g)急减速(g)急转向(°)
突然换道(°)
0–90.220.61/1310–190.220.61/1220–290.210.61/1130–390.20.61/940–490.190.5812.7950–590.150.5810.7860–690.150.5810.77.570–790.140.5510.7780–890.130.5510.5 6.590–
0.12
0.54
10.5
6.5
0−
910
−1
9
20
−2
9
30
−3
9
40
−4
9
急加速急减速急转向突然换道
50
−59
60
−6970−7980−8990−
图8 动态阈值分布图
本文使用上述阈值对“两客一危”车辆每条记录的行驶状态进行评判并记录, 并结合宏观模型对车辆行驶平稳状态的评估得到车辆的总体评价[11–13]. 接下来主要介绍宏观层次模型的应用.
3 数据聚类分析
对数据使用SSE-Kmeans 聚类算法进行聚类首先
需要确定簇的个数(即k ), k 值可以通过簇内误差平方和(within-cluster SSE)确定, SSE 的计算方法如式(3)所示:
x (i )µ(j )其中, 表示第i 个数据点, 表示j 簇的中心, n 和m 表示样本的维度.
对归一化数据进行SSE 计算结果如图9所示.图9中可以看出当k 值为4时, 正好是手肘的位置,即为最佳聚类簇数. 使用SSE-Kmeans 算法对数据进行聚类, 得到结果如图10所示.
图10中每一个颜代表一个数据簇, “X”符号代表每类数据点的中心.
同时采用基于密度的聚类方法DBSCAN (Eps =0.5,nPts =10)对数据进行聚类可以得到的结果如图11所示.
1
2
3
4
k
5
6
7
8
图9 SSE 与k 值的关系
0.10.20.30.40.5速度平稳性
0.60.70.80.9 1.0
Cluster 1Cluster 2Cluster 3Cluster 4Centroids
图10 SSE-Kmeans 算法聚类结果图
速度平稳性
0.2
0.4
0.6
0.8
1.0
图11 DBSCAN 算法聚类结果图
从图11可以看出, DBSCAN 算法将数据聚类为一类. 与图10对比可知, 当数据量的类密集时, 基于密度的聚类算法DBSCAN 对行驶平稳性数据的聚类效果并没有基于相对距离的算法SSE-Kmeans 对行驶平稳性数据的聚类效果好[14,15]. 因此本文将对SSE-Kmeans 算法的聚类结果进行分析与讨论.
计算机系统应用
2021 年 第 30 卷 第 1 期
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论