2021年(第43卷)第4期汽车工程
Automotive Engineering2021(Vol.43)No.4基于毫米波雷达和机器视觉融合的车辆检测*
张炳力1,2,詹叶辉1,2,潘大巍3,程进1,2,宋伟杰1,2,刘文涛1,2
(1.合肥工业大学汽车与交通工程学院,合肥230041;2.安徽省智能汽车工程实验室,合肥230009;
3.合肥长安汽车有限公司,合肥230031)
[摘要]针对车辆检测中使用传统单一传感器的识别效果差、易受干扰等缺点,本文提出一种基于毫米波雷达和机器视觉融合的车辆检测方法。首先利用分层聚类算法对雷达数据进行处理,过滤无效目标;利用改进的YOLO v2算法降低漏检率,提高检测速度;然后运用目标检测交并比和全局最近邻数据关联算法实现多传感器数据融合;
最后基于扩展卡尔曼滤波算法进行目标跟踪,而得出最终结果。实车试验结果表明,该方法的车辆识别效果优于单一传感器,且在多种路况下识别效果良好。
关键词:车辆检测;毫米波雷达;YOLO算法;传感器融合;多目标跟踪
Vehicle Detection Based on Fusion of Millimeter⁃wave Radar and Machine Vision
Zhang Bingli1,2,Zhan Yehui1,2,Pan Dawei3,Cheng Jin1,2,Song Weijie1,2&Liu Wentao1,2
退后 周杰伦1.School of Automobile and Traffic Engineering,Hefei University of Technology,Hefei230041;
2.Anhui Engineering Laboratory of Intelligent Automobile,Hefei230009;
3.Hefei Changan Automobile Co.,Ltd.,Hefei230031
[Abstract]Aiming at the defects of poor identification effects and prone to be disturbed when using tradi⁃tional single sensor in vehicle detection,a vehicle detection method based on the fusion of millimeter wave radar and machine vision is propose in this paper.Firstly,the radar data is processed by using hierarchical clustering algo⁃rithm with invalid targets filtered out,and the improved YOLO v2algorithm is adopted to reduce the missed detec⁃tion rate and increase the detection speed.Then,the intersection⁃over⁃union(IoU)of target detection and the glob⁃al nearest neighbor data association algorithm are utilized to achieve multi⁃sensor data fusion.Finally,the extended Kalman filter algorithm is employed for target tracking,with the final result obtained.The results of real vehicle test show that the results of vehicle identification with the method proposed is better than that with single sensor,and has good recognition effects under various road conditions.
Keywords:vehicle detection;millimeter wave radar;YOLO algorithm;sensor fusion;multi⁃target tracking
前言
环境感知作为关键技术之一,主要是通过雷达、摄像头等传感器获取车辆周围的环境信息,是实现智能驾驶的前提和基础。在环境感知系统中,前向车辆识别是关键,准确可靠的前向车辆识别结果对智能汽车的安全行驶意义重大[1]。
目前广泛使用的道路环境感知设备主要有摄像头、毫米波雷达和激光雷达等。但由于单一传感器不能全面、精确地对车辆周围所有环境信息进行采集,因此往往采用两种以上感知设备进行信息融合。
doi:10.19562/j.chinasae.qcgc.2021.04.004
*合肥长安汽车企业委托项目(W2019JSKF0220)、安徽省第五批特支计划资助项目和安徽省科技重大专项(180****1199)资助。
原稿收到日期为2020年9月2日。
通信作者:詹叶辉,硕士研究生,E⁃mail:2018170716@mail.hfut.edu。
2021(Vol.43)No.4张炳力,等:基于毫米波雷达和机器视觉融合的车辆检测
多传感器信息融合技术可以实现各传感器优势互补,最大程度采集环境信息,提升环境感知系统的可靠性、实时性和抗干扰能力。综合各传感器的优劣,本文中选择摄像头和毫米波雷达进行数据融合,完成前向车辆识别。
Zhang等[2]使用毫米波雷达检测障碍物的位置和速度,图像处理模块通过深度学习,使用边框回归算法精确定位和识别障碍物。Kim等[3]提出了一种基于目标运动状态及形状特征的车辆识别方法,通过毫米波雷达和摄像头分别采集目标的运动状态和形状特征,从而识别前向车辆,并应用于自动紧急制动系统。Chang等[4]提出了一种利用毫米波雷达和视觉传感器进行障碍物检测的空间注意融合(SAF)方法,考虑了雷达点的稀疏性,并可以嵌入特征提取阶段,有效地利用了毫米波雷达和视觉传感器的特性。孙青[5]针对目标跟踪中系统噪声的统计特性未知或时变的问题,结合传统的Sage⁃Husa自适应滤波算法和平方根滤波思想,提出改进的线性自适应平方根卡尔曼滤波算法实现目标状态预估。王战古等[6]使用深度置信网络对车辆进行初步识别,并根据车型宽度和高度统计数据验证识别结果,在多种恶劣道路环境下取得了良好的识别效果。
综上所述,目前大多数方法只是根据毫米波雷达检测结果在图像中生成假设目标区域,再利用视觉方法对假设目标区域进行检测,这类方法在一定程度上降低了雷达的误检率和视觉检测的运算量,但并
未考虑雷达漏检等情况,在输出检测结果时,也没有对两种传感器进行更深一步的信息互补,融合的效果一般。
鉴于此,本文中提出了一种基于毫米波雷达和机器视觉融合的车辆识别方法。该方法首先利用毫米波雷达和摄像头分别获取初步识别结果,然后搭建数据融合模型实现两传感器检测目标匹配,利用扩展的卡尔曼滤波算法进行多目标跟踪,提高识别稳定性。最后通过试验验证车辆识别算法的有效性,并对其稳定性和环境适应性进行验证。
1融合算法架构设计
目前主要有3类传感器融合方法:数据级、目标级和决策级融合。其中,目标级融合的主要思路是:首先单传感器获得各自的检测目标,然后融合算法综合分析检测目标,最终得到符合融合策略的目标。目标级融合能够充分利用单传感器的优势,提升系统鲁棒性,因此,本文中采取目标级传感信息融合方法。
融合算法架构如图1所示,主要由雷达处理模块、视觉处理模块和融合模块3部分组成。雷达处理模块从毫米波雷达获得的原始数据中筛选出潜在的车辆目标,视觉处理模块从摄像头拍摄的图像中获取视觉检测信息,融合模块根据检测框交并比和全局最近邻数据关联(GNN)算法[7]等综合雷达、视觉方法的检测结果,完成目标级的传感器信息融合。
2传感器数据处理
2.1毫米波雷达目标筛选
毫米波雷达原始数据中包含大量静止目标,这些目标通常不会对自车行驶造成危险,而所需识别的车辆目标一般为动态,据此可以设置处理策略,完成车辆目标的筛选。雷达处理模块中采用分层聚类算法[8]来过滤无效目标,算法的具体流程如图2所示,其中λ为雷达自身测速误差。
通过该算法可以把原始数据分成n个子簇。其中静止目标由于速度都为0,
皆被归为同一个子簇,
图1
融合算法整体架构
图2分层聚类算法
479
汽车工程2021年(第43卷)第4期
把它删除,即可获得n -1个动态目标。由于采用的是相对速度进行判断,在自车速度未知的条件下,该算法仍可有效完成静态目标的过滤,提取出所需的动态目标,具有较好的稳定性。图3(a )为原始雷达数据,图3(b )为经过算法处理后的雷达数据。可以看出,分层聚类算法有效去除了静止目标,提升了雷达模块输出结果的可信度。
2.2基于改进YOLO v2的车辆检测
视觉处理模块基于YOLO v2[9]
算法改进而来,
YOLO
[10]
系列算法是Redmon 等人在2016年提出的
一种端到端(end to end )的视觉卷积神经网络方法,其在视觉检测方面具备较好的实时性和准确性。
后续版本的YOLO 算法是在最开始的v1版本上改进而来,因此这里以最初的YOLO v1为例介绍YOLO 算法的工作原理。
YOLO v1将待检测的图像分成大小相同的S ×S 的
单元格(grid cell ),每一个单元格将负责检测中心落在其区域内的目标。假设网络需要对C 类目标
进行检测,每个单元预测出B 个目标包围框(bounding box )及其置信度(x ,y ,w ,h ,c ),网络的输出为S ×S ×(5×B +C )大小的向量。其中,(x ,y )表示目标包围框的中心点位置;(w ,h )表示目标包围框的宽和高;c 代表预测的目标包围框中包含物体的置信度(confidence )。
每个单元格预测目标类别的条件概率为Pr (Class i |Object ),i =1,2,⋯,C ,位于同一个单元格
中的B 个目标包围框共享该条件概率。在测试时,将网格预测的条件概率分别和该网格中目标包围框预测的置信度相乘,即可获得每个目标包围框中存在物体的类别置信度。设置阈值过滤掉置信度较低的目标包围框,对剩余的目标包围框进行非极大值
抑制(non⁃maximum suppressio ,NMS )处理,即可得到最终的检测结果。
YOLO v2在v1版本的基础上进行了部分改进,
提升了算法的识别速度和精度,但直接用于车辆检测仍有以下不足:YOLO v2采用13×13的特征图进
行预测,在车辆目标较小时,无法稳定识别目标;YOLO v2的高实时性需要配置较高的硬件设备,目前车载设备性能有限,直接采用YOLO v2网络,无法
达到车辆识别的高实时性。
针对上述问题,对YOLO v2做了如下改进。(1)删减卷积层:YOLO v2使用Darknet-19卷积网络进行目标特征提取,该网络对于单一类别的目标识别略显复杂,本文主要检测前方车辆,因此在保证识别精度的前提下,对Darknet-19进行修改,删减部分卷积层,降低网络复杂度,提高车辆的识别速度。
(2)使用多尺度检测:在卷积神经网络中,网络较低的层次其感受野尺寸较小,所表征的特征语义信息较少,特征图分辨率高,几何细节表征能力强,适用于检测小目标。网络较高的层次则有较大的感受野,特征语义信息丰富,但是特征图分辨率较低,对几何细节的表征能力较差,适用于大目标提取,并在有阴影或目标遮挡时,也能识别目标,具有较强的鲁棒性。因此,使用多尺度目标检测,可以同时获取几何细节和大目标语义信息,实现对不同距离、不同状态的前方车辆识别。
基于上述策略对YOLO v2进行优化后获得了改进的YOLO v2网络,网络输入为416×416×3的图片,具体结构如表1所示。
改进的YOLO v2网络将用于特征提取的卷积层缩减为8层,
使整个网络的复杂度和运算量显著减
图3原始雷达数据和处理后的数据
表1
改进YOLO v2网络结构
层号
01234567891011121314151617
类型
Conv Max⁃Pooling Conv Max⁃Pooling Conv Max⁃Pooling Conv Max⁃Pooling Conv Max⁃Pooling Conv Conv Route 10Conv Upsample Route 148Conv Conv
卷积核
1632641282562561812812818
尺寸/步长3×3/12×2/23×3/12×2/23×3/12×2/23×3/12×2/23×3/12×2/23×3/11×1/11×1/123×3/11×1/1
输出416×416×16208×208×16208×208×32104×104×32104×104×6452×52×6452×52×12826×26×12826×26×25613×13×25613×13×25613×13×1813×13×25613×13×12826×26×12826×26×38426×26×12826×26×18
480
2021(Vol.43)No.4张炳力,等:基于毫米波雷达和机器视觉融合的车辆检测少;并在11层和17层中分别使用13×13和26×26两种尺度的特征图进行目标检测,增加了对远处小目标车辆的检测能力。
3
多传感器信息融合策略
3.1小学美术教学总结
空间同步
在对多传感器进行融合时,首先需要进行传感
器空间同步,即将不同传感器坐标系的测量值转换到同一个坐标系中。毫米波雷达与摄像头的空间坐
标系转换公式为
(1)
式中:
Z c 表示点在摄像头坐标系下的纵坐标;(u ,v )表示在像素坐标系下投影点的坐标;
d x 、d y 表示像素点在图像坐标系下x 轴和y 轴上的单位长度;(u 0,v 0)表示摄像头主点偏移量;f 为焦距;R 、t 分别表示旋转矩阵和平移向量;
M 为投影矩阵。利用上述公式可以将雷达检测目标投影到图像上,从而获得雷达检测的目标包围框。同时,经过标定获得传感器内外参数后,可以将图像投影到雷达扫描平面,从而计算出像素在该平面的坐标,最终获得摄像头检测目标的位置信息。由于摄像头的检测结果为矩形框,而雷达坐标系下的检测结果为点,为准确表示出视觉有效目标在雷达坐标系中的坐标,从而获得摄像头检测到的目标位置,本文选取视觉检测框的底边中点作为目标的位置点。3.2
基于目标检测交并比的融合
获得雷达目标和视觉目标之后,首先为每个雷达目标以检测点为中心,建立宽2.6m 、高2m 的矩形包围框,将所有包围框基于距离和相似原理投影到图像上。设雷达和摄像头对某一目标的矩形检测框分别为R radar 、
R camera ,R radar 与R camera 所包围的总面积为S union ,重合区域的面积为S intersection ,则交并比IOU R
C
水灾为S intersection 与S union 的比值,
IOU R
C
的计算公式为IOU R
C =S intersection S union =
S R radar ∩R
camera S R radar
∪R
camera
(2)
参考相关文献[11],并经测试与分析,当
IOU R
C ∈[0.6,1]时,雷达和摄像头都可识别同一目标
车辆,且识别结果基本匹配,具有较好可靠性。由于在此种状态下,摄像头获取的目标位置信息较为精准,故将摄像获取的目标横向位置与雷达检测的目标其他状态参数综合并输出。3.3
基于全局最近邻数据关联算法的融合
当IOU R
C 的值不在上述范围时,无法判断识别的
准确性,由于通过“帧差法”可以获得摄像头对目标速度的检测结果,在忽略目标的加速度等信息,仅考虑目标位置和速度的前提下,利用数据关联的方法对剩下无法匹配的雷达和摄像头检测数据进行处理,将两者的检测数据视为雷达在连续两个采样周
期下获得的两帧数据,即看作单一传感器的数据关联问题。
本文中采用全局最近邻(GNN )数据关联算法,该算法在综合考虑整体的关联代价后,选取总代价最低的关联方案,较为符合实际工况,且计算量较小。
设雷达和摄像头剩余有效目标个数分别为m 和n ,目标到坐标原点的距离为d k r 、d k c ,将其按距离大小排序并存入对应的有效目标矩阵R 、C ,将雷达检测值
作为航迹,摄像头检测值作为量测。设v ij (k )为k 时刻航迹i 与量测j 的残差,其计算公式为
v ij (k )=V j (k )-HR i (k )
(3)
式中H 表示状态转移矩阵。
航迹i 与量测j 的归一化距离d 2ij 表示为
d 2ij =v T ij (k )S -1
ij (k )v ij (k )
(4)
式中:S -1
ij (k )表示v ij (k )的协方差矩阵。设G i 表示航
迹i 的门限值,当满足d 2ij ≤G i 时,认为量测j 落入航迹i 的门限内,可以进行匹配,同时航迹和量测的匹
配需满足以下约束条件:
ξij =
{
1,d 2ij ≤G i 0,d 2ij >G i
(5)
ìíîïïïï∑i =1m
ξij =1,
i =1,2,⋯,m ∑j =1n
ξij =1,j =1,2,⋯,n (6)
即每个航迹最多匹配一个量测,每个量测对应一个航迹。
GNN 算法中的代价函数定义为min ∑i =1m
∑j =1
n c ij ξij
会议纪要格式(7)
式中c ij 表示代价,计算公式为
Z c éëêêùûúúu v 1=éëêêêêêê
ùû
úúúúúú1
d x 0
u 001d y v 00
1éëêêêêù
û
úúúúf 0000f 00001
0éëêùûúR t 0T 1éëêêêêêêùûúúúúúúX w Y w Z w 1=M éëêêêêêêùû
úúúúúúX w Y w Z w 1
481
汽车工程2021年(第43卷)第4期
c ij =
{
d 2ij ,d 2ij ≤G i
G i ,d 2ij >G i
(8)
通过上述公式可得出GNN 算法的代价函数,即可完成剩余雷达和摄像头目标的匹配,从而实现雷达和摄像头的信息融合。目标匹配成功后,对雷达和摄像头检测到的目标位置进行加权处理,将加权后的目标位置和雷达检测的其他信息综合后输出,加权策略为
ìíî
ïï
ïïx =x r δ2cx δ2
rx +δ2
cx +x c δ2rx
δ2rx +δ2cx y =y r δ2cy δ2ry +δ2cy +y c δ2
ry
δ2rx +δ2
cy (9)式中δcx 、δcy 、δrx 、δry 分别表示摄像头和雷达检测的目标位置在x 、
y 方向的平均误差。3.4目标决策
传感器信息融合完成后,需要对融合目标进行
存在性判断,采用扩展卡尔曼滤波(EKF )算法跟踪融合目标,根据跟踪结果得到最终的输出目标。
融合目标的状态向量为X =(x ,y ,v x ,v y )
T
(10)
式中x 、y 、v x 、v y 分别表示目标的纵向坐标、横向坐标、纵向速度和横向速度。
EKF 的状态方程和观测方程为{
X ()k =f ()X ()k -1+V ()k Z ()k =h ()X ()k +W ()
k (11)
式中:
X (k )、X (k -1)分别表示目标在k 、k -1时刻的状态向量;
Z (k )表示目标在k 时刻的观测向量;f 、h 表示状态转移矩阵;
V (k )、W (k )表示高斯白噪声。基于k -1时刻的目标状态,可以预测出目标在k 时刻的状态为
{
流浪苏谭谭X ()k |k -1=f ()
X ()
k -1|k -1P
()k |k -1=F ()k -1P ()k -1|k -1F T ()k -1+Q ()k -1(12)
式中:X (k |k -1)、P (k |k -1)分别表示状态预测值和预测误差协方差;
F 为f 的雅克比矩阵。根据上述公式可以得到
ìíî
ïïï
ïZ ()k |k -1=h ()
X ()k -1|k -1S ()k =H ()k P ()k |k -1H T ()k +R ()k K ()k =P ()k |k -1H T ()k S -1()k (13)式中:Z
(k |k -1)、S (k )、K (k )分别表示测量预测值、新息协方差和增益;
H 为h 的雅克比矩阵。最终更新得到目标的状态信息为
{
X ()k |k =X ()k |k -1+K ()k []
Z ()k -hZ ()k |k -1P
()k |k =[]I -K ()k H ()k P ()k |k -1(14)
式中:X (k |k )、P (k |k )分别表示目标的状态估计向量和协方差;I 表示单位矩阵。基于EKF 算法,设置如
图4所示的融合目标决策方法。
4
试验与分析
4.1
改进YOLO v2验证
好的二本大学推荐本文中使用的车辆数据集为自主采集并标注获
得,数据集共有5861张图片,并按照8∶1∶1的比例划分为训练集、验证集和测试集,网络的训练和测试在如表2
所示配置的工作站上进行。
图4目标决策方法
表2
工作站配置
类别硬件配置
软件配置
条目CPU
内存显卡操作系统CUDA CUDNN
OpenCV Python
版本
英特尔至强E5-1630v416GB Nvidia Geforce 1080Ubuntu 16.0410.08.03.2.0
2.7
482
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论