网站首页 公文大全 个人文档 实用范文 讲话致辞 实用工具 心得体会 哲学范文 总结范文 范文大全 报告 合同 文书 信函 实用
  • 汇报体会
  • 节日庆典
  • 礼仪
  • 毕业论文
  • 评语寄语
  • 导游词
  • 口号大全
  • 其他范文
  • 百花范文网 > 实用范文 > 其他范文 > 融合车辆轨迹预测的学习型自动驾驶决策

    融合车辆轨迹预测的学习型自动驾驶决策

    时间:2023-01-22 15:00:59来源:百花范文网本文已影响

    徐 杰,裴晓飞,2,杨 波,方志刚

    (1.现代汽车零部件技术湖北省重点实验室,武汉理工大学,湖北 武汉, 430070;
    2.汽车零部件技术湖北省协同创新中心,武汉理工大学,湖北 武汉, 430070)

    对交通环境中其他交通参与者的运动进行合理的轨迹预测将极大提高决策结果的安全可行[1]。传统的基于物理机理的模型假设车辆未来的运动只依赖于当前的运动状态,而不考虑任何的场景信息[2],随着预测时间的增长,由驾驶员行为的改变所带来的运动不确定性将导致运动预测产生巨大的误差。为了较好的解决这个问题,人们逐渐通过驾驶行为认知结果来估计和预测未来一段时间行车轨迹的变化。

    Z. Kun 等人[3]借助高斯混合模型将基于道路网络特征的原始车辆轨迹分类为有限个轨迹簇,根据实时的样本历史轨迹与原始轨迹簇的匹配结果结合原始轨迹进行运动预测。M. Schreier 等人[4]借助Bayes 推断为交通场景中的每辆车推断出高级驾驶动作的分布,再采用基于机动的概率轨迹预测模型来及时预测每个车辆的未来行驶轨迹。在实际的交通环境之中,需要考虑各车之间行为存在依赖的关系[5]。HOU Lian 等人[6]提出了一种基于分层多序列学习网络的周边车辆长期交互式轨迹预测方法,为每个交互的车辆分配多个长短期记忆(long short term memory, LSTM)网络,通过和相邻的LSTM 网络共享特征来预测目标车辆的轨迹。但是同一车辆在时间维度上的变化关系对于预测的准确度有着较大的影响,而且同一时刻周围各车辆对中心车辆的重要性并不相同。

    目前决策的方法主要可以分为2 大类:基于规则的方法和基于学习的方法[7]。基于规则的方法[8-10]需要大量的驾驶数据和所有可能的驾驶场景,但随着场景的日益复杂,该方法缺乏适用性[11]。为了消除对标记驾驶数据的需求,越来越多的研究人员开始采用基于学习的方法,而其中主要是利用强化学习算法。强化学习直接利用模拟器或实验中的样本,通过优化一个累积的未来奖励信号,针对序列决策问题进行策略的学习,允许自动驾驶汽车反复试错来优化其驾驶性能[12],而不依赖于手动设计的规则和人工驾驶的数据[13-14]。当下常见的算法包括DDQN[15],DDPG[16],A3C[17],TRPO[18]等。其中DDQN 算法应用较为广泛[19],其优点是利用2 个网络分别进行动作的选择与动作的评估。而Rainbow DQN 算法则是对DDQN 算法的拓展,融合了6 种DQN 算法的改进方法。但是仅利用强化学习进行决策会在前期耗费大量时间进行试错学习,且未考虑周围环境的未来动态,导致整个决策策略学习效率过低。

    本文在考虑车辆交互关系的基础上搭建基于图结构和LSTM 框架的轨迹预测模型;
    处理数据集并进行预测模型的训练;
    然后搭建基于Rainbow DQN 算法的强化学习框架;
    利用训练好的预测模型对复杂场景中的车辆进行未来轨迹的实时预测,并将其放入状态空间中进行自动驾驶汽车的决策仿真验证。

    1.1 总体框架

    针对常见交通场景,选择一组共7 个位于相邻3车道的车辆。在时刻t,车辆Vi的特征为

    式中:x和y表示车辆纵向位置和横向位置;
    vx和vy表示车辆纵向速度和横向速度;
    i= 1,2,…,7,分别代表7 种位置的车辆(见图1)。若某个位置的周围车辆不存在,则将xit和yit设为999 m,vxit和vyit设为0 m/s。

    图1 场景特征描述

    通过训练一个神经网络模型,将7 辆车对应的历史特征序列处理后输入,考虑场景下7 辆车与其各自对应的周围车辆之间的交互关系,从而能够较为准确的预测出每辆车的未来轨迹。本文基于编码器-解码器结构搭建轨迹预测模型,模型中编码器部分利用图结构来考虑各车辆之间的空间维度和时间维度的交互特征,针对每一辆车及其周围车辆构建一个图结构进行特征提取,并借助注意力机制筛选每辆车重点关注的环境信息,对解码器部分利用Structural-LSTM 网络,将编码器部分输出的每辆车对应的信息进行处理,分层学习各车辆之间的交互关系,从而更为准确的预测出每辆车未来的行驶轨迹,模型结构如图2 所示。

    图2 轨迹预测模型框架

    1.2 基于图结构的编码器

    为了较好地考虑每辆车之间在时间与空间上的交互关系,在编码器部分采用一种基于图结构的框架,每一辆车代表图结构中的节点,空间维度上两车辆之间的相对信息以及时间维度上同一辆车的相对信息代表图结构中的边线,将LSTM 网络应用于图中的节点和边线。用节点和边线来表示图结构G如下:

    式中:节点Nveh表示车辆的特征f,边线Espa表示各车辆在空间维度上的交互特征,边线Etem表示车辆在时间维度上的交互特征。在时刻t,车辆Vi和车辆Vj之间的空间维度上的交互特征可以表示为

    式中:xij、 yij、vxij和vyij分别表示车辆Vi与车辆Vj之间的相对横向位置、相对纵向位置、相对横向速度和相对纵向速度。类似的,在时刻t,车辆Vi在时间维度上的交互特征由前一时刻与当前时刻的特征表示为

    不同节点之间的特征通过LSTM 网络进行特征聚合。对于每个节点Nveh,边线Espa和边线Etem,都各自分配一个LSTM 层进行预测,且针对不同的车辆,每一部分对应的LSTM 网络都共享相同的参数。在每个LSTM 层前都会借助标准化层(layer normalization,LN)进行处理。在时刻t,对于车辆Vi而言,其空间特征Espaijt经线性函数处理后将低维输入嵌入到高维输出,再经LSTM 层从而产生隐藏状态为

    式中,emb(·)表示线性函数。同理,对于时间特征Espaijt进行相同的处理,由LSTM 层输出得到对应的隐藏状态hiit。

    在实际的交通环境之中,车辆会与其周围车辆产生交互作用,但其重要性可能不尽相同,为了量化周围车辆各自的重要性,在图结构之中借助注意力模块Att,采用软注意力机制[20]对不同的空间特征分配不同的权重,即

    式中:
    dot(·)表示点乘,k表示该车辆的周围车辆数量,de表示输出特征量的维度。将hijt的权重和进行计算从而表示周围车辆在空间维度上的影响,用Hit表示。将Hit与hiit结合并嵌入为一个固定特征量,即

    式中:concat(·)表示特征量之间的连接。将节点特征Nvehi嵌入为一个固定特征量bit,最后将zit与bit结合起来经LSTM 层输出得到车辆Vi在编码器中的隐藏状态为

    节点、边线和LSTM 网络之间的关系如图3 所示。其中:fit表示目标车辆Vi的特征序列,fij1t、fij2t表示周围车辆Vj1、Vj2与目标车辆Vi构成的空间维度的特征序列,fiit表示目标车辆Vi自身构成的时间维度的特征序列,这些节点与边经过LSTM 网络,注意力机制等得到最终编码器部分隐藏状态的输出。

    图3 基于图结构的编码器

    1.3 基于Structural-LSTM 网络的解码器

    不只是将所有车的特征结合到一个特征量中并用一个单独的LSTM 层进行处理,在此处将单一的LSTM 层扩展为Structural-LSTM 层,其包含多个LSTM 层,并且每一层都单独对输入进行处理,从而分层学习车辆之间的交互,对场景中每辆车与其周围车辆的特征关系进行考虑以达到同时输出多辆车的未来轨迹信息的目的[21]。在解码器中,对编码器的输出hit利用Structural-LSTM 层进行处理,得到对应的隐藏状态,即:

    将每辆车及其周围车辆的隐藏状态结合为一个特征量,并利用LSTM 层进行相应的特征提取,从而可以单独的识别出每辆车及其周围车辆之间的交互关系。通过Structural-LSTM 层的使用,解码器中可以同时预测出多辆车的轨迹,更加真实的考虑到车辆之间的双向交互。

    2.1 总体框架

    强化学习算法的总体框架如图4 所示。首先环境将相关状态量信息传递给智能体;
    然后智能体根据这些信息利用Rainbow DQN 算法,结合6 种基于DQN的 改 进 算 法(Double Q learning、Prioritized replay、

    图4 强化学习框架

    Dueling network、Multi-step learning、Distributional RL 和Noisy Nets) ,选择动作,当动作被选定之后将会受到安全规则的约束,当其不满足安全规则时,会使得智能体选择一个相对安全的动作(动作选取具体见2.4 章节) ;
    最后将会根据安全性,舒适性等方面得到一个奖励函数值返回给智能体;
    最终的目标就是:使获得的累积奖励值最大,从而保证无人驾驶汽车可以在较为复杂的场景之下高效安全的通过。

    2.2 MDP 建模

    2.2.1 状态空间S

    状态空间中包含自动驾驶汽车所需的自车信息以及周围车辆信息,如下式所示:

    由于旁车信息是根据传感器进行收集,因此将感知距离限定在100 m 之内。若某个位置的周围车辆不存在,则将其对应的xit和yit的值设为999 m,vxit和vyit的值设为0 m/s。

    2.2.2 动作空间A

    动作空间中包含自动驾驶汽车进行速度变化(ai)以及换道动作(DLC),如下式所示:

    式中:ai表示加速度,共有-2、-1、0、1、2 m/s25 种;
    DLC 表示换道指令,共有(向左换道、保持不变、向右换道)3 种。

    2.2.3 奖励函数R

    奖励函数在智能体能否高效完成目标的过程中扮演着至关重要的作用,因此需要设定一些合理的奖励函数。为了保证自动驾驶汽车能够以期望的速度安全行驶,本文的奖励函数主要考虑以下几个方面:

    1)碰撞风险评估。本文考虑3 个安全因素来对碰撞风险进行评估,即:即碰时间(time to collision,TTC)、最小安全距离(minimal safe distance,MSD)、车际时间(inter vehicular time,IVT)。3 个安全因素的风险值定义为:

    针对上述3 个安全因素,碰撞风险可以分为前向碰撞风险和后向碰撞风险,对于后向碰撞风险而言,安全因素IVT 不起作用,因此设定前向奖励函数RF和后向奖励函数RB如下:

    2)期望速度。自动驾驶汽车被希望尽可能以期望的速度行驶,设定奖励函数为

    式中:vego表示自车当前速度,vd表示对自车的期望速度,本文设vd= 21 m/s。

    1)动作选取。自动驾驶汽车被希望尽可能加速到期望车速并保持该车速行驶,且避免没有必要的换道,保证乘车的舒适性,因此设定奖励函数为

    其中,a表示自动驾驶汽车选取的加速度。

    2)终止状态。当自动驾驶汽车因碰撞而停止时,给予其较大的负奖励,设定奖励函数为

    综合以上4 个方面,最终的奖励函数为

    式中,ω为待定系数,取值为:ω1= 0.4,ω2= 0.4,ω3=

    0.25,ω4= 0.1,ω5= 1。

    2.3 安全规则

    1) 当自动驾驶汽车的速度大于前方车辆且违反了最小安全距离时,很容易会出现碰撞,为此需要满足下式:

    式中:vfro表示前方车辆速度。因此,最小安全时间间隔tmin需要满足下式:

    对应的最小安全距离dmin应该满足下式:

    当自动驾驶汽车与前车的相对距离小于最小安全距离时,自动驾驶汽车将以最大减速度行驶,否则就按照智能体选择的动作行驶。

    2) 当自动驾驶汽车选择换道时,需要根据最小安全距离判断是否会与新的车道上前方或者后方的车发生碰撞。如果小于最小安全距离,自动驾驶汽车则会选择取消换道,在当前车道继续以原速度行驶,否则就进行换道动作。

    3) 当自动驾驶汽车处于最左侧车道时,若智能体选择继续向左换道则会驶出车道,因此将取消换道继续以原速度在当前车道行驶。该规则同样适用于当自动驾驶汽车处于最右侧车道的情况。

    2.4 考虑预测的状态空间

    将所搭建的轨迹预测模型与决策算法相结合,状态空间中不仅只输入当前时刻下的自车及周围车辆信息,还输入经由轨迹预测模型得到的自车及周围车辆未来轨迹信息。一般情况下,车辆的行为变化大概在10 s内即可完成,为了更好的识别出历史轨迹中所包含的特征,本文选择通过历史10 s 的轨迹信息去预测未来5 s的轨迹信息。当状态空间中的量过多时会导致强化学习算法无法识别其中特征从而导致算法无法收敛,因此选取未来2.5 s 和5 s 的状态信息输入进状态空间中,如下式所示:

    式中,T表示预测的时间步。首先对所搭建的轨迹预测模型利用现实场景中收集得到的数据集进行训练并保存训练好后的模型,然后对环境中传递的状态信息进行保存,当仿真时长达到10 s 后,将保存的历史10 s轨迹信息输入进轨迹预测模型内,从而得到所有车辆的未来轨迹信息,将其与当前状态信息一并输入到状态空间之中,从而进行行为决策模型的训练。

    3.1 轨迹预测模型评价

    由于本文考虑的是车辆之间的交互运动,因此选择使用NGSIM 数据集对轨迹预测模型进行训练与测试。该数据集中车辆的行驶轨迹信息以10 Hz 的频率被记录下来,每个样本中含有车辆横向坐标、纵向坐标、速度、加速度、车的长宽等信息。

    首先对每一个中心车辆以15 s 的时间长度进行样本划分(10 s 当做历史轨迹输入,5 s 当做未来轨迹预测)。其次匹配其周围车辆信息。然后利用S-G 滤波器(Savitzky-Golay filter)对样本进行滤波处理。最后以1 Hz 的频率得到处理后的样本数据,以7:3 的比例随机选取分为训练集和测试集。

    在轨迹预测模型中,嵌入层神经元数为64,LSTM层神经元数为128,所有的LSTM 层都使用Softsign激活函数,批量大小为64,学习率设为5×10-4,整个模型用Adam 优化器训练200 回合,将梯度的全局范数裁剪为1 从而确保稳定训练。

    对轨迹预测模型按照1 Hz 所输出中心车辆的横向速度和纵向速度,利用二次插值法得到频率为10 Hz 的速度信息,再从速度与起始局部位置的积分中,得到车辆横向和纵向位置。

    本文根据最终位置误差,对4 种轨迹预测模型进行了比较:恒定转率和加速度模型(CTRA)、Structural-LSTM 预测模型(编码器和解码器部分都用Structural-LSTM 结构)、基于图结构的预测模型(不加注意力机制)、本文所提出的轨迹预测模型。其结果如表1 所示。

    表1 不同模型的位置误差

    从表1可以看出:本文所搭建的轨迹预测模型,无论是横向位置还是纵向位置,其预测精度相比于其他3种轨迹预测模型,都有了较大的提升。其中,CTRA 模型精度最低,原因是由于其只根据当前车辆状态信息推断未来的轨迹,并没有考虑驾驶员的动机以及周围车辆的影响,当预测时长越长,其精度也会越低。与Structural-LSTM 和图结构模型相比,本文所提模型既考虑了车辆空间维度上的特征交互,又考虑了同一辆车时间维度上的特征交互,且利用注意力机制更好的获取周围重要信息,避免无用信息的干扰,在5 s 末纵向位置误差精度分别提升了19%和46%,横向位置误差精度也有略微的提高。这说明:本文所提模型能够更加合理地预测车辆轨迹,提高预测精度。

    3.2 行为决策模型评价

    考虑当前交通场景中车辆数目较多且路况较为复杂,因此在SUMO 仿真平台中搭建场景如图5 所示。

    图5 仿真场景

    绿色车表示自动驾驶汽车,其每一步的动作根据Rainbow DQN 算法选取,红色车表示手动驾驶车辆,其初始位置和初始速度都在限定的范围内随机选取,纵向控制采用Krauss 模型,横向控制采用LC2013 模型。仿真回合最大时长设为30 s,步长设为0.1 s,当自动驾驶汽车与其他车辆或者道路发生碰撞时,即停止该回合,重新开始新的回合训练。Rainbow DQN 算法中的主要超参数如表2 所示。

    表2 主要超参数说明

    图6展示了融合轨迹预测模型的DDQN (Double Deep Q-learning)算法与Rainbow DQN 算法的平均累积奖励曲线图。

    图6 平均累计奖励曲线图

    由图6 可知:大约训练3 000 回合以后,2 种模型的平均奖励函数都逐渐趋于收敛。相较于DDQN 算法而言,Rainbow DQN 算法收敛后的曲线具有更大的奖励值,因此具有更好的训练效果。

    对以下5 个模型进行了比较:DDQN 决策模型、融合轨迹预测模型的DDQN 决策模型、无安全规则的Rainbow DQN 决策模型、Rainbow DQN 决策模型、融合轨迹预测模型的Rainbow DQN 决策模型。但是通过训练发现:无安全规则的Rainbow DQN 决策模型经过20 万次的训练而依然无法趋于收敛,而其余4 个模型都可以经过一定回合的训练而趋于收敛。这说明:安全规则可以在一定程度上加速强化学习算法的收敛,确保动作的更优性。对训练好的其余4 个模型分别进行500 个回合的测试。

    从成功率η、平均速度vav、vav的方差3 个角度对模型进行评价,其结果如表3 所示。

    表3 4 个模型测试结果

    从表3 中可知:与DDQN 算法相比,无论是否考虑轨迹预测模型,Rainbow DQN 算法在成功率,平均速度以及平均速度方差上都有着较大的提升,从而说明Rainbow DQN 算法相较于DDQN 算法有着更好的决策效果,对于同一场景能够选择更加合适的动作。DDQN 算法和Rainbow DQN 算法在融合预测模型后,其通过成功率分别上升了5.4%和0.4%,平均速度分别提高了1.13 m·s-1和0.2 m·s-1。

    通过2 种算法的比较可以看出:轨迹预测模型有助于决策模型成功率以及平均速度的提升,提高了车辆行驶的安全性与通行效率;
    提前知晓周围车辆的未来轨迹,可以使决策算法寻找更优的动作。

    为提高自动驾驶汽车的决策效果,本文作者在融合车辆轨迹预测的基础上利用Rainbow DQN 算法进行驾驶决策的研究。通过搭建基于图结构和Structural-LSTM 结构的轨迹预测模型,实时输出车辆的未来轨迹信息,Rainbow DQN 算法根据当前状态信息及未来状态信息进行动作的选取,并加以安全规则的约束,使得累积的考虑安全、舒适等奖励函数和最大。

    仿真结果表明:提前知晓车辆的未来轨迹对于决策效果而言不仅提高了通过安全性,还提高了通行效率。本文所研究的方法在自动驾驶领域,可以减少交通事故及交通堵塞等情况的发生,并且有利于自动驾驶融入有人驾驶的环境中。

    今后本文作者会考虑更多的交通参与者,提高方法的适用性,同时借助更多时刻的未来轨迹信息,利用神经网络进行特征的提取再放入状态空间中,提高信息的准确性。

    猜你喜欢 轨迹维度决策 解析几何中的轨迹方程的常用求法中学生数理化(高中版.高考数学)(2022年4期)2022-05-25理解“第三次理论飞跃”的三个维度当代陕西(2022年4期)2022-04-19为可持续决策提供依据纺织科学研究(2021年9期)2021-10-14认识党性的五个重要维度当代陕西(2020年22期)2021-01-18轨迹读友·少年文学(清雅版)(2020年4期)2020-08-24轨迹读友·少年文学(清雅版)(2020年3期)2020-07-24浅论诗中“史”识的四个维度中华诗词(2019年7期)2019-11-25决策大数据决策(2018年8期)2018-12-10决策大数据决策(2018年11期)2018-11-28诸葛亮隆中决策小天使·四年级语数英综合(2018年1期)2018-07-04

    相关热词搜索:学习型 轨迹 融合

    • 范文大全
    • 说说大全
    • 学习资料
    • 语录
    • 生肖
    • 解梦
    • 十二星座