• 文件
  • 知识库

基于双层多臂老虎机的分层强化学习用于无信号灯交叉口的交互感知自动驾驶车辆

原标题:Bilevel Multi-Armed Bandit-Based Hierarchical Reinforcement Learning for Interaction-Aware Self-Driving At Unsignalized Intersections

Zeng PengYubin WangLei ZhengJun Ma

IEEE Transactions on Vehicular Technology (2025)

|

5

关键词

BiMAB
强化学习
自主驾驶
课程学习
多臂赌博机
交叉路口
重要性权重
探索与利用
目标BiMAB
高层决策

摘要

在这项工作中,我们提出了BiM-ACPPO,这是一种基于双层多臂赌博机的分层强化学习框架,用于无信号交叉口的交互感知决策和规划。该框架本质上主动考虑了与周围车辆(SVs)相关的不确定性,包括驾驶员意图、交互行为以及不同数量的SVs引起的不确定性。引入中间决策变量,使高层强化学习策略能够提供交互感知参考,以指导低层模型预测控制(MPC),并进一步增强所提框架的泛化能力。通过利用无人驾驶在无信号交叉口的结构特性,RL策略的训练问题被建模为一个双层课程学习任务,这一问题由所提出的基于Exp3.S的BiMAB算法解决。值得注意的是,训练课程是动态调整的,从而促进了RL训练过程的样本效率。在高保真度的CARLA模拟器中进行了对比实验,结果表明我们的方法相比所有基准方法表现更优。此外,在两个新的城市驾驶场景中的实验结果清楚地展示了所提方法的出色泛化性能。

AI理解论文

该文档主要探讨了一种新颖的基于强化学习(RL)和双层多臂赌博机(BiMAB)算法的框架,用于在无信号交叉路口的自动驾驶任务中进行决策和路径规划。以下是对该文档的详细总结:

1. 研究背景与动机

自动驾驶技术在无信号交叉路口的应用面临着复杂的挑战,主要由于交叉路口的动态环境和不确定性。传统的方法在处理多种车辆行为和交互时存在局限性,因此需要一种能够适应多变环境的智能决策系统。本文提出了一种结合强化学习和多臂赌博机算法的框架,以提高自动驾驶车辆在无信号交叉路口的决策能力和泛化能力。

2. 方法概述

2.1 状态空间与动作空间

  • 状态空间(S):包括自动驾驶车辆(EV)和周围环境中其他车辆(SVs)的运动学特征,如位置、速度和航向角。
  • 动作空间(A):采用多离散动作空间,包括路径点选择、参考速度和车道变换等子动作空间。

2.2 双层多臂赌博机(BiMAB)算法

  • 任务分解与双层课程建模:将训练过程视为一个双层课程学习任务,课程集根据SVs的数量和任务类型进行划分。
  • BiMAB模型:将课程选择视为BiMAB问题中的采样过程,旨在通过自适应策略最大化从采样序列中获得的收益。

3. 实验与结果

3.1 实验设置

  • 测试场景:在CARLA模拟器中进行,包括单车道和多车道无信号交叉路口。
  • 对比方法:与固定PPO、手动CPPO和随机CPPO等方法进行对比。

3.2 实验结果

  • 零样本泛化能力:在单车道无信号交叉路口中,提出的方法表现出优越的成功率和适应性。
  • 少样本泛化能力:在城市驾驶场景中的超车任务中,验证了该方法的泛化能力。

4. 关键贡献

  • 交互感知能力:该方法能够有效处理多模态SVs的交互,展示了在不同驾驶场景中的适应性。
  • 自动化课程选择:通过BiMAB算法实现了课程的自动化选择,提升了RL策略的训练效率和泛化能力。
  • 任务结构利用:充分利用无信号交叉路口任务的内在结构,提高了在新场景中的成功率。

5. 技术术语解释

  • 强化学习(RL):一种机器学习方法,通过与环境交互学习策略,以最大化累积奖励。
  • 多臂赌博机(MAB):一种经典的决策问题,涉及在多个选项中选择以最大化收益。
  • 双层多臂赌博机(BiMAB):扩展了传统MAB问题,允许在多个层次上进行选择和优化。

6. 结论与未来工作

本文提出的框架在无信号交叉路口的自动驾驶任务中展示了优越的性能和泛化能力。未来的工作可以进一步探索该方法在更复杂交通环境中的应用,以及与其他智能交通系统的集成。

通过本文的研究,展示了在动态和不确定环境中,结合强化学习和多臂赌博机算法的潜力,为自动驾驶技术的发展提供了新的思路和方法。

Chat Paper

当前问答基于全文

转入私有库对话