帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于集成的多深度确定性策略梯度的无人驾驶策略研究

导  师: 李慧云

授予学位: 硕士

作  者: ();

机构地区: 中国科学院深圳先进技术研究院

摘  要: 随着人工智能的迅速发展,无人驾驶成为了当今学术界与工业界备受追捧的研究热点,其相关技术研究可以减缓或消除传统人类驾驶存在的交通事故频发、交通拥堵严重等问题,对于解决传统汽车工业无法避免的问题极具现实意义。本文将深度强化学习技术应用于虚拟仿真环境下车辆的无人驾驶研究,提出了一种无人驾驶控制策略学习的方法。本文基于深度确定性策略梯度(DDPG)算法,针对其训练不稳定、训练时间长的弊端,提出了用于无人驾驶控制策略学习的集成的多深度确定性策略梯度(AMDDPG)算法。该算法首先通过多DDPG结构,结合两种不同的训练模式,并行地学习多个次优的子策略,然后使用策略集成的方法对多个次优子策略进行集成,得到最终的控制策略。多DDPG的结构融合了中央经验回放池技术,有效地打破训练数据之间的关联性,提高了数据的利用率。为快速验证AMDDPG算法用于无人驾驶控制策略学习的可行性与有效性,并避免真车实验成本高与安全性无法保障等各种弊端,本文基于所设计的算法与TORCS仿真平台,搭建了无人驾驶控制策略研究的仿真系统,并根据对受控制车辆的快速行驶、弯道刹车和靠近车道中轴线等行为的期望,提出了多个乘积项累积的回报函数形式,通过极大化回报值的方式约束受控制车辆的行为。本文最后进行虚拟环境下的无人驾驶汽车仿真实验,并对学习而得的集成策略进行性能的测试。实验数据表明,相对于原始DDPG算法,本文所设计的AMDDPG算法对无人驾驶控制策略的学习过程更稳定,可以把训练时间降低56.7%。此外,实验数据验证了集成策略的性能表现优于子策略的结论,并证明了集成策略较强的泛化能力,最后基于实际应用条件得出了用于策略集成的合适的子策略数量范围为3-10个。经由仿真环境中的结果表明,本文所设计的算法能有效地用于无人驾驶控制策略的学习,本文所使用的研究思路是有效可行的。更多还原

关 键 词: [3988609]无人驾驶 深度强化学习 深度确定性策略梯度 策略集成

分 类 号: [U463.6;TP18]

领  域: [] []

相关作者

作者 许晓艺

相关机构对象

机构 华南师范大学网络教育学院

相关领域作者