帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于深度强化学习的移动机器人导航策略研究

导  师: 曾碧; 谢玉华

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 机器人一直以来都是科学家们致力研究的问题,随着人们对日常生活便利和高效生产等方面的追求越来越大,机器人如今扮演着越来越重要的角色,传统意义上的机器人程式化的控制已经难以满足人们的需求,目前传统的机器人导航技术的应变能力不足、自主性差,不具备学习能力,难以完成变化环境下的导航任务,因此对于移动机器人导航的智能化研究尤为重要。本文针对非结构化环境中的移动机器人自主导航问题,研究基于深度强化学习的机器人自主导航策略,该策略可适应移动机器人从随机起点到任意终点自主导航,使用深度强化学习来训练机器人在未知环境下的导航行为,使其能适应未知的非结构化环境,并且即使环境发生了变化,机器人同样可以执行导航任务。本文主要的研究工作如下:1)针对目前移动机器人的导航问题进行调研,对目前解决机器人导航问题的相关技术进行介绍,并重点研究现阶段移动机器人的导航方法的局限性。2)针对移动机器人自身对环境感知信息的局限性,以及机器人已经获得的环境信息与实时捕捉的感知信息不匹配等情况下的导航决策问题,提出了一种基于Q值的深度强化学习算法(DQN)的移动机器人导航决策方法。DQN算法使用深度卷积神经网络对移动机器人的状态和对应的动作进行回归预测,实现移动机器人从环境感知到决策行为的端到端控制,采用搜索与利用的平衡策略实现机器人对最优动作的搜索,通过构造环境的奖励函数来对机器人的动作的优劣进行反馈,求出最优策略。最后给出DQN算法在仿真环境下训练过程中的loss函数曲线,证明经过一定的训练后DQN算法能够得到很好的收敛效果。3)针对基于DQN的深度强化学习算法无法解决移动机器人高维度的连续动作空间问题,以及该算法基于随机概率搜索的方式会导致算法在高维度问题下模型难以收敛的问题,提出基于确定性策略梯度的深度强化学习算法(DDPG)的移动机器人导航决策方法。DDPG算法基于行动者评论家(Actor-Critic)框架和确定性策略梯度(DPG)的方式,通过评价网络和策略网络进行算法参数的自适应更新,输出确定性的机器人导航行为。最后通过对比分析DQN算法和DDPG算法的loss函数以及平均q值曲线,证明了DDPG算法的稳定性、安全性更高。4)使用这两种基于深度强化学习的移动机器人导航算法进行仿真实验对比分析,验证该算法的可行性。以OpenCV平台下搭建的仿真环境作为实验平台,使用TensorFlow创建的卷积神经网络模型进行处理和实验,实现移动机器人在仿真环境下的导航。仿真实验结果表明:在经过深度强化学习的方法训练后,移动机器人在环境发生了部分场景变化时,依然能够实现随机起点到任意终点的准确的导航。更多还原

关 键 词: 深度强化学习 [955181]移动机器人 [111681]导航 [7516671]变化环境

分 类 号: [TP242;TP18]

领  域: [] []

相关作者

作者 刘岭
作者 周正军
作者 赖宏慈
作者 尹爱兰
作者 林秋城

相关机构对象

机构 中山大学资讯管理学院
机构 华南理工大学
机构 广东海洋大学
机构 暨南大学深圳旅游学院
机构 潮汕职业技术学院

相关领域作者