帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于改进策略梯度方法的游戏智能研究

导  师: 雷秀仁

授予学位: 硕士

作  者: ();

机构地区: 华南理工大学

摘  要: 目前研究人员大多把目光放在以深度Q网络(Deep Q Network,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(Reinforce)等基于策略的一类方法做出研究思考和优缺点分析,提出熵正则化与经验池增强算法(Entropy Regularization and Experience Replay Reinforce,2ER-Reinforce)算法,并探讨在不同重要超参数的改变下对实验结果的影响。最后对实验结果进行展示,并通过训练一个模拟人类玩Atari游戏的智能体证明2ER-Reinforce算法的性能得到提高。本论文主要工作如下:(1)介绍深度强化学习的研究背景及意义,并列举其在游戏及商业中的应用;(2)简述马尔可夫决策过程的概念,为强化学习的研究制定框架。重点阐述有模型学习中的Bellman等式与动态规划求解方法,从而导出策略迭代和值迭代的策略改进方法,为之后章节的免模型学习提供理论基础;(3)简述强化学习中的免模型学习基础知识,主要涉及基于价值的算法。阐述并比较了蒙特卡罗方法与时序差分学习的异同,引出著名的Sarsa算法、Q-学习(Q-Learning)算法和对Q-Learning算法改进得到的DQN算法;(4)提出改进的2ER-Reinforce算法并将其应用到视频游戏领域中,实验的成功证明了2ER-Reinforce算法具有实际意义。先对Reinforce算法的优缺点进行分析,结合经验池与熵正则化技巧提出改进的2ER-Reinforce算法;然后以Atari系列的Pong游戏作为测试环境,多角度比较四种算法的性能,并对若干超参数不同取值对训练效果的影响做出探讨;接着展示游戏智能的表现,最后对算法学习与人类学习的思考模式做出思考与比较。

关 键 词: 机器学习 深度强化学习 策略梯度 增强学习 游戏智能

领  域: []

相关作者

作者 蒋宇
作者 符晓薇
作者 朱竹林
作者 邓国伟
作者 黄子响

相关机构对象

机构 华南师范大学
机构 中山大学
机构 暨南大学
机构 华南师范大学教育科学学院
机构 广州大学华软软件学院

相关领域作者