文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

基于改进策略梯度方法的游戏智能研究

收藏

导　　师： 雷秀仁

授予学位： 硕士

作　　者： (）;

摘　　要： 目前研究人员大多把目光放在以深度Q网络(Deep Q Network,DQN)为代表的基于价值的强化学习算法,忽视了理论更为坚实和更新过程更为直观的基于策略方法。本文通过对增强算法(Reinforce)等基于策略的一类方法做出研究思考和优缺点分析,提出熵正则化与经验池增强算法(Entropy Regularization and Experience Replay Reinforce,2ER-Reinforce)算法,并探讨在不同重要超参数的改变下对实验结果的影响。最后对实验结果进行展示,并通过训练一个模拟人类玩Atari游戏的智能体证明2ER-Reinforce算法的性能得到提高。本论文主要工作如下:(1)介绍深度强化学习的研究背景及意义,并列举其在游戏及商业中的应用;(2)简述马尔可夫决策过程的概念,为强化学习的研究制定框架。重点阐述有模型学习中的Bellman等式与动态规划求解方法,从而导出策略迭代和值迭代的策略改进方法,为之后章节的免模型学习提供理论基础;(3)简述强化学习中的免模型学习基础知识,主要涉及基于价值的算法。阐述并比较了蒙特卡罗方法与时序差分学习的异同,引出著名的Sarsa算法、Q-学习(Q-Learning)算法和对Q-Learning算法改进得到的DQN算法;(4)提出改进的2ER-Reinforce算法并将其应用到视频游戏领域中,实验的成功证明了2ER-Reinforce算法具有实际意义。先对Reinforce算法的优缺点进行分析,结合经验池与熵正则化技巧提出改进的2ER-Reinforce算法;然后以Atari系列的Pong游戏作为测试环境,多角度比较四种算法的性能,并对若干超参数不同取值对训练效果的影响做出探讨;接着展示游戏智能的表现,最后对算法学习与人类学习的思考模式做出思考与比较。

关键词： 机器学习深度强化学习策略梯度增强学习游戏智能

领　　域： []

相关机构对象

机构华南师范大学: 作者数：20338; 发文主题：教师成长,宏观经济,社会主义实践,中国梦,二重性质,马克思主义经济学,人生哲学,有效教学,中国货币政策,教育科研,克鲁格曼,教育叙事研究,教育研究,政治经济学,人民内部矛盾,新自由主义,校本教研,人性,哲学发展,课程改革,老师,教育行动研究,卢卡奇,学校教育,动物精神,马克思哲学,凯恩斯主义,人类社会发展规律,西方经济学,因果,教学研究,社会主义市场经济,中国共产党,教师,实证研究,诺贝尔经济学奖,教育现象学,英美文学,埃尔斯特,实证检验,校本教学研究,中国化马克思主义,社会主义建设规律,唯物史观,经济政策,社会存在本体论,异化,日常教学,社会主义发展道路,叙事研究,早期西方马克思主义,教学理念,马克思主义,人民币国际化,历史唯物主义,萨金特,教育叙事,世界货币,本体论,

机构中山大学: 作者数：27151; 发文主题：电视节目,用户,实证研究,家居,硬件,视域,异构,权利,分布式存储,蓝牙,启迪,从严治党,音乐门铃,领导干部,加密方法,中间件,党内权力,数字电视,权力监督,制度反腐,实体化,数字家庭,民主监督,社会主义国家执政党,马克思主义,监控系统,视频图像,中间件系统,数据传输方法,毛泽东,中国特色社会主义,风险评估,中国共产党,邓小平,素质教育,青年农民工,嵌入式,

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构华南师范大学教育科学学院: 作者数：1470; 发文主题：教育学,英国高等教育,社会环境,价值论,中世纪晚期,社会价值,生成论教学哲学,王承绪先生,高等教育,行政权力,教学实体,教学思想,职业道德,学术权力,德育课程,人性论,教学本质,因材施教,教学论,成人,学术生涯,人才集聚,道德教育,学校文化,道德理性,人生修养,身份转换,省域高等教育,德育教材,立场,教师,社会舆论,儿童生活,教学存在,社会生活,地方本科院校,教育实践,教学哲学,高等教育系统,儿童意识,交往,德育,院士,德育模式,教学认识论,比较教育研究,教学本体论,知识分子群体,文化生成,教学实践,融资渠道,国家认同,方法论,德育观念,爱国主义教育,论略,高等教育发展,公民教育,社会文化变迁,本体论,

机构广州大学华软软件学院: 作者数：732; 发文主题：平民意识,语形,哲学资源,军礼,实效性研究,证明法,新闻写作,语法,新闻从业者,汉语语法,言和,新闻报道,经济活动,新闻改革,语言,逻辑,经济报道,老师,受众,新闻工作者,南方电视台,思想政治理论课教学,实践教学模式探索,倒序,政治理论课教学,新闻价值,实践教学探索,名人,层级性,祈福,汉语,语言表述,独立学院思想,语序,经济生活,语气,华文报刊,新闻传播业,高校,思想政治理论课,接近性,语料,中华文化传播,文学作品,日记,晚清,高校思想政治理论课,语义,写作特色,农业,礼制,湘籍,单音反义形容词,大众传媒,现代汉语,经济工作,祭祀,新闻教育,

基于改进策略梯度方法的游戏智能研究

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

基于改进策略梯度方法的游戏智能研究

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+