文献详情 - Gdtheory理论粤军网|广东智库信息化平台

文献详细_{Journal detailed}

基于局部竞争力的强化学习动态集成算法

收藏

导　　师： 陈百基;赵晓红

授予学位： 硕士

作　　者： ;

摘　　要： 强化学习通过最大化累计回报和来解决序列决策问题，近年来深度强化学习将深度学习与强化学习相结合实现了端到端的学习，在自动驾驶、机器人控制等领域均有着广泛的应用，但如何针对具体应用选择最优强化学习模型是亟待解决的问题。集成学习可通过集成一组次优智能体替代寻找最优智能体，已有研究证明集成强化学习系统要优于单个智能体的表现，但这些研究主要集中在静态集成算法上。静态集成算法会偏向于整体表现较好的智能体，忽略了在部分状态有着优秀表现但整体表现一般的智能体。本研究分析了分类与强化学习所面临的序列决策问题的差异性，针对分类中动态集成算法的局限性，提出了基于局部竞争力的强化学习动态集成算法。本研究的贡献如下：　　（1）考虑到强化学习中无类别标签用于计算准确率，且强化学习延迟回报的特性会使得单步回报难以获得有效信息，本研究提出了多步折扣累积回报和作为智能体局部竞争力的量化标准。　　（2）考虑到强化学习中所存在的数据相关性问题，频繁更新权重可能导致策略变动频繁、性能下降，本研究提出了动态权重调整方法，其中权重调整的频率及幅度由超参数控制。　　（3）基于上述的局部竞争力量化标准及动态权重调整方法，首次提出了一种强化学习动态集成算法。当环境返回状态，动态集成算法会根据潜层特征空间的欧几里得距离在验证集中寻找其相似状态子集，根据智能体在相似状态子集上的局部竞争力动态调整集成权重。　　本研究在三款Atari游戏环境中进行了大量的对比实验，分析了不同游戏环境中超参数对动态集成算法性能的影响，实验结果显示基于局部竞争力的动态集成算法优于静态集成算法及最优基智能体，在Seaquest、SpaceInvaders和Breako

关键词： 机器人强化学习动态集成算法局部竞争力

领　　域： [自动化与计算机技术—检测技术与自动化装置] [自动化与计算机技术—控制科学与工程]

相关机构对象

机构暨南大学: 作者数：20971; 发文主题：行政手段,比较文学,法人资格,东亚货币合作,世界华文文学,三民主义,追寻,国际移民,双方当事人,文艺理论,法律地位,多角化经营战略,区域经济合作,经济法学,孙中山,国家所有权,母语教育,章程,网络,海外华文教育,横向经济联合,产权关系,专利法,文学传统,华裔美国文学,致辞,马来西亚华文教育,整体观,监事会,国有资产所有权,华族,全过程,汉语文学,冷战后,法律调整,全球语境,统战工作,海外华文文学研究,华文教育,辛亥革命时期,结构性权力,华人社会,海外华文文学,他者,文本阅读,涉外经济法规,粤港澳,经济法制,东南亚华人,新移民文学,人口比例,经济联合体,中国文学,企业集团,跨文化,社会参与,法制管理,文学概论,全球化语境,文艺学研究,

机构华南理工大学: 作者数：19075; 发文主题：模型,甲烷,订单农业,协商模型,零售商,供应链管理,绩效关系,供应链协调,制造商,催化剂,知识创新,关系承诺,利益分配,变质性物品,企业,技术创新,虚拟企业,知识分享,供应链协调模型,订货量,石墨烯,研究生教育,可控提前期,时变需求,实证研究,价格折扣,管理创新,信息共享,运营绩效,战略管理,货栈,协整关系研究,滞后支付,创新绩效,库存路径问题,订购,报童模型,信息不对称,创新型企业,销售商,内向型,博弈,甲醇电氧化,创新管理,直接甲醇燃料电池,外向型,智慧城市,风险规避,生命周期,车辆路径问题,供应链协作,供应链,员工创新行为,协整检验,动态面板,共性技术,德行领导,

机构广东外语外贸大学: 作者数：8857; 发文主题：创业研究,法治,语言学,战略性技术,系统功能语法,行政体制改革,语言维度,词汇语法,部门行政职权,主语,语法,双语词典,私有财产权,行政行为,创业决策,企业动态能力,语态,下行,级差,网络营销,语言模式,企业,可持续发展,具体行政行为,公法保护,法律规制,创业者,绿色营销,行政权,文体学,电子商务,人际,行政诉讼,服务型政府,实证研究,行政法治,汉语,营销研究,行政法,司法审查,系统功能语言学,组织知识,行政主体,企业家决策,动态能力,文化,企业绩效,语篇,法治视野,语义,韩礼德,英汉大词典,绿色消费,风险感知,商务背景,廊桥遗梦,持续竞争优势,公共行政,行政相对人,

机构华南理工大学工商管理学院: 作者数：3266; 发文主题：统计量,随机前沿模型,农村劳动力迁移,随机前沿分析,管理层激励,实证研究,公司绩效,经济增长,抑价,产权性质,知识溢出效应,企业业绩,融资约束,实证分析,融资困境,商业银行,模拟,企业税负,知识外溢,中小企业,增长极,上市公司,融资决策,空间计量模型,并购绩效,企业研发投入,有效性,外商直接投资,成本控制,收敛,投资者法律保护,股权性质,农村劳动力,方法,企业,技术创新,认股权证,国有企业,技术并购,资本结构,股权激励,面板数据,政府干预,指标体系,公司治理,并购,

机构暨南大学管理学院: 作者数：2481; 发文主题：审计定价,公允价值,企业内部控制,网誉认证,会计准则,增值税转型,作业基础预算,影响因素,利益相关者,上市公司,资本市场,成本控制,全面预算管理,企业并购过程,财务会计,企业,平衡记分卡,审计目标,问卷调查,资产质量,知识经济,会计信息,实证研究,董事会特征,家族控股,会计,战略管理,债转股,信息披露,社会资本,内部财务制度,核心能力,企业内部财务,股权结构,企业管理,盈余管理,金融工具会计准则,企业财务制度,企业商誉,所有权,家族企业,内部控制制度,资产公允价值,中国会计,社会网络分析,企业集团,公允价值会计,中小投资者保护,未来经济利益,公司治理,免疫系统,负商誉,

基于局部竞争力的强化学习动态集成算法

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+

相关作者

相关机构对象

相关领域作者

基于局部竞争力的强化学习动态集成算法

参考文献 更多+

二级参考文献 更多+

引证文献 更多+

二级引证文献 更多+

同被引文献 更多+

耦合作品文献 更多+

相关文献 更多+

相关作者

相关机构对象

相关领域作者

参考文献更多+

二级参考文献更多+

引证文献更多+

二级引证文献更多+

同被引文献更多+

耦合作品文献更多+

相关文献更多+