帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

基于局部竞争力的强化学习动态集成算法

导  师: 陈百基;赵晓红

授予学位: 硕士

作  者: ;

机构地区: 华南理工大学

摘  要: 强化学习通过最大化累计回报和来解决序列决策问题,近年来深度强化学习将深度学习与强化学习相结合实现了端到端的学习,在自动驾驶、机器人控制等领域均有着广泛的应用,但如何针对具体应用选择最优强化学习模型是亟待解决的问题。集成学习可通过集成一组次优智能体替代寻找最优智能体,已有研究证明集成强化学习系统要优于单个智能体的表现,但这些研究主要集中在静态集成算法上。静态集成算法会偏向于整体表现较好的智能体,忽略了在部分状态有着优秀表现但整体表现一般的智能体。本研究分析了分类与强化学习所面临的序列决策问题的差异性,针对分类中动态集成算法的局限性,提出了基于局部竞争力的强化学习动态集成算法。本研究的贡献如下:  (1)考虑到强化学习中无类别标签用于计算准确率,且强化学习延迟回报的特性会使得单步回报难以获得有效信息,本研究提出了多步折扣累积回报和作为智能体局部竞争力的量化标准。  (2)考虑到强化学习中所存在的数据相关性问题,频繁更新权重可能导致策略变动频繁、性能下降,本研究提出了动态权重调整方法,其中权重调整的频率及幅度由超参数控制。  (3)基于上述的局部竞争力量化标准及动态权重调整方法,首次提出了一种强化学习动态集成算法。当环境返回状态,动态集成算法会根据潜层特征空间的欧几里得距离在验证集中寻找其相似状态子集,根据智能体在相似状态子集上的局部竞争力动态调整集成权重。  本研究在三款Atari游戏环境中进行了大量的对比实验,分析了不同游戏环境中超参数对动态集成算法性能的影响,实验结果显示基于局部竞争力的动态集成算法优于静态集成算法及最优基智能体,在Seaquest、SpaceInvaders和Breako

关 键 词: 机器人 强化学习动态集成算法 局部竞争力

领  域: [自动化与计算机技术—检测技术与自动化装置] [自动化与计算机技术—控制科学与工程]

相关作者

作者 解相吾
作者 吴贺俊
作者 姚佳岷
作者 林佳俊
作者 葛建新

相关机构对象

机构 暨南大学
机构 华南理工大学
机构 广东外语外贸大学
机构 华南理工大学工商管理学院
机构 暨南大学管理学院

相关领域作者