导 师: 吴伟民
学科专业: H1202
授予学位: 硕士
作 者: ;
机构地区: 广东工业大学
摘 要: 随着人工智能理论与技术在军事对抗和国民生产等领域的广泛运用,多智能体系统已用于诸多问题的求解。当前,团队对抗性游戏已成为了智能决策控制研究的焦点,如:战机空空协同作战系统、集群式作战机器人和robocup仿真组足球机器人等。由于娱乐性、对抗性、动态性和不确定性,使其成为人工智能和机器人学结合的理想平台。这些系统,有着共同的特征。首先,比赛的形式是敌我双方阵型的团队博弈,其中每个机器人是具有决策能力的智能体。其次,在比赛过程中,不但要发挥自主角色个体技术,而且还能通过合作策略发挥集体力量。要获得博弈的胜利,必须集成许多技术,其中,决策系统是机器人是否具有高智能的体现,并且是团队对抗获胜的关键。本文对团队对抗性游戏决策系统展开研究,从团队的个体决策来实现团队的整体协作入手,本文设计了团队成员的双层决策模型,包括团队成员的高层协作策略和交互层基本行为策略。基于双层模型的决策系统简化了决策内容的设计与学习,增强了推理的能力,主要内容包括: (1)为团队成员设计交互层基本行为策略,团队成员通过执行交互层基本行为策略反映高层协作策略的整体意图,是高层协作策略学习的基础。本文采用java规则引擎和遗传编程学习方法,设计交互层基本行为的混合策略控制模型,提高决策系统的易扩展、易修改性和自学习、自适应的能力。设计一种面向行为的、机器自翻译的tablerex语言,对遗传编程个体决策控制程序进行编码,提高遗传编程个体程序解析、执行和进化操作的效率。 (2)在交互层基本行为策略的基础上,根据博弈论的冲突分析或相互影响的决策理论,提出了基于随机博弈的团队agent协作强化学习算法,解决全自主控制方式下的团队成员高层协作策略的学习问题。同时,本文通过人工智能的存储方法,解决多agent强化学习算法中组合空间和联合行为对存储空间的“维数灾难”性问题,建立人工神经网络存储组合状态和联合策略到长期得益矩阵的q值映射。 本文的研究选用robocode坦克仿真引擎作为验证平台,设计robocode团队的组织结构和及其成员体系结构,团队内的通讯协议等,并着重研究其团队成员决策系统的设计与学习,分别对上面的内容进行了实现和检验。
关 键 词: 多 协作 强化学习算法 人工智能 智能决策控制 团队对抗性游戏
分 类 号: [TP18]
领 域: [自动化与计算机技术] [自动化与计算机技术]