帮助 本站公告
您现在所在的位置:网站首页 > 知识中心 > 文献详情
文献详细Journal detailed

马尔可夫决策过程在送餐机器人路径规划上的研究与应用

导  师: 王勇;黄强亮

授予学位: 硕士

作  者: ();

机构地区: 广东工业大学

摘  要: 送餐机器人代替人工服务员送餐,给餐馆节省了不少开支。但餐馆的环境过于复杂,例如椅子被临时挪动到通道上,顾客在餐馆中动态出现等,送餐机器人可能会进行多次避障,送餐效率不高。如果送餐机器人能够预测一条不出现或者少出现意外椅子或者驻足顾客的路径,那么送餐机器人的送餐效率将大大提高。本文应用马尔可夫决策过程(MDP)算法对送餐机器人的路径进行规划,以提高机器人的送餐效率。  本文在研究餐馆送餐机器人路径规划算法的基础上,以马尔可夫决策过程为主要算法,通过引入惩罚函数 F、状态立即奖励值更新规则以及状态转移概率更新规则,进行送餐机器人的路径规划,以提高送餐机器人的安全性以及全程送餐效率。本文基于MDP构建了一个餐馆送餐机器人路径规划系统。该系统有5个组成模块:地图模块,任务模块,数据采集模块,路径规划模块和控制模块。地图模块用来构建餐馆环境二维栅格地图。任务模块用来下达送餐任务。数据采集模块用来采集MDP初始化信息。路径规划模块是路径规划系统的核心模块,它用来为送餐机器人规划高效的送餐路径。控制模块用来控制送餐机器人送餐。具体做法是:首先对餐馆环境进行建模即构建二维栅格地图,初始化一个MDP模型。然后应用MDP为送餐机器人规划一条全局送餐路径,控制送餐机器人沿着此路径进行送餐。当送餐机器人在送餐的过程中对地图以及MDP模型进行实时更新。对地图的更新主要是标注桌椅以及驻足顾客的位置,对MDP模型的更新主要是更新状态立即奖励值函数R以及状态转移概率P。对P的更新应用了如下一个分式:分母是在状态s下采取动作a的总次数,分子是在状态s下采取动作a而到达状态s’的次数。对R的更新具体做法是:当传感器探测到前方

关 键 词: 送餐机器人 动态环境 马尔可夫决策 路径规划 算法

领  域: [] []

相关作者

作者 朱伟军
作者 古凯铭
作者 黄国全
作者 刘日飞
作者 解相吾

相关机构对象

机构 华南理工大学工商管理学院
机构 华南理工大学
机构 广东工业大学
机构 广东警官学院治安系
机构 华南师范大学

相关领域作者