导 师: 郭先平
学科专业: G0103
授予学位: 硕士
作 者: ;
机构地区: 中山大学
摘 要: 连续时间马尔可夫决策过程在很多领域有着广泛的应用,其中,平均报酬(费用)准则是最常用的准则之一,因为它被广泛应用于电信与排队系统,生产过程等领域。因此,对连续时间平均准则的研究不仅有一定的理论价值,而且有一定的实际意义。本文在转移率和报酬(费用)率有界的情形下,给出了一种特殊的马尔可夫决策过程——受控生灭系统平均最优的新条件。我们利用生灭过程的遍历性理论来确定其指数遍历的条件,这些仅仅建立在模型中初始数据之上的条件,可以被我们用以证明最优平稳策略的存在性,而且我们还将实现其在排队系统中的应用。
关 键 词: 连续时间 马尔可夫控制过程 平均报酬准则 受控排队系统 最优平稳策略
分 类 号: [O211.62 F224.7]