平均和折扣准则MDP基于TD(0)学习的统一NDP方法

唐昊 周雷 袁继彬

合肥工业大学计算机与信息学院,安徽合肥230009

摘  要:

为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题-根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro—dynamic programming,NDP)优化方法.研究结果适用于半Markov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. (共5页)

相关文章:

主题相关 参考文献(12篇) 被引情况(2篇) 耦合文献(6篇) 

参考文献

更多文章搜索 
中国业务群个人门户,免费下载!
相关学者+更多
征稿启事
相关文章+更多
社区热帖+更多
天元数据 维普资讯 版权所有 Copyright © 2001-2008 cqvip.com Inc. All rights reserved.
渝ICP证 B2-20050021  违法和不良信息举报中心
建议使用:1024x768分辨率,16位以上颜色