平均和折扣准则MDP基于TD(0)学习的统一NDP方法
唐昊 周雷 袁继彬
合肥工业大学计算机与信息学院,安徽合肥230009
摘 要:
为适应实际大规模Markov系统的需要,讨论Markov决策过程(MDP)基于仿真的学习优化问题-根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro—dynamic programming,NDP)优化方法.研究结果适用于半Markov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况. (共5页)学科分类:
TP202[工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 一般性问题 > 设计、性能分析与综合]

















cqvip.com