• 首页
  • 产品推荐
    个人精选服务
    科研辅助服务
    教育大数据服务
    行业精选服务
    学科系列服务
    维普论文检测系统
    卓越性能 高效迅捷 灵活安全 精准全面
    大家·维普期刊OA出版平台
    OA开启知识传播,出版引领学术未来
    学者服务
    打造学术名片,分享学术成果,传播学术价值
    科技查新
    严谨查证 专业分析 助力科研创新
    智能选题
    调研综述
    研学创作
    科研对话
    砚承·科研辅导与咨询服务平台
    1V1投稿咨询 1V1科研辅导 单项科研辅导服务
    产品服务
  • 主题知识脉络
    机构知识脉络
    人物知识脉络
    知识脉络
  • 期刊大全
  • 充值
  • 会员
  • 职称材料
文献检索
任意字段

文献信息

  • 任意字段
  • 主题词
  • 篇关摘
  • 篇名
  • 关键词
  • 摘要
  • 作者
  • 第一作者
  • 作者单位
  • 刊名
  • 中图分类号
  • 学科分类号
  • DOI
  • 基金
智能检索 智能检索
高级检索 检索历史
基于累积误差修正的深度强化学习研究 认领
被引量: 1
智能阅读
PDF下载
PDF转Word
职称评审材料
报刊平台
DOI索引
微信账号
QQ账号
新浪微博
作 者:

发文量: 被引量:0

顾扬
学 位 授 予 单 位:
中国矿业大学
摘 要:
深度强化学习是深度学习和强化学习的结合,同时具备较强的感知能力和决策能力,有望推动通用人工智能的发展。但是,强化学习由动态规划演化而来,需要进行多次迭代更新才能学习到优秀的策略。此外,深度神经网络的可解释性较差,学习效果对样本的依赖性较强。因此,当智能体在环境中的探索不够充分,未能收集到充足的经验数据时,深度强化学习的值函数估计会产生偏差,经验数据分布会偏移。进一步,受到估计偏差和经验数据分布偏移的影响,深度强化学习的训练过程会累积误差,从而严重影响深度强化学习算法的策略更新稳定性和学习效率。为此,本文围绕着如何降低深度强化学习的累积误差展开相关研究,主要内容包括:(1)基于函数逼近的值函数迭代过程会累积贝尔曼残差,有概率向着远离最优值函数的方向更新。针对深度强化学习训练过程产生的累积误差,一个可行的解决方案是降低其单步更新误差。基于这一思想,将前一迭代步的值函数引入当前值函数优化过程中,通过变换矩阵来调节这两个值函数对单次迭代的贡献程度。然后,利用贝尔曼算子、误差分析和数学归纳法,求解出最小化单步值函数更新误差的变换矩阵。基于求解出的变换矩阵,提出基于近似策略的加速值函数迭代算法,理论证明了其可以在使用更激进学习率的同时保证收敛。最后,将所提值函数迭代法与离策略深度强化学习相结合,提出基于近似策略的加速深度Q学习、基于近似策略的加速双深度Q学习和基于近似策略的加速确定性策略梯度。(2)在Actor-Critic架构中,Actor(策略)网络根据Critic(值函数)网络的输出优化策略,但策略并不直接参与值函数的迭代更新。因此,Critic网络对Actor网络变化的响应会滞后,并进一步导致策略的不稳定。另一方面,由于在策略Critic网络的目标值通常不是行为策略下的期望折扣回报,因而会在Actor网络和Critic网络的训练过程中累积误差。为此,将策略引入到值函数的更新过程中,提出了基于策略的期望(PBE)折扣回报和值迭代公式。通过对期望SARSA和行为策略下路径返回的期望折扣回报进行分析,证明了PBE值迭代可以有效降低在策略值函数迭代的估计误差。然后,基于折扣因子和策略单调优化的相关理论研究,提出一种基于裁剪折扣因子的策略更新方法,以确保应用PBE折扣回报时策略更新满足信任域的无偏估计。最后,设计了一种基于策略反馈的在策略Actor-Critic架构,并进一步提出基于策略反馈的近端策略优化算法。(3)在同一行为策略下,智能体收集到的经验数据之间相关性较大,从而导致较低的样本效率。针对这一问题,通过鞅与强化学习关联性的相关研究,提出一种用于判别经验数据是否有利于策略优化的下鞅条件。通过分析在策略强化学习值函数迭代过程,发现状态值的低估会增大估计误差,降低算法的学习效率。为此,提出一种预支值迭代(AVI)方法来减小状态值低估产生的累积误差。通过分析在策略值函数产生的估计误差,证明了对符合下鞅条件的经验数据使用AVI更有利于算法训练。进一步,建立了去鞅强化学习框架,提出一种去鞅近端策略优化算法。(4)对于离线强化学习来说,固定的离线经验缓存能够避免随机探索伴随的系统风险。但是,行为策略下的离线经验缓存中离群或异常样本数量较少,导致这部分值估计产生偏差,进而增大离线更新梯度中的误差。为此,考虑将优先经验回放机制引入到离线强化学习中,提出一种离线优先经验(OPE)采样模型以降低值函数估计误差。另一方面,在整个训练过程中,离线更新梯度均会受到不利于策略优化的经验数据影响。为此,对值函数优化过程以及鞅与策略优化之间的关联性进行探究,提出一种基于鞅的离线优先经验(MOPE)采样模型,以降低不利于策略优化的经验数据被多次采样产生的累积误差。进一步,将所提两种采样模型与批约束Q学习(BCQ)相结合,提出优先BCQ和基于鞅的优先BCQ。雅达利游戏、机器人控制和自动驾驶任务上的实验结果表明,所提深度强化学习算法可以有效降低累积误差,提高学习效率。论文共有图22幅,表7个,参考文献152篇。 摘要译文
关 键 词:
深度强化学习; 累积误差; 值函数迭代; 策略反馈; 策略梯度; 鞅; 采样模型
学 位 年 度:
2022
学 位 类 型:
博士
学 科 专 业:
控制理论与控制工程
导 师:

发文量: 被引量:0

王雪松
中 图 分 类 号:
TP18[人工智能理论]
学 科 分 类 号:
081205[人工智能];140501[智能基础理论];140502[人工智能];140503[智能系统与工程];140504[人工智能安全与治理];140506[人工智能应用]
D O I:
10.27623/d.cnki.gzkyu.2022.002766
相关文献

暂无数据

相关学者

暂无数据

相关研究机构
二级参考文献 (--)
参考文献 (--)
共引文献 (0)
本文献 ()
同被引文献 (0)
引证文献 (--)
二级引证文献 (--)
关于维普
公司介绍
产品服务
联系我们
问题帮助
使用帮助
常见问题
文献相关术语解释
合作与服务
版权合作
广告服务
友情链接
客服咨询
投稿相关:023-63416211
撤稿相关:023-63012682
查重相关:023-63506028
重庆维普资讯有限公司 渝B2-20050021-1 渝公网备 50019002500403
违法和不良信息举报中心   举报邮箱:jubao@cqvip.com   互联网算法推荐专项举报:sfjubao@cqvip.com    网络暴力专项举报: bljubao@cqvip.com
网络出版:(署)网出证(渝)字第014号    出版物经营许可证:新出发2018批字第006号   
  • 客服热线

    400-638-5550

  • 客服邮箱

    service@cqvip.com

意见反馈
关于旧版官网用户迁移的说明