深度强化学习是深度学习和强化学习的结合,同时具备较强的感知能力和决策能力,有望推动通用人工智能的发展。但是,强化学习由动态规划演化而来,需要进行多次迭代更新才能学习到优秀的策略。此外,深度神经网络的可解释性较差,学习效果对样本的依赖性较强。因此,当智能体在环境中的探索不够充分,未能收集到充足的经验数据时,深度强化学习的值函数估计会产生偏差,经验数据分布会偏移。进一步,受到估计偏差和经验数据分布偏移的影响,深度强化学习的训练过程会累积误差,从而严重影响深度强化学习算法的策略更新稳定性和学习效率。为此,本文围绕着如何降低深度强化学习的累积误差展开相关研究,主要内容包括:(1)基于函数逼近的值函数迭代过程会累积贝尔曼残差,有概率向着远离最优值函数的方向更新。针对深度强化学习训练过程产生的累积误差,一个可行的解决方案是降低其单步更新误差。基于这一思想,将前一迭代步的值函数引入当前值函数优化过程中,通过变换矩阵来调节这两个值函数对单次迭代的贡献程度。然后,利用贝尔曼算子、误差分析和数学归纳法,求解出最小化单步值函数更新误差的变换矩阵。基于求解出的变换矩阵,提出基于近似策略的加速值函数迭代算法,理论证明了其可以在使用更激进学习率的同时保证收敛。最后,将所提值函数迭代法与离策略深度强化学习相结合,提出基于近似策略的加速深度Q学习、基于近似策略的加速双深度Q学习和基于近似策略的加速确定性策略梯度。(2)在Actor-Critic架构中,Actor(策略)网络根据Critic(值函数)网络的输出优化策略,但策略并不直接参与值函数的迭代更新。因此,Critic网络对Actor网络变化的响应会滞后,并进一步导致策略的不稳定。另一方面,由于在策略Critic网络的目标值通常不是行为策略下的期望折扣回报,因而会在Actor网络和Critic网络的训练过程中累积误差。为此,将策略引入到值函数的更新过程中,提出了基于策略的期望(PBE)折扣回报和值迭代公式。通过对期望SARSA和行为策略下路径返回的期望折扣回报进行分析,证明了PBE值迭代可以有效降低在策略值函数迭代的估计误差。然后,基于折扣因子和策略单调优化的相关理论研究,提出一种基于裁剪折扣因子的策略更新方法,以确保应用PBE折扣回报时策略更新满足信任域的无偏估计。最后,设计了一种基于策略反馈的在策略Actor-Critic架构,并进一步提出基于策略反馈的近端策略优化算法。(3)在同一行为策略下,智能体收集到的经验数据之间相关性较大,从而导致较低的样本效率。针对这一问题,通过鞅与强化学习关联性的相关研究,提出一种用于判别经验数据是否有利于策略优化的下鞅条件。通过分析在策略强化学习值函数迭代过程,发现状态值的低估会增大估计误差,降低算法的学习效率。为此,提出一种预支值迭代(AVI)方法来减小状态值低估产生的累积误差。通过分析在策略值函数产生的估计误差,证明了对符合下鞅条件的经验数据使用AVI更有利于算法训练。进一步,建立了去鞅强化学习框架,提出一种去鞅近端策略优化算法。(4)对于离线强化学习来说,固定的离线经验缓存能够避免随机探索伴随的系统风险。但是,行为策略下的离线经验缓存中离群或异常样本数量较少,导致这部分值估计产生偏差,进而增大离线更新梯度中的误差。为此,考虑将优先经验回放机制引入到离线强化学习中,提出一种离线优先经验(OPE)采样模型以降低值函数估计误差。另一方面,在整个训练过程中,离线更新梯度均会受到不利于策略优化的经验数据影响。为此,对值函数优化过程以及鞅与策略优化之间的关联性进行探究,提出一种基于鞅的离线优先经验(MOPE)采样模型,以降低不利于策略优化的经验数据被多次采样产生的累积误差。进一步,将所提两种采样模型与批约束Q学习(BCQ)相结合,提出优先BCQ和基于鞅的优先BCQ。雅达利游戏、机器人控制和自动驾驶任务上的实验结果表明,所提深度强化学习算法可以有效降低累积误差,提高学习效率。论文共有图22幅,表7个,参考文献152篇。 摘要译文