深度策略梯度算法是真正的策略梯度算法吗?
|
近期深度强化学习取得了很多成功,但也存在局限性:缺乏稳定性、可复现性差。来自 MIT 和 Two Sigma 的研究者重新检验了深度强化学习方法的概念基础,即目前深度强化学习的实践多大程度上反映了其概念基础框架的原则?该研究重点探讨深度策略梯度方法。深度强化学习是现代机器学习最为人所知的成就,它造就了 AlphaGO 这样广为人知的应用。对很多人来说,该框架展示了机器学习对现实世界的影响力。但是,不像当前的深度(监督)学习框架,深度强化学习工具包尚未支持足够的工程稳定性。的确,近期的研究发现当前最优的深度强化学习算法对超参数选择过于敏感,缺乏稳定性,且可复现性差。 这表明或许需要重新检验深度强化学习方法的概念基础,准确来说,该研究要解决的重要问题是:目前深度强化学习的实践多大程度上反映了其概念基础框架的原则? 该论文重点研究深度策略梯度方法,这是一种广泛使用的深度强化学习算法。研究目标是探索这些方法的当前最优实现多大程度上体现了通用策略梯度框架的关键基元。 该论文首先检验重要的深度策略梯度方法近端策略优化(PPO)。研究发现 PPO 的性能严重依赖于非核心算法的优化,这表明 PPO 的实际成功可能无法用其理论框架来解释。 这一观察促使研究者进一步检查策略梯度算法及其与底层框架之间的关系。研究者对这些算法在实践中展示的关键强化学习基元进行了细致地检查。具体而言,研究了:
研究者认为以上问题以及我们对相关理论知识的缺乏是深度强化学习脆弱性和低复现性的主要原因。这表明构建可信赖的深度强化学习算法要求抛弃之前以基准为中心的评估方法,以便多角度地理解这些算法的非直观行为。 论文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms? 论文链接:https://arxiv.org/pdf/1811.02553.pdf 摘要:本文研究了深度策略梯度算法对促进其发展的底层概念框架的反映程度。我们基于该框架的关键要素对当前最优方法进行了精细分析,这些方法包括梯度估计、价值预测、最优化 landscape 和置信域分析。我们发现,从这个角度来看,深度策略梯度算法的行为通常偏离其概念框架的预测。我们的分析开启了巩固深度策略梯度算法基础的第一步,尤其是,我们可能需要抛弃目前以基准为中心的评估方法。 检查深度策略梯度算法的基元 1. 梯度估计的质量 策略梯度方法的核心前提是恰当目标函数上的随机梯度上升带来优秀的策略。具体来说,这些算法使用(代理)奖励函数的梯度作为基元: 这些方法的理论背后的底层假设是,我们能够获取对梯度的合理估计,即我们能够使用有限样本(通常大约 103 个)的经验平均值准确估计上面的期望项。因此研究者对实践中该假设的有效性很感兴趣。 我们计算出的梯度估计准确度如何?为了解决该问题,研究者使用了评估估计质量最自然的度量标准:经验方差(empirical variance)和梯度估计向「真正」梯度的收敛情况。 图 2 图 2:梯度估计的经验方差在 MuJoCo Humanoid 任务中可作为状态-动作对关于数量的函数,x 轴为状态-动作对,y 轴是梯度估计的经验方差。 图 3 图 3:MuJoCo Humanoid 任务中梯度估计向「真正」期望梯度的收敛情况。 2. 价值预测 图 4 图 4:对于训练用于解决 MuJoCo Walker2d-v2 任务的智能体,在留出状态-动作对上的价值预测质量(度量指标为平均相对误差 MRE)。 3. 探索最优化 landscape 策略梯度算法的另一个基础假设是对策略参数使用一阶更新可以带来性能更好的策略。因此接下来我们就来看该假设的有效性。 图 6:在 Humanoid-v2 MuJoCo 任务上,TRPO 的真正奖励函数 Landscape。 图 8:在 Humanoid-v2 MuJoCo 任务上,PPO 的真正和代理奖励函数 Landscape。 4. 置信域的优化 图 9 图 9:对于训练用于解决 MuJoCo Humanoid 任务的智能体,每一步的平均奖励、最大速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情况。 为深度强化学习奠定更好的基础 深度强化学习算法根植于基础稳固的经典强化学习框架,在实践中展示了巨大的潜力。但是,该研究调查显示,该底层框架无法解释深度强化学习算法的很多行为。这种分裂妨碍我们深入理解这些算法成功(或失败)的原因,而且成为解决深度强化学习所面临重要挑战的极大障碍,比如广泛的脆弱性和薄弱的可复现性。 为了解决这种分类,我们需要开发更加贴近底层理论的方法,或者构建能够捕捉现有策略梯度算法成功原因的理论。不管哪种情况,第一步都要准确指出理论和实践的分岔点。这部分将分析和巩固前一章的发现和结果。
|
时间:2018-12-03 00:01 来源:未知 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。