0%

Haarnoja, T., Zhou, A., Abbeel, P., & Levine, S. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. 35th International Conference on Machine Learning, ICML 2018, 5, 2976–2989.

1. 论文概要

无模型的强化学习算法存在采样复杂度高和收敛性弱的问题。即使很简单的任务,所需要的样本数量都达到上百万。另外对于不同问题,这些强化学习算法的超参数需要精细调整。本文提出一个 soft actor-critic 强化学习方法,是就基于最大化熵的 off-policy 强化学习方法。在这个框架中,actor 旨在于最大化奖励回报和熵。本文提出的算法在稳定性和性能方面都胜过目前的强化学习算法。

之所以 TRPO、PPO 和 A3C 这些算法的采样复杂度高,是因为他们都需要在每个梯度更新步骤采集新的样本。而 off-policy 方法一般用在 Q-learning 一类强化学习方法上,与传统的策略梯度方法结合会导致算法稳定性和收敛性下降。另外,最大化熵方法通常能提高探索效率和鲁棒性,但还没有与 off-policy 和 policy-gradient 等强化学习模型结合起来。

本文的主要贡献点就是将 off-policy 和最大化熵方法结合到 ac 框架中,用于连续空间的控制任务,并将算法命名为 SAC (soft actor-critic)。之前的很多 AC 框框架只采用了 on-policy 方法,并只是将熵当作正则项。

阅读全文 »

1. GAIL 概念介绍

假如需要从一个示例的专家数据中学习出一个策略,而且学习过程中没有专家的指导和信号预测。一种方是行为克隆方法,主要是通过监督学习模型从专家数据中学习出策略,但是这种方法需要大量数据。另一种方法是通过逆强化学习从专家数据中学习代价函数,该代价函数从专家的角度而言是唯一最优的,但是这种方法不直接而且比较慢,通常需要强化学习在内循环。为什么不可以直接从专家数据中学习出一个策略呢?

本文提出一种可以直接从专家数据中学习出策略的算法,称为 GAIL(Generative Adversarial Imitation Learning),生成对抗模仿学习。GAIL 实际上也运用了 GAN 的训练方法,来拟合状态数据和动作数据的分布,从而定义专家的行为。

阅读全文 »

1. HER 概念

对于机器人的强化学习算法,存在的挑战就是奖励函数的设置,不但需要考虑如何反映任务的完成水平,同时还需要指导策略的优化。有时,奖励函数的设置还需涉及到具体领域的专业知识。如果不对这些复杂的工程问题进行考虑,而简单用奖励函数表示任务成功或失败,就会造成奖励系数问题。就算仔细设计了奖励函数,可扩展性和鲁棒性也不高。

为了解决奖励稀疏的问题,本文提出了 HER 算法。HER 算法可以针对稀疏和二进制奖励的情况,提高样本效率,进而避免涉及复杂的奖励函数。可以将 HER 算法与其他 off-policy 强化学习算法结合。二进制奖励是指奖励只有两种值,出现在任务成功或任务失败的时候。

阅读全文 »

1. 摘要

传统的强化学习目标是最大化累积奖励函数。本文提出一种强化学习方法,目标改为同时最大化多个伪奖励函数,相当于增加了辅助目标。

奖励信号有时是难以观测的,稀少的。即使奖励信号很频繁,运动传感器数据也包含大量其他可能存在的学习目标。本文的目的是预测和控制运动传感器数据的特征,将它们当作强化学习的伪奖励信号进行训练(换句话来说,就是通过这些伪奖励信号的训练,改变网络的特征提取)。直觉上,如果智能体能够预测和控制它未来的经历,很容易实现一个长远的复杂的目标。

阅读全文 »

1. ACKTR 概念

本文 [1] 涉及到一个新术语:Kronecker 因子的近似曲率,以下简称:K-FAC。本文结合三个东西,一个是 K-FAC,一个是置信域优化,另一个是 AC。作者称其为第一个可扩展的 AC 框架的置信域优化方法,可以理解为精度和速度可以调节。

置信域优化方法是为了应对 SGD 及相关一阶优化方法的探索效率不足的问题,这往往导致训练时间过长。另外 A3C 也采用多线程的异步训练方法来应对探索效率问题,但是异步训练对样本的利用效率太低。样本的利用效率往往也十分关键,因为在现实世界,机器人与环境交互的数据量远远不满足训练数据需要的规模和增长速率,即使在仿真环境中,仿真器的运行时间也可以超过计算时间。

在这篇文章之前,采用过高级优化方法的技术有自然策略梯度方法以及 TRPO 方法。这两种方法的计算复杂度都很高。有学者提出 K-FAC 方法 [2, 3],这是对自然梯度方法的一种可扩展的近似,已经用来加速各种大型网络的监督训练。

阅读全文 »

1. ACER 概念

ACER 就是将 Actor-Critic 和 experience replay 结合起来的强化学习方法。本文 [1] 提出了几种新的技术:带偏差纠正的截断重要性采样、随机 dueling 网络结构、一种新的置信域策略优化方法。

提出 ACER 的概念源于智能体与环境交互的代价高昂,需要减少仿真次数,提高数据的样本利用率。ACER 的出现旨在于设计一个稳定的、样本利用率高的 actor-critic 方法。

阅读全文 »

1. A3C 概念

A3C 大部分时候泛指的是一个轻型的深度强化学习框架,用于深度神经网络控制器的异步优化。完整名称是:Asynchronous Advantage Actor-Critic(A3C),就是将异步训练框架和 Advantage Actor-Critic 方法结合的产物。

过去很多观点认为简单的在线强化学习算法与神经网络的结合通常不稳定,因为在线强化学习连续观察的数据都是相互关联的,因此很多学者利用经验回放池的方法来将连续观察的数据关联性打破(例如 DQN 和 TRPO 算法都利用了经验回放池)。但是这种方法的限制在于只能运用到离线的强化学习方法中。经验回放池有以下缺点:

阅读全文 »

二、 PPO:近端策略优化

1. PPO 概述

标准的策略梯度方法是在每个数据样本都进行一次梯度更新,PPO 方法可以进行 mini-batch 更新。比起 TRPO,PPO 继承了它部分优点,但是更容易实现,更通用,和更简单的采样方法。TRPO 方法使用了二阶近似,PPO 旨在于用一阶近似来达到 TRPO 类似的效果,同时提高数据的利用效率。通过交替利用策略采样和对采样的数据进行多个 epoch的优化,来提高数据的利用效率。

在连续的任务上,“概率比截断”版本的 PPO 方法表现得最好。在离散的动作空间任务上,PPO 方法和 ACER 方法效果类似,但更容易实现。

阅读全文 »

这篇笔记主要涉及到策略梯度系列的两个算法,TRPO 和 PPO。TRPO 先提出来,PPO 实质上是对 TRPO 的改进。两篇论文的题目为 Trust Region Policy OptimizationProximal Policy Optimization Algorithms

一、 TRPO:置信域策略优化

1. TRPO简述

本文提出了 Trust Region Policy Optimization (TRPO) 算法,主要是对 natural policy gradient 算法的改进,适用于大型的非线性策略函数,例如神经网络。传统方法中,基于策略梯度的模型有一个缺点就是采样效率太低,需要大量的样本才能让模型学习。

本文证明了可以通过最小化某个特定的目标函数,让策略每次都得到非平凡的提升。通过一系列的近似,将原本的目标函数改成实际的算法,称之为 TRPO 算法。

本文中给出两种具体的实现方式:single-path方法,vine方法。TRPO 算法可以同时优化非线性策略网络中成千上万的参数,这对于传统的策略梯度方法而言几乎是不可能的。

阅读全文 »

DQN强化学习方法系列主要是由两篇文章提出,分别是 Playing Atari with Deep Reinforcement LearningHuman-level control through deep reinforcement learning。这两篇文章讲述的具体方法在之前的博客 DQN相关论文笔记中有过介绍,在这篇文章中分析DQN强化学习方法的代码实现细节。

1. 算法为代码

DQN_algorithm

阅读全文 »