Haarnoja, T., Zhou, A., Abbeel, P., & Levine, S. (2018). Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. 35th International Conference on Machine Learning, ICML 2018, 5, 2976–2989.
1. 论文概要
无模型的强化学习算法存在采样复杂度高和收敛性弱的问题。即使很简单的任务,所需要的样本数量都达到上百万。另外对于不同问题,这些强化学习算法的超参数需要精细调整。本文提出一个 soft actor-critic 强化学习方法,是就基于最大化熵的 off-policy 强化学习方法。在这个框架中,actor 旨在于最大化奖励回报和熵。本文提出的算法在稳定性和性能方面都胜过目前的强化学习算法。
之所以 TRPO、PPO 和 A3C 这些算法的采样复杂度高,是因为他们都需要在每个梯度更新步骤采集新的样本。而 off-policy 方法一般用在 Q-learning 一类强化学习方法上,与传统的策略梯度方法结合会导致算法稳定性和收敛性下降。另外,最大化熵方法通常能提高探索效率和鲁棒性,但还没有与 off-policy 和 policy-gradient 等强化学习模型结合起来。
本文的主要贡献点就是将 off-policy 和最大化熵方法结合到 ac 框架中,用于连续空间的控制任务,并将算法命名为 SAC (soft actor-critic)。之前的很多 AC 框框架只采用了 on-policy 方法,并只是将熵当作正则项。