在Win 10系统安装gym,atari,Box2D等环境
Reinforcement Learning with Deep Energy-Based Policies
本文提出了一个算法,用于学习连续空间下基于能量的策略:SQL,不是数据库的SQL,而是soft Q-Learning。该算法应用了最大熵理论,并且使用能量模型(EBM,Energy-Based Model)作为决策模型。
推荐阅读该论文:
- 公式复杂,但详尽吃透可以学习到SVGD、EBM等概念与算法
- 文章充实,可以继续阅读后续算法SAC
- 拓展在强化学习与熵进行结合方面的知识
Maximum Entropy-Regularized Multi-Goal Reinforcement-Learning
这篇论文将强化学习的目标与最大熵结合了起来,提出了简称为MEP的经验池机制。许多将熵与强化学习结合的方法都是考虑可选动作分布的熵,该篇论文很新颖的使用的是“迹”的熵。
推荐程度中等偏下:
- 有些地方解释的不是很清楚
- 熵的结合方式特殊,可以一看
- 有些公式推导过于复杂,难懂
- 有些参考文献标注不准,如A3C算法的论文并没有使用熵的概念,却在熵相关的语句进行了标注
Universal Value Function Approximators
本文中的方法简称UVFA,即通用值函数逼近器,主要是用于将只能表示同一任务单目标的值函数表示成通用的多目标值函数。很多论文如HER都引用了这篇论文中提出的方法。
推荐程度中等:
- 文中理论说明很多,很晦涩,可以不看,直接跳至正文部分即可
- 思想简单,了解一下即可
RL^2|Fast Reinforcement Learning vis Slow Reinforcement Learning
本文引用了元学习在深度学习领域的思想,在多任务中训练一个通用模型——slow,用这个通用模型拓展到其他任务进行训练就会快很多,得到新模型——fast。本文中的模型使用RNN作为训练模型。
推荐程度:中等偏下
- 可以拓宽知识面,了解众家思想
- 我个人认为,这样的元学习并没有达到让机器”学会如何学习的学习方法“的目的,即“learning to learn”
Asynchronous Methods for Deep Reinforcement Learning
本文提出了A3C模型,即Asynchronous Advantage Actor-Critic,是A2C的异步版本,使用CPU多核而不用GPU进行训练,文中说效果比使用GPU反而更好。
推荐:
- 并行梯度优化的佳作
- 通俗易懂
Energy-Based Hindsight Experience Prioritization
本文是对HER“事后”经验池机制的一个扩展,它结合了物理学的能量知识以及优先经验回放PER对HER进行提升。简称:EBP
推荐:
- 创新虽不多,但是基于能量的创意可以拓宽在机器人领域训练的视野
- 通俗易懂
Evolution Strategies as a Scalable Alternative to Reinforcement Learning
这一篇论文讲了强化学习算法的替代可解方案:进化策略。主要思想是对参数空间添加噪音而不是动作空间。
不推荐这篇论文:
- 公式没有详细推理,非常难懂
- 文中进化策略其实跟强化学习并没有特别大的关系
- 很多关于进化策略的性质、优势非常难懂,基本上都是文字解释,没有举例
- 文中措辞不难,但想要理解其本质非常难
SARSA and Q-Learning
本文介绍了两个强化学习中解决Model-Free问题的最经典算法:SARSA和Q-Learning,这两个算法也是On-Policy与Off-Policy的分水岭。
Monte Carlo and Temporal-Difference
本位介绍了强化学习中解决Model-Free问题的两个基本解决思路:蒙特卡洛Monte Carlo与时间差分Temporal-Difference。
价值与贝尔曼方程
价值与贝尔曼方程
我们人在做决策的时候往往会判断做这件事的价值和后果,就像失恋了去喝不喝闷酒一样,不同的人有不同的选择,但是选择前肯定会判断这么做能给自己带来什么。
选择去喝酒的人觉得这可以缓解自己的痛苦,这就是判断喝酒这个动作的价值。因为身体原因不选择去喝酒的人觉得喝醉之后身体很不舒服,还会说胡话、闹事,这就是衡量后果、判断喝酒后状态的价值。
在乎过程的会根据动作的价值进行抉择,在乎结果的会根据状态的价值进行抉择。总之,衡量价值,毫无疑问是我们做决策的重要评判标准。
机器也一样,我们想教会机器学会自主决策,必然得让它们有一个价值导向,毕竟它可不会、也决不能像人一样”没有原因呀,就随便选择了一个而已”。
本文介绍了绝大部分强化学习问题及算法中值函数与贝尔曼方程的定义。因为有一些研究探索的,如好奇心、信息熵等方向的算法对值函数的定义有稍许不同。