Keavnn'Blog

If it is to be, it is up to me.


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 搜索

在Windows 10系统上安装gym等环境

发表于 2019-10-17 | 更新于: 2019-10-17 | 分类于 小知识
字数统计: 94 | 阅读时长 ≈ 1

在Win 10系统安装gym,atari,Box2D等环境

阅读全文 »

Reinforcement Learning with Deep Energy-Based Policies

发表于 2019-06-26 | 更新于: 2019-07-07 | 分类于 ReinforcementLearning
字数统计: 2.2k | 阅读时长 ≈ 9

本文提出了一个算法,用于学习连续空间下基于能量的策略:SQL,不是数据库的SQL,而是soft Q-Learning。该算法应用了最大熵理论,并且使用能量模型(EBM,Energy-Based Model)作为决策模型。

推荐阅读该论文:

  • 公式复杂,但详尽吃透可以学习到SVGD、EBM等概念与算法
  • 文章充实,可以继续阅读后续算法SAC
  • 拓展在强化学习与熵进行结合方面的知识
阅读全文 »

Maximum Entropy-Regularized Multi-Goal Reinforcement-Learning

发表于 2019-06-12 | 更新于: 2019-07-07 | 分类于 ReinforcementLearning
字数统计: 1.9k | 阅读时长 ≈ 8

这篇论文将强化学习的目标与最大熵结合了起来,提出了简称为MEP的经验池机制。许多将熵与强化学习结合的方法都是考虑可选动作分布的熵,该篇论文很新颖的使用的是“迹”的熵。

推荐程度中等偏下:

  • 有些地方解释的不是很清楚
  • 熵的结合方式特殊,可以一看
  • 有些公式推导过于复杂,难懂
  • 有些参考文献标注不准,如A3C算法的论文并没有使用熵的概念,却在熵相关的语句进行了标注
阅读全文 »

强化学习论文浅读集合

发表于 2019-06-10 | 更新于: 2020-04-11 | 分类于 ReinforcementLearning
字数统计: 9.6k | 阅读时长 ≈ 38

本文记录了一些粗读的强化学习相关的论文。

阅读全文 »

Universal Value Function Approximators

发表于 2019-06-02 | 更新于: 2019-06-02 | 分类于 ReinforcementLearning
字数统计: 1.1k | 阅读时长 ≈ 4

本文中的方法简称UVFA,即通用值函数逼近器,主要是用于将只能表示同一任务单目标的值函数表示成通用的多目标值函数。很多论文如HER都引用了这篇论文中提出的方法。

推荐程度中等:

  • 文中理论说明很多,很晦涩,可以不看,直接跳至正文部分即可
  • 思想简单,了解一下即可
阅读全文 »

Ubuntu16.04配置Shadowsocks服务器

发表于 2019-06-01 | 更新于: 2019-06-01 | 分类于 小知识
字数统计: 739 | 阅读时长 ≈ 3

科学上网,你懂的。

阅读全文 »

RL^2|Fast Reinforcement Learning vis Slow Reinforcement Learning

发表于 2019-05-31 | 更新于: 2019-06-02 | 分类于 ReinforcementLearning
字数统计: 1.3k | 阅读时长 ≈ 4

本文引用了元学习在深度学习领域的思想,在多任务中训练一个通用模型——slow,用这个通用模型拓展到其他任务进行训练就会快很多,得到新模型——fast。本文中的模型使用RNN作为训练模型。

推荐程度:中等偏下

  • 可以拓宽知识面,了解众家思想
  • 我个人认为,这样的元学习并没有达到让机器”学会如何学习的学习方法“的目的,即“learning to learn”
阅读全文 »

Asynchronous Methods for Deep Reinforcement Learning

发表于 2019-05-30 | 更新于: 2019-06-01 | 分类于 ReinforcementLearning
字数统计: 2.7k | 阅读时长 ≈ 10

本文提出了A3C模型,即Asynchronous Advantage Actor-Critic,是A2C的异步版本,使用CPU多核而不用GPU进行训练,文中说效果比使用GPU反而更好。

推荐:

  • 并行梯度优化的佳作
  • 通俗易懂
阅读全文 »

Energy-Based Hindsight Experience Prioritization

发表于 2019-05-30 | 更新于: 2019-05-30 | 分类于 ReinforcementLearning
字数统计: 2.9k | 阅读时长 ≈ 12

本文是对HER“事后”经验池机制的一个扩展,它结合了物理学的能量知识以及优先经验回放PER对HER进行提升。简称:EBP

推荐:

  • 创新虽不多,但是基于能量的创意可以拓宽在机器人领域训练的视野
  • 通俗易懂
阅读全文 »

Hindsight Experience Replay

发表于 2019-05-28 | 更新于: 2019-05-30 | 分类于 ReinforcementLearning
字数统计: 3.4k | 阅读时长 ≈ 14

本文介绍了一个“事后诸葛亮”的经验池机制,简称为HER,它可以很好地应用于稀疏奖励和二分奖励的问题中,不需要复杂的奖励函数工程设计。

推荐:

  • 稀疏奖励问题的一种解决方案
  • 通俗易懂
阅读全文 »

Prioritized Experience Replay

发表于 2019-05-22 | 更新于: 2019-10-16 | 分类于 ReinforcementLearning
字数统计: 3.5k | 阅读时长 ≈ 16

这篇论文介绍了优先经验回放机制,它可以使学习过程更高效。

推荐:

  • 实用技巧
  • 通俗易懂
阅读全文 »

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

发表于 2019-05-21 | 更新于: 2019-05-23 | 分类于 ReinforcementLearning
字数统计: 2.1k | 阅读时长 ≈ 8

这一篇论文讲了强化学习算法的替代可解方案:进化策略。主要思想是对参数空间添加噪音而不是动作空间。

不推荐这篇论文:

  • 公式没有详细推理,非常难懂
  • 文中进化策略其实跟强化学习并没有特别大的关系
  • 很多关于进化策略的性质、优势非常难懂,基本上都是文字解释,没有举例
  • 文中措辞不难,但想要理解其本质非常难
阅读全文 »

SARSA and Q-Learning

发表于 2019-05-13 | 更新于: 2019-05-13 | 分类于 ReinforcementLearning
字数统计: 42 | 阅读时长 ≈ 1

本文介绍了两个强化学习中解决Model-Free问题的最经典算法:SARSA和Q-Learning,这两个算法也是On-Policy与Off-Policy的分水岭。

阅读全文 »

Monte Carlo and Temporal-Difference

发表于 2019-05-13 | 更新于: 2019-05-13 | 分类于 ReinforcementLearning
字数统计: 55 | 阅读时长 ≈ 1

本位介绍了强化学习中解决Model-Free问题的两个基本解决思路:蒙特卡洛Monte Carlo与时间差分Temporal-Difference。

阅读全文 »

动态规划 Dynamic Programming

发表于 2019-05-12 | 更新于: 2019-05-13 | 分类于 ReinforcementLearning
字数统计: 2.5k | 阅读时长 ≈ 9

本文介绍了强化学习问题中最简单基本的算法——动态规划(Dynamic Programming),介绍了贝尔曼方程在该算法中的应用。

阅读全文 »

强化学习的类别

发表于 2019-05-10 | 更新于: 2019-09-03 | 分类于 ReinforcementLearning
字数统计: 1.8k | 阅读时长 ≈ 7

本文讲述了强化学习中各种算法、问题的分类规则。

阅读全文 »

价值与贝尔曼方程

发表于 2019-05-09 | 更新于: 2019-05-13 | 分类于 ReinforcementLearning
字数统计: 3.2k | 阅读时长 ≈ 14

价值与贝尔曼方程

我们人在做决策的时候往往会判断做这件事的价值和后果,就像失恋了去喝不喝闷酒一样,不同的人有不同的选择,但是选择前肯定会判断这么做能给自己带来什么。

选择去喝酒的人觉得这可以缓解自己的痛苦,这就是判断喝酒这个动作的价值。因为身体原因不选择去喝酒的人觉得喝醉之后身体很不舒服,还会说胡话、闹事,这就是衡量后果、判断喝酒后状态的价值。

在乎过程的会根据动作的价值进行抉择,在乎结果的会根据状态的价值进行抉择。总之,衡量价值,毫无疑问是我们做决策的重要评判标准。

机器也一样,我们想教会机器学会自主决策,必然得让它们有一个价值导向,毕竟它可不会、也决不能像人一样”没有原因呀,就随便选择了一个而已”。

本文介绍了绝大部分强化学习问题及算法中值函数与贝尔曼方程的定义。因为有一些研究探索的,如好奇心、信息熵等方向的算法对值函数的定义有稍许不同。

阅读全文 »

强化学习之MDP马尔科夫决策过程

发表于 2019-05-08 | 更新于: 2020-05-21 | 分类于 ReinforcementLearning
字数统计: 5.2k | 阅读时长 ≈ 20

强化学习之MDP马尔科夫决策过程

每每提到强化学习,最先接触的理论肯定是马尔科夫决策过程(MDP,Markov Decision Process),为什么总提到MDP呢?并不是只有我一个人有这个疑问。

阅读全文 »

强化学习的里程碑

发表于 2019-05-07 | 更新于: 2019-05-10 | 分类于 ReinforcementLearning
字数统计: 1.4k | 阅读时长 ≈ 5

强化学习的里程碑

阅读全文 »

conda环境和pip包的转移

发表于 2019-04-14 | 更新于: 2019-05-13 | 分类于 Conda
字数统计: 132 | 阅读时长 ≈ 1

本文记录了如何导出、导入自己的conda环境,对于pip安装的包如何导出、导入。

阅读全文 »
123
Keavnn

Keavnn

If it is to be, it is up to me.

51 日志
11 分类
26 标签
RSS
GitHub E-Mail
Creative Commons
推荐阅读
  • Fisher Chang
© 2020 Keavnn | Site words total count: 80.3k
本站总访问量次
0%