If it is to be, it is up to me.

强化学习

发表于 2019-05-09 | 更新于: 2020-07-23 | 分类于 ReinforcementLearning

字数统计: 568 | 阅读时长 ≈ 2

基础知识

论文精读

Open AI

Deep Mind

论文浅读

相关信息

学习资源

《Reinforcement Learning : An Introduction 2nd Edition》——Sutton
- 基础必读
- 通俗易懂
- 数学公式很多，虽然很多不太实用，但对理解RL的精髓很有帮助
Reinforcement Learning Course by David Silver, 2015
- 基础必看，讲述了强化学习的基础算法
- 有字幕，通俗易懂
- 有课件Slide
OpenAI Spinning Up
- 深度强化学习
- 算法很多，解析也很清晰
- 有代码仓库，可以查看源代码，方便复现
Medium : Reinforcement Learning
- 博文质量不错，内容涵盖基础与进阶
- 缺点：更新少
StackOverflow : Reinforcement Learning
- 进阶必备
- 多看多交流可以加深自己的理解

不错的代码仓库

TianShou——An elegant, flexible, and superfast PyTorch deep Reinforcement Learning platform.
- pytorch
- 清华开源，适合入门
Rainy——☔ Deep RL agents with PyTorch☔
- 有一些比较难复现的算法，比如PPOC
Machin——Machin is a reinforcement library purely based on pytorch. It is designed to be readable, reusable and extendable.
- pytorch
- 框架封装的比较好，覆盖算法很多，包括一些分布式、多智能体的算法实现
RLcode——白话强化学习
- 每个算法极简实现，适合新手学习入门
DeepRL_Algorithms——DeepRL algorithms implementation easy for understanding and reading with Pytorch and Tensorflow 2
- Pytorch 和 tensorflow2
- 结构清晰，算法多

Exploration By Random Network Distillation

发表于 2020-06-23 | 更新于: 2020-06-23 | 分类于 ReinforcementLearning

字数统计: 1.5k | 阅读时长 ≈ 5

这篇论文提出了RND，是一种新奇的内在探索机制，主要原理是使预测网络的特征逼近随机网络的特征，以此使得预测网络对不熟悉的状态给出较大的预测误差，由此设定内在奖励。

推荐程度中等：

1个额外的固定、不训练的随机网络
RND在强探索（hard exploration，奖励很稀疏）环境中表现不错

阅读全文 »

在DRL路上踩过的坑

发表于 2020-05-21 | 更新于: 2020-05-21 | 分类于 ReinforcementLearning

字数统计: 249 | 阅读时长 ≈ 1

本博客用于记录在RL学习过程中踩过的坑点。

阅读全文 »

FeUdal Networks for Hierarchical Reinforcement Learning

发表于 2020-04-27 | 更新于: 2020-04-27 | 分类于 ReinforcementLearning

字数统计: 3.4k | 阅读时长 ≈ 14

这篇论文提出了FuNs，将智能体决策分为两层——Manager产生子目标、Worker产生动作行为。两层均使用A2C方式进行优化，且梯度互不影响。

推荐程度中等：

h-DQN式分层，PG式优化
隐藏状态空间设置子目标，不需要先验知识
上下两层策略均使用A2C的更新方式
应用于离散动作空间

阅读全文 »

记录在树莓派4B上的配置命令

发表于 2020-04-24 | 更新于: 2020-04-25 | 分类于 Raspberry

字数统计: 951 | 阅读时长 ≈ 5

学习在树莓派4B上通过命令行配置各个模块。官方文档：docs。

阅读全文 »

在MacOS上为树莓派烧录系统

发表于 2020-04-24 | 更新于: 2020-04-24 | 分类于 MacOS

字数统计: 569 | 阅读时长 ≈ 2

此篇博文用于记录在MacOS系统上为TF卡烧录树莓派操作系统。

阅读全文 »

LeetCode刷题记录(python)

发表于 2020-04-24 | 更新于: 2020-04-24 | 分类于 Python

字数统计: 541 | 阅读时长 ≈ 2

这篇博客用于学习并记录在LeetCode刷题的过程及其相关题目解决思路。

阅读全文 »

配置OverLeaf私人服务器

发表于 2020-04-16 | 更新于: 2020-04-16 | 分类于小知识

字数统计: 232 | 阅读时长 ≈ 1

此文转载自好友BlueFisher。

阅读全文 »

The Option-Critic Architecture

发表于 2020-04-14 | 更新于: 2020-04-14 | 分类于 ReinforcementLearning

字数统计: 275 | 阅读时长 ≈ 1

这篇论文将Option-Critic这种端对端的分层强化学习算法推导出随机策略梯度的更新方式。

阅读全文 »

蓝猫淘气三千问

发表于 2020-04-12 | 更新于: 2020-04-27 | 分类于 ReinforcementLearning

字数统计: 418 | 阅读时长 ≈ 1

此篇博文用于记录学习RL或者实现RL方法过程中遇到疑难杂症及相应解决思路。

阅读全文 »

PaStaNet: Toward Human Activity Knowledge Engine

发表于 2020-04-12 | 更新于: 2020-04-12 | 分类于 DeepLearning

字数统计: 5.2k | 阅读时长 ≈ 21

这篇论文是上海交大卢策吾老师团队下李永露博士在2020CVPR会议三连中中的其中一篇。方向为HOIs方向，即人物交互。

阅读全文 »

Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation

发表于 2020-04-11 | 更新于: 2020-04-11 | 分类于 ReinforcementLearning

字数统计: 12 | 阅读时长 ≈ 1

简介

论文地址：http://arxiv.org/abs/1604.06057

Deep Exploration via Bootstrapped DQN

发表于 2020-04-11 | 更新于: 2020-04-11 | 分类于 ReinforcementLearning

字数统计: 12 | 阅读时长 ≈ 1

简介

论文地址：http://arxiv.org/abs/1602.04621

Emergence of Locomotion Behaviours in Rich Environments

发表于 2020-04-11 | 更新于: 2020-04-11 | 分类于 ReinforcementLearning

字数统计: 63 | 阅读时长 ≈ 1

这篇论文主要提出了DPPO——Distributed PPO。

阅读全文 »

Tensorflow2.0中的高斯分布及其概率

发表于 2020-04-08 | 更新于: 2020-04-08 | 分类于 TensorFlow

字数统计: 1.5k | 阅读时长 ≈ 7

此篇博文用于记录和描述一些高斯分布的基本特性以及在tensorflow2.0中的不同之处。

阅读全文 »

学习gRPC过程点滴记录

发表于 2020-04-05 | 更新于: 2020-04-26 | 分类于 Python

字数统计: 1.2k | 阅读时长 ≈ 5

此博客用于记录学习gRPC(python)的过程。

阅读全文 »

《Reinforcement Learning: An Introduction》阅读笔记

发表于 2020-04-02 | 更新于: 2020-04-08 | 分类于 ReinforcementLearning

字数统计: 615 | 阅读时长 ≈ 3

学习RL至今(2020年04月02日21:30:19)，一直没有系统地看过这本被誉为RL界“圣经”的教科书，也没有对从该书中学到的知识点进行整理与记录，本文将记录重读《Reinforcement Learning: An Introduction》这本书时所学到的关键知识点和受到的启发。

阅读全文 »

Keeping Your Distance: Solving Sparse Reward Tasks Using Self-Balancing Shaped Rewards

发表于 2020-03-30 | 更新于: 2020-04-09 | 分类于 ReinforcementLearning

字数统计: 4.1k | 阅读时长 ≈ 15

这篇论文介绍了一个简单有效的model-free方法——Sibling Rivalry(同胞对抗？)，用于解决稀疏奖励问题。该方法特定于“以达到某个目标状态(goal-oriented)”为任务的问题，并且从塑性的距离目标相关奖励(distance-to-goal rewards)中学习。

推荐：

self-balancing 奖励机制
基于奖励函数的创新，比较有趣

阅读全文 »

关于安装一些库的问题

发表于 2020-03-19 | 更新于: 2020-03-19 | 分类于小知识

字数统计: 231 | 阅读时长 ≈ 1

本篇博客主要用以记录在各种环境安装各种库可能会遇到的问题及其解决方案，以便以后应急查询。

阅读全文 »

配置阿里云上的服务器

发表于 2020-01-13 | 更新于: 2020-01-17 | 分类于 Docker

字数统计: 468 | 阅读时长 ≈ 2

本文记录了在阿里云服务器上配置自己训练环境的过程。

阅读全文 »

Keavnn

If it is to be, it is up to me.

GitHub E-Mail

0%