If it is to be, it is up to me.

Emergence of Locomotion Behaviours in Rich Environments

发表于 2020-04-11 | 更新于: 2020-04-11 | 分类于 ReinforcementLearning

字数统计: 63 | 阅读时长 ≈ 1

这篇论文主要提出了DPPO——Distributed PPO。

作者提到PG算法通常具有高方差，而且策略对于超参数的选择十分敏感。很多种方法

-------------本文结束感谢您的阅读-------------

文章作者:Keavnn

发布时间:2020年04月11日 - 12:04

最后更新:2020年04月11日 - 14:04

如果您获得了帮助，也可以资助一下小的啦~

Keavnn

If it is to be, it is up to me.

GitHub E-Mail