这篇论文将Option-Critic这种端对端的分层强化学习算法推导出随机策略梯度的更新方式。
简介
论文地址:http://arxiv.org/abs/1609.05140
文中精要
$Q_{U}: \mathcal{S} \times \Omega \times \mathcal{A} \rightarrow \mathbb{R}$
这篇论文将Option-Critic这种端对端的分层强化学习算法推导出随机策略梯度的更新方式。
论文地址:http://arxiv.org/abs/1609.05140
$Q_{U}: \mathcal{S} \times \Omega \times \mathcal{A} \rightarrow \mathbb{R}$
本文标题:The Option-Critic Architecture
文章作者:Keavnn
发布时间:2020年04月14日 - 18:04
最后更新:2020年04月14日 - 19:04
原始链接:http://StepNeverStop.github.io/options-critic.html
许可协议: 署名-非商业性使用-相同方式共享 4.0 国际 转载请保留原文链接及作者。
微信
支付宝