本文是对HER“事后”经验池机制的一个扩展，它结合了物理学的能量知识以及优先经验回放PER对HER进行提升。简称：EBP

简介

论文地址：https://arxiv.org/pdf/1810.01363.pdf

这篇论文由慕尼黑大学博三学生赵瑞和他的导师Volker Tresp发于2018年的CoRL会议。

本文提出了一个简单高效的、基于能量的方法去优先回放“事后经验”。Energy+HER+PER

在HER中，智能体从它可完成的“虚拟”目标中进行大量学习，虚拟目标就是我们使用“事后诸葛亮”方法所调整的经验中的目标。

本文针对原始HER提出了一个稍有不足的地方：经验回放是完全随机的，即没有优先级，没有考虑哪些episode哪些经验对学习更有价值，其实这个问题与PER相对于传统经验池机制也是一样的。

本文中使用的功能定理（work-energy principle）来计算能量。

文中精要

相比于传统的PER优先经验回放使用TD-error作为衡量优先级的度量，本文中使用“迹能量”作为其度量。

迹能量是这么定义的：

We define a trajectory energy function as the sum of the transition energy of the target object over the trajectory.
迹能量是一个episode中transition energy（不知道怎么翻译合适，过渡能量？经验能量？转换能量？）的总和

接下来介绍一下能量在本文中是如何体现的。

经验能量差 Transition Energy

我就直接拿论文中实验场景所用到的能力来说明这个能量差。简言之，在本文的实验中主要是操作机械手臂移动物体的水平位置和垂直高度，所以物体的能量基本包含三种：

势能 Potential Energy $E_{p}(s_{t})$
动能 Kinetic Energy $E_{k}(s_{t})$
转动能，也叫角动能 Rotational Energy $E_{r}(s_{t})$

一个物体的能量由这三部分之和组成：

$E\left(s_{t}\right)=E_{p}\left(s_{t}\right)+E_{k}\left(s_{t}\right)+E_{r}\left(s_{t}\right)$

经验能量差指的就是相邻状态转移之间的能量差值，表示为：

$E_{t r a n}\left(s_{t-1}, s_{t}\right)=\operatorname{clip}\left(E\left(s_{t}\right)-E\left(s_{t-1}\right), 0, E_{t r a n}^{\max }\right)$

其中，

将差值clip到0是因为我们只对由机器人做功导致物体的能量增值感兴趣
将差值clip到$E_{t r a n}^{\max }$是想减缓某些特别大的能量差值的影响，使训练更稳定

注：其实我觉得文中加这个clip操作完全是想多使用一个trick，让文章看起来更饱满一点，我个人认为不使用这个clip，或者只对下界进行clip，对算法性能是没有影响的。有待验证。

势能 Potential Energy

物理学中学过，物体的重力势能公式为：$E=mgh$

本文中这样书写：

$E_{p}(s_{t})=mgz_{t}$

$m$代表物体的质量
$g$代表地球的重力系数，$g \approx 9.81 \mathrm{m} / \mathrm{s}^{2}$
$z_{t}$代表物体在$t$时刻的高度$h$

动能 Kinetic Energy

物理学中学过，物体的动能公式为：

$E=\frac{1}{2} mv^{2}=\frac{1}{2} m\left [ \frac{\sqrt{v_{x}^{2}+v_{y}^{2}+v_{z}^{2}}}{\Delta t} \right ]^{2}$

本文中这样书写：

$E_{k}\left(s_{t}\right)=\frac{1}{2} m v_{x, t}^{2}+\frac{1}{2} m v_{y, t}^{2}+\frac{1}{2} m v_{z, t}^{2} \approx \frac{m\left(\left(x_{t}-x_{t-1}\right)^{2}+\left(y_{t}-y_{t-1}\right)^{2}+\left(z_{t}-z_{t-1}\right)^{2}\right)}{2 \Delta t^{2}}$

$v_{x, t} \approx\left(x_{t}-x_{t-1}\right) / \Delta t$
$v_{y, t} \approx\left(y_{t}-y_{t-1}\right) / \Delta t$
$v_{z, t} \approx\left(z_{t}-z_{t-1}\right) / \Delta t$
$\Delta t$表示相邻两个状态之间的时间间隔，假设我们在模拟器中，1秒60帧，即每帧16.67ms，我们如果每帧执行一次动作，那么$\Delta t=16.67ms$，如果每60帧执行一次动作，那么$\Delta t=1s$

转动能 Rotational Energy

物理学中学过，物体的转动能公式为：$K=\frac{1}{2} I \cdot \omega^{2}$，注意，中间的点代表点乘，$I$代表物体的惯性矩，$\omega$代表物体的角速度

本文中这样书写：

$\left[ \begin{array}{c}{\phi} \\ {\theta} \\ {\psi}\end{array}\right]=\left[ \begin{array}{c}{\arctan \frac{2(a b+c d)}{1-2\left(b^{2}+c^{2}\right)}} \\ {\arcsin (2(a c-d b))} \\ {\arcsin \frac{2(a d+b c)}{1-2\left(c^{2}+d^{2}\right)}}\end{array}\right]=\left[ \begin{array}{c}{\operatorname{atan} 2\left(2(a b+c d), 1-2\left(b^{2}+c^{2}\right)\right)} \\ {\operatorname{asin}(2(a c-d b))} \\ {\operatorname{atan} 2\left(2(a d+b c), 1-2\left(c^{2}+d^{2}\right)\right)}\end{array}\right]$ $E_{r}\left(s_{t}\right)=\frac{1}{2} I_{x} \omega_{x, t}^{2}+\frac{1}{2} I_{y} \omega_{y, t}^{2}+\frac{1}{2} I_{z} \omega_{z, t}^{2} \approx \frac{I_{x}\left(\phi_{t}-\phi_{t-1}\right)^{2}+I_{y}\left(\theta_{t}-\theta_{t-1}\right)^{2}+I_{z}\left(\psi_{t}-\psi_{t-1}\right)^{2}}{2 \Delta t^{2}}$

其中$a,b,c,d$为旋转四元组，其知识可以百度或google自行了解。

$q=a+b \imath+c \jmath+d k$

$\phi, \theta, \psi$代表$x,y,z$轴方向的旋转角度

$\omega_{x, t} \approx\left(\phi_{t}-\phi_{t-1}\right) / \Delta_{t}$
$\omega_{y, t} \approx\left(\theta_{t}-\theta_{t-1}\right) / \Delta_{t}$
$\omega_{z, t} \approx\left(\psi_{t}-\psi_{t-1}\right) / \Delta_{t}$
$\Delta t$与上文解释相同

$m,I_{x},I_{y},I_{z}$可以设置为常量，本文实验中设置$m=I_{x}=I_{y}=I_{z}=1$

迹能量 Trajectory Energy

给定一个回合中所有的经验能量差，迹能量可以表示为这个回合中所有经验能量差之和：

$E_{t r a j}(\mathcal{T})=E_{t r a j}\left(s_{0}, s_{1}, \ldots, s_{T}\right)=\sum_{t=1}^{T} E_{t r a n}\left(s_{t-1}, s_{t}\right)$

基于能量的优先级

首先计算迹能量，然后对迹能量高的迹（episode）优先进行回放。

根据迹能量计算迹的优先级为：

$p\left(\mathcal{T}_{i}\right)=\frac{E_{t r a j}\left(\mathcal{T}_{i}\right)}{\sum_{n=1}^{N} E_{t r a j}\left(\mathcal{T}_{n}\right)}$

$N$代表经验池中迹的总数量

伪代码

解析：

以本文实验为例，状态$s$由七元组$\left[x_{t}, y_{t}, z_{t}, a_{t}, b_{t}, c_{t}, d_{t}\right]$表示，其中前三个代表物体的位置，后三个代表物体旋转的四元组。
目标$g$与状态$s$的表示相同
$||$操作符为连结的意思，即tf.concat(a,b)
向经验池中存入的不仅仅有$(s,a,r,s’)$，还有优先级$p$与迹能量$E_{traj}$，其实我感觉这样很多余，如果使用sum-tree结构的，存其一即可
文中所使用的HER是future模式

注意：

我认为伪代码中有两行很有问题，即

我不明白为什么把原始经验$\left(s_{t}\left|g, a_{t}, r_{t}, s_{t+1}\right| g, p, E_{t r a j}\right)$存入经验池之后，需要根据优先级采样一个迹，再从采样到的迹中采样出一个经验$\left(s_{t}, a_{t}, s_{t+1}\right)$

起初我是这么认为的，它想对经验池中迹能量高的episode进行大概率抽取，并对其中的经验进行多次扩充，由此对迹能量小的episode更加忽视，突出迹能量高的episode

但是，看到下一行我有一个疑问：如果根据优先级采样出的迹$\mathcal{T}$与当前所操作的迹$\mathcal{T}_{current}$不同，那么，为什么还要为不同迹中的经验存入相同的优先级和迹能量呢？即$\left(s_{t}\left|g^{\prime}, a_{t}, r_{t}^{\prime}, s_{t+1}\right| g^{\prime}, p, E_{t r a j}\right)$