从动作优势函数说起

首先回顾一下动作优势函数,即:

这里的优势表示的是在状态 下面选择动作 比选择平均动作的优势

援引一张从知乎文章知乎-TRPO中的图:

TRPO起始式的推导

TRPO的起点是表达式

这里就给出了在策略 的基础上通过采样 来计算 累计回报的优势的计算方法
下面来证明这个式子

引入折扣访问频率

定义

那么 式可以写成:

最后一步是交换求和顺序,先对 求和,剩下的就是定义了

Skill one

TRPO的第一个技巧是,每次更新的策略是临近的,换言之 的距离是不远的,因此可以直接近似替代,换个写法,那么 式直接可以改写为: