TRPO
从动作优势函数说起
首先回顾一下动作优势函数,即:
这里的优势表示的是在状态
援引一张从知乎文章知乎-TRPO中的图:
TRPO起始式的推导
TRPO的起点是表达式
这里就给出了在策略
下面来证明这个式子
引入折扣访问频率
定义
那么
最后一步是交换求和顺序,先对
Skill one
TRPO的第一个技巧是,每次更新的策略是临近的,换言之
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.