本文主要介绍常用的几种优势函数的估计方式,首先定义一下本文讨论的优势函数,即:

可以理解为,在状态 的情况下,采用动作 比平均动作能获得多少优势。

蒙特卡洛方法(MC方法)

蒙特卡洛方法非常朴素,但是并不实用。即,在一个回合结束之后,再根据公式

算出 ,然后再用公式

直接用 来表示 ,从而估计出最终的优势函数

这种方法的好处是,这是无偏估计,但是方差比较大,并且在online的时候无法做

TD方法

这个方法只需要一个值函数,使用如下方法来做估计:

这相当于是使用 来估计 ,当然这就是有偏的了,不过这个方法的方差比上面的小。

A2C方法(这个方法是不是A2C笔者没有Check过)

这个方法比TD的改进是,使用两个