提出背景

由于某些问题的空间维度可能会很高,直接使用tabular的方法来保存所有信息是不现实的,所以考虑换一种方法来表示价值函数,即使用 来近似替代原来的状态价值函数

均方误差

为了评估近似替代版本的价值函数和原始的价值函数之间的距离,这里提出均方误差 其定义为:

这其中的 是状态的分布,是状态 出现的概率

SGD和Semi-gradient Methods

SGD 的更新公式

在SGD中,选择直接使用梯度下降的方法来更新参数 ,其更新公式如下:

但是为了泛用性,这里通常使用样本 来代替真正的价值函数 例如 可能是带有噪声的版本或者直接采样取到的样本,基于蒙特卡洛的随机梯度下降流程图如下:

半梯度方法

为学习目标,其更新公式是:

半梯度学习方法减小了误差,在梯度下降的学习方法里面,本身的更新会受到weight的影响,导致算出来的不是真正的梯度。

线性方法

线性方法就是使用线性函数来拟合价值函数。即定义:

在使用线性函数的时候,其实可以不使用梯度下降的方法,因为这个时候可以采用最小二乘法求出精确的最优解。