On-policy Prediction with Approximation
提出背景
由于某些问题的空间维度可能会很高,直接使用tabular的方法来保存所有信息是不现实的,所以考虑换一种方法来表示价值函数,即使用
均方误差
为了评估近似替代版本的价值函数和原始的价值函数之间的距离,这里提出均方误差
这其中的
SGD和Semi-gradient Methods
SGD 的更新公式
在SGD中,选择直接使用梯度下降的方法来更新参数
但是为了泛用性,这里通常使用样本
半梯度方法
以
半梯度学习方法减小了误差,在梯度下降的学习方法里面,本身的更新会受到weight的影响,导致算出来的不是真正的梯度。
线性方法
线性方法就是使用线性函数来拟合价值函数。即定义:
在使用线性函数的时候,其实可以不使用梯度下降的方法,因为这个时候可以采用最小二乘法求出精确的最优解。
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.