Introduction

强化学习的基本思想是从与环境的互动中学习,与其他学习方式最大的两个区别就是:

  • trial-and-error search
  • delayed reward

基本元素

  • policy
  • reward signal
  • value function
  • a model of environment

policy

agent每次在特定的时间下选择action的策略

reward signal

指的是整个强化学习的目标,每一次做出决策之后,环境都会给予一个反馈,这里的reward signal是及时反馈

value function

这里的value function是长期的反馈,是用于衡量一个决策的长期收益的。

value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的,只有有reward才能衡量value

Model

model是用来模拟环境变化的,是用来做计划的,强化学习算法可以分为model-basedmodel-free