Introduction to reinforcement learning
Introduction
强化学习的基本思想是从与环境的互动中学习,与其他学习方式最大的两个区别就是:
- trial-and-error search
- delayed reward
基本元素
- policy
- reward signal
- value function
- a model of environment
policy
指agent
每次在特定的时间下选择action
的策略
reward signal
指的是整个强化学习的目标,每一次做出决策之后,环境都会给予一个反馈,这里的reward signal
是及时反馈
value function
这里的value function
是长期的反馈,是用于衡量一个决策的长期收益的。
value
的定义是指未来获得的奖励(reward
)的总和的期望。value
是基于reward
的,只有有reward
才能衡量value
Model
model
是用来模拟环境变化的,是用来做计划的,强化学习算法可以分为model-based
和model-free
的
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.