Monte Carlo Methods
提出背景在DP方法中,需要指导转移概率的先验知识,但是一般情况夏是不知道这个概率的,即无法知晓 那么前面的 DP 方法就会失效,那么这里提出一种基于采样的方法来获取相关的信息。蒙特卡洛方法指的是一系列从重复采样中进行估计的方法。在强化学习中,蒙特卡洛方法通过对大量样本的回报进行平均,来进行价值估计。随着收集到的样本越来越多,平均值就会收敛到期望值。MC算法是在每一幕结束之后进行更新的。
关于 visit 访问的定义如果状态 出现在策略 中,每一次出现称为一次 访问 , 第一次访问称为 首次访问
两种MC算法MC算法分为首次访问和每次访问两种,首次访问是只计算每一幕的首次访问的回报,而每次访问则是每一次遇到状态 就进行更新,首次访问的算法流程图如下:去掉关于 的判断就是每次访问的算法了。
利用蒙特卡洛方法估计动作价值如果问题是 Model-unaware 的那么就可以考虑利用蒙特卡洛方法去估计动作-状态价值函数 ,只需要把上面的算法中的 换成 二元组就可以了。
消除初始策略带来的影响为了尽可能多的探索可能的情况,减小策略带来的影响而学习到全局的最优解,通常有 on-pol ...
Dynamic Programming
递推表达式通过之前的定义可以得到一个递推版本的DP状态转移方程:
这里的 代表的是 步,具体的含义是可以通过 次 action 到达这个状态。所以上面的更新就是从 步的价值函数去更新 步的价值函数这里的并不是Bellman 方程,只是递推表达式,算法要求是到最后接近满足Bellman方程
注意,这里的更新是和策略 有关的,是在策略确定的情况下,通过更新的方式来确定真正的状态价值函数。
具体的算法如图:
在递推的过程中改进策略在迭代的过程中,如果已知策略 的价值函数 希望知道在某个状态 下选择一个不同于 的动作 是否会带来改善,这种策略的价值为:如果上面的式子的值大于目前的状态价值函数 那么就更新此时的策略为
而由于所有的策略的状态价值函数存在偏序关系,也就是说存在 upper bound 那么就可以利用这一点证明,每次取贪心的策略 即$$\pi’ = \mathop{argmax}a q_\pi(s,a) = \mathop{argmax}a \mathbb E[R{t + 1} + \gamma v_\pi (S{t +1}) | S_t = s ...
Finite Markov Decision
马尔科夫模型中与环境交互的定义Agent做出动作 后,Environment会反馈一个状态 和一个奖励 给到Agent,而Agent的目标还是最大化奖励之和
有限马尔科夫决策过程的规定在有限马尔科夫决策过程中,所有的 states,actions,rewards 的集合都是有限的,而随机变量 和 被定义为仅仅依靠前面一次的state和action 的离散的概率分布,即只有上一次的状态和选择会影响当前的状态和奖励。
转移函数定义转移函数 :转移函数 是一个确定性的函数,即在同一个马尔科夫随机过程中,这个函数是不会发生变化的
该函数有如下的性质:
奖励期望的定义在MDP中,奖励的期望被定义为
如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标,例如如果是训练围棋,那么奖励应该设置为获得胜利,只有获得胜利的时候才会得到1的奖励,不能设置为吃子,这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。
两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode 那么就可以得到一个终结状 ...
Tabular Solution Methods
Basic idea基本想法是在状态空间和可能的行动空间都足够小的情况下(能够通过表格或者是数列存下的情况下),通常能够找到精确解
多臂老虎机(k-armed bandit problem)问题描述现在有 k 种选择,每次可以从 k 种选择种选择一个,每种选择给出的奖励都是基于一个未知但是确定的分布的,学习的目标是在有限的次数中最大化所有的奖励的和。
符号定义
: 在 时刻选择的动作
: 对应的reward
: 在该时刻动作 的 value:
: 在时刻 估计的动作 的 value
样本均值法此时对于动作 的估计是:$$Q_t(a) = \frac{\mathrm{在t时刻之前采取动作a获得的奖励之和}}{在t时刻之前采取动作a的次数} = \frac{\sum_{i = 1}^{t - 1}\limits R_i \cdot \mathbb{1}{A_i = a}}{\sum{i = 1}^{t - 1}\limits \mathbb{1}{A_i = a}}$$这里的 $\mathbb{1}{A_i = a}$ 是指示函数,在相等时取1否则为0
那么每次的决策 ...
Introduction to reinforcement learning
Introduction强化学习的基本思想是从与环境的互动中学习,与其他学习方式最大的两个区别就是:
trial-and-error search
delayed reward
基本元素
policy
reward signal
value function
a model of environment
policy指agent每次在特定的时间下选择action的策略
reward signal指的是整个强化学习的目标,每一次做出决策之后,环境都会给予一个反馈,这里的reward signal是及时反馈
value function这里的value function是长期的反馈,是用于衡量一个决策的长期收益的。
value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的,只有有reward才能衡量value
Modelmodel是用来模拟环境变化的,是用来做计划的,强化学习算法可以分为model-based和model-free的
Optimization Problems
SOCP问题![[image/Pasted image 20231116141755.png]]
Robust Linear Programming![[image/Pasted image 20231116141315.png]]问题:
这里有无穷个约束,并且不可明确写出到底是哪些约束
所以这个就不是一个线性规划问题了解决方法:
取出上确界即可![[image/Pasted image 20231116141551.png]]后面那个是由于同方向的时候整个内积取最大值最后可以化成一个SOCP问题![[image/Pasted image 20231116141659.png]]
Geometric ProgrammingMonomial Function(单项式)![[image/Pasted image 20231116141938.png]]
Posynomial Function(正项式)![[image/Pasted image 20231116142008.png]]
GP问题(几何优化问题)![[image/Pasted image 20231116142059.pn ...
常见公式
和与差的分布和的分布函数公式被称之为卷积公式:
设 为二维随机变量,其联合密度为 求 的密度函数 :
有按照 形区域积分,有做变量替换,令 有所以有
商与积的分布设 则设 则下面给出一个乘法的证明求导得
min 和 max 的分布令 , 那么他们的分布函数为注意,这里只能用分布函数来做运算,不能直接通过密度函数得出对应点的密度
同理
Expectation
带函数的期望一维形式设 是随机变量 的韩云 ,( 连续)
若 是离散型,分布律为 那么若 收敛那么变量 的数学期望为
若 是连续行随机变量,其密度函数为 若对应的级数是绝对收敛的,那么有
二维形式设随机变量 的函数 是一个随机变量,那么
若 是离散型随机变量,那么有
若 为连续性随机变量,那么有
做题技巧如何处理带最小值的期望例如习题4.9 带最小值的期望不好用每一个部分的贡献加起来求,因为每一个部分的贡献是不确定的,最好的方式是求出最小值 的变量 的概率,然后直接用 求
而这道题里面最重要的就是 的密度函数怎么求,应该先求分布函数。而 有变量小于 这里的 的变量 的分布函数
求出之后再求导即可得到密度函数
如何处理多个事件共同决定的变量的期望拆分成多个事件,直接求各个事件的期望的和
Common probability distributions in two dimension
离散型二维联合分布三项分布若二维离散型随机变量 的分布律是其中 且 记为
三项分布是二项分布的拓展形式:![[Common probability distributions in one dimension#二项分布]]
二维超几何分布若二维变量 的分布律满足其中 而 则称其符合二维超几何分布
二维超几何分布是一维的拓展 ![[Common probability distributions in one dimension#超几何分布]]
连续性随机变量二维联合分布二维均匀分布设 为平面有界区域,其面积是 则二维变量 满足其他可以看做是一维的均匀分布变成了平面![[Common probability distributions in one dimension#均匀分布]]
二维正态分布若二维变量 的联合密度满足则称其满足二维正态分布
如何记忆:考虑一维的形式,二维相当于是带上了相关系数之后的两个一维乘到一起,再加上交叉项
![[Common probability distributions in one dimension#正态分布]]
Common probability distributions in one dimension
泊松定理设 是正整数, 是常数,则对于任意的正整数 有
对于公式的理解:这里的 可以理解为期望,即整个事件发生的平均值泊松定理表明了,在重复次数足够多的情况下,二项分布的分布率趋向泊松分布
离散型随机变量0-1 分布若随机变量 的可能取值只有 ,且那么就称其为 0-1 分布
二项分布若随机变量 的分布律满足且其中的 那么称 满足服从参数 的二项分布,记为
容易发现,在 的时候退化为 0-1 分布二项分布的概率意义是在n次独立实验(放回)中,事件出现k次的概率
泊松分布若随机变量 满足其中的 为常数,则称变量 服从泊松分布,记为
注意,这里的 k 的可能取值是从0开始的泊松分布的 可以认为是事件的期望,即平均值泊松分布刻画的是在平均值为 的情况下,变量出现小概率事件 的概率
几何分布如果随机变量 的分布律满足其中 那么称变量 服从参数为 的几何分布,记作
几何分布描述的是单次实验概率为 的事件在前 次不发生,在第 次发生的概率
几何分布的无记忆性无记忆性的概率表达式是
超几何分布假定在 N 件产品中有M件不合格品 ...