avatar
Articles
94
Tags
53
Categories
34

Home
Archives
Tags
Categories
Link
About
Blogs
Home
Archives
Tags
Categories
Link
About

Blogs

Temporal-Difference Learning
Created2024-03-06|reinforcement_learning
TD-预测在蒙特卡洛方法中,对于 every-visit 的蒙特卡洛方法,可以给出一个递推的更新公式:这个式子里面的 必须在一幕结束之后才能计算出来,所以在一幕中学不到任何信息。 而 的定义是:如果使用 来估算 的话,那么有带入有注意到这里的式子里面已经没有东西需要在一个幕结束之后才能算出来,那么就得到了一个只需要一步的时序差分方法,称为 或单步 算法如图所示: TD-Error定义 TD-error 为:那么式 可以写为 蒙特卡洛误差可以被写成 TD-Error 的形式: Sarsa方法前面给出了状态价值函数的更新公式,但是在实际做出决策的时候,动作价值函数是更为实用的选择,所以这里给出动作价值函数的更新公式:这里的公式中同样不含有任何需要一个episode结束才能算出来的东西,所以可以动态更新。 On-policy的时序差分方法在给定策略 的情况下,可以根据公式 来更新动作价值函数,并且更新 来逼近最优的策略。算法如图: Q-Learning —— Off-Policy 的时序差分方法定义更新公式:Q-Learning已经证明是不依赖初始策略,以概率为1去逼 ...
Monte Carlo Methods
Created2024-03-05|reinforcement_learning
提出背景在DP方法中,需要指导转移概率的先验知识,但是一般情况夏是不知道这个概率的,即无法知晓 那么前面的 DP 方法就会失效,那么这里提出一种基于采样的方法来获取相关的信息。蒙特卡洛方法指的是一系列从重复采样中进行估计的方法。在强化学习中,蒙特卡洛方法通过对大量样本的回报进行平均,来进行价值估计。随着收集到的样本越来越多,平均值就会收敛到期望值。MC算法是在每一幕结束之后进行更新的。 关于 visit 访问的定义如果状态 出现在策略 中,每一次出现称为一次 访问 , 第一次访问称为 首次访问 两种MC算法MC算法分为首次访问和每次访问两种,首次访问是只计算每一幕的首次访问的回报,而每次访问则是每一次遇到状态 就进行更新,首次访问的算法流程图如下:去掉关于 的判断就是每次访问的算法了。 利用蒙特卡洛方法估计动作价值如果问题是 Model-unaware 的那么就可以考虑利用蒙特卡洛方法去估计动作-状态价值函数 ,只需要把上面的算法中的 换成 二元组就可以了。 消除初始策略带来的影响为了尽可能多的探索可能的情况,减小策略带来的影响而学习到全局的最优解,通常有 on-pol ...
Dynamic Programming
Created2024-03-03|reinforcement_learning
递推表达式通过之前的定义可以得到一个递推版本的DP状态转移方程: 这里的 代表的是 步,具体的含义是可以通过 次 action 到达这个状态。所以上面的更新就是从 步的价值函数去更新 步的价值函数这里的并不是Bellman 方程,只是递推表达式,算法要求是到最后接近满足Bellman方程 注意,这里的更新是和策略 有关的,是在策略确定的情况下,通过更新的方式来确定真正的状态价值函数。 具体的算法如图: 在递推的过程中改进策略在迭代的过程中,如果已知策略 的价值函数 希望知道在某个状态 下选择一个不同于 的动作 是否会带来改善,这种策略的价值为:如果上面的式子的值大于目前的状态价值函数 那么就更新此时的策略为 而由于所有的策略的状态价值函数存在偏序关系,也就是说存在 upper bound 那么就可以利用这一点证明,每次取贪心的策略 即$$\pi’ = \mathop{argmax}a q_\pi(s,a) = \mathop{argmax}a \mathbb E[R{t + 1} + \gamma v_\pi (S{t +1}) | S_t = s ...
Finite Markov Decision
Created2024-03-02|reinforcement_learning
马尔科夫模型中与环境交互的定义Agent做出动作 后,Environment会反馈一个状态 和一个奖励 给到Agent,而Agent的目标还是最大化奖励之和 有限马尔科夫决策过程的规定在有限马尔科夫决策过程中,所有的 states,actions,rewards 的集合都是有限的,而随机变量 和 被定义为仅仅依靠前面一次的state和action 的离散的概率分布,即只有上一次的状态和选择会影响当前的状态和奖励。 转移函数定义转移函数 :转移函数 是一个确定性的函数,即在同一个马尔科夫随机过程中,这个函数是不会发生变化的 该函数有如下的性质: 奖励期望的定义在MDP中,奖励的期望被定义为 如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标,例如如果是训练围棋,那么奖励应该设置为获得胜利,只有获得胜利的时候才会得到1的奖励,不能设置为吃子,这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。 两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode 那么就可以得到一个终结状 ...
Tabular Solution Methods
Created2024-02-28|reinforcement_learning
Basic idea基本想法是在状态空间和可能的行动空间都足够小的情况下(能够通过表格或者是数列存下的情况下),通常能够找到精确解 多臂老虎机(k-armed bandit problem)问题描述现在有 k 种选择,每次可以从 k 种选择种选择一个,每种选择给出的奖励都是基于一个未知但是确定的分布的,学习的目标是在有限的次数中最大化所有的奖励的和。 符号定义 : 在 时刻选择的动作 : 对应的reward : 在该时刻动作 的 value: : 在时刻 估计的动作 的 value 样本均值法此时对于动作 的估计是:$$Q_t(a) = \frac{\mathrm{在t时刻之前采取动作a获得的奖励之和}}{在t时刻之前采取动作a的次数} = \frac{\sum_{i = 1}^{t - 1}\limits R_i \cdot \mathbb{1}{A_i = a}}{\sum{i = 1}^{t - 1}\limits \mathbb{1}{A_i = a}}$$这里的 $\mathbb{1}{A_i = a}$ 是指示函数,在相等时取1否则为0 那么每次的决策 ...
Introduction to reinforcement learning
Created2024-02-28|reinforcement_learning
Introduction强化学习的基本思想是从与环境的互动中学习,与其他学习方式最大的两个区别就是: trial-and-error search delayed reward 基本元素 policy reward signal value function a model of environment policy指agent每次在特定的时间下选择action的策略 reward signal指的是整个强化学习的目标,每一次做出决策之后,环境都会给予一个反馈,这里的reward signal是及时反馈 value function这里的value function是长期的反馈,是用于衡量一个决策的长期收益的。 value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的,只有有reward才能衡量value Modelmodel是用来模拟环境变化的,是用来做计划的,强化学习算法可以分为model-based和model-free的
Optimization Problems
Created2023-11-16|Optimization
SOCP问题![[image/Pasted image 20231116141755.png]] Robust Linear Programming![[image/Pasted image 20231116141315.png]]问题: 这里有无穷个约束,并且不可明确写出到底是哪些约束 所以这个就不是一个线性规划问题了解决方法: 取出上确界即可![[image/Pasted image 20231116141551.png]]后面那个是由于同方向的时候整个内积取最大值最后可以化成一个SOCP问题![[image/Pasted image 20231116141659.png]] Geometric ProgrammingMonomial Function(单项式)![[image/Pasted image 20231116141938.png]] Posynomial Function(正项式)![[image/Pasted image 20231116142008.png]] GP问题(几何优化问题)![[image/Pasted image 20231116142059.pn ...
常见公式
Created2023-11-02|Probability_Theory
和与差的分布和的分布函数公式被称之为卷积公式: 设 为二维随机变量,其联合密度为 求 的密度函数 : 有按照 形区域积分,有做变量替换,令 有所以有 商与积的分布设 则设 则下面给出一个乘法的证明求导得 min 和 max 的分布令 , 那么他们的分布函数为注意,这里只能用分布函数来做运算,不能直接通过密度函数得出对应点的密度 同理
Expectation
Created2023-10-30|Probability_Theory
带函数的期望一维形式设 是随机变量 的韩云 ,( 连续) 若 是离散型,分布律为 那么若 收敛那么变量 的数学期望为 若 是连续行随机变量,其密度函数为 若对应的级数是绝对收敛的,那么有 二维形式设随机变量 的函数 是一个随机变量,那么 若 是离散型随机变量,那么有 若 为连续性随机变量,那么有 做题技巧如何处理带最小值的期望例如习题4.9 带最小值的期望不好用每一个部分的贡献加起来求,因为每一个部分的贡献是不确定的,最好的方式是求出最小值 的变量 的概率,然后直接用 求 而这道题里面最重要的就是 的密度函数怎么求,应该先求分布函数。而 有变量小于 这里的 的变量 的分布函数 求出之后再求导即可得到密度函数 如何处理多个事件共同决定的变量的期望拆分成多个事件,直接求各个事件的期望的和
Common probability distributions in two dimension
Created2023-10-29|Probability_Theory
离散型二维联合分布三项分布若二维离散型随机变量 的分布律是其中 且 记为 三项分布是二项分布的拓展形式:![[Bachelor/Probability Theory/Common probability distributions in one dimension#二项分布]] 二维超几何分布若二维变量 的分布律满足其中 而 则称其符合二维超几何分布 二维超几何分布是一维的拓展 ![[Bachelor/Probability Theory/Common probability distributions in one dimension#超几何分布]] 连续性随机变量二维联合分布二维均匀分布设 为平面有界区域,其面积是 则二维变量 满足其他可以看做是一维的均匀分布变成了平面![[Bachelor/Probability Theory/Common probability distributions in one dimension#均匀分布]] 二维正态分布若二维变量 的联合密度满足则称其满足二维正态分布 如何记忆:考虑一维的形式,二维相当于是带上了相关系数之 ...
1…567…10
avatar
Eric Li
Articles
94
Tags
53
Categories
34
Follow Me
Announcement
The blog is now under construction
Recent Post
ecole环境安装指南2025-10-27
No title2025-10-26
Python Package Managers2025-10-26
Hydra | python参数配置包2025-06-05
arXiv:1704.01665v4 | Learning Combinatorial Optimization Algorithms over Graphs | NCO论文阅读2025-05-23
Categories
  • AI1
  • Algorithm2
  • Article_Reading1
    • reinforcement_learning1
  • CV1
  • Cryptology5
  • DB3
  • Diffusion1
Tags
InformationTheory notes gitlab-ci server RBT B树 cmake RegularExpression Probability_Theory tools Hydra config DB termux ssl RL Math frp Diffusion git Others co Article OS UV VSCode Cryptology IRL Optimization Network Transformer m路搜索树 Algorithm MySQL CV cpp SQL fla certbot latex
Archives
  • October 20253
  • June 20251
  • May 20251
  • March 20252
  • January 20253
  • December 20245
  • November 20249
  • October 20248
Info
Article :
94
UV :
PV :
Last Push :
©2023 - 2025 By Eric Li
Framework Hexo|Theme Butterfly
蜀ICP备2023025661号-1