Blogs

Created2024-03-02|reinforcement_learning

马尔科夫模型中与环境交互的定义Agent做出动作后，Environment会反馈一个状态和一个奖励给到Agent，而Agent的目标还是最大化奖励之和有限马尔科夫决策过程的规定在有限马尔科夫决策过程中，所有的 states,actions,rewards 的集合都是有限的，而随机变量和被定义为仅仅依靠前面一次的state和action 的离散的概率分布，即只有上一次的状态和选择会影响当前的状态和奖励。转移函数定义转移函数 :转移函数是一个确定性的函数，即在同一个马尔科夫随机过程中，这个函数是不会发生变化的该函数有如下的性质：奖励期望的定义在MDP中，奖励的期望被定义为如何确定合理的奖励这里的奖励应该设置成为学习的额最终目标，例如如果是训练围棋，那么奖励应该设置为获得胜利，只有获得胜利的时候才会得到1的奖励，不能设置为吃子，这样训练的结果会变成一个以吃子为目标而不是以获胜为目标的算法。两种不同的任务类型可以分成 episode 的如果 agent 与 environment 的交互可以自然地分成多个 episode...

Tabular Solution Methods

Created2024-02-28|reinforcement_learning

Basic idea基本想法是在状态空间和可能的行动空间都足够小的情况下（能够通过表格或者是数列存下的情况下），通常能够找到精确解多臂老虎机(k-armed bandit problem)问题描述现在有 k 种选择，每次可以从 k 种选择种选择一个，每种选择给出的奖励都是基于一个未知但是确定的分布的，学习的目标是在有限的次数中最大化所有的奖励的和。符号定义 : 在时刻选择的动作 : 对应的reward : 在该时刻动作的 value： : 在时刻估计的动作的 value 样本均值法此时对于动作的估计是：$$Q_t(a) = \frac{\mathrm{在t时刻之前采取动作a获得的奖励之和}}{在t时刻之前采取动作a的次数} = \frac{\sum_{i = 1}^{t - 1}\limits R_i \cdot \mathbb{1}{A_i = a}}{\sum{i = 1}^{t - 1}\limits \mathbb{1}{A_i = a}}$$这里的 $\mathbb{1}{A_i = a}$...

Introduction to reinforcement learning

Created2024-02-28|reinforcement_learning

Introduction强化学习的基本思想是从与环境的互动中学习，与其他学习方式最大的两个区别就是： trial-and-error search delayed reward 基本元素 policy reward signal value function a model of environment policy指agent每次在特定的时间下选择action的策略 reward signal指的是整个强化学习的目标，每一次做出决策之后，环境都会给予一个反馈，这里的reward signal是及时反馈 value function这里的value function是长期的反馈，是用于衡量一个决策的长期收益的。 value的定义是指未来获得的奖励(reward)的总和的期望。value是基于reward的，只有有reward才能衡量value Modelmodel是用来模拟环境变化的，是用来做计划的，强化学习算法可以分为model-based和model-free的

Optimization Problems

Created2023-11-16|Optimization

SOCP问题![[image/Pasted image 20231116141755.png]] Robust Linear Programming![[image/Pasted image 20231116141315.png]]问题：这里有无穷个约束，并且不可明确写出到底是哪些约束所以这个就不是一个线性规划问题了解决方法：取出上确界即可![[image/Pasted image 20231116141551.png]]后面那个是由于同方向的时候整个内积取最大值最后可以化成一个SOCP问题![[image/Pasted image 20231116141659.png]] Geometric ProgrammingMonomial Function（单项式）![[image/Pasted image 20231116141938.png]] Posynomial Function（正项式）![[image/Pasted image 20231116142008.png]] GP问题（几何优化问题）![[image/Pasted image...

常见公式

Created2023-11-02|Probability_Theory

和与差的分布和的分布函数公式被称之为卷积公式：设为二维随机变量，其联合密度为求的密度函数：有按照形区域积分，有做变量替换，令有所以有商与积的分布设则设则下面给出一个乘法的证明求导得 min 和 max 的分布令，那么他们的分布函数为注意，这里只能用分布函数来做运算，不能直接通过密度函数得出对应点的密度同理

Expectation

Created2023-10-30|Probability_Theory

带函数的期望一维形式设是随机变量的韩云，（连续）若是离散型，分布律为那么若收敛那么变量的数学期望为若是连续行随机变量，其密度函数为若对应的级数是绝对收敛的，那么有二维形式设随机变量的函数是一个随机变量，那么若是离散型随机变量，那么有若为连续性随机变量，那么有做题技巧如何处理带最小值的期望例如习题4.9 带最小值的期望不好用每一个部分的贡献加起来求，因为每一个部分的贡献是不确定的，最好的方式是求出最小值的变量的概率，然后直接用求而这道题里面最重要的就是的密度函数怎么求，应该先求分布函数。而有变量小于这里的的变量的分布函数求出之后再求导即可得到密度函数如何处理多个事件共同决定的变量的期望拆分成多个事件，直接求各个事件的期望的和

Common probability distributions in two dimension

Created2023-10-29|Probability_Theory

离散型二维联合分布三项分布若二维离散型随机变量的分布律是其中且记为三项分布是二项分布的拓展形式:![[Common probability distributions in one dimension#二项分布]] 二维超几何分布若二维变量的分布律满足其中而则称其符合二维超几何分布二维超几何分布是一维的拓展 ![[Common probability distributions in one dimension#超几何分布]] 连续性随机变量二维联合分布二维均匀分布设为平面有界区域，其面积是则二维变量满足其他可以看做是一维的均匀分布变成了平面![[Common probability distributions in one dimension#均匀分布]] 二维正态分布若二维变量的联合密度满足则称其满足二维正态分布如何记忆:考虑一维的形式，二维相当于是带上了相关系数之后的两个一维乘到一起，再加上交叉项 ![[Common probability distributions in one dimension#正态分布]]

Common probability distributions in one dimension

Created2023-10-29|Probability_Theory

泊松定理设是正整数，是常数，则对于任意的正整数有对于公式的理解:这里的可以理解为期望，即整个事件发生的平均值泊松定理表明了，在重复次数足够多的情况下，二项分布的分布率趋向泊松分布离散型随机变量0-1 分布若随机变量的可能取值只有，且那么就称其为 0-1 分布二项分布若随机变量的分布律满足且其中的那么称满足服从参数的二项分布，记为容易发现，在的时候退化为 0-1 分布二项分布的概率意义是在n次独立实验（放回）中，事件出现k次的概率泊松分布若随机变量满足其中的为常数，则称变量服从泊松分布，记为注意，这里的 k 的可能取值是从0开始的泊松分布的可以认为是事件的期望，即平均值泊松分布刻画的是在平均值为的情况下，变量出现小概率事件的概率几何分布如果随机变量的分布律满足其中那么称变量服从参数为的几何分布，记作几何分布描述的是单次实验概率为的事件在前次不发生，在第次发生的概率几何分布的无记忆性无记忆性的概率表达式是超几何分布假定在 N...

函数的调用

Created2023-10-28|数据结构

函数调用完成控制转移之后的栈形态从图中可以看到，在完成了控制转移等一系列操作之后，函数的第一个实参的地址在的位置上，这是由于前面依次是 EBP旧值和返回地址两个指针，各占据了4个字节注意，在函数压栈的时候，入口参数是返序压栈的，即先压入栈中的是最后一个参数，而在C语言中写在最前面的参数最靠近 ebp 注意事项：做题的时候注意题目给出的立即数是小端还是大端方式存放的看汇编写C语言的时候，除了要注意数据的大小，还要通过指令的类型来区分是有符号数还是无符号数函数调用的几条指令分别的作用： leave 的作用只是先把当前的 esp 设置为当前 ebp 的值，然后把 ebp 恢复成 ebp 旧值 ret 指令的作用是通过上一步恢复的 esp 取出返回地址，把 eip 的值指向返回地址，移交控制权限 call 的作用是保存返回地址，然后移动 eip 到指定位置，移交控制权限

Stream cipher

Created2023-10-27|Cryptology

What is it 流密码是一种确定性的算法，通过输入一个随机的种子，输出一串看起来像是随机的比特串用处是替代PRG，更快地加密缺点是并没有严格的安全性证明 Definition一个 stream cipher 包括两个部分: Init: GetBits: 此处的表示状态信息 Init 算法通过输入种子和一个随机的向量来输出一个初始状态 GetBits 操作通过获取当前状态输出一个看起来随机的bit 并更新状态为