DDPM | Diffusion基础
论文原文论文原文是20年的这一篇 Denoising diffusion probabilistic models 论文的地址: Arxiv.org
题外话,现在网上的教程都是一个抄一个,有个公式打错了结果我发现网上大部分教程都打错了 :-(
模型的整体思路整体的流程润下图所示:首先是从训练集开始不断地往上面加高斯噪声,最后直到达到一个纯随机的分布,再训练这个去除噪声的过程,从任意一个纯随机分布开始,一步步地去除噪声,直到还原出最后的图片
加噪声的过程引理考虑原输入和一个高斯噪声的加权平均的过程,假设第 步时,原输入为 加上了一个为 的高斯噪声,对应的权重为 和 ,其中的 由于独立的高斯分布具有可加性,即满足 那么考虑再往前一步的噪声 有:这其中的
考虑权重 的一个前缀累乘,记 有注意到这里的 的符号其实不重要,都是从 中采样的随机高斯噪声,所以我们可以发现第 步的分布本质上只由一系列的权重决定
加噪声的过程在论文中,加噪的过程被描述为:
如果你对这个式子里面的正态分布为什么有三个参数感到迷惑,你可以理解为第一个分号前面的 是指明这个正态分布是 ...
Network Layer | 网络层
网络层的组成——两个平面网络层主要由 数据平面 和 控制平面 两个部分组成的:
数据平面 :局部的性质,是指每一个交换机内部决定从入口的每一个包应该转发到哪一个出口上
控制平面 :整个网络规模的逻辑概念,决定每一个路由器应当如何导航
两种平面的交互
传统方法:在每一个路由器里面各自实现
software-defined nerworking(SDN) :在远程有一个服务器来决定如何转发这两种方法的区别如下图:
网络的服务模型服务模型表示了这个网络的组成方式提供了哪些保证,下面列出了一些服务模型提供的保证:
Best Effort Model
机制非常简单,便于广泛使用
对于绝大多数时间和绝大多数任务提供足够的带宽,包括即时通话和视频传输任务
可以分布式部署,易于复制,可以利用数据中心等技术,从多个位置提供服务
弹性的拥塞控制
路由器模型的综述路由器的一般模型如下:路由器会通过读数据头的信息来决定转发给哪个出口
最长前缀匹配路由器通过匹配最长前缀的方法来决定数据包应该转发到哪一个口里面,例如下图所示的路由表:当一个数据包到达的时候,路由器会依次尝试匹配最长的可被匹配的前缀,并且 ...
3D基础-坐标系
齐次坐标系参考文章:知乎
在二位笛卡尔坐标系中,一个点可以被表示为 而一条直线就是 但是此时有个问题,无法刻画两条平行线在无穷远处相交的情况,即对于透视空间无法处理,此时就需要引入齐次坐标系,在齐次坐标系中一个点被表示为 例如一个点 在齐次坐标系下的表示就是 而一旦这个点被平移到无穷远处那么在齐次坐标系下的表示就是 了。
齐次坐标系与笛卡尔坐标系的转换如下:
影像坐标系参考文章:CSDN
在影像坐标系下面,有两套体系,一套是以像素为单位的 坐标系,另一套是以物理尺寸为单位 坐标系,如果我们知道了像主点的位置 那么这两个坐标系的转换关系如下:
这里的像主点就是摄影中心在图像上的投影点
相机坐标系(Camera)三维相机坐标系和二位影像坐标系之间的对应关系是,相机坐标系的原点在摄影中心,相机坐标系的 轴和 轴分别与影像坐标系的 轴和 轴平行,而 轴垂直于像平面且朝向像平面,根据定义可以得知,此时的影像坐标系下面的所有点的 值都等于焦距 那么在影像 坐标系下面的点 在相机 坐标系下的坐标就是
根据中心投影的特征,假设像素点 是物理点的投影,那么 ...
使用acme.sh获取证书
官网地址官方的地址是 acmesh-official/acme.sh
如何安装 acme.sh官方的安装方式是
1curl https://get.acme.sh | sh -s email=my@example.com
在国内如果因为网络环境安装失败,可以参考官方的教程Install in China · acmesh-official/acme.sh Wiki
记得在你的 ~/.bashrc 里面加一条 alias acme.sh=~/.acme.sh/acme.sh 这样就可以直接使用命令 acme.sh 来调用了
如何申请这里我开始尝试直接用命令
1acme.sh --issue -d mydomain.com --nginx
来申请证书,但是它告诉我我的 nginx 配置有问题,查阅英文版本的readme发现,应当使用命令
1acme.sh --issue -d www.ericli.vip --nginx /etc/nginx/nginx.conf
这样就可以正常获取了,但是这时候我遇到了一个问题,之前我用的是 certbot 来获取证书,这玩意需要 sudo 权限, ...
Application Layer
HTTP HTTP 的全程是超文本文件传输协议,即 HyperText Transfer Protocol 用于传输网页等超文本信息。
一个常见的网页(Webpage)主要由以下的东西组成:
HTML文件
JavaScript脚本
CSS层叠样式表
JPEG等其它资源文件
而HTTP的主要功能就是向客户机正确提供这些文件
URLURL是输入在浏览器里面用来访问互联网资源的地址,其格式形如:
1http://www.someSchool.edu/someDepartment/picture.gif
这里面主要包含一下几个部分:
http:// 指明协议,可能包含 http 、https 等
www.someSchool.edu 被称为hostname即主机名,是指提供该服务的主机名称
someDepartment/picture.gif 是路径名(Path name) 描述希望获取的资源的位置
这个URL这里是可以整花活的,例如你可以在桌面创建一个 a.txt 的文件,然后在浏览器中输入 file:///C:/Users/Username/Desktop/a.txt 记得把这 ...
Network Overview
Network CoreStore-and-Forward Transmission在这个模式下,每个router会被要求先接收到一个完整的包,再把整个包转发出去,这里给出在 段链接(一共有 个router),每段链接上的传输速率都为 的情况下,传输长度为 的包,产生的端到端的时延为:
Hint:为什么这里前面是 是因为,这里最后的client也必须完整收到一个包才能进行处理
FDM and TDMDelay and lossQueuing Delays这里面没啥说的,Queueing Delay 讲的是在每一个router内部,buffer的数量是有限的,所以有可能这个包即使被完全收到也不能马上向前传输出去,可能需要排队等待后面。
Processing Delay这个讲的是,在router收到某个包的时候,需要读这个包的头来判断往哪里转发,所以会产生 process delay
Packet LossPacket Loss 讲的是如果这个buffer满了,某些包可能被丢弃。
Transmission Delay 这个延迟是指,一个router在push一个包进入Lin ...
SQL Language
数据类型
符号
数据类型
INT
整数
SMALLINT
短整数
DEC(m,n)
十进制数
FLOAT
浮点数
CHAR(n)
定长字符串
VARCHAR(n)
变长字符串
BIT(n)
定长位串
BIT VARYING(n)
变长位串
DATE
日期
TIME
时间
TIMESTAMP
时间戳
对表的操作创建表创建表的命令是:
1234567CREATE TABLE tablename (colname datatype [ NOT NULL ]{ , colname datatype [ NOT NULL ] }) ;
比如说:
123456CREATE TABLE student (sno CHAR(5) NOT NULL,sn CHAR(20),sd CHAR(2),sa SMALLINT,);
就会创建一张名为 student 的表,有四列,分别为 sno,sn,sd,sa 其中的 sno 不为 null
修改表增加和删除列的操作如下:
12ALTER TABLE <基表名> ADD & ...
Transport Layer
连接复用UDP: User Datagram ProtocolUDP只用一个二元组来区分链接,一个UDP的头只包括 dest ip 和 dest port 两个信息而在对上面的应用层提供服务的时候,拥有同样的 ip 和 port 的数据块会被送到同一个 Socket 里面
TCPTCP使用一个四元组来区分链接,即(source ip,source port, dest ip,dest port) 这个四元组来区分,只有当这四元组完全相同的时候才会送到同一个 Socket 里面去。
UDP优点和缺点优点
不需要握手建立连接
简单,发送端和接收端没有状态切换
报文头小
缺点
只是尽最大努力传输,所以报文可能会丢失、乱序
没有拥塞控制,可能会严重超时
UDP报文的样式
如何做checksum
可靠的传输这里面东西比较多,只记录怎么评估一个可信传输的效率
定义 表示sender工作的时长站总传输时长的占比,定义传输时间 这里的 表示每一个待发包的大小,而 表示这个Link的传输速率,那么在发送一个包并等待 的这个过程中有
如果使用pipeline,这里的计算就会变成下图:
特殊传 ...
TRPO
从动作优势函数说起首先回顾一下动作优势函数,即:这里的优势表示的是在状态 下面选择动作 比选择平均动作的优势
援引一张从知乎文章知乎-TRPO中的图:
TRPO起始式的推导TRPO的起点是表达式这里就给出了在策略 的基础上通过采样 来计算 累计回报的优势的计算方法下面来证明这个式子
引入折扣访问频率定义那么 式可以写成:最后一步是交换求和顺序,先对 求和,剩下的就是定义了
Skill oneTRPO的第一个技巧是,每次更新的策略是临近的,换言之 和 的距离是不远的,因此可以直接近似替代,换个写法,那么 式直接可以改写为:
RLHF
综述这个方法的基本想法就是,我们在强化学习的过程中,可以引入人来打分,避免训练出来的情况不符合预期,更符合实际情况,其大致的流程是:
符号定义这里相比于传统的强化学习是状态-动作,这里假定的环境是在时间 Agent会从环境中观察到 ,并且会选择一个动作 发送给环境
定义一条轨迹的某个片段是由一系列的观察和动作构成的,即
不同于传统强化学习里面环境直接反馈一个Reward回来,这里假设的是人类能够区分不同轨迹之间的优劣,换言之人类能够给出一个偏序,即判定:
评价一个RLHF的算法定量如果说人类给出评价的标准是基于一个可以定量的价值函数 的,即偏序关系 是由产生的那么最后我们只需要看这个Agent是否按照 RL 的标准最大化了 就可以了
定性如果不是能够清晰量化的评判标准,那么就只能靠人类根据感受进行评判了
关于人类选择的记录这里将人类的一个选择记录为 其中的 ,取值分为如下三种情况:
人类认为某个选择更优,则将对应的 置位为
人类认为两个选择等同,则 将独立采样
人类认为不可分辨则该样本不会出现在数据库中最终把所有的数据放在一个数据库 中
如何拟合R ...