KL散度定义

假设有两个概率分布 ,他们对应的概率密度分别为 如果想要用 去近似 则这其中的 KL 散度为:

hint 注意KL散度不具有对称性

在离散的情况下面,可以写成:

理解

将KL散度展开成两项,有:

Hint:为什么最后不是反过来的因为 H(P,Q)自带一个负号

第一项是交叉熵,代表用 去编码 需要的编码长度,所以KL散度可以理解为用Q拟合P比直接使用P需要多用多少信息

JS散度

由于KL散度具有不对称性,这里提出JS散度

定义

首先设

如果全部展开,这个式子是: