信息熵


本文地址,转载自LR-bee

详细可内容可点击下面参考文章

参考1

参考2

一、自信息

自信息:可以理解表示某一事件发生时所带来的信息量的多少,当事件发生的概率越大,则自信息越小,或者可以这样理解:某一事件发生的概率非常小,但是实际上却发生了(观察结果),则此时的自信息非常大;某一事件发生的概率非常大,并且实际上也发生了,则此时的自信息较小。

数学公式:

image-20230101161645137

image-20230101161335552

函数所对应的图像表示

其中 P 表示随机变量的第i个事件发生的概率,自信息单位是bit,表征描述该信息需要多少位。可以看出,自信息的计算和随机变量本身数值没有关系,只和其概率有关,同时可以很容易发现上述定义满足自信息的3个条件。

自信息满足以下性质:

  1. 连续性,即 I 随着 p 的变化连续变化。
  2. 单调递减性,即发生的概率越小,确定它发生所需要的信息量越大。
  3. 当 p→0 时, I→ ∞. 即确定不可能事件发生需要的信息量为无穷大。
  4. 当 p→1 时, I→0 . 即对确定一定会发生事件发生需要的信息量为0。
  5. 独立随机变量的自信息等于各自自信息的代数和。

同样,我们可以定义联合分布:

image-20230101161717253

如果X与Y独立,则:

image-20230101161740669

二、信息熵 -一种信息量平均值(期望)

上述自信息描述的是随机变量的某个事件发生所带来的信息量,而信息熵通常用来描述整个随机分布所带来的信息量平均值,更具统计特性。信息熵也叫香农熵,在机器学习中,由于熵的计算是依据样本数据而来,故也叫经验熵。其公式定义如下:

image-20230101161645137

image-20230101161834474

由上可知:

信息熵H(X)是各项自信息的累加值,由于每一项都是整正数,故而随机变量取值个数越多,状态数也就越多,累加次数就越多,信息熵就越大,混乱程度就越大,纯度越小。越宽广的分布,熵就越大,在同样的定义域内,熵的关系为脉冲分布信息熵<高斯分布信息熵<均匀分布信息熵。可以通过数学证明,当随机变量分布为均匀分布时即状态数最多时,熵最大。熵代表了随机分布的混乱程度

同样推广至多维随机变量的联合分布,其联合信息熵为:

image-20230101161916814

说明:

  1. 熵只依赖于随机变量的分布,与随机变量取值无关;
  2. 定义0log0=0(因为可能出现某个取值概率为0的情况);
  3. 熵越大,随机变量的不确定性就越大,分布越混乱,随机变量状态数越多。

三、条件熵- 信息熵(联合分布的)-自信息(给定变量的自信息)

两个随机变量的关系,可以用交叉熵、相对熵、联合熵和互信息来描述。

条件熵的定义为:在X给定条件下,Y的条件概率分布的熵对X的数学期望。

与条件概率相对比之下,就可以很好的学习与理解了:

image-20230101161948417

根据联合熵的公式进行理解第二个等式

同理可得:

image-20230101162021973

四、交叉熵 –一个分布的自信息对另一分布的期望

对交叉熵应该是最熟悉的,其广泛用在逻辑回归的Sigmoid和softmax函数中作为损失函数使用。其主要用于度量两个概率分布间的差异性信息。

p对q的交叉熵表示q分布的自信息对p分布的期望,公式定义为:

image-20230101162107236

其中。p是真实样本分布,q是预测得到样本分布。在信息论中,其计算的数值表示:如果用错误的编码方式q去编码真实分布p的事件,需要多少bit数,是一种非常有用的衡量概率分布相似性的数学工具。

由于交叉熵在逻辑回归中应用广泛,这里给出其定义式,使读者知道交叉熵的具体应用。逻辑回归算法的损失函数就是交叉熵,也叫做负对数似然,其定义为:(sigmoid函数形式下)

image-20230101162119047

其中,yi是第i个样本的真实标签,h是sigmoid预测输出值,J是凸函数,可以得到全局最优解。

对于多分类的逻辑回归算法,通常使用Softmax作为输出层映射,其对应的损失函数也叫交叉熵,只不过写法有点区别,具体如下:(softmax函数下)

image-20230101162128448

其中,m是样本个数,k是输出层个数。

二者进行对比:可以得出,二者是相一致的

image-20230101162143148

交叉熵在逻辑分类问题中的应用:

单分类问题中:

sigmoid函数形式下:

这里的单类别是指,每一张图像样本只能有一个类别,比如只能是狗或只能是猫。
交叉熵在单分类问题上基本是标配的方法

image-20230101162154923

上式为一张样本的loss计算方法。式2.1中n代表着n种类别。
举例说明,比如有如下样本

image-20230101162207811

多分类问题中:

这里的多类别是指,每一张图像样本可以有多个类别,比如同时包含一只猫和一只狗
和单分类问题的标签不同,多分类的标签是n-hot。
比如下面这张样本图,即有青蛙,又有老鼠,所以是一个多分类问题

image-20230101162218847

值得注意的是,这里的Pred不再是通过softmax计算的了,这里采用的是sigmoid。将每一个节点的输出归一化到[0,1]之间。所有Pred值的和也不再为1。换句话说,就是每一个Label都是独立分布的,相互之间没有影响。所以交叉熵在这里是单独对每一个节点进行计算,每一个节点只有两种可能值,所以是一个二项分布。前面说过对于二项分布这种特殊的分布,熵的计算可以进行简化。

image-20230101162230577

softmax函数下:输出层映射

image-20230101162241897

通过输入一个向量,通过softmax公式映射得到一个概率向量,最后将其分到算出概率最大的一类。

补充:交叉熵和最大似然的loss函数是一致的

五、相对熵

相对熵经常也叫做KL散度,在贝叶斯推理中,

image-20230101162303151

衡量当你修改了从先验分布 q 到后验分布 p 的信息之后带来的信息增益。首先给出其公式:

image-20230101162313892

后一部分就是p的熵,而前一部分就是交叉熵。故又回到:

在机器学习中,我们需要评估label和predicts之间的差距,使用KL散度刚刚好,即$D_{KL}(y||\hat{y})$,由于KL散度中的前一部分−$H(y)$不变,故在优化过程中,只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss,评估模型。

相对熵较交叉熵有更多的优异性质,主要为:

  1. 当p分布和q分布相等时候,KL散度值为0,这是一个非常好的性质;
  2. 可以证明是非负的;
  3. 非对称的,通过公式可以看出,KL散度是衡量两个分布的不相似性,不相似性越大,则值越大,当完全相同时,取值为0。

简单对比交叉熵和相对熵,可以发现仅仅差了一个H(p),如果从优化角度来看,p是真实分布,是固定值,最小化KL散度情况下,H(p)可以省略,此时交叉熵等价于KL散度(相对熵)。

简单对比交叉熵和相对熵,可以发现仅仅差了一个H(p),如果从优化角度来看,p是真实分布,是固定值,最小化KL散度情况下,H(p)可以省略,此时交叉熵等价于KL散度。

下面讨论一个比较现实且非常重要的问题:既然相对熵和交叉熵表示的含义一样,为啥需要两个?在机器学习中何时使用相对熵,何时使用交叉熵?要彻底说清这个问题,难度很大,这里我仅仅从我知道的方面讲讲。首先需要明确:在最优化问题中,最小化相对熵等价于最小化交叉熵;相对熵和交叉熵的定义其实都可以从最大似然估计得到,详细推导:

image-20230101162330850

image-20230101162338250

image-20230101162355414

image-20230101162408187

我们都明白:

交叉熵大量应用在Sigmoid函数和SoftMax函数中,最典型的算法应该就是神经网络和逻辑回归吧,而相对熵大量应用在生成模型中,例如GAN、EM、贝叶斯学习和变分推导中。从这里我们可以看出一些端倪,如果想通过算法对样本数据进行概率分布建模,那么通常都是使用相对熵,因为我们需要明确的知道生成的分布和真实分布的差距,最好的KL散度值应该是0;而在判别模型中,仅仅只需要评估损失函数的下降值即可,交叉熵可以满足要求,其计算量比KL散度小。

数学之美书中,有这样几句话:交叉熵,其用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小,相对熵,其用来衡量两个取值为正的函数或概率分布之间的差异。

六、互信息

互信息在信息论和机器学习中非常重要,其可以评价两个分布之间的距离,这主要归因于其对称性,假设互信息不具备对称性,那么就不能作为距离度量。即相对熵,由于不满足对称性,故通常说相对熵是评价分布的相似程度,而不会说距离。

对于p(x,y),给出两个变量组成的数据集。若两变量相互独立,那么p(x,y)=p(x)p(y),若两变量不独立,那么我们要考察联合概率分布和边缘概率分布的KL散度,以判断两者是否接近独立。

互信息的定义:一个随机变量由于已知另一个随机变量而减少的不确定性,或者说从贝叶斯角度考虑,由于新的观测数据y到来而导致x分布的不确定性下降程度。

数学公式:

第一步的推导:

image-20230101162429633

第二三步的推导:

image-20230101162440288

从公式中可以看出互信息是满足对称性的,其在特性选择、分布的距离评估中应用非常广泛,请务必掌握。其实互信息和相对熵也存在联系,如果说相对熵不能作为距离度量,是因为其非对称性,那么互信息的出现正好弥补了该缺陷,使得我们可以计算任意两个随机变量之间的距离,或者说两个随机变量分布之间的相关性、独立性。

image-20230101162450906

信息也是大于等于0的,当且仅当x与y相互独立时候取等号。

image-20230101162501349

最后:自信息、互信息、条件熵等各种熵的关系示意图:

image-20230101162516560


文章作者: 马克图布
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 马克图布 !
评论
  目录