机器学习 | 交叉熵

为分类任务中，常用交叉熵来刻画损失函数，为什么可以这样使用呢？下面将一步步的揭开面纱。

1、数学背景

定义：在信息论中，交叉熵是表示两个概率分布p,q，其中p表示真实分布，q表示非真实分布，在相同的一组事件中，用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中，我们很难理解交叉熵的定义。下面举个例子来描述一下。

假设现在有一个样本集中两个概率分布p,q，其中p为真实分布，q为非真实分布。假如，按照真实分布p来衡量识别一个样本所需要的编码长度的期望为：

H (p) = \sum p (i) * l o g (1 p ( i ))

但是，如果采用错误的分布q来表示来自真实分布p的平均编码长度，则应该是:

H (p, q) = \sum p (i) l o g (1 q ( i ))

此时，就将H(p,q)称之为交叉熵。交叉熵的计算方法如下：

H (p, q) = - \sum x p (x) l o g (q (x))

- \int X P (x) l o g (Q (x)) d r (x) = E p [- l o g Q]

实际上，交叉熵是衡量两个概率分布p，q之间的相似性。这可以子啊特征工程中，用来衡量变量的重要性。

2、机器学习中应用交叉熵

应用一： 在分类任务中，基于传统平方的方法是无法构建损失函数的，因此引入softmax函数来概率化。这里我们介绍对分类任务构建损失函数，使用交叉熵的方法，将真实值与预测值联系起来。

交叉熵越小，表明其值差异越小，也就意味着损失函数越小。于是，我们的优化目标便是：最小化交叉熵。

对于真实的类别向量为y，预测的向量为y_ ，这是的损失函数为：

l o s s = - \sum y l o g (y_)

基于损失函数来做优化，可采用梯度下降法、随机梯度下降法等。

应用二： 在特征工程中，可以用来衡量两个随机变量之间的相似度。

秒客网