如何直观理解交叉熵及其优势?

时间:2022-12-07 15:32:09

导语

在统计学中,损失函数是一种衡量系统错误程度的函数。而在有监督学习模型里,损失函数则是衡量模型对样本预测值与样本真实标签之间差异程度的方法。最近用到了交叉熵,觉得有必要弄明白交叉熵到底是什么原理及优势,因此查了查资料,并结合个人理解在这里做一下讲解,如有疏漏谬误之处还请各位看官多多指教。在这之前,先讲讲交叉熵是什么。

交叉熵,我们不妨先拆开来看:交叉与熵。字面意思可以这么理解:两种以熵来计量的东西之间的关系。熵在信息论里面衡量的是数据的混乱程度,本质是香农信息量( plog21p,0<p1 )的期望。信息量是可以衡量的,不然我们也不会觉得有的话虽然多,却没什么信息量,而有的话则能一语中的。那么,如何直观理解这个交叉熵呢?

我们的世界杯

如果直接用纯数学语言来解释,一定晦涩难懂,因此我想到了一个比较有趣的实例给大家理解一下。

熟悉足球的童鞋们应该都记得,在2002年,中国足球队首次也是唯一一次杀入了世界杯,全国球迷无不为之热血沸腾。但当时中国队所在的C组号称死亡之组,组内其它三支球队分别是巴西(最后的冠军)、土耳其(最后的季军)和哥斯达黎加。现在命运之神分配给这四支球队夺得小组第一的概率分别为巴西50%,土耳其25%, 哥斯达黎加25%, 中国0%。我们假定这是真实概率,那么这一组概率的信息量是多大呢?按照香农信息量的计算公式,我们可以得出:
50%×log2150%+25%×log2125%+25%×log2125%
=0.5×1+0.25×2+0.25×2=1.5
因此,这一组概率的信息量就是1.5。香农认为,信息量的度量等于不确定性的多少,可以用 “比特”(bit)这个概念来度量。比如土耳其夺得小组第一的概率是 14 ,我们就需要用一个2位的bit来表示,又因为其只占了4份中的1份,因此它的信息量就是 0.25×2=0.5 。然后我们在赛前预测各个队夺得小组第一的概率,恰好也给出“巴西50%,土耳其25%, 哥斯达黎加25%, 中国0%”这样的预测。根据前文可知,这组预测的信息量当然也是1.5。

接着交叉熵可以来了,这组预测结果的交叉熵为 1.51.5=0 ,表示预测结果与真实结果之间的差异程度为0,即我们的预测百分之百正确。这时02国家队的球迷不干了:凭什么不给咱国家队一丝期待?那好,不妨修改一下我们的赛前预测:巴西50%,土耳其25%, 哥斯达黎加12.5%, 中国12.5%。国家队有八分之一的概率拿小组第一,这期待够带劲吧。再算一下这组预测结果的熵:
50%×log2150%+25%×log2125%+12.5%×log2112.5%+12.5%×log2112.5%
=0.5×1+0.25×2+0.125×3+0.125×3=1.75
交叉熵为 1.75=1.5=0.25 ,大于0,表示预测结果与真实结果之间存在差异,这里的差异便是中国队和哥斯达黎加队的预测结果。不难看出,交叉熵的值越大,这种差异程度也就越大。

在二分类模型中,由于目标的可能性有两种,因此需要分别计算预测为正例和负例概率下的交叉熵,公式为:
[ylog21yylog211]+[(1y)log21(1y)(1y)log21(10)]
=[ylog2y+(1y)log2(1y)]
这就是大名鼎鼎的交叉熵公式,其中 ylog2y 是正例的交叉熵, (1y)log2(1y)] 则是负例的交叉熵,它们之和便构成了分类模型的损失函数。

接下来讲讲交叉熵的优势。在回归模型中有时候会使用均方差作为损失函数,但是当激活函数为sigmoid时,由于其在上边界和下边界的斜率下降十分之快。事实上,一般sigmoid函数的斜率最大值也只有0.25。因此,当训练结果接近真实值时会因为梯度算子极小,使得模型的收敛速度变得非常慢。而由于交叉熵损失函数为对数函数,在接近上边界的时候,其仍然可以保持在高梯度状态,因此模型的收敛速度不会受到影响。目前在分类模型中我只发现了这一种优势,如果各位有其它观点还请不吝赐教,在此谢过。

结语

至此,我们便较为直观地理解交叉熵以及它的优势了。在此感谢各位看官的耐心阅读。后续内容将会不定期奉上,欢迎大家关注小斗公众号 对半独白


如何直观理解交叉熵及其优势?