为啥分类用交叉熵

时间:2025-02-22 07:50:18

个人理解分类问题也可以用mse 只不过是交叉熵更好一点,好处如下:

1 交叉熵计算量更小一点,mse需要计算每一个类别。

    比如y_pre(0.2, 0.3, 0.5),yi(0,1,0) 需要计算3个减法平方相加(0.2-0)**2 + (0.3-1) ** 2 + (0.5-0)**2,使用交叉熵的话 值只需要计算 -1*log(0.3) 

2 以sigmoid为例(softmax也是一样,可以看做是sigmoid的多维推广),MSE反向传播的时候需要计算sigmoid梯度,会发生梯度弥散,交叉熵会消掉 梯度这项 (y-z)*x 误差越大,更新值越大,比较合理。