损失函数(loss function)

时间:2023-02-11 01:44:14

这篇博文翻译得损失函数来自机器学习中一篇讲义。

http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf 

1 损失函数(一个统一的观点

损失函数的一般定义如下,损失函数包含了两部分:损失项和正则项。

损失函数(loss function)

1.1  损失项

这小节将举5个例子来说明损失项。这5个例子是Gold Standard(理想情况),Hinge(软间隔SVM), log(逻辑回归,交叉熵误差), squared loss(线性回归) and Boosting.

1.1.1 Gold Standard

Gold Standard损失函数,我们已经使用它来评估我们的分类器了——计算产生的错误数量。通常被称为“0-1”损失,或者损失函数(loss function)

损失函数(loss function)

1.1.2Hinge(软间隔SVM) 软间隔损失项,使用损失函数(loss function)来表示hinge loss。

损失函数(loss function)

1.1.3 log loss

损失函数(loss function)

损失函数(loss function)

因为

损失函数(loss function)

所以我们可以把等式变换成下列的形式

损失函数(loss function)

1.1.4 线性回归

线性回归有一个平方损失项,使用L2描述损失平方项。我们可以从图14.1看到平方项比Gold Standard更高,所以平方项

不是一个好的函数

损失函数(loss function)

1.1.5 boosting

我们再看看被称为Boosting的学习算法。它可以看成是指数损失项的贪心优化。

损失函数(loss function)

图14.1是5个函数的曲线图,蓝色线是0-1损失函数,黑色线是平方损失函数,红色是hinge loss,黄色是logistic loss,

绿色是Boosting loss

损失函数(loss function)

针对5损失项的4点分析

(1)损失函数(loss function)用来消除训练数据的误差或者噪声

(2)所有的损失函数是L01的凸替换。这意味着我们仍然可以使用我们通用边界

损失函数(loss function)

(3)如果我们的目标不是在x^new, y^new上最小化0-1损失函数。但需要最大化概率P(y^new|x^new),

我们可以使用Llog。但注意到最大化概率P(y^new|x^new)意味着我们用无边界的损失函数来评估我们的结果

换句话说,有可能我们会看到一个特殊的训练例子,而这个例子是极其不好的。

(4)有界损失和凸性相对应。在一些场合中,直觉来看,损失应该是有界的–我们不应花费无限的代价用在

某个错分了的例子上。注意到有界的损失(L01)经常用来给测试数据的分类器评分。但是有界损失函数,

也意味着非凸性–例如,L01(w)不是关于w的凸函数。这表明有界函数很难优化。而凸函数要容易得多。

1.2 正则项

在这节中将介绍几种有用的正则项损失函数(loss function)

下面是几种流行的正则项:

损失函数(loss function)

上面几项的一般表达式:

损失函数(loss function)

p=2时,得到平方根R2.在计算函数收敛时,使用标准平方更好。...ps:详细参数解释及其作用请查看原文

损失函数(loss function)