这篇博文翻译得损失函数来自机器学习中一篇讲义。
http://www.ics.uci.edu/~dramanan/teaching/ics273a_winter08/lectures/lecture14.pdf
1 损失函数(一个统一的观点)
损失函数的一般定义如下,损失函数包含了两部分:损失项和正则项。
1.1 损失项
这小节将举5个例子来说明损失项。这5个例子是Gold Standard(理想情况),Hinge(软间隔SVM), log(逻辑回归,交叉熵误差), squared loss(线性回归) and Boosting.
1.1.1 Gold Standard
Gold Standard损失函数,我们已经使用它来评估我们的分类器了——计算产生的错误数量。通常被称为“0-1”损失,或者
1.1.2Hinge(软间隔SVM) 软间隔损失项,使用来表示hinge loss。
1.1.3 log loss
因为
所以我们可以把等式变换成下列的形式
1.1.4 线性回归
线性回归有一个平方损失项,使用L2描述损失平方项。我们可以从图14.1看到平方项比Gold Standard更高,所以平方项
不是一个好的函数
1.1.5 boosting
我们再看看被称为Boosting的学习算法。它可以看成是指数损失项的贪心优化。
在图14.1是5个函数的曲线图,蓝色线是0-1损失函数,黑色线是平方损失函数,红色是hinge loss,黄色是logistic loss,
绿色是Boosting loss。
针对5个损失项的4点分析
(1)用来消除训练数据的误差或者噪声
(2)所有的损失函数是L01的凸替换。这意味着我们仍然可以使用我们通用边界
(3)如果我们的目标不是在x^new, y^new上最小化0-1损失函数。但需要最大化概率P(y^new|x^new),
我们可以使用Llog。但注意到最大化概率P(y^new|x^new)意味着我们用无边界的损失函数来评估我们的结果。
换句话说,有可能我们会看到一个特殊的训练例子,而这个例子是极其不好的。
(4)有界损失和凸性相对应。在一些场合中,直觉来看,损失应该是有界的–我们不应花费无限的代价用在
某个错分了的例子上。注意到有界的损失(L01)经常用来给测试数据的分类器评分。但是有界损失函数,
也意味着非凸性–例如,L01(w)不是关于w的凸函数。这表明有界函数很难优化。而凸函数要容易得多。
1.2 正则项
在这节中将介绍几种有用的正则项
下面是几种流行的正则项:
上面几项的一般表达式:
p=2时,得到平方根R2.在计算函数收敛时,使用标准平方更好。...ps:详细参数解释及其作用请查看原文