课时6 线性分类器损失函数与最优化（上）

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6

多类SVM损失：这是一个两分类支持向量机的泛化

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6

SVM损失计算了所有不正确的例子，将所有不正确的类别的评分，与正确类别的评分之差加1，将得到的数值与0作比较，取两者中的最大值。然后将所有的数值进行求和。用平均值来代替不会影响结果。

这些评分都是无标度的，因为我们可以随便选择W，让它成比例地增大或者减小，然后分数也随之成比例地变化。所以分数的大小和它的量度的选择紧密相关，将安全系数的值设为1在某种程度上来说只是一个随意的选择。

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6

在实际的数据集中使用这个损失函数，可能会有一些我们不太希望的性质。我们现在有整个W空间，并且根据这个损失函数他们的工作方式都是相同的，我们希望对于所有W而言有一部分的W是有优先权的，这一优先权基于我们希望W拥有的特点，不用去管数据集，只关心使W达到最优的特点。

正则化

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6

可以用它来处理我们的损失函数，加上了一项正则化函数R(W)，而R(W)衡量了W的好坏，我们不仅仅想要数据拟合得更好，也希望能优化W，所以我们找到了一些方法来证明他们是确实有效的，事实上，正则化是为了权衡你的训练损失和你用于测试集的泛化损失，所以正则化是一系列通过损失来使目标相加的技术。

L2正则化要做的就是尽可能地展开w权重，以便于考虑到所有输入特征或者说所有的像素，并且尽可能地利用这些维度

假设你有多组权重可以得到相同分数，我们想以某种方式选出最好的。

也就是一般化的逻辑斯蒂回归，他是在这些分数的基础上表明损失的一种不同的函数形式，这种解释就是说他是在这些分数基础上实现的，这些分数不是随机的，也不是表明某种边界。从一个问题出发，我们有特定的解读方式，这种方式有一定的规则，这些分数是对应不同类未经标准化的对数概率。

斯坦福CS231n—深度学习与计算机视觉----学习笔记课时6