斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

时间:2023-02-02 08:15:16

课时6 线性分类器损失函数与最优化(上)

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

多类SVM损失:这是一个两分类支持向量机的泛化

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

SVM损失计算了所有不正确的例子,将所有不正确的类别的评分,与正确类别的评分之差加1,将得到的数值与0作比较,取两者中的最大值。然后将所有的数值进行求和。用平均值来代替不会影响结果。

这些评分都是无标度的,因为我们可以随便选择W,让它成比例地增大或者减小,然后分数也随之成比例地变化。所以分数的大小和它的量度的选择紧密相关,将安全系数的值设为1在某种程度上来说只是一个随意的选择。

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

在实际的数据集中使用这个损失函数,可能会有一些我们不太希望的性质。我们现在有整个W空间,并且根据这个损失函数他们的工作方式都是相同的,我们希望对于所有W而言有一部分的W是有优先权的,这一优先权基于我们希望W拥有的特点,不用去管数据集,只关心使W达到最优的特点。

正则化

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

可以用它来处理我们的损失函数,加上了一项正则化函数R(W),而R(W)衡量了W的好坏,我们不仅仅想要数据拟合得更好,也希望能优化W,所以我们找到了一些方法来证明他们是确实有效的,事实上,正则化是为了权衡你的训练损失和你用于测试集的泛化损失,所以正则化是一系列通过损失来使目标相加的技术。

 L2正则化要做的就是尽可能地展开w权重,以便于考虑到所有输入特征或者说所有的像素,并且尽可能地利用这些维度

为什么要用正则化?

假设你有多组权重可以得到相同分数,我们想以某种方式选出最好的。

Softmax分类器

也就是一般化的逻辑斯蒂回归,他是在这些分数的基础上表明损失的一种不同的函数形式,这种解释就是说他是在这些分数基础上实现的,这些分数不是随机的,也不是表明某种边界。从一个问题出发,我们有特定的解读方式,这种方式有一定的规则,这些分数是对应不同类未经标准化的对数概率。

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6

斯坦福CS231n—深度学习与计算机视觉----学习笔记 课时6