归一化与标准化

1、定义

归一化（normalization）:

归一化与标准化

标准化（standardization）:

归一化与标准化

其中μ和σ代表样本的均值和标准差，max（x）为最大值，min（x）为最小值。

归一化与标准化

2、区别

2.1、

归一化：缩放仅仅跟最大、最小值的差别有关。

标准化：缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）。

2.2、

归一化：输出范围在0-1之间

标准化：输出范围是负无穷到正无穷，变成了一个均值为 0 ，方差为 1 的分布

3、作用

1）加快梯度下降求最优解的速度

函数z=f(x,y)在点p(x,y)的梯度的方向与过点p的等高线f(x,y)=c在这点的法线一个方向相同。梯度的方向与等高线切线方向垂直。

梯度是函数值变化最快的方向。梯度下降法找到的方向对所在的那个点来说，这个方向是下降最快的

归一化与标准化

蓝色的圈圈图代表的是两个特征的等高线。

其中左图两个特征X1和X2的区间相差非常大，X1区间是[0,2000]，X2区间是[1,5]，其所形成的等高线非常尖。当使用梯度下降法寻求最优解时，很有可能走“之字型”路线（垂直等高线走，即沿着梯度的方向走），从而导致需要迭代很多次才能收敛；

而右图对两个原始特征进行了归一化，其对应的等高线显得很圆，在梯度下降进行求解时能较快的收敛。

因此如果机器学习模型使用梯度下降法求最优解时，归一化往往非常有必要，否则很难收敛甚至不能收敛。

例子

假定为预测房价的例子，自变量为面积，房间数两个，因变量为房价。

那么可以得到的公式为：

归一化与标准化

数据没有归一化的表达式，可以为：

归一化与标准化

造成图像的等高线为类似椭圆形状，最优解的寻优过程就是像下图所示：

归一化与标准化

而数据归一化之后，损失函数的表达式可以表示为：

归一化与标准化

其中变量的前面系数几乎一样，则图像的等高线为类似圆形形状，最优解的寻优过程像下图所示：

归一化与标准化

从上可以看出，数据归一化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。

2）有可能提高精度，例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

KNN算法的思想总结：就是在训练集中数据和标签已知的情况下，输入测试数据，将测试数据的特征与训练集中对应的特征进行相互比较，找到训练集中与之最为相似的前K个数据（欧式距离），则该测试数据对应的类别就是K个数据中出现次数最多的那个分类，其算法的描述为：

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

4、适用场景

归一化：比较适用在数值比较集中的情况（比如图像的像素值区间一直为[0,255]）。但是，如果max和min不稳定，很容易使得归一化结果不稳定，使得后续使用效果也不稳定，实际使用中可以用经验常量值来替代max和min。而且当有新数据加入时，可能导致max和min的变化，需要重新定义。

秒客网