第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

欠拟合的概念（非正式）：数据中某些非常明显的模式没有成功的被拟合出来。如图所示，更适合这组数据的应该是而不是一条直线。

第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

过拟合的概念（非正式）：算法拟合出的结果仅仅反映了所给的特定数据的特质。

第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

非参数学习方法

线性回归是参数学习方法，有固定数目的参数以用来进行数据拟合的学习型算法算法称为参数学习方法。对于非参数学习方法来讲，其参数的数量随着训练样本的数目m线性增长；换句话来说，就是算法所需要的东西会随着训练集合线性增长。局部加权回归算法是非参数学习方法的一个典型代表。

局部加权回归算法（Loess算法）

与线性回归算法相比，其最大的特点是注重对临近点而不是所有训练样本的精确拟合，它同时忽略那些与要估计的输入距离很远的点的贡献。局部加权回归算法描述如下：

第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

其中X是指输入到输出函数h(x)中进行预测的新数据。第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法是波长函数，它控制了权值随距离下降的速率。很小时，下降很快；很大时，下降很慢。（个人感觉类似于方差）。

若第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法很小，说明两点很近，趋近于1，权值很大。若很大，说明两点很远，趋近于0，贡献可以忽略。这样就可以实现对临近点的精确拟合。

对线性回归模型的概率解释

假设：

第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法

第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法为误差项，这个误差项可以理解为其他没有考虑到模型中的特征或者随机噪声造成的影响。假设满足均值为0的高斯分布（这样的假设是很有道理的，因为绝大多数情况第三集欠拟合与过拟合的概念、局部加权回归、logistic回归、感知器算法均服从高斯分布，且由中心极限定理也可以证明）。所以概率分布函数如下：