
课程大纲
欠拟合的概念(非正式):数据中某些非常明显的模式没有成功的被拟合出来。如图所示,更适合这组数据的应该是而不是一条直线。
过拟合的概念(非正式):算法拟合出的结果仅仅反映了所给的特定数据的特质。
非参数学习方法
线性回归是参数学习方法,有固定数目的参数以用来进行数据拟合的学习型算法算法称为参数学习方法。对于非参数学习方法来讲,其参数的数量随着训练样本的数目m线性增长;换句话来说,就是算法所需要的东西会随着训练集合线性增长。局部加权回归算法是非参数学习方法的一个典型代表。
局部加权回归算法(Loess算法)
与线性回归算法相比,其最大的特点是注重对临近点而不是所有训练样本的精确拟合,它同时忽略那些与要估计的输入距离很远的点的贡献。局部加权回归算法描述如下:
其中X是指输入到输出函数h(x)中进行预测的新数据。是波长函数,它控制了权值随距离下降的速率。
很小时,下降很快;
很大时,下降很慢。(个人感觉类似于方差)。
若很小,说明两点很近,
趋近于1,权值很大。若
很大,说明两点很远,
趋近于0,贡献可以忽略。这样就可以实现对临近点的精确拟合。
对线性回归模型的概率解释
假设:
为误差项,这个误差项可以理解为其他没有考虑到模型中的特征或者随机噪声造成的影响。假设
满足均值为0的高斯分布(这样的假设是很有道理的,因为绝大多数情况
均服从高斯分布,且由中心极限定理也可以证明)。所以概率分布函数如下:
其中第二个式子中的分号代表以为参数。由于
之间是相互独立的,在这里引出
的似然函数:
这时我们的目标是使P最大化也就是最大化,我们要求出合适的
来实现这一目标。为了方便计算,引入如下函数:
为了最大化这个函数,其实就是使这一项最小化,而这个式子正好等于之前提到过的
。下面可以用梯度下降的方法解出解析解。这就是对线性模型的概率解释。
分类算法
在分类算法中y的取值只有0和1两种,是二元分类。则可设。对于
可以令其为sigmod函数(也可叫做logistic函数),
,其图像如下所示:
由于y只能取0和1,则概率密度函数可以表示成如下形式:
那么,与上面对线性回归的概率解释形式相似,我们可以推导出如下式子:
若想使这个函数最大化,我们可以采用上节课讲过的梯度下降方法,当然在这里是梯度上升,下式中的“+”与上节课的梯度下降的“—”正好相反,在这里我们是要求最大化,所以用“+”。
如上式所示,参数可以通过概率的方式求解出来。
感知器算法
感知器算法与logistic回归相似,但是g(z)函数变成了如下形式:
其余均与logistic回归相似,参数的解为:
版权声明:本文为博主原创文章,未经博主允许不得转载。