(草稿,待修改)
1、闭式解
闭式解也被称为解析解,知是通过严格的公式所求得的解,即包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。通过给出解的具体函数形式,从解的表达式中就可以算出任何对应值。
2、正则化
P.S:推荐参考资料 https://www.jianshu.com/p/569efedf6985
(1)范数
假设 是一个向量,它的 范数定义:
(2)常用正则化方法——惩罚项
在目标函数后面添加一个系数的“惩罚项”是正则化的常用方式,为了防止系数过大从而让模型变得复杂。在加了正则化项之后的目标函数为:
正则化时,对应惩罚项为 L1 范数 :
正则化时,对应惩罚项为 L2 范数:
从上式可以看出, 正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化,而 正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化。
两者都是通过加上一个和项来限制参数大小,却有不同的效果: 正则化更适用于特征选择,而 正则化更适用于防止模型过拟合。
3、arg
arg max f(x): 当f(x)取最大值时,x的取值:
arg min f(x):当f(x)取最小值时,x的取值
表示使目标函数取最小值时的变量值
4、梯度下降
P.S:参考资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html
梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。
计算过程就是沿梯度下降的方向求解极小值
迭代公式为 ,其中代表梯度负方向,表示梯度方向上的搜索步长。梯度方向我们可以通过对函数求导得到。 一般确定步长的方法是由线性搜索算法来确定,即把下一个点的坐标看做是ak+1的函数,然后求满足f(ak+1)的最小值的ak+1即可。
算法迭代的终止条件是梯度向量的幅值接近0即可。
5、线性回归的概率论来源——极大似然估计
(1)贝叶斯分类(公式)
经典贝叶斯公式:
在机器学习中的形式变成:
(2)似然函数
实际问题中我们能获得的数据可能只有有限的样本数据,而先验概率和类条件概率(各类的总体分布)都是未知的。我们需要对其中的类条件概率进行估计,并将概率密度估计问题转换成参数估计问题 ,由此我们用到极大似然的方法。
条件概率密度函数称为相对于的θ的似然函数。
因此,极大似然估计的本质就是求解贝叶斯公式中的似然项(类条件概率),也就是机器学习中“利用已知事物特征来输出数据”的过程。
(3)线性模型
接下来由似然函数构建线性模型,假设模型是关于自变量的线性函数
假设偏差项符合高斯分布,则有:
那么可得这个线性模型的关于θ的似然函数:
或者写成更容易理解的形式:
进行对数化之后变成:
由此,我们的问题转换成了求解能够得到极大似然的参数θ的参数估计问题。
我们的目的是令似然函数最大,因此要求
这一项取最小,它在形式上等同于前面提到的Loss function,这也就是线性回归的判断标准之一——均方误差。
(4)贝叶斯估计
上面的极大似然估计求参数的方式存在一些显著的问题:
模型的复杂度会被两个因素所控制:基函数的数目(的维数)和样本的数目。尽管为对数极大似然估计加上一个正则项(或者是参数的先验分布),在一定程度上可以限制模型的复杂度,防止过拟合,但单纯使用极大似然估计总是会令模型过于复杂以至于产生过拟合。
于是我们采用贝叶斯回归(最大后验概率估计MAP)的方式来改善极大似然估计中的不足。参数θ是服从一定先验分布的随机变量,则新的数据集D出现后,我们可以用于更新参数θ的估计,更新后的分布就是后验概率分布。
贝叶斯估计的形式
从某种意义上,贝叶斯点估计是选取一个随机变量θ的统计值来代替分布,但真正意义上的贝叶斯估计方法应该是使用参数空间中所有的参数分别建立模型,用所有的模型进行估计,取所有估计值的期望为最终估计值,权值根据参数的概率分布计算,并加以降低计算量的方法。
之后我们再求这个模型的关于θ(下面用w代替)的似然函数并进行对对数化:
求最大的问题可以转换为求后面两项的最小值:
也就是求:
的最小值,我们将其定义为
也就是在前面讲到的加入正则项后的Loss function,由此整个链条可以完整穿起来,从线性模型->似然函数->极大似然估计下的Loss function->正则化->贝叶斯估计下的Loss function。