这一讲开始将是学习理论(Learning Theory)方面的内容.
Bias/variance trade-off(偏差-方差权衡)
回到线性回归问题,如图:
泛化误差(generalization error):可能出现的错误并不再已有的数据集中
上图中,左右两幅图的泛化误差都比较大.
左边是欠拟合(underfit)的,即使能够拟合很大一部分数据,但还是可能出现偏差(bias).
右边是过拟合(overfit)的, 在有限小数据,拟合程度是很好的,但是对于一个新的输入,很有可能会有很大的误差,这种称作模型有很大的方差(variance).
所以,经常要在偏差和方差中间做权衡,如果选择的模型太简单参数太少,可能会有很大的偏差(但是很小的方差),如果模型太复杂,参数太多又可能会有很大的方差(但很小的偏差). 上面给出的例子中中间的二次函数比左边的线性函数和右边的五次函数拟合得都好.
引理:(联合界,the union bound)假设A1,A2,…,Ak为k个不同的事件(可能独立也可能不独立).那么,
引理(Hoeffding不等式):假设Z1,…,Zm为m个独立同分布(iid,independent and identically distributed)的随机变量,服从于伯努利分布, 也就是说,并且为这些随机变量的期望,,那么有
为了简化阐述,考虑二元分类问题,在这讨论的都可以推广,包括回归和多元分类问题.
假设给定数据集,,样本是IID(独立同分布)的,对于猜想h,定义训练误差(trainning error,也叫做empirical risk和empirical error)为:
其实这就是错误分类的概率.
定义泛化误差为:,就是说给定一个新样本,h会分类错误的概率.
考虑线性分类,怎样找到一个合适的参数,一个方法就是最小化训练误差,然后选择 把这个过程称为经验风险最小化(ERM,empirical risk minimization),推出的猜想为
定义猜想类(Hypotheses class)为学习算法考虑到的所有分类器集合.
经验风险最小化现在可以考虑为在猜想类函数中最小化,也就是说学习算法在猜想类中选择一个猜想
考虑有限个猜想,由k个猜想组成,就是从输入映射到{0,1}的k个函数,经验风险最小化从这k个函数中选择一个使得训练误差是最小的.
训练误差可以写成
应用Heffding不等式得到
假设m很大,对于特定的猜想函数很大概率上训练误差接近泛化误差,但是我们需要证明对于所有的猜想类都是同时成立的,假设事件Ai为
已经有,使用联合边界定理,有
两边同时减1,得
也就是说在内,对于所有的猜想函数,至少有的概率对视一个可信的估计. 这称为一致收敛(uniform convergence)结果, 因为这是对所有都同时成立的边界.
基于上面的讨论,有三个数量,m,和出错的概率,给定其中两个就能够推出另外一个.
比如给定和某个,m需要多大来保证概率在之内,计算得到,这就告诉了我们为了保证一定的错误率需要多大的数据集.
样本复杂性(sample complexity):为了达到一定程度性能而需要的数据集数量.
同样的,我们可以固定m和,得到
把所有的这些放到一起得到一个定理: