目录
学习完吴恩达老师机器学习课程的应用机器学习的建议,简单的做个笔记。文中部分描述属于个人消化后的理解,仅供参考。
如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~
0. 前言
对训练集进行模型训练的时候,通常会存在两种问题,“过拟合”和“欠拟合”,分别对应高方差(high variance)和高偏差(high bias)。
- 高方差:拟合程度过好,以至于过拟合,无法泛化新的样本数据
- 高偏差:拟合程度太差,以至于欠拟合,存在很大的误差
1. 评估模型过程
- 随机划分训练集和测试集
- 用训练集进行模型训练,降低 ,用测试集计算
- 或者采用错误分类率 ,
2. 最高次幂对方差偏差的影响
如图所示(图源:吴恩达机器学习),横坐标为最高次幂,纵坐标为错误分类率或者代价函数,一般情况下:
- 当 很小时,曲线无法拟合大部分数据,具有高偏差,
- 当 很大时,曲线拟合训练集过好,造成无法泛化测试集,具有高方差,
3. 正则化参数对方差偏差的影响
如图所示(图源:吴恩达机器学习),横坐标为正则化参数 ,纵坐标为错误分类率或者代价函数,一般情况下:
- 当 很小时,未减少权重系数的大小,曲线对训练集的拟合程度很好,具有高方差
- 当 很大时,减少权重系数太多,曲线无法很好的拟合数据,具有高偏差
4. 高偏差的学习曲线
如图所示(图源:吴恩达机器学习),横坐标为训练集大小,纵坐标为错误分类率或者代价函数,一般情况下:
- 随着数据集的增大,训练集的误差会越来越大,测试集的误差会越来越小
- 当 时, 训练集和测试集的误差均会趋近于一个较大的常数
5. 高方差的学习曲线
如图所示(图源:吴恩达机器学习),横坐标为训练集大小,纵坐标为错误分类率或者代价函数,一般情况下:
- 随着数据集的增大,训练集的误差会越来越大,测试集的误差会越来越小
- 训练集的误差和测试集的误差之间的间隙较大
6. 对机器学习算法的调试
- 采用更多的训练集 解决高方差(过拟合)
- 减少特征数量 解决高方差(过拟合)
- 增加特征数量 解决高偏差(欠拟合)
- 增加最高次幂 解决高偏差(欠拟合)
- 降低正则化系数 解决高偏差(欠拟合)
- 增加正则化系数 解决高方差(过拟合)
如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~