文件名称:数据挖掘分类技术
文件大小:395KB
文件格式:PDF
更新时间:2024-03-21 21:36:17
数据挖掘分类技术
造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很可能做出错误的预测)(3)多重比较也可能会导致过分拟合(大量的候选属性和少量的训练记录最后导致了模型的过分拟合)(1)乐观估计(决策树归纳算法简单的选择产生最低训练误差的模型作为最终的模型)(2)悲观误差估计(使用训练误差与模型复杂度罚项的和计算泛化误差)(3)最小描述长度原则(模型编