文件名称:基于改进χ2统计的数据离散化算法 (2012年)
文件大小:877KB
文件格式:PDF
更新时间:2024-07-07 11:40:40
自然科学 论文
在基于χ2统计独立性的离散化算法中,*度与期望频数的选取直接影响χ2计算的准确性,从而影响离散化的性能.为此,提出了一种基于改进χ2统计的数据离散化算法,提高了基于统计独立性离散化算法的质量.首先,分析了χ2函数中*度选取的不足,给出了*度选取的修正方案;其次,根据数据类分布等特点,提出了期望频数的改进方案,克服了不同数据集赋予相同期望频数的缺陷,提高了χ2计算的准确性.实验结果表明,改进的方法显著提高了C4 .5决策树与Naive贝叶斯分类器的学习精度.