文件名称:featureselect_IG:通过IG特征选择法选择特征
文件大小:21KB
文件格式:ZIP
更新时间:2024-07-03 16:59:32
Java
featureselect_IG 使用的语料格式为:每一篇文档在一行中,文档分类号和文档内容由\t分割,文档内容内部各词有空格分割,生成语料时严格遵守改格式。 在使用时请注意,本算法retainPercent值如果设置的比较大,算法运行会很慢。实际测试结果:五十万个特征,加上特征IG值计算,20%时,时间在四十分钟左右,10%时时间在十分钟左右。 测试分类器是朴素贝叶斯分类器,正确率在81%左右,当然,这跟自己使用的语料有关系。使用手工语料测试的结果在百分之八十五以上,测试语料地址为: ,使用的是十二分类进行测试的。
【文件预览】:
featureselect_IG-master
----.gitignore(574B)
----src()
--------com()
----bin()
--------com()
----.classpath(295B)
----.settings()
--------org.eclipse.jdt.core.prefs(587B)
----README.md(744B)
----.project(375B)
----.gitattributes(378B)