pcs5735_newsgroup:为新闻组 (Tom Mitchell) 数据集分类测试多个机器学习

时间:2024-07-26 08:29:58
【文件属性】:

文件名称:pcs5735_newsgroup:为新闻组 (Tom Mitchell) 数据集分类测试多个机器学习

文件大小:47.94MB

文件格式:ZIP

更新时间:2024-07-26 08:29:58

Java

pcs5735_新闻组 随着网络上可用数据量的指数级增长,尤其是文本,对能够从这些资源中自动提取信息的算法的需求更加明显。 在本文中,我介绍了对几种机器学习算法的理论基础的调查,我还使用公共数据集对论坛帖子进行了自动分类实验。 对结果进行了比较和定性的讨论。 结果表明,决策树算法的性能最好,准确率为 97.67%,而另一种神经网络算法的准确率仅为 12.33%。 考虑到这些算法不是专门针对这种情况开发的并且已经构建,因此介绍了其他算法以比较它们在这种情况下的适应性。 关键词:人工智能、文本挖掘、机器学习、决策树、神经网络、贝叶斯学习、聚类、支持向量机。


【文件预览】:
pcs5735_newsgroup-master
----.DS_Store(6KB)
----src()
--------com()
--------mini_newsgroups-vector.arff(802KB)
--------config.properties(621B)
--------20_newsgroups-vector.arff(7.23MB)
--------20_newsgroups.arff(19.09MB)
--------mini_newsgroups.arff(2.01MB)
----.project(376B)
----base_lucene()
--------mini_newsgroups()
--------20_newsgroups()
----.classpath(804B)
----.gitignore(18B)
----lib()
--------lucene-analyzers-3.5.0.jar(855KB)
--------lucene-queries-3.5.0.jar(45KB)
--------lukeall-3.5.0.jar(7.08MB)
--------weka.jar(6.17MB)
--------commons-lang-2.6.jar(278KB)
--------lucene-core-3.5.0.jar(1.4MB)
--------hadoop-common-2.0.0-alpha.jar(2MB)
--------lucene-queryparser-3.5.0.jar(302KB)
--------lucene-memory-3.5.0.jar(30KB)
----README.md(1018B)

网友评论