文件名称:topic.classification:新闻的自动主题分类
文件大小:3.95MB
文件格式:ZIP
更新时间:2024-06-22 06:14:42
Python
主题.分类 新闻的自动主题分类 可应要求提供不同型号的性能基准。 以下是对不同实施模型的观察: 朴素贝叶斯分类器 高斯 NB 不适合这种情况,因为条件概率不是高斯概率。 随机森林 RF 基于随机选择的非常稀疏的特征进行分割,因此它的性能比朴素贝叶斯分类器差。 Boostrap 聚合(装袋) 装袋树根据所有特征进行分割。 随着 max_features 变高,树之间的随机性降低,导致性能略低于 RF(约 1%)。 我们还对装袋树进行网格搜索 max_depth 并发现当 max_depth 变低时性能大大降低。 Bagging 减少了高方差模型的方差,因此如果我们将 Bagging 应用于像朴素贝叶斯分类器这样的低方差模型,它不会提高性能。 (随机)梯度提升 对于梯度提升,较低的子样本(又名,随机梯度提升)可防止过度拟合 最好让树完全生长(与装袋树的结果一致),最好有更高的 n_e
【文件预览】:
topic.classification-master
----classifier.py(15KB)
----README.md(2KB)
----corpus.csv(11.43MB)