python-topic-indexer:使用Python脚本构建文本分类器

时间:2021-05-10 14:06:40
【文件属性】:
文件名称:python-topic-indexer:使用Python脚本构建文本分类器
文件大小:42.92MB
文件格式:ZIP
更新时间:2021-05-10 14:06:40
Python python-topic-indexer 用于构建文本主题分类器的Python脚本。 当前状态:原型类别来自( )当前分类基于第1层类别。 标记数据收集 由于没有想要的类别的标签数据集,因此我决定从快速解决方案开始: news_extractor.py在Google新闻中搜索第2层名称,在学习者中使用了相关文章(每个主题100个),并标有相应的第1层类别。 在搜索中直接使用方法2的名称有时会导致嘈杂的结果,例如,在诸如以下文章中搜索“收集” (“兴趣与兴趣”类别)结果: 司机杀死为慈善募捐的消防员... 男子承认从死去母亲的纽约州福利中获得27.5万美元 女人承认将人们困在地下室,收集他们的伤残检查表而认罪:) 数据集质量直接影响分类器的性能。 进一步的改进要么是寻找更好的伪标签来源,要么是寻找更大的无监督算法。 训练模式 收集新闻数据集(不包含在存储库中)后,您可以仅使用p
【文件预览】:
python-topic-indexer-master
----.gitignore(54B)
----iab_cat_load.py(12KB)
----datasets()
--------corpora()
--------taggers()
--------tokenizers()
--------chunkers()
----news_trainer.py(5KB)
----classifier_pickles()
--------news_based_sklearnLinSVC.pickle(8.75MB)
--------news_based_MultinomialNB.pickle(9.32MB)
--------news_based_BernoulliNB.pickle(9.42MB)
----README.md(2KB)
----news_extractor.py(740B)
----accuracy.py(2KB)
----iab_cat_gen.py(20KB)
----classificator.py(764B)

网友评论