文件名称:habr_topic_classification
文件大小:720KB
文件格式:ZIP
更新时间:2024-04-27 09:11:39
JupyterNotebook
基于Habr.com数据的主题分类教育文本语料库 该语料库包含从habr.com收集的文章。 对于每篇文章,语料库包含: 姓名, 文章文字, hub列表, 点赞次数 出版时间。 要获取干净的数据,您需要运行以下脚本: 01_grab.py-从habr.com下载并解析html页面, 02_filter.py-仅保存属于10个最常见主题之一的文本。
【文件预览】:
habr_topic_classification-main
----.gitignore(77B)
----parse_habr.ipynb(5KB)
----habr_postagging.py(3KB)
----requirements.txt(48B)
----test_search.sh(199B)
----search()
--------elastic()
--------front()
----Train regression.ipynb(5KB)
----start.sh(42B)
----get_bigrams.py(2KB)
----docker-compose.yml(753B)
----find_similar_documents.ipynb(723KB)
----print_statistic.ipynb(77KB)
----02_filter.py(2KB)
----README.md(864B)
----train_simple_classifiers.ipynb(15KB)
----01_grab.py(2KB)