文件名称:chinese_text_classification:通过一个中文文本分类问题系统实现了各种分类方法
文件大小:6.73MB
文件格式:ZIP
更新时间:2024-03-31 13:44:55
系统开源
chinese_text_classification 通过一个中文文本分类问题系统实现了各种分类方法 数据来源 数据搜狗新闻 类别 有汽车,娱乐,军事,体育,技术五种类别。原始数据比较大,没有上传,分词,去除重组词之后的数据放在processed_data文件夹下。 分类算法 主要实现了以下分类算法: NB(朴素贝叶斯) 支持向量机 快速文本 text_CNN text_RNN text_RCNN text_Bi_LSTM text_Attention_Bi_LSTM HAN(分层注意网络) 埃尔莫 分类准确率 分类准确率都在90%附近,没有进行过多预处理,只为熟悉算法的使用。 依赖库 基于tensorflow2.0实现,可以在win和linux下运行。觉得有用的点个赞,谢谢。
【文件预览】:
chinese_text_classification-master
----11.text_HAN.py(8KB)
----3.chinese_text_classification_NB_SVM.ipynb(15KB)
----vocab()
--------vocab.txt(324KB)
----10.text_ELMo.py(4KB)
----utils.py(4KB)
----README.md(809B)
----result()
--------accuracy_birnn.png(23KB)
--------accuracy_cnn.png(23KB)
--------loss_rnn.png(19KB)
--------loss_bircnn.png(21KB)
--------accuracy_att_bilstm.png(24KB)
--------loss_att_bilstm.png(21KB)
--------accuracy_bircnn.png(23KB)
--------loss_cnn.png(19KB)
--------accuracy_rnn.png(23KB)
--------loss_birnn.png(19KB)
----9.text_Attition_BiLSTM.py(8KB)
----5.text_CNN.py(4KB)
----7.text_RCNN.py(5KB)
----8.text_BiRNN.py(4KB)
----processed_data()
--------technology.txt(3.2MB)
--------sports.txt(2.68MB)
--------entertainment.txt(2.94MB)
--------car.txt(1.73MB)
--------military.txt(2.19MB)
----2.chinese_text_Extract_keywords.ipynb(14KB)
----6.text_RNN.py(4KB)
----img()
--------kk.jpg(5KB)
----1.chinese_text_basic_analysis_visualization.ipynb(219KB)
----4.chinese_text_classification_by_fasttext.ipynb(19KB)