文件名称:TextClassification:使用搜狗开放新闻语料进行文本分类
文件大小:12KB
文件格式:ZIP
更新时间:2024-07-04 06:50:00
Python
文本分类 @作者:明亮的安静@Email:sina dot com的brighthush 英文自述文件 项目介绍 这是一个用于中文文本分类的python项目。 我完成了这个项目作为自然语言理解课程的家庭作业。 在这个实验中,我使用了搜狗-文本-分类开放语料库。 我使用 TF/IDF 和信息增益作为特征提取算法。 由于我很懒,所以只实现了两个简单的分类算法,它们是 K-Nearest-Neighbour 和朴素贝叶斯分类。 在提取文本特征时,我们总是需要将句子分割成单词。 我用jieba做分词。 你也可以从获取这个模块。 代码中的命名约定 modeule_name, package_name, method_name, function_name, instance_var_name, function_parameter_name, local_var_name globa_var_n
【文件预览】:
TextClassification-master
----.spyderproject(99B)
----.gitignore(3KB)
----README.md(3KB)
----conf()
--------StopWords.txt(5KB)
----.gitattributes(483B)
----src()
--------features.py(4KB)
--------topk.py(1KB)
--------configuration.py(684B)
--------naive_bayes.py(2KB)
--------read_data.py(5KB)
--------__init__.py(0B)
--------knn.py(3KB)