文件名称:text-classification-system:使用scikit-learn进行文本分类
文件大小:126.47MB
文件格式:ZIP
更新时间:2024-03-31 15:38:02
系统开源
文本分类 文本分类,使用搜狗文本分类语料库 1.主要步骤 文本分词处理 特征选择 特征权重计算 文本特征向量表示 训练模型并测试:kNN,NB,SVM 使用爬虫抓取新闻并测试 2.数据集 英文文本 数据集使用著名的新闻数据集,你可以从下载。 数据加载使用来加载数据集。 中文文本 使用的版数据其中的一部分。 3.运行环境 python 3.4 scikit学习 麻木 界坝 4.示例 运行HTTP服务器 :页面 今日头条上的新闻 测试结果