Kmean电影简介聚类数据

时间:2023-02-04 14:11:23
【文件属性】:

文件名称:Kmean电影简介聚类数据

文件大小:734KB

文件格式:RAR

更新时间:2023-02-04 14:11:23

Kmean NLTK

文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为: (1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理; (2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销; (3) 统计:词频统计,项(单词、概念)与分类的相关概率; (4) 特征抽取:从文档中抽取出反映文档主题的特征; (5)分类器:分类器的训练; (6) 评价:分类器的测试结果分析。


【文件预览】:
电影简介聚类数据
----genres_list.txt(3KB)
----Stopwords.txt(26KB)
----link_list_imdb.txt(4KB)
----link_list_wiki.txt(5KB)
----synopses_list.txt.txt(31KB)
----01_All_BHSpider_Content_Result.txt(1022KB)
----synopses_list_wiki.txt(963KB)
----synopses_list_imdb.txt(820KB)
----requirements.txt(674B)
----title_list.txt(2KB)
----link_list.txt(2KB)

网友评论