DocumentClustering:使用独立 Python 进行文档聚类。 这是 http 对“使用 Python 进行文档聚类”的修改

时间:2024-07-04 12:03:15
【文件属性】:

文件名称:DocumentClustering:使用独立 Python 进行文档聚类。 这是 http 对“使用 Python 进行文档聚类”的修改

文件大小:3KB

文件格式:ZIP

更新时间:2024-07-04 12:03:15

Python

文档聚类 使用独立 Python 进行文档聚类。 这是对“使用 Python 进行文档聚类”的修改。 此版本将在 Tkinter 窗口中运行。 要使用 nltk,您必须将任何语料库从 nltk 下载到目录: python -m nltk.downloader 然后将其链接到您的代码 nltk.data.path.append('./nltk_data/') 如果使用 smoowball 词干分析器必须下载上面的数据。 在模型中选择 snowball_datals “使用 Python 进行文档聚类”在这个项目中使用 sklearn 进行分析,我将“滚动我自己的”从计算 TFIDF 开始 摘自: : 通常,tf-idf 权重由两项组成:第一项计算归一化的词频 (TF),也就是。 单词在文档中出现的次数除以该文档中的单词总数; 第二项是逆文档频率(IDF),计算为语料库中文档数量除以特


【文件预览】:
DocumentClustering-master
----document_clustering.py(5KB)
----README.md(3KB)

网友评论