文件名称:DocumentClustering:使用独立 Python 进行文档聚类。 这是 http 对“使用 Python 进行文档聚类”的修改
文件大小:3KB
文件格式:ZIP
更新时间:2024-07-04 12:03:15
Python
文档聚类 使用独立 Python 进行文档聚类。 这是对“使用 Python 进行文档聚类”的修改。 此版本将在 Tkinter 窗口中运行。 要使用 nltk,您必须将任何语料库从 nltk 下载到目录: python -m nltk.downloader 然后将其链接到您的代码 nltk.data.path.append('./nltk_data/') 如果使用 smoowball 词干分析器必须下载上面的数据。 在模型中选择 snowball_datals “使用 Python 进行文档聚类”在这个项目中使用 sklearn 进行分析,我将“滚动我自己的”从计算 TFIDF 开始 摘自: : 通常,tf-idf 权重由两项组成:第一项计算归一化的词频 (TF),也就是。 单词在文档中出现的次数除以该文档中的单词总数; 第二项是逆文档频率(IDF),计算为语料库中文档数量除以特
【文件预览】:
DocumentClustering-master
----document_clustering.py(5KB)
----README.md(3KB)