Graph-Of-Words:用于文字分类的单词图

时间:2024-06-14 02:44:49
【文件属性】:

文件名称:Graph-Of-Words:用于文字分类的单词图

文件大小:948KB

文件格式:ZIP

更新时间:2024-06-14 02:44:49

使用词图方法与词袋方法进行文本分类 介绍 该项目的目标是使用向量空间模型对一定数量的文本进行分类,向量空间模型是文档的空间表示形式。 每个文档都可以描述为具有一定数量特征的矢量,每个特征对应于训练词汇集中的特定单词。 所使用的数据集是经过预处理的路透数据集,其中包含5,495个培训文档和2,189个测试文档,并带有8个不同的标签。 预处理已用于将标记化,停用词删除和词干应用于初始文本。 笔记本中描述的方法背后的想法是构造“智能”文档术语矩阵,即大小为n×m的矩阵,其中n是文档数,m是要素数,选择“正确的”权重进行填充在这些矩阵中。 “好”的权重可以区分不同的文本标签,并且对于将要使用的任何学习算法都将有很大的帮助。 词袋与词图 在通常的单词表示法包中,不考虑文本中不同单词之间的顺序; 它是使用TfidfVectorizer在此处构建的。 与单词袋表示法不同,单词图表示法根据单词在文本中的位


【文件预览】:
Graph-Of-Words-master
----r8-train-stemmed.txt(2.13MB)
----Notebook_Graph_of_Words.ipynb(39KB)
----README.md(3KB)
----r8-test-stemmed.txt(780KB)
----GoW.png(45KB)

网友评论