文件名称:基于Word2vec的文档分类
文件大小:338KB
文件格式:PDF
更新时间:2020-07-03 15:02:44
首先采用 Google 的 Word2Vec 工具,从海量的文本(本文) 中,使用神经网络学习得到词典中每个词的向量表示。然后根据向量,对词 典中的每个词进行聚类,例如聚类成 500 类(新的“词典”) 。而后,使用工具 对每个文档提取代表性的关键词。每个关键词都在前面的聚类中找到自己的 类别。这样类似多媒体技术中讲授的向量空间模型(VSM) ,每个文档都可以 用过关键词词频表示成一个 500 维的向量,这个向量就是这个文档的“特征向 量”。