文件名称:reddit-word-vectors:使用https:pushshift.io对Reddit数据进行处理
文件大小:14KB
文件格式:ZIP
更新时间:2024-02-25 00:07:22
machine-learning reddit parsing text-classification word2vec
RWV(Reddit单词向量) 使用线程从pushshift下载reddit帖子和评论 使用Gensim库从提取的句子中制作Word2vec,Doc2vec或FastText模型 有关如何使用此脚本的更多信息,请参见example.ipynb。 示例word2vec模型可以在找到。 结果 与“ cat”最相似的50个词(浮点数是余弦相似度): 狗:0.84小狗:0.71小猫:0.69小狗:0.69奇瓦瓦狗:0.68哈士奇:0.65哈巴狗:0.65猫:0.62小猫:0.61鸟:0.61小猎犬:0.60鹦鹉:0.59罗威纳犬:0.59邻居:0.59腊肠犬:0.58幼儿:0.58宠物: 0.57女
【文件预览】:
reddit-word-vectors-master
----example.ipynb(8KB)
----requirements.txt(109B)
----RWV()
--------__init__.py(0B)
--------pushshift()
--------vector_model()
--------data()
--------text_processing()
----README.md(2KB)
----.gitignore(31B)