doc2vec:使用Gensim训练doc2vec模型的Python脚本

时间:2024-05-21 00:27:02
【文件属性】:

文件名称:doc2vec:使用Gensim训练doc2vec模型的Python脚本

文件大小:199KB

文件格式:ZIP

更新时间:2024-05-21 00:27:02

nlp machine-learning word2vec doc2vec JupyterNotebook

doc2vec 该存储库包含Python脚本,用于使用训练doc2vec模型。 有关doc2vec算法的详细信息,请参见论文。 创建一个DeWiki数据集 Doc2vec是一种无监督的学习算法,并且可以使用任何文档集来训练模型。 文档可以是简短的140个字符的推文,单个段落(如文章摘要,新闻文章或书籍)中的任何内容。 对于德国人来说,一个好的基线是使用训练模型。 下载最新的DeWiki转储: wget http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 提取内容: wget http://medialab.di.unipi.it/Project/SemaWiki/Tools/WikiExtractor.py python WikiExtractor.py -c -b 2


【文件预览】:
doc2vec-master
----.gitignore(26B)
----data()
--------semantic.bestmatch.questions(17KB)
--------syntactic.questions(314KB)
--------stopwords_german.txt(17KB)
----notebooks()
--------visualize-embeddings.ipynb(179KB)
--------evaluate-doc2vec-model.ipynb(42KB)
----README.md(2KB)
----preprocess.py(2KB)
----train.py(7KB)

网友评论