doc2vec:用于训练测试段落向量的 Python 脚本

时间:2024-08-24 02:06:21
【文件属性】:

文件名称:doc2vec:用于训练测试段落向量的 Python 脚本

文件大小:1.21MB

文件格式:ZIP

更新时间:2024-08-24 02:06:21

Python

该存储库包含一些 python 脚本,用于使用段落向量或 doc2vec 训练和推断测试文档向量。 要求 Python2:预训练的模型和脚本都只支持 Python2。 Gensim:最好使用我的的 gensim; 最新的 gensim 稍微改变了它的 Doc2Vec 方法,因此不会加载预先训练的模型。 预训练的 Doc2Vec 模型 预训练的 Word2Vec 模型 为了重现性,我们还在*和美联社新闻上发布了预训练的 word2vec skip-gram 模型: 目录结构和文件 train_model.py:用于训练一些玩具数据的示例 Python 脚本 infer_test.py:使用训练模型推断测试文档向量的示例 Python 脚本 toy_data:包含一些玩具训练/测试文档和预训练词嵌入的目录 模型超参数说明 sample :这是对频繁词进行下采样的子采样阈值; 1


【文件预览】:
doc2vec-master
----train_model.py(1KB)
----LICENSE(11KB)
----toy_data()
--------test_docs.txt(3KB)
--------pretrained_word_embeddings.txt(2.72MB)
--------train_docs.txt(469KB)
----README.md(3KB)
----infer_test.py(632B)

网友评论