.word2vec 参数说明

sentences (iterable of iterables, optional) – 供训练的句子，可以使用简单的列表，但是对于大语料库，建议直接从磁盘/网络流迭代传输句子。参阅word2vec模块中的BrownCorpus，Text8Corpus或LineSentence。

corpus_file (str, optional) – LineSentence格式的语料库文件路径。

size (int, optional) – word向量的维度。

window (int, optional) – 一个句子中当前单词和被预测单词的最大距离。

min_count (int, optional) – 忽略词频小于此值的单词。

workers (int, optional) – 训练模型时使用的线程数。

sg ({0, 1}, optional) – 模型的训练算法: 1: skip-gram; 0: CBOW.

hs ({0, 1}, optional) – 1: 采用hierarchical softmax训练模型; 0: 使用负采样。

negative (int, optional) – > 0: 使用负采样，设置多个负采样(通常在5-20之间)。

ns_exponent (float, optional) – 负采样分布指数。1.0样本值与频率成正比，0.0样本所有单词均等，负值更多地采样低频词。

cbow_mean ({0, 1}, optional) – 0: 使用上下文单词向量的总和; 1: 使用均值，适用于使用CBOW。

alpha (float, optional) – 初始学习率。

min_alpha (float, optional) – 随着训练的进行，学习率线性下降到min_alpha。

seed (int, optional) – 随机数发生器种子。

max_vocab_size (int, optional) – 词汇构建期间RAM的限制; 如果有更多的独特单词，则修剪不常见的单词。每1000万个类型的字需要大约1GB的RAM。

max_final_vocab (int, optional) – 自动选择匹配的min_count将词汇限制为目标词汇大小。

sample (float, optional) – 高频词随机下采样的配置阈值，范围是(0,1e-5)。

hashfxn (function, optional) – 哈希函数用于随机初始化权重，以提高训练的可重复性。

iter (int, optional) – 迭代次数。

trim_rule (function, optional) – 词汇修剪规则，指定某些词语是否应保留在词汇表中，修剪掉或使用默认值处理。

sorted_vocab ({0, 1}, optional) – 如果为1，则在分配单词索引前按降序对词汇表进行排序。

batch_words (int, optional) – 每一个batch传递给线程单词的数量。

compute_loss (bool, optional) – 如果为True，则计算并存储可使用get_latest_training_loss()检索的损失值。

callbacks (iterable of CallbackAny2Vec, optional) – 在训练中特定阶段执行回调序列。

秒客网