word2vec 评测 sg=0 sg=1 size=100 window=3

时间:2022-01-13 11:06:44

1、评价sg=0与sg=1的区别    结果原文:sg_difference.txt

sg=0     sg=1

绑定                         1

关联            1

小票机         1

促销                          1

外卖                           1

厨打            1

支付            1

打印            1

预约                            1

导入             1

哪里                            1

添加             1

修改             1

设置                            1

取消             1

关闭                            1

打折                             1

团购                             1

卖                                 1

优惠券                          1

网点               1

限制                             1

22               10            12

考虑到担心过拟合以及skip-gram相似度偏大,在评测里占优势(实际上使用并不会这么好),我还是决定使用CBOW,结果更稳定,训练速度也更快

取消
====== model1 ======
[('作废', 0.6092526912689209), ('关闭', 0.6043184995651245), ('消除', 0.574714183807373),

====== model2 ======
[('不能取消', 0.7959584593772888), ('掉', 0.6829575300216675), ('关不了', 0.682915449142456),

我发现skip-gram很容易过拟合,需要训练数据更多更大才行

而且,我发现即便是相同的参数,两次训练得到的模型也是不一样的,可以理解,毕竟训练得到的是学习到的近似结果。