word_embedding的负采样算法,Negative Sampling 模型

Negative Sampling 模型的CBOW和Skip-gram的原理。它相对于Hierarchical softmax 模型来说，不再采用huffman树，这样可以大幅提高性能。
一、Negative Sampling
在负采样中，对于给定的词w,如何生成它的负采样集合NEG(w)呢？已知一个词w,它的上下文是context(w),那么词w就是一个正例，其他词就是一个负例。但是负例样本太多了，我们怎么去选取呢？在语料库C中，各个词出现的频率是不一样的，我们采样的时候要求高频词选中的概率较大，而低频词选中的概率较小。这就是一个带权采样的问题。设词典D中的每一个词w对应线段的一个长度：
任何采样算法都应该保证频次越高的样本越容易被采样出来。基本的思路是对于长度为1的线段，根据词语的词频将其公平地分配给每个词语：
word_embedding的负采样算法,Negative Sampling 模型
counter就是w的词频。
于是我们将该线段公平地分配了：