Word2Vec学习笔记(一)

时间:2022-12-02 23:21:21

目录

  • Word2Vec基本数学内容
  • 语言模型
  • Hierarchical Softmax 模型
  • Negative Sampling 模型

一、Word2Vec基本数学内容

1. Sigmod 函数

&absp;&absp;&absp;&absp;Sigmod函数通常在二分类中应用。它将样本映射后投影在[0, 1]范围内,对应样本所属的类的概率。函数表达式如下所示:
f(x)=11+ex
具体的讨论可以参见:
http://blog.csdn.net/chunyun0716/article/details/51580342

2. 贝叶斯公式

P(A|B)=P(B|A)P(A)P(B)
可以参见贝叶斯分类等一系列文章:
1. http://blog.csdn.net/chunyun0716/article/details/51031055
2. http://blog.csdn.net/chunyun0716/article/details/51058948
3. http://blog.csdn.net/chunyun0716/article/details/51111864

3. Huffman 树和Huffman编码

下边这篇博客写的很详细了,这里简单引用一些基本知识:
http://blog.csdn.net/shuangde800/article/details/7341289

定义哈夫曼树之前先说明几个与哈夫曼树有关的概念:
路径: 树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。
路径长度:路径上的分枝数目称作路径长度。
树的路径长度:从树根到每一个结点的路径长度之和。
结点的带权路径长度:在一棵树中,如果其结点上附带有一个权值,通常把该结点的路径长度与该结点上的权值 之积称为该结点的带权路径长度(weighted path length)
树的带权路径长度:如果树中每个叶子上都带有一个权值,则把树中所有叶子的带权路径长度之和称为树的带
权路径长度。

一般来说,用n(n>0)个带权值的叶子来构造二叉树,限定二叉树中除了这n个叶子外只能出现度为2的结点。
那么符合这样条件的二叉树往往可构造出许多颗,其中带权路径长度最小的二叉树就称为哈夫曼树或最优二叉树.

通过哈夫曼树来构造的编码称为哈弗曼编码(huffman code)