Word2Vec的相关知识

时间:2022-07-27 06:32:27

Word2Vec的相关知识

1.预备知识

1.1 统计语言模型

统计语言模型是用来计算一个句子的概率的概率模型,通常是基于一个语料库来构建的。而一个句子的概率可以用一下的公式来表示:

p(W)=p(wT1)=p(w1,w2,,wT) (1.1)

其中, W=wT1:=(w1,w2,...,wT) ,表示由 T 个词 w1,w2,...,wT 按顺序构成的一个句子。公式 (1.1) 可以使用链式法则分解为:

p(wT1)=p(w1)p(w2|w1)p(w3|w21)p(wT|wT11) (1.2)

1.2 n-gram 模型

首先假设,与它前面的所有词都相关,那么我们有:

p(wk|wk11)=p(wk1)p(wk11) (1.3)

那么,根据大数定律,也就是在语料库足够大的情况下,我们有:

p(wk|wk11)=count(wk1)count(wk11) (1.4)

其中, count(wk1) 表示句子 wk1 在语料中出现的次数, count(wk11) 表示句子 wk11 在语料中出现的次数。

如果计算所有的词,那么计算量将会非常的大,因此使用 n 元模型。它就是一个词出现的概率与它的前面的 n1 个词都相关。那么可以得到:

p(wk|wk11)p(wk|wk1kn+1)

因此得到如下公式:

p(wk|wk11)count(wkkn+1)count(wk1kn+1)

n 一般取 5

1.3 sigmoid函数

​ sigmoid函数是神经网络中的激活函数之一,在不同的阈值下会有不同的输出结果。其定义为:

σ(x)=11+ex

该函数的定义域为: (,+) ,值域为 (0,1) .

Word2Vec的相关知识https://upload.wikimedia.org/wikipedia/commons/thumb/2/2f/Error_Function.svg/600px-Error_Function.svg.png‘/ width=’400’>

​ 图1 sigmoid函数的图像

sigmoid的导函数有一下形式:

σ(x)=σ(x)[1σ(x)]

由此可得到,函数 logσ(x) log(1σ(x)) 的导函数分别为:

[logσ(x)]=1σ(x) , [log(1σ(x))]=σ(x)

1.4 逻辑回归

​ 用于解决二分类问题,对样本数据 {(Xi,yi)}mi=1 为一个而分类问题的样本数据,其中 XiRn , yi{0,1} ,当 yi=1 时,称对应的样本 Xi 为正例,反之为负例。

未完待续