Word2Vec学习笔记(二)

时间:2022-12-02 23:21:33

二、语言模型

    语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。因此,统计语言模型出现了,并且得到了广泛的应用,统计语言模型是基于概率的,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。

1.统计语言模型的基本原理

    统计语言模型是以概率分布的形式说明了一个字符串出现的概率。假设词(word)是语言的最小单位,句子S是由一系列的词 w1,w2,,wk 顺序构成,则句子S的概率为下:
p(s)=p(w1)p(w2|w1)p(wn|w1,w2,,wn1)=i=1np(wi|w1,w2,,wi1)1
且,上式中约定 p(w1|w0)=p(w1) .观察上式可以发现,句子S的概率计算是很复杂的,因此,往往采用一些方法来估计语料库中句子的概率。

2.主要的统计语言模型

2.1 上下文无关模型

    上下文无关模型就是词 w1 的出现与它所处的环境无关,仅仅是它在语料中出现的概率,即它是n-gram中n=1的情况,但是实际上,这种方法效果并不是很好。

2.2 n-gram模型

    n-gram模型是要考虑上下文的。 w1 出现的是依赖于它之前的n-1个词的,即需要计算词表中的每一个n-1元组的概率,此计算量是巨大的,因此实际中,常取n=2 或n=3.

2.3 暂时记录在此

隐马尔科夫模型(Hidden Markov Model,简称HMM)和最大熵模型(Maximum Entropy Model)暂时还没有深入研究,暂时记录下来,以后进行补充。