二、语言模型
语言模型可以分为文法型模型和统计语言模型。在实际应用中语言识别、手写体文字识别、机器翻译、键盘输入、信息检索等研究领域都用到了语言模型。文法型语言模型是人工编制的语言学文法,文法规则来源于语言学家掌握的语言学知识和领域知识,但这种语言模型不能处理大规模真实文本。因此,统计语言模型出现了,并且得到了广泛的应用,统计语言模型是基于概率的,包括了N元文法模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。
1.统计语言模型的基本原理
统计语言模型是以概率分布的形式说明了一个字符串出现的概率。假设词(word)是语言的最小单位,句子S是由一系列的词
且,上式中约定
2.主要的统计语言模型
2.1 上下文无关模型
上下文无关模型就是词
2.2 n-gram模型
n-gram模型是要考虑上下文的。
2.3 暂时记录在此
隐马尔科夫模型(Hidden Markov Model,简称HMM)和最大熵模型(Maximum Entropy Model)暂时还没有深入研究,暂时记录下来,以后进行补充。