文件名称:一种适应域的汉语N-gram语言模型平滑算法 (1999年)
文件大小:259KB
文件格式:PDF
更新时间:2024-05-28 23:00:06
自然科学 论文
针对基于汉语词的N-gram模型统计数据稀疏问题和应用域变化造成原统计模型识别性能降低,提出具有应用域适应能力的N-gram模型平滑算法。对两种应用域的语料进行了前、后向。到3元文法统计,采用隐马尔可夫模型(HMM)在语音识别中的成功经验,由Baum-walch算法来获得优化权值,每个权值代表相关模型的统计可靠性。由前后向的3-gram模型可得到5-gram文法约束的平滑算法,以弥补统计矩阵数据的稀疏现象。将《人民日报》语料的统计结果作为先验统计结果,和《计算机世界》作为转换域的专业语料进行后继训练,得到