自然语言处理(一)

时间:2023-01-26 01:30:56

概论

自然语言处理----利用计算机处理文本及声音。
自然语言处理(一)
应用领域 :输入—输出;输入法; 拼写更正;机器翻译;evernote推荐系统; 英文写作助手;twitter重大事件分析;医疗诊断;体育赛事报道生成;
应用技术 :语言模型,自动机,中文分词,文本对齐,模板匹配,分类器,相似度计算,local sensitive hashing,文本分类,关键词匹配,倒排索引,语法分析,找词根,社交网络,可信度分析,规则系统,深度学习,模板填充,同义词替换,文本对齐,
概率系统的工作方式:流程设计—收集训练数据—预处理—抽取特征—分类器—预测—评价
自然语言处理(一)

语言模型
xx模型——对某个语句打分
概率语言模型:Statistical language model
核心:通过打分告诉机器怎么说话。
N-gram:
自然语言处理(一)

HMM假设:未来的事件,取决于有限的历史。
自然语言处理(一)

N-gram LM 符合马尔可夫假设,N个状态相关
RNN LM 非马尔科夫假设 可计算无限多个假设

OOV解决办法:
把没有出现过的词统计为unk,用unk替换oov进行概率计算。
自然语言处理(一)
最大似然估计:
自然语言处理(一)

自然语言处理(一)

N-gram平滑:
back-up回退法 :思路:自己有钱自己出,没钱爸爸出,爸爸没钱爷爷出。
trigram没有——> bigram没有——> unigram
Interpolate插值法 :自己 爸爸 爷爷各出一点钱。

自然语言处理(一)
Absolute discount 绝对折扣----劫富济贫,按爸爸的资产分配。
Kneser-Ney smoothing ----有钱人交固定的税,按爸爸人脉分配。
Modified KN- ---有钱人交阶梯税,按爸爸人脉分配。
自然语言处理(一)