花了一周时间看完了《数学之美》一书,看完之后受益匪浅,觉得有必要把书的内容整理回顾一下。
作者吴军介绍说本书内容最初起源于他在google的黑板报和博客。如书名所述,数学知识贯穿始终,且与作者的工作背景紧密相关。本书内容大概包括以下几个方面:数学工具、信息处理相关的一些概念和模型即应用,还介绍了自然语言处理领域的几位大家。具体回顾一下书中内容:
1、 贯穿全书的思想:多数自然语言处理任务可以类比为通信模型,即包括信息的编码、解码以及除噪的过程。
2、书中用到的重要的数学工具:概率论、线性代数和图论。
概率是自然语言处理中非常非常重要的数学工具,必须掌握独立性、联合概率和条件概率、贝叶斯公式等知识。
线性代数则更多地用于文本处理中,例如特征抽取。主要体现在矩阵的应用,书中还提及了矩阵的特征值分解和奇异值分解。用到矩阵时,各个维度的实际意义必须要 弄清楚。
图论主要为搜索方面的数学理论(网络看做图)。
3、介绍了几个相关概念
a)信息论:
信息熵 H = -(p1lgp1 + p2logp2 + ... + pnlgpn),表示不确定度。
条件熵 H(X|Y) = -sum(p(x, y)lgp(x|y)),表示在Y已知的条件下,X还有多大的不确定度。
互信息 I(X;Y) = H(X) - H(X|Y),即表示如果Y已知,则对X会了解多少。
b)布尔代数:即二进制的逻辑运算?
c)布隆过滤器:输入到二进制向量的映射规则。
4、介绍了一些自然语言处理相关的模型
通过天文学发展历程介绍了数学模型的重要性。
a)基于统计的自然语言模型
p(S) = p(w1w2...wn) = p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...wn-1),其中S表示一个句子,wi表示句中第i个词。表示了句子S的概率。根据马尔科夫假设机 器扩展,针对每个条件概率的条件长度,又可以分为二元模型,三元模型...N元模型(条件部分为N-1个词)。
模型的训练:对条件概率作转换:p(wi-1|wi) = #(wi,wi-1) / #(wi)。
零概率问题和平滑处理:主要思想是将很小一部分可见情况的概率分给未出现的情况。
b)隐含马尔科夫模型
要点:状态集合、初始状态概率、状态转移概率、表现概率。
马尔科夫假设:各个状态的概率分布只与其前一个状态有关。
三个问题:
已知模型,预测给定序列的概率——可直接通过概率来求解;
已知模型和表现序列,求最大可能的状态序列——viterbi算法(动态规划思想);
给定表现序列数据,估计模型参数——EM算法。
c)有限状态机
特殊的有向图,指定初始状态和终止状态,由输入决定从一个状态转移至下一个状态或转换失败。
改进:基于概率的有限状态机。
d)余弦定理
测算文本之间的相似度(利用距离的概念)。cos(A) = <b, c>/(|b||c|)
e)最大熵模型
对随机事件预测时,提出的模型应符合全部已知的条件,而对未知条件不做假设。
公式:p(d|x1x2...xn) = 1/z * exp(sum(lambdai(xi,d)))
训练:GIS算法
f)贝叶斯网络
隐马模型的扩展。
g)条件随机场
隐马模型的扩展。
h)维特比算法
i)期望最大化算法
j)逻辑回归模型
5、结合一些应用说明上述模型的应用场合。
a)中文分词
应用模型:统计自然语言模型。对一个句子S,针对不同的分词构成的词序列求概率,选择概率最大者为最终结果。
注意:分词力度与应用场合。可以借助词库解决。
b)搜索引擎
几个任务及实现思路:
网络爬虫:网页的爬取,根据URL,利用BFS(相对应用的更多)或DFS或两者结合的方法。
索引:针对每一个关键词,简历一个索引表,以表示每一篇文章是否包含了该关键词。可用二进制数表示,搜索时关键词并集的搜索即可用布尔代数实现。
避免重复下载:哈希表记录已下载的网页URL。URL的存储形式则用到了信息指纹。
网页排名:*推荐+与搜索目标相关度。
pagerank:根据指向该网页的链接数的多少来给予网页一个权重;计算方法:迭代。
与查询的相关度:根据网页中关键词出现的频度以及每个关键词的逆文本频率指数给出权重。(TF-IDF)
反作弊:抓取利用手段提高网页排名的网站。作者将该过程类比信息除噪,并介绍了两种方法:利用余弦相似度找出卖链接网站;利用图中的环(clique)。
c)文本相似度测算
利用余弦定理。
优化:计算量的减少(省略分母计算)、分子稀疏话、删除虚词;根据位置等特征赋予权重。
d)文本分类
文本可按主题分类,自字词可按意思归类
优化方法:矩阵的奇异值分解,分解后自动完成文章和字词的分类以及文章主题与词类之间的关系。
e)集合判重、反盗版
信息指纹,利用相同的规则将信息转换为数字。
f)公开密钥的加密解密方法
原理:信息论~
g)拼音输入法
原理:信息论。。。
h)句法分析
加括号方法;基于CRFs的方法。
i)文本自动分类
最近邻算法(期望最大化)
6、几个算法思想
动态规划、分治
7、介绍了几位自然语言处理领域的大家
比如 贾里尼克、阿米特。辛格(崇尚简单方法、马库斯(宾州树库创建者)