今天看了数学之美这本书,第三章统计语言模型,只是趣味扫盲类阅读,并不涉及很深的数学知识。 记录之。。。
验证机器是否智能
最早提出机器智能设想的是计算机之父阿兰.图灵,他曾提出一个方法:让任何机器进行交流,如果人无法判断自己交流的对象是人还是机器,那就说明这个机器有智能了。
自然语言处理的弯路
最早的科学家们在自然语言处理领域中,局限在人类学习语言的方式上,让电脑去模拟人脑,那20多年的成果几乎为零。因为那时候,全世界对自然语言处理的研究都陷入了一个误区! 那时候,科学家们怎么让计算机理解语言呢:规则和语法。企图概括自然语言语法,然后用计算机的算法描述,从而让计算机理解语言。
自然语言处理的正确道路
经过了大约15年的时间,科学家们才完成了从弯路规则到正确道路-统计的转变。 漫长的15年,我们必须承认,一个新的研究方法的成熟确实需要很多年,然后,第二个作者提出的原因也很有意思: 新的方法代替传统的方法,需要等原有的一批语言学家退休。。。
统计语言模型
在自然语言处理走上正确的研究道路—统计之后,就很快提出了统计语言模型,它是今天所有自然语言处理的基础,并且被广泛应用于机器翻译、语音识别、拼音纠错、文献查询等。
用数学的方法描述语言的规律,判断一个句子是否合理,就看他的可能性大小如何,可能性就用概率来衡量。
简而言之就是:一个句子总的概率 = 第一个词的概率 * 第一个词存在情况下 第二个词的概率 * 第一 二个词存在情况下 第三个词的概率*.......
可以看出变量越来越多, 因此俄国有个数学家讲其简化,认为任意一个词的出现,只与它前面的词相关。现在上面的公式就简单了:
而现在经常用到的三元模型,Google的罗塞塔翻译系统和语音搜索系统使用的是四元模型。
这就是数学的魅力,复杂的语言也可以使用数学来解决!