文件名称:搜索引擎技术基础.ppt
文件大小:1.26MB
文件格式:PPT
更新时间:2018-11-17 04:47:54
中文分词 Cache Server 爬虫
中文分词: 自然语言理解和处理,是人工智能的重要的研究领域之一,是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科。 分词作为搜索引擎的一项核心功能,和存储和查询有重大关系。但是不同的研究角度,不同的研究方向,带来研究重点和研究结果都是不一样的。 语言学方向研究的分词算法,看重分词的准确性,不看重运算速度;而搜索引擎的分次算法,特别看重分词速度,分词准确性中等。 (五)全文检索系统和搜索引擎关系: 1、搜索引擎技术来源于全文检索系统,搜索引擎是全文检索技术最重要的一个运用. 2、搜索引擎在数据总量,最大并发处理能力,单次查询速度方面,都远远强大于全文检索系统. 3、搜索引擎为了最求最高的查询速度,在搜索结果准确性及搜索结果重现方面,都弱于全文检索系统.