文件名称:走进搜索引擎(上) 梁斌 编著 上中下
文件大小:9.46MB
文件格式:PDF
更新时间:2014-01-10 05:06:24
走进搜索引擎 (上) 作者:梁斌 编著
第一章引言 第一节什么是搜索引擎 第二节搜索引擎的发展简史 搜索引擎的发展历史 第三节搜索引擎大事快览 第四节国内著名搜索引擎 百度(www.baidu.com) 中搜(www.zhongsou.com) 天网(e.pku.edu.cn) 搜狗(www.sogou.com) 参考文献 第二章搜索引擎概貌 第一节搜索引擎的主要需求 查得快 查得全 查得准 查得稳 第二节搜索引擎的大系统 搜索引擎的体系结构 第三章搜索引擎的下载系统 第一节爬虫的发展历史 世界上第个爬虫 爬虫的发展历程 第二节万维网及其网页分析 蝴蝶结型的万维网 万维网的直径 万维网的规模及变化特征 网页的特征 第三节有关爬虫的基本概念 爬虫 种子站点 URL Backlinks 第四节网页抓取原理 telnet和wget 从种子站点开始逐层抓取 不重复抓取策略 网页抓取优先策略 网页重访策略★ Robots协议 其他应该注意的礼貌性问题 抓取提速策略(合作抓取策略) 第五节网页库 第六节下载系统回顾及未来发展 参考文献 第四章搜索引擎的分析系统 第一节知识准备 HTML语言 锚文本(anchortext) 半结构化数据(Semi-structureddata) 第二节信息抽取及网页信息结构化 网页结构化的目标 建立HTML标签树 通过投票方法得到正文 网页结构化过程回顾 第三节网页查重 网页查重技术发展历史 网页查重实现方法 第四节中文分词 什么是中文分词 通过字典实现分词 通过统计学方法实现分词 第五节PageRank PageRank的来由 PageRank的基本想法 PageRank的计算公式 PageRank的计算方法★ 第六节分析系统结构图 参考文献