走进搜索引擎(上) 梁斌 编著 上中下

时间:2014-01-10 05:06:24
【文件属性】:

文件名称:走进搜索引擎(上) 梁斌 编著 上中下

文件大小:9.46MB

文件格式:PDF

更新时间:2014-01-10 05:06:24

走进搜索引擎 (上) 作者:梁斌 编著

第一章引言   第一节什么是搜索引擎   第二节搜索引擎的发展简史   搜索引擎的发展历史   第三节搜索引擎大事快览   第四节国内著名搜索引擎   百度(www.baidu.com)   中搜(www.zhongsou.com)   天网(e.pku.edu.cn)   搜狗(www.sogou.com)   参考文献   第二章搜索引擎概貌   第一节搜索引擎的主要需求   查得快   查得全   查得准   查得稳   第二节搜索引擎的大系统   搜索引擎的体系结构   第三章搜索引擎的下载系统   第一节爬虫的发展历史   世界上第个爬虫   爬虫的发展历程   第二节万维网及其网页分析   蝴蝶结型的万维网   万维网的直径   万维网的规模及变化特征   网页的特征   第三节有关爬虫的基本概念   爬虫   种子站点   URL   Backlinks   第四节网页抓取原理   telnet和wget   从种子站点开始逐层抓取   不重复抓取策略   网页抓取优先策略   网页重访策略★   Robots协议   其他应该注意的礼貌性问题   抓取提速策略(合作抓取策略)   第五节网页库   第六节下载系统回顾及未来发展   参考文献   第四章搜索引擎的分析系统   第一节知识准备   HTML语言   锚文本(anchortext)   半结构化数据(Semi-structureddata)   第二节信息抽取及网页信息结构化   网页结构化的目标   建立HTML标签树   通过投票方法得到正文   网页结构化过程回顾   第三节网页查重   网页查重技术发展历史   网页查重实现方法   第四节中文分词   什么是中文分词   通过字典实现分词   通过统计学方法实现分词   第五节PageRank   PageRank的来由   PageRank的基本想法   PageRank的计算公式   PageRank的计算方法★   第六节分析系统结构图   参考文献


网友评论

  • 非常不错的搜索引擎方面的书,我看了几遍,对了解搜索引擎的工作原理还是很有帮助的
  • 不是很清楚,但是也不错了
  • 扫描版的,谢谢分享
  • 只有上,到第六节就没有了,买的书还没到,凑合看看吧
  • 非常不错的搜索引擎方面的书,我看了几遍,对了解搜索引擎的工作原理还是很有帮助的!
  • 扫描版的,不是很清晰啊