【文件属性】:
文件名称:搜索引擎——原理、技术与系统.
文件大小:4.24MB
文件格式:PDF
更新时间:2014-02-14 08:10:27
搜索引擎——原理、技术与系统
目录
前言
第一章引论.................................................................................................................1
第一节 搜索引擎的概念................................................................................................2
第二节 搜索引擎的发展历史........................................................................................3
第三节 一些著名的搜索引擎........................................................................................7
上篇 WEB搜索引擎基本原理和技术....................................................................16
第二章 WEB搜索引擎工作原理和体系结构..........................................................17
第一节 基本要求..........................................................................................................17
第二节 网页搜集..........................................................................................................18
第三节 预处理..............................................................................................................20
第四节 查询服务..........................................................................................................22
第五节 体系结构..........................................................................................................25
第三章 WEB信息的搜集..........................................................................................29
第一节 引言..................................................................................................................29
一、 超文本传输协议..............................................................................................29
二、 一个小型搜索引擎系统..................................................................................31
第二节 网页搜集..........................................................................................................33
一、 定义URL类和Page类......................................................................................34
二、 与服务器建立连接..........................................................................................39
三、 发送请求和接收数据......................................................................................41
四、 网页信息存储的天网格式..............................................................................42
第三节 多道搜集程序并行工作..................................................................................45
一、 多线程并发工作..............................................................................................46
二、 控制对一个站点并发搜集线程的数目..........................................................47
第四节 如何避免网页的重复搜集..............................................................................47
一、 记录未访问、已访问URL和网页内容摘要信息..........................................47
二、 域名与IP的对应问题......................................................................................48
第五节 如何首先搜集重要的网页..............................................................................49
第六节 搜集信息的类型..............................................................................................52
第七节本章小结..........................................................................................................54 iii
第四章对搜集信息的预处理...................................................................................55
第一节 信息预处理的系统结构..................................................................................55
第二节 索引网页库......................................................................................................56
第三节 中文自动分词..................................................................................................58
第四节分析网页和建立倒排文件..............................................................................64
第五节本章小结..........................................................................................................66
第五章信息查询服务...............................................................................................67
第一节 查询服务的系统结构......................................................................................67
第二节 检索的定义......................................................................................................68
第三节 查询服务的实现..............................................................................................69
一、 结果集合的形成..............................................................................................69
二、 查询结果显示.................................................................................................70
第四节 本章小结..........................................................................................................72
中篇 对质量和性能的追求.....................................................................................73
第六章可扩展搜集子系统.......................................................................................75
第一节 天网系统概述和集中式搜集系统结构...........................................................75
一、 天网系统结构.................................................................................................75
二、 集中式搜集系统..............................................................................................76
第二节 利用并行处理技术高效搜集网页的一种方案...............................................82
一、 节点间URL的划分策略..................................................................................83
二、 关于性能的讨论..............................................................................................86
三、 性能测试和评价..............................................................................................88
四、 系统的动态可配置性设计..............................................................................91
第三节 本章小结..........................................................................................................93
第七章网页净化与消重...........................................................................................95
第一节 网页净化与元数据提取..................................................................................95
一、 引言.................................................................................................................95
二、 DocView模型..................................................................................................98
三、 网页的表示.....................................................................................................99
四、 提取DocView模型要素的方法.....................................................................103
五、 模型应用及实验研究....................................................................................108
第二节 网页消重算法................................................................................................112
一、 消重算法.......................................................................................................112 iv
二、 算法评测.......................................................................................................115
第八章高性能检索子系统.....................................................................................120
第一节 检索系统基本技术........................................................................................121
一、 系统设计与结构............................................................................................121
二、 索引创建.......................................................................................................124
三、 检索过程.......................................................................................................126
第二节 倒排文件性能模型........................................................................................127
一、 引言...............................................................................................................128
二、 倒排文件的概念............................................................................................129
三、 倒排文件的一种性能模型............................................................................131
四、 结合计算机性能指标的考虑........................................................................136
第三节 混合索引技术................................................................................................138
一、 引言...............................................................................................................138
二、 混合索引原理...............................................................................................139
三、 混合索引实现...............................................................................................141
第四节 倒排文件缓存机制........................................................................................144
一、 引言...............................................................................................................144
二、 倒排文件缓存...............................................................................................145
三、 负载特性.......................................................................................................147
四、 缓存策略的选择............................................................................................149
第五节 本章小结........................................................................................................149
第九章用户行为的特征及缓存的应用.................................................................151
第一节 用户查询与点击日志....................................................................................152
第二节 用户行为特征的统计分析............................................................................154
一、 用户查询词的分布情况................................................................................154
二、 雷同查询词的衰减统计................................................................................155
三、 相邻N项查询词的偏差分析.........................................................................156
四、 用户在输出结果中的翻页情况统计............................................................158
五、 用户点击URL的分布情况............................................................................159
六、 考虑与不考虑查询项时点击URL分布的对比分析....................................160
七、 查询过程的自相似性....................................................................................161
第三节 查询缓存的使用............................................................................................164
一、 基于用户行为的启示....................................................................................164
二、 缓存替换策略研究........................................................................................165 v
第四节 用户行为与WEB信息的分布特征.................................................................167
一、 基本术语.......................................................................................................167
二、 海量Web信息的特征分析.............................................................................168
第十章相关排序与系统质量评估.........................................................................173
第一节 传统IR的相关排序技术................................................................................173
第二节 链接分析与相关排序....................................................................................176
一、 链接分析.......................................................................................................176
二、 Web查询模式下的新信息............................................................................178
第三节 相关排序的一种实现方案............................................................................182
一、 形成网页中词项的基本权重........................................................................183
二、 利用链接的结构............................................................................................185
三、 收集用户反馈信息........................................................................................187
四、 计算最终的权重............................................................................................189
第四节 搜索引擎系统质量评估................................................................................191
一、 引言...............................................................................................................191
二、 查询类别分析与查询集的构建....................................................................192
三、 评估实验的建立与分析................................................................................193
下篇 面向主题和个性化的WEB信息服务..........................................................196
第十一章中文网页自动分类技术.........................................................................197
第一节 引言................................................................................................................197
第二节 文档自动分类算法的类型............................................................................197
第三节 实现中文网页自动分类的一般过程.............................................................199
第四节 影响分类器性能的关键因素分析.................................................................201
一、 实验设置.......................................................................................................201
二、 训练样本.......................................................................................................202
三、 特征选取.......................................................................................................207
四、 分类算法.......................................................................................................210
五、 截尾算法.......................................................................................................216
六、 一个中文网页分类器的设计方案................................................................218
第五节 天网目录导航服务........................................................................................219
一、 问题的提出...................................................................................................219
二、 天网目录导航服务的体系结构....................................................................220
三、 天网目录的运行实例....................................................................................221
第六节 本章小结........................................................................................................221 vi
第十二章搜索引擎个性化查询服务.....................................................................223
第一节 基于WEB挖掘的个性化技术.........................................................................223
一、 Web挖掘技术................................................................................................224
二、 典型个性化Web服务系统的比较.................................................................225
三、 基于Web挖掘的个性化技术的发展.............................................................226
第二节 天网知名度系统............................................................................................227
一、 系统结构.......................................................................................................227
二、 网页与命名实体的相关度评价....................................................................231
第十三章面向主题的信息搜集与应用.................................................................235
第一节 主题信息的搜集............................................................................................235
一、 主题信息分布的局部性................................................................................235
二、 一种主题信息搜集系统................................................................................236
第二节 主题信息的一种搜集与处理模型及其应用.................................................238
一、 模型设计.......................................................................................................238
二、 应用实验:以“十六大”为主题................................................................242
三、 总结与讨论...................................................................................................24
网友评论
- 不错,很好的资料!
- 不错,很好的资料!
- 不错的搜索书籍
- 不全,建议不要下载
- 适合入门看, 北大出品
- 作为基础知识科普比较好
- 还不错,了解一下还是可以的,不深入
- 书还行,快速过一下,了解一些基本概念,谢谢~~!
- 资源不错 就是挺深
- 挺不错,就是不是最新版本...
- 非常好的搜索引擎理论
- 挺好的,可以了解基层
- 非常好,算是普及基础知识
- 李晓明的书。很全
- 很不错的一本书
- 作为基础知识科普比较好
- 挺好的,给我这个搜索盲进行了基础知识普及
- 非常好的搜索引擎理论
- 本书比较系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案,不过不是很懂技术和算法的同学伤不起,看起来比较费劲。