文件名称:应用Web挖掘的主题元搜索引擎的设计与实现
文件大小:4.57MB
文件格式:DOC
更新时间:2013-01-30 06:57:49
Web 挖掘 主题搜索引擎 元搜索引擎 Nutch
本论文介绍了应用Web数据挖掘,基于开源搜索引擎Nutch 0.9及相关软件包,结合主题搜索引擎和元搜索引擎的特点,设计和实现一个主题元搜索引擎TSMSE,借以改善通用全文搜索引擎的查全率和查准率。 论文首先开发了主题提取器TopicDistiller,应用Web内容挖掘和Web链接分析,从通用搜索引擎检索结果网页集中提取主题词集和种子站点用于主题表示,为后续主题元搜索引擎的主题判断和主题度计算提供了依据。 论文接着提出了具有独立数据库的主题元搜索引擎TSMSE的设计思想,将元搜索引擎综合各个独立搜索引擎检索结果,提高查全率的特点和主题搜索引擎按主题爬行、索引文档,提高查准率的特点结合起来。 论文然后应用Nutch0.9爬虫的不同工作方式,将从指定种子站点爬行到的网页集和从各独立搜索引擎爬行到的网页集融合在一起。再开发主题解析和主题索引插件,对爬行到的网页进行主题词提取,确定页面主题,计算主题度,并依照主题和主题度,为用户提供检索服务,从而提高了查准率。由于融合了各个搜索引擎的查询结果,同时也提高了查全率。 论文接下来对Nutch 0.9的检索功能和界面进行了增强,实现了具有独立数据库的主题元搜索引擎TSMSE,为用户提供分主题、按主题度排序的检索结果输出。并可根据检索历史记录对用户输入的检索关键字进行智能扩展提示,同时为搜索引擎返回结果增加了自动聚类和分页浏览功能。 论文最后分别采用六个不同的搜索主题,对TSMSE主题元搜索引擎进行了简单的性能测试。实验结果表明,TSMSE主题元搜索引擎的查全率和查准率都有一定提高。