文件名称:Chihiro:千寻搜索
文件大小:2.72MB
文件格式:ZIP
更新时间:2024-06-03 00:19:48
JavaScript
"千寻" 搜索 上图为一个搜索引擎的框架图。首先爬虫程序从特定的几个新闻网站抓取新闻数据,然后过滤网页中的图片、视频、广告等无关元素,抽取新闻的主体内容,得到结构化的xml数据。然后一方面使用内存式单遍扫描索引构建方法(SPIMI)构建倒排索引,供检索模型使用;另一方面根据向量空间模型计算两两新闻之间的余弦相似度,供推荐模块使用。最后利用概率检索模型中的BM25公式计算给定关键词下的文档相关性评分,根据评分给出排序结果。本实验根据此框架图构建搜索引擎项目。 1.1 网络爬虫 网络爬虫[1](英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来,以便搜索引擎事后生成索引供用户搜索。 大型网站几乎都有反爬虫策略