文件名称:Seeker---A-Search-Engine:使用 Nutch 和 Hadoop 实现搜索引擎
文件大小:32.64MB
文件格式:ZIP
更新时间:2024-07-24 23:51:46
搜索者---A-Search-Engine Seeker 是一个搜索引擎的实现。 使用 Apache Nutch 抓取 40 个(体育和教育)域的网页。 倒排索引是使用 Apache Hadoop 从爬取的数据中构建的。 爬取的数据和倒排索引保存在nosql MongoDB数据库中,响应速度更快,扩展性更强。 Web 应用程序使用部署在 Apache Tomcat 服务器中的 REST Web 服务与数据库进行通信。 网页通过算法 TF-IDF 和链接分析进行排名。