文件名称:search-engine:一个用 Java 编写的搜索引擎,带有网络爬虫和索引器
文件大小:705KB
文件格式:ZIP
更新时间:2024-07-02 08:24:41
Java
搜索引擎 一个从头开始用 Java 编写的搜索引擎,具有干净且响应Swift的 AJAX 界面。 视频演示(1000 个 NUS 网页索引): ://www.dropbox.com/s/ebzs99bgi3fnrf2/search_engine.mp4?dl 贡献者 亚历克斯·焦, 亚历山大·库奇尔, 拉斯穆斯·赫文格尔比 搜索引擎的机制 网络爬虫用于从给定的网站递归获取页面,索引器用于从页面中提取关键字并将它们插入到反向文件中。 索引器从文件中删除所有停用词。 然后使用波特算法将单词转换为词干。 它将词干插入到两个倒排文件中:从页面主体中提取的所有词干,连同支持向量空间模型所需的所有统计信息,插入到一个倒排文件中,并将从页面标题中提取的所有词干插入到另一个倒排文件中文件。 索引支持页面标题和页面正文中的短语搜索,例如“香港”。 来自的 JDBM 库用于创建和操作文件结构,用于
【文件预览】:
search-engine-master
----.gitignore(851B)
----README.md(3KB)
----example1.jsp(732B)
----.ignore(851B)
----src()
--------project()
----web()
--------css()
--------se.jsp(2KB)
--------fonts()
--------search.html(6KB)
--------js()
----COMP4321ProjectDocumentation.pdf(452KB)
----contributors.txt(44B)