SearchEngine:简单的搜索引擎

时间:2024-06-23 06:36:26
【文件属性】:

文件名称:SearchEngine:简单的搜索引擎

文件大小:9KB

文件格式:ZIP

更新时间:2024-06-23 06:36:26

Java

搜索引擎 简单的搜索引擎 问题: 1:对于大文件,创建太多线程使得将网页文本复制到磁盘非常慢。 解决方案:创建第一个链接的线程并同时抓取。(保持这些线程始终连接到 TCP。)或将文档存储在单个文件中。 使用 HTML 格式 2:相同的url会被多次抓取。 解决方法:应该使用哈希表来消除它。 其他解决方案:使用 url 作为文件名。 3:添加图片(以何种方式存储) 解决方法:简单的将图片存储为png,链接到txt文件中。 () 4:抓取网站时,可能会失败并停止程序。 解决方案:使用稳定的网站,例如。 *。 问题: 1:我什么时候索引? 创建文件时或文件后索引。 (前一个更高效,但工作量不大) 2:索引标题或文本? 项目信息: 1:爬取耗时:7.04小时。 下载数据:5.9 GB。 so many interrupting when crawling and thre


【文件预览】:
SearchEngine-master
----com()
--------company()
----counter.txt(3KB)
----README.md(1KB)

网友评论