web-crawler

时间:2024-04-03 15:04:16
【文件属性】:

文件名称:web-crawler

文件大小:6KB

文件格式:ZIP

更新时间:2024-04-03 15:04:16

Java

网络爬虫 简单的网络爬虫。 从txt文件检索初始URL列表 计算响应中的字符数 收集和处理链接的页面(URL)-不要重复现有的页面 未来:以图/树结构构建和输出URL 将摘要输出到文件。 将来:使用标准日志(Log4j / Logstash) 从内存队列和树/图开始。 未来:使用服务 涵盖的主题: 简单的文件使用 Http调用-使用Jsoup(RegEx也是一个选择) 并发


【文件预览】:
web-crawler-master
----pom.xml(845B)
----src()
--------main()
----.gitignore(2KB)
----README.md(498B)
----urls.txt(272B)

网友评论