文件名称:webcrawler:一个基本的网络爬虫
文件大小:17KB
文件格式:ZIP
更新时间:2024-08-06 12:53:14
Java
网络爬虫 一个基本的网络爬虫本项目旨在成为一个网页爬虫爬虫服务。 它提供了一个 REST 接口来输入一个 JSON 格式的 url 列表,这些 url 将由服务器限定并保存在存储库中。 端点发布在/crawler ,它是唯一可访问的路径,它需要输入如下: [ { "url": "centrallecheraasturiana.es", "rank": 834987 }, { "url": "guiafull.com", "rank": 571272 } ] 端点是异步的,应该立即返回 HTTP 状态 200 触发异步线程来处理 url。 处理后的 url 存储在 mongodb 中名为marfeel的数据库中,在第一个请求后应在名为urls的集合中找到。 存储的文档包含以下字段: uri : 处理的 url rank : url 的排名marfeelizable : url 是否合格er
【文件预览】:
webcrawler-master
----pom.xml(3KB)
----README.html(2KB)
----src()
--------test()
--------main()
----README.md(2KB)