文件名称:webcrawler:Spring启动异步Web搜寻器
文件大小:46KB
文件格式:ZIP
更新时间:2024-05-22 15:33:17
Java
网络爬虫 可以通过mvn:spring-boot:run任务从命令行运行该应用程序 这将在localhost:8080上初始化rest服务。 可以通过对以下站点进行POST来实例化给定站点的Web爬网 使用以下示例JSON: {“ URL”:“ ”,“ domain-rule”:“ wiprodigital.com”,“ politeness-ms”:200} politeness-ms定义了链接之间的间隔时间,以毫秒为单位..太快,您将获得429。url指定要爬网的站点的基本url。 domain-rule指定要留在域内的url规则,它必须出现在任何链接中才能跟随链接。 POST将返回一个状态对象,该对象的位置是以后可以从中检索结果的位置。 {“ complete”:否,“ location”:“ aHR0cDovL3d3dy53aXByb2RpZ2l0YWwuY29tLw
【文件预览】:
webcrawler-master
----.gitignore(12B)
----src()
--------main()
--------test()
----webcrawler.iml(5KB)
----pom.xml(1KB)
----README.md(4KB)
----.idea()
--------misc.xml(2KB)
--------encodings.xml(172B)
--------libraries()
--------workspace.xml(85KB)
--------vcs.xml(164B)
--------uiDesigner.xml(9KB)
--------copyright()
--------dataSources.xml(62B)
--------dataSources.local.xml(62B)
--------compiler.xml(1KB)
--------.name(10B)
--------modules.xml(260B)