simple-web-crawler

时间:2024-06-14 03:48:27
【文件属性】:

文件名称:simple-web-crawler

文件大小:99KB

文件格式:ZIP

更新时间:2024-06-14 03:48:27

Java

简单的网络爬虫 概述 该网络爬虫将仅对给定域内的站点进行爬网。 它将忽略外部站点,甚至是子域-即,在搜寻“ example.com”时,它将忽略“ sub.example.com”。 该项目包含一个具有主要方法的JettyServer.java文件,该文件使用运行在localhost:8080 / simple-web-crawler上的Web搜寻器应用程序启动Jetty服务器。 该存储库包含整个eclipse项目,并且需要Gradle进行依赖项管理和组装。 运行它的最简单方法是下载存储库的内容并将现有项目导入eclipse(使用Gradle插件),然后将JettyServer.java作为Java应用程序运行或调试。 Web搜寻器是用Java编写的,它的前端非常简单,它使用“ graphdracula” JavaScript库显示两个有向图-第一个表示页面之间的链接,第二个表示每个页


【文件预览】:
simple-web-crawler-master
----SimpleWebCrawler()
--------.project(442B)
--------src()
--------test()
--------data()
--------.classpath(506B)
--------.gitignore(35B)
--------build.gradle(2KB)
----README.md(4KB)

网友评论