webscraper:在给定网站上生成URL的站点地图

时间:2024-05-28 16:12:35
【文件属性】:

文件名称:webscraper:在给定网站上生成URL的站点地图

文件大小:23KB

文件格式:ZIP

更新时间:2024-05-28 16:12:35

Java

网路抓取器 在给定网站上生成URL的站点地图 概述 从git仓库下载。 该代码是Maven项目,因此您可以构建可执行的Jar并根据需要运行。 但是,您可以直接在IDE中运行(我在该项目中使用了NetBeans)。 操作说明 在Source Packages的“ scraper”文件夹中,DoScrape类具有Main方法。 运行此操作,刮擦将开始。 在我的机器上,此过程大约需要1分钟。 输出既打印在控制台上,又打印到文件sitemap.xml中。 在控制台中,您可以看到的例外 思考过程 思想过程很简单 使用Jsoup获取具有属性的每个元素,该属性包含给定页面的URL 对获得的每个URL递归执行此操作,仅对以开头的URL 使用JAXB将获得的URL编组为XML格式 可能的调整 设置要从数据库读取的URL输入,以便可以输入不同的网站。 对于数据库中的每个条目,请运行抓取并遵循每个以提供的


【文件预览】:
webscraper-master
----.project(719B)
----dependency-reduced-pom.xml(961B)
----sitemap.xml(104KB)
----src()
--------scraper()
----.settings()
--------org.eclipse.m2e.core.prefs(86B)
--------org.eclipse.jdt.core.prefs(652B)
----README.md(2KB)
----nb-configuration.xml(1KB)
----pom.xml(1KB)
----nbactions.xml(2KB)
----.classpath(761B)
----.gitignore(15B)
----.checkstyle(313B)

网友评论