文件名称:webscraper:简单的网页抓取工具。 计算网页上定义的单词
文件大小:99KB
文件格式:ZIP
更新时间:2024-07-20 04:32:25
Java
网络爬虫 文件夹刮板包含 Maven 项目。 文件夹 scraper_jar 包含用于从命令行构建 .jar 文件的源文件和二进制文件。 您可以使用 .jar 文件并从命令行运行它。 该程序计算网页上定义的单词并打印包含它们的句子。 作为输入,它采用单个 URL 或带有 URL 列表的文件的路径。 本项目未使用第三方库。 正在使用正则表达式解析页面。 每个 URL 都由一个单独的线程处理。 在此处查找有关网页抓取的更多信息: :
【文件预览】:
webscraper-master
----README.md(595B)
----scraper_jar()
--------ru()
--------bin()
--------scraper.jar(10KB)
--------manifest.txt(95B)
----scrapper()
--------.project(537B)
--------pom.xml(754B)
--------target()
--------.settings()
--------src()
--------.classpath(996B)