文件名称:WebCrawler:基于 Web 的电子邮件爬虫。 从任何给定的网站 URL 或 URL 中提取电子邮件地址
文件大小:3.5MB
文件格式:ZIP
更新时间:2024-06-25 03:40:37
Java
网络爬虫 这是一个基于网络的电子邮件抓取器/提取器,它抓取给定的 url 并抓取它找到的任何电子邮件 ID。 它是一个动态 Web 应用程序,您可以在其中提供站点 url(或多个站点 url 以逗号分隔)作为输入,结果它返回从每个站点 url 中删除的电子邮件列表。 使用的技术: 使用 struts 2 设置的动态 Web 应用程序。 一个 Java html 解析器“Jsoup”。 它是一个用于解析 HTML 文档的 Java 库。 Jsoup 提供 api 来从 URL 或 HTML 文件中提取和操作数据。 电子邮件正则表达式匹配。 后端进程的Java。 这个怎么运作 : 在启动 crawlWeb 应用程序时,它会打开一个带有文本框的登录页面,您需要在其中提供站点 url。 在此处提供完整的站点 url(或者,如果您希望一次提供多个站点 url,则以逗号 (,) 分隔提供)
【文件预览】:
WebCrawler-master
----WebContent()
--------WEB-INF()
--------index.jsp(1KB)
--------META-INF()
--------crawlWeb.jsp(565B)
----src()
--------com()
----README.md(2KB)