webcrawler:一个简单的Java实现的网络爬虫,支持自动登录

时间:2021-06-24 11:32:29
【文件属性】:
文件名称:webcrawler:一个简单的Java实现的网络爬虫,支持自动登录
文件大小:278KB
文件格式:ZIP
更新时间:2021-06-24 11:32:29
Java 第一个网络爬虫 介绍 Webcrawler 是一个简单的网络爬虫。 它实现了自动登录和内容获取的基本功能。 Webcrawler 将首先尝试使用提供的用户名和密码登录 。 如果登录失败,程序将被终止。 登录后,爬虫将开始获取它可以在网站内找到的每个链接。 过滤器用于阻止爬虫获取外部链接。 爬虫的任务是收集隐藏在网络中的5个秘密标志。 一旦找到所有的秘密标志,爬虫就会停止。 安装和使用 运行make安装程序 运行./client运行程序,参数列表如下: 用户名(必填):登录到fakebook的用户名 密码(必填):登录fakebook的密码 执行 这个程序有六个班级。 我这样做的原因是将网络爬虫的功能分离到不同的类中,这样以后的改进会容易得多。 六个班级分别是: WebCrawlerProj2:程序的开始。 读取用户名和密码,启动爬虫,运行爬虫。 程序结束后,它将打印所有找到的秘密标志。
【文件预览】:
webcrawler-master
----Url.java(3KB)
----webcrawler(70B)
----WebCrwlerProj2.java(989B)
----Page.java(4KB)
----Cookie.java(936B)
----Makefile(51B)
----README.md(5KB)
----jsoup-1.8.1.jar(294KB)
----HTTPconnection.java(5KB)
----Crawler.java(9KB)

网友评论