文件名称:politescraper:礼貌地刮擦网
文件大小:13KB
文件格式:ZIP
更新时间:2024-06-03 07:57:01
scraping java-8 webscraping Java
礼貌的刮板 Polite Scraper是一个非常小的库,意在用作礼貌的Web爬虫。 网络上充满了精彩的数据。 但是为了获得这些数据,我们需要编写刮板和网络爬虫来为我们下载页面。 如果我们天真地这样做,我们可能会构建会影响实际要刮除的服务和站点的刮除器。 对于系统管理员而言,这可能是一件麻烦事。 我们不想这样做。 我们要有礼貌。 不要将其扩展为多线程DDOS。 不要着急。 要有礼貌。 要负责任。 主要特征 使用Selenium无头浏览器作为驱动程序。 当请求被拒绝时退避。 根据高斯分布随机分配顺序请求之间的时间。 为您要抓取的每种类型的网站添加一个类(实现接口PageBrain)。 它不执行并发请求(通过设计) 默认情况下,两次请求之间的等待时间很长。 入门 网络抓取-有礼貌 抓取网页时,请保持礼貌。 确保不要将爬网规模扩大到影响或降低站点提供的服务的水平。 不用担心网页的
【文件预览】:
politescraper-master
----settings.gradle(36B)
----src()
--------test()
--------main()
----LICENSE(1KB)
----README.md(2KB)
----.gitignore(395B)
----build.gradle(736B)