groupon_crawling

时间:2024-05-30 15:15:56
【文件属性】:

文件名称:groupon_crawling

文件大小:4KB

文件格式:ZIP

更新时间:2024-05-30 15:15:56

Java

groupon_crawling Groupon( )是面向消费者的每日推荐服务。 Groupon每隔24小时播放一次电子优惠券,为您所在城市的餐厅,服务,商店,电子产品等提供折扣。 但是,Groupon不提供基于交易价格的过滤器。 这款网络爬虫的创建目的是抓取groupon网站,特别是针对洛杉矶市,并获得价格低于50美元的“食品和饮料”和“必做之事”类别的交易。 Web搜寻器是从开源搜寻框架“ crawler4j”( )扩展而来的。 有两个类必须实现/扩展。 控制器类–我们在其中指定爬网的种子,必须在其中存储中间爬网数据的文件夹以及并发线程数的类。 必须在此类中设置爬网配置,其中包括最大爬网深度,线程数,礼​​貌设置,用户代理字符串(以便识别爬网程序)。 爬网程序类–必须从crawler4j中的WebCrawler类扩展。 此类确定必须爬网的URL并处理页面的下载。 必须重


【文件预览】:
groupon_crawling-master
----GrouponCrawler.java(4KB)
----GrouponCrawlerController.java(2KB)
----README.md(2KB)

网友评论