用WebCollector爬取站点的图片

用WebCollector爬取整站图片，仅仅须要遍历整站页面。然后将URL为.jpg、gif的页面（文件）保存到本地就可以。

比如我们爬取一个美食站点，获取里面全部的图片：

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;

import cn.edu.hfut.dmic.webcollector.model.Page;

import cn.edu.hfut.dmic.webcollector.util.FileUtils;

import java.io.IOException;

import java.util.concurrent.atomic.AtomicInteger;

import java.util.regex.Pattern;

/**

 * 用WebCollector爬虫爬取整站图片

 */

public class PicCrawler extends BreadthCrawler{

    /*用一个整数，不断自增，来作为下载的图片的文件名称*/

    AtomicInteger id=new AtomicInteger(0);

    @Override

    public void visit(Page page) {

        /*不处理非jpg的网页/文件*/

        if(!Pattern.matches(".*jpg$",page.getUrl())){

            return;

        }

        /*将图片内容保存到文件，page.getContent()获取的是文件的byte数组*/

        try {

            FileUtils.writeFileWithParent("download/"+id.incrementAndGet()+".jpg",page.getContent());

            System.out.println("download:"+page.getUrl());

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws Exception {

        PicCrawler crawler=new PicCrawler();

        crawler.addSeed("http://www.meishij.net/");

        crawler.addRegex("http://.*meishij.net/.*");

        crawler.setThreads(50);

        crawler.start(10);

    }

}

代码将站点图片保存到了project以下的download目录中：

用WebCollector爬取站点的图片

WebCollector爬虫官网：https://github.com/CrawlScript/WebCollector

WebCollector文档：http://www.brieftools.info/document/webcollector/

技术讨论群：250108697

用WebCollector爬取站点的图片的更多相关文章

python 爬虫入门----案例爬取上海租房图片
前言对于一个net开发这爬虫真真的以前没有写过.这段时间学习python爬虫,今天周末无聊写了一段代码爬取上海租房图片,其实很简短就是利用爬虫的第三方库Requests与BeautifulSoup. ...
Python-王者荣耀自动刷金币+爬取英雄信息+图片
前提:本文主要功能是 1.用python代刷王者荣耀金币 2.爬取英雄信息 3.爬取王者荣耀图片之类的. (全部免费附加源代码) 思路:第一个功能是在基于去年自动刷跳一跳python代码上面弄的,思路 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
第一个nodejs爬虫：爬取豆瓣电影图片
第一个nodejs爬虫:爬取豆瓣电影图片存入本地: 首先在命令行下 npm install request cheerio express -save; 代码: var http = require( ...
用WebCollector爬取新浪微博数据
教程已转移:http://datahref.com/archives/28 WebCollector爬取新浪微博等完整演示样例project可加群250108697或345054141从群文件里下载. ...
用scrapy爬取搜狗Lofter图片
用scrapy爬取搜狗Lofter图片 # -*- coding: utf-8 -*- import json import scrapy from scrapy.http import Reques ...
scrapy爬虫爬取小姐姐图片（不羞涩）
这个爬虫主要学习scrapy的item Pipeline 是时候搬出这张图了: 当我们要使用item Pipeline的时候,要现在settings里面取消这几行的注释我们可以自定义Item Pip ...
webcollector + selenium 爬取空间相册图片
package cn.hb.util; import java.io.File; import java.io.FileNotFoundException; import java.io.FileWr ...
Java爬虫实践--爬取CSDN网站图片为例
实现的效果,自动在工程下创建Pictures文件夹,根据网站URL爬取图片,层层获取.在Pictures下以网站的层级URL命名文件夹,用来装该层URL下的图片.同时将文件名,路径,URL插入数据库, ...

随机推荐

Asp&period;Net Web Form 前后台传值
1,后台往前台传值----单个变量直接传递到页面元素前台代码 <b><%=strCompanyName%>费用明细</b> 后台代码 public partial ...
10&period;13 noip模拟试题
Porble 1时间与空间之旅(tstrip.*) 题目描述公元22××年,宇宙中最普遍的交通工具是spaceship.spaceship的出现使得星系之间的联系变得更为紧密,所以spaceship ...
bat 小工具
@echo ************************************************************************:start@echo offset /p ...
Uva 167 The Sultan&&num;39&semi;s Successors(dfs)
题目链接:Uva 167 思路分析:八皇后问题,采用回溯法解决问题. 代码如下: #include <iostream> #include <string.h> using n ...
多个input连接在一起的时候如何实现输入一个数字跳入下一个
这个是页面内容 ,我分了12格子,作为一个12位的会员卡号的输入;其实就是12个input我把他们放在了一个div里面这样配上背景图,看着是一个大的输入框. <div id="A ...
Harmonic Value Description HDU - 5916
The harmonic value of the permutation p1,p2,⋯pn is ∑i=1n−1gcd(pi.pi+1) Mr. Frog is wondering about t ...
dva 知识点
dva中,路由模式从hashHistory换成 browserHistory: dva-cli创建的项目中,src/index.js相应部分修改如下: import browserHistory fr ...
KnockoutJs学习笔记（六）
这篇文章主要涉及control flow部分的binding. foreach binding主要作用于lists或是tables内数据单元的动态绑定.下面是一个简单的例子: js部分: ko.app ...
entity framework 新增，更新，事务
protected void Button1_Click(object sender, EventArgs e) { yyEntities _db; _db = new yyEntities(); t ...
Windows Server2016服务器系统创建域服务器
原先是有图片,因为图片是直接粘贴上来的,发布之后图片都看见了,然后都使用上传图片的方式才搞定,这也是博客园比较坑的地方: 也可以查看该链接含图片: http://www.cnblogs.com/all ...