scrapy爬虫爬取小姐姐图片（不羞涩）

这个爬虫主要学习scrapy的item Pipeline

是时候搬出这张图了：

当我们要使用item Pipeline的时候，要现在settings里面取消这几行的注释

scrapy爬虫爬取小姐姐图片（不羞涩）

我们可以自定义Item Pipeline，只需要实现指定的方法，其中必须要实现的一个方法是： p

　　process_item(item,spider)

另外还有几个方法我们有时候会用到

　　open_spider(spider)

　　close_spider(spider)

　　from_crawler(cls,crawler)

在不羞涩的主页（https://www.buxiuse.com/）我们使用xpath进行分析可以得到每一张小姐姐图片的url，我们将每一页urls作为一个item对象返回，并且找到下一页的链接，持续爬取

class IndexSpider(scrapy.Spider):

    name = 'index'

    allowed_domains = ['buxiuse.com']

    start_urls = ['https://www.buxiuse.com/?page=1']

    base_domain="https://www.buxiuse.com"

    def parse(self, response):

        image_urls=response.xpath('//ul[@class="thumbnails"]/li//img/@src').getall()

        next_url=response.xpath('//li[@class="next next_page"]/a/@href').get()

        item=BuxiuseItem(image_urls=image_urls)

        yield item

        if not next_url:

            return

        else:

            yield scrapy.Request(self.base_domain+next_url)

对于yield的item对象，因为只返回了一个urls，所以我们在items进行设置

class BuxiuseItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    image_urls=scrapy.Field()

　　这样在刚才的index文件里面，才可以新建BuxiuseItem对象，

item=BuxiuseItem(image_urls=image_urls)

　　当然要先在index导入BuxiuseItem这个类

接着在pipeline里面我们处理接收到的Item和下载图片

我们先创建一个image的文件夹储存爬取到的图片，使用os.mkdir(self.path)

这个self.path由我们自己设定，这里学到了一个知识点：os.path.dirname(__file__)可以显示当前文件所在的位置

我们先输出一下

scrapy爬虫爬取小姐姐图片（不羞涩）

使用os.path.dirname(os.path.dirname(__file__))可以返回到上一级目录位置

scrapy爬虫爬取小姐姐图片（不羞涩）

我们使用这个方法控制储存的目录，如果是其他比较远的位置就使用绝对路径吧。

因为我是python2的环境，使用

urllib.urlretrieve(link,os.path.join(self.path,image_name))

　　将链接上的图片以指定的文件名保存在指定位置上

所以pipeline里面的代码就是

import os

import urllib

from scrapy.pipelines.images import ImagesPipeline

import settings

i=1

class BuxiusePipeline(object):

    def __init__(self):

        self.path=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images')

        if not os.path.exists(self.path):

            os.mkdir(self.path)

    def process_item(self, item, spider):

        global i

        link_list=item['image_urls']

        for link in link_list:

            print i

            image_name=str(i)+".jpg"

            urllib.urlretrieve(link,os.path.join(self.path,image_name))

            i=i+1

        return item

　　输出i是为了让我能看到脚本还在正常下载，免得被网站ban掉了还不知道。

运行一下看看效果：

scrapy爬虫爬取小姐姐图片（不羞涩）

可以看到小姐姐的图片已经被下载下来了，并且按照i的编号整齐排列，完事。

github代码：

https://github.com/Cl0udG0d/scrapy_demo/tree/master/buxiuse

scrapy爬虫爬取小姐姐图片（不羞涩）的更多相关文章

使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
使用scrapy爬虫,爬取17k小说网的案例-方法一
无意间看到17小说网里面有一些小说小故事,于是决定用爬虫爬取下来自己看着玩,下图这个页面就是要爬取的来源. a 这个页面一共有125个标题,每个标题里面对应一个内容,如下图所示下面直接看最核心spi ...
&lt&semi;scrapy爬虫&gt&semi;爬取校花信息及图片
1.创建scrapy项目 dos窗口输入: scrapy startproject xiaohuar cd xiaohuar 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # ...
python爬虫——爬取NUS-WIDE数据库图片
实验室需要NUS-WIDE数据库中的原图,数据集的地址为http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 由于这个数据只给了每个图片的URL,所以需 ...
&lt&semi;scrapy爬虫&gt&semi;爬取360妹子图存入mysql(mongoDB还没学会,学会后加上去)
1.创建scrapy项目 dos窗口输入: scrapy startproject images360 cd images360 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) ...
&lt&semi;scrapy爬虫&gt&semi;爬取猫眼电影top100详细信息
1.创建scrapy项目 dos窗口输入: scrapy startproject maoyan cd maoyan 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # -*- ...
使用scrapy爬虫,爬取今日头条搜索吉林疫苗新闻（scrapy+selenium+PhantomJS）
这一阵子吉林疫苗案,备受大家关注,索性使用爬虫来爬取今日头条搜索吉林疫苗的新闻依然使用三件套(scrapy+selenium+PhantomJS)来爬取新闻以下是搜索页面,得到吉林疫苗的搜索信息, ...
&lt&semi;scrapy爬虫&gt&semi;爬取quotes&period;toscrape&period;com
1.创建scrapy项目 dos窗口输入: scrapy startproject quote cd quote 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) import ...
&lt&semi;scrapy爬虫&gt&semi;爬取腾讯社招信息
1.创建scrapy项目 dos窗口输入: scrapy startproject tencent cd tencent 2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义) # - ...

随机推荐

安卓第一次启动引导页使用ViewPager实现
我们在安装某个APP的时候,基本都会有一个引导页的提示,他们可以打广告,或者介绍新功能的加入和使用说明等.一般都支持滑动并且下面有几个点,显示共有多少页和当前图片的位置,在IOS上这个实现起来比较简单 ...
iOS---XMPP环境搭建过程
什么是即时通信? 即时通信是目前Internet上最为流行的通讯方式, 各种各样的即时通讯软件也层出不穷, 服务提供商也提供了越来越枫木的通讯服务功能. 即时通讯有多重实现方式, XMPP就是其中一种 ...
将jquery&period;shCircleLoader插件修改为zepto&period;js兼容
经过查阅资料zepto 和 jquery 的区别后发现是 (1)zepto.js 删去了 jquery 的 innerHeight() 和 innerWidth() 属性 (2)zepto.js和 ...
Gitbook安装
Gitbook安装 Gitbook是从NMP安装的,命令行: $ npm install gitbook -g 安装完之后,你可以检验下是否安装成功: $ gitbook -V 0.4.2 如果你看到 ...
SEMAT[软件工程方法和理论 Software Engineering Method and Theory]
Agile software development Agile software development is a group of software development methods bas ...
【知识整理】这可能是最好的RxJava 2&period;x 入门教程（四）
这可能是最好的RxJava 2.x入门教程系列专栏文章链接: 这可能是最好的RxJava 2.x 入门教程(一) 这可能是最好的RxJava 2.x 入门教程(二) 这可能是最好的RxJava 2. ...
eclipse中将本地项目上传到svn库
转载文章:http://blog.csdn.net/singit/article/details/48972197
云计算之路-阿里云上：3个manager节点异常造成 docker swarm 集群宕机
今天 11:29 - 11:39 左右,docker swarm 集群 3 个 manager 节点同时出现异常,造成整个集群宕机,由此给您带来很大的麻烦,请您谅解. 受此次故障影响的站点有:博问,闪 ...
hibernate的session的增删查改
一.增 //******************增加****************** Customer c = new Customer(); c.setCust_name("阿里云&q ...
Mysql授权root用户远程登录
默认情况下Mysql的root用户不支持远程登录,使用以下命令授权 [Charles@localhost ~]$ mysql -uroot -p123 MariaDB [(none)]> u ...