scrapy 爬取糗事百科

安装scrapy

conda install scrapy

创建scrapy项目

scrapy startproject qiubai

scrapy 爬取糗事百科

启动pycharm，发现新增加了qiubai这个目录

scrapy 爬取糗事百科

在spider目录下创建indexpage.py文件

scrapy 爬取糗事百科

编写糗百爬虫，获取首页的所有作者信息

#导入scrapy

import scrapy

#创建糗百爬虫类

class QiuBaiSpider(scrapy.Spider):

    #定义爬虫的名字

    name = 'qiubai'

    #定义爬虫开始的URL

    start_urls=['http://www.qiushibaike.com/',]

    #处理爬取的信息

    def parse(self, response):

        li=response.xpath('//div[@class="author clearfix"]/a[2]/h2/text()').extract()

        #li=response.xpath("//h2/text()").extract()

        for item in li:

            print item

在和scrapy.cfg同级的目录下创建manage.py

scrapy 爬取糗事百科

输入代码

from scrapy.cmdline import execute

execute()

配置运行参数

scrapy 爬取糗事百科

查看本机useragent http://whatsmyuseragent.com/
在settings.py中设置USER_AGENT

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'

运行爬虫

秒客网

scrapy 爬取糗事百科

相关文章