- scrapy框架
介绍:大而全的爬虫组件。
安装:
- Win:
下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
pip3 install wheel
pip install Twisted‑18.4.0‑cp36‑cp36m‑win_amd64.whl
pip3 install pywin32
pip3 install scrapy
- Linux:
pip3 install scrapy
使用:
Django:
# 创建project
django-admin startproject mysite
cd mysite
# 创建app
python manage.py startapp app01
python manage.py startapp app02
# 启动项目
python manage.runserver
Scrapy:
# 创建project
scrapy startproject xdb
cd xdb
# 创建爬虫
scrapy genspider chouti chouti.com
scrapy genspider cnblogs cnblogs.com
# 启动爬虫
scrapy crawl chouti
1. 创建project
scrapy startproject 项目名称
项目名称
项目名称/
- spiders # 爬虫文件
- chouti.py
- cnblgos.py
....
- items.py # 持久化
- pipelines # 持久化
- middlewares.py # 中间件
- settings.py # 配置文件(爬虫)
scrapy.cfg # 配置文件(部署)
2. 创建爬虫
cd 项目名称
scrapy genspider chouti chouti.com
scrapy genspider cnblgos cnblgos.com
3. 启动爬虫
scrapy crawl chouti
scrapy crawl chouti --nolog
总结:
- HTML解析:xpath
- 再次发起请求:yield Request对象
相关文章
- 笔记之_java整理框架
- Python爬虫之Scrapy框架系列(13)——实战ZH小说爬取数据入MySql数据库
- python爬虫入门(八)Scrapy框架之CrawlSpider类
- scrapy爬虫框架将数据保存Mysql数据库中
- Scrapy爬虫框架快速入门
- Python爬虫之Scrapy框架系列(3)——项目实战【某瓣top250电影信息获取】
- API接口自动化测试框架搭建之需求整理、详细设计和框架设计
- WindowsGUI自动化测试框架搭建之需求整理、详细设计和框架设计
- WebUI自动化测试框架搭建之需求整理、详细设计、框架设计
- 爬虫系列---scrapy post请求、框架组件和下载中间件+boss直聘爬取