整体架构
- 调度器
- spider_main.py
- URL管理器
- url_manager.py
- 下载器
- html_downloader.py
- 解析器
- html_parser.py
- 输出器
- html_outputer
存储方式
URL管理器
对已经获取的url和已经使用过的url进行管理,避免重复爬取
使用到数据结构 set() ,特点为不能存储相同的数据
使用到的主要模块
-
urllib2
- 对页面进行下载
-
BeautifulSoup
- 对页面进行解析
对已经获取的url和已经使用过的url进行管理,避免重复爬取
使用到数据结构 set() ,特点为不能存储相同的数据
urllib2
BeautifulSoup