《用Python写爬虫》学习笔记（二）编写第一个网络爬虫

1、首先，下载网页使用Python的urllib2模块，或者Python HTTP模块request来实现

urllib2会出现问题，解决方法1.重试下载（设置下载次数）

2.设置用户代理

2、其次，三种常见方法

1>网站地图爬虫（解析网站地图，将使用正则表达式，从<loc>标签中提取出URL)

2>ID遍历爬虫（网站若使用连续大数作为ID，或者数值可以使用，若不是，就难发挥作用）

3>链接爬虫（可以跟踪所有链接的方式，下载大量网页，也可以使用正则表达式确定下载哪些页面）

（碰到相对链接要转换为绝对链接，Python模块urlparse实现）

3、最后添加一些功能，完善爬虫。

1>解析robots.txt (使用Python自带的robotparser模块）

2>urllib2不支持的情况下使用 HTTP模块request来实现该功能

3>下载限速（Throttle类记录了每个域名上次访问的时间，若中间时间短，将执行睡眠操作）

4>避免爬虫陷阱（要修改seen变量，增加页面深度记录，到达最大深度时，停止链接爬取）

完。

秒客网