python抓取网页过程

准备过程

1.抓取网页的过程

准备好http请求（http request）->提交对应的请求->获得返回的响应（http response）->获得网页源码

2.GET还是POST

3.Headers（可选）

在某些情况下，直接抓取是被禁止的，此时需要提供一个Headers来告诉对方我不是机器人

例如：

 def getHtml(url):

     header={'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:14.0) Gecko/20100101 Firefox/14.0.1','Referer' : '******'}

     request=urllib2.Request(url,None,header)

     response=urllib2.urlopen(request)

     text=response.read()

     return text

4.Post Data（可选）

某些情况下是需要登录某网站的，此时需要提交帐号密码之类的，则需要使用Post Data

在IE中称为request body，chrome中成为Post Data

5.Cookie（可选）

一般来说，模拟登陆的时候往往会涉及到Cookie

6.其他（代理，最大超时时间timeout）

内容分析

1.对于html源码，调用BeautifulSoup库

2.正则表达式

本文参考了http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

可以说是一个简化版，想看的可以去看原文

PS：博主提供了很多计算机方面的资料，读后帮助很大，有兴趣的可以过去看看

秒客网

python抓取网页过程

相关文章