开始网页爬取:(1)交互式爬取
首先,我们使用scrapy建立起爬虫的框架。在命令行中输入 scrapy shell “url”
如:scrapy shell “http://www.baidu.com”
(注意:此处一定要写清楚传输协议,否则将无法链接到对应网站,此例中为http://)
scrapy 会自动创建response对象,并自动将爬取下网页的源代码存入response.body中。
输入response.body 可看到其中的内容非常庞杂。
为了进一步析取网页,更精确地获取到所需要的信息,我们引入BeautifulSoup库
from bs4 import BeautifulSoup
soup = BeautifulSoup(response.body)
此时将response.body的内容通过BeautifulSoup的进一步解析,存入对象soup中,此时,soup已可以使用BeautifulSoup库中的方法。
如: print soup.find('a')打印出第一个<a>标签
print soup.findAll('p') 打印出所有的<p>标签
这里只是简单举例,想要了解更多的BeautifulSoup方法请查看官方文档。
附:官方文档
BeautifulSoup http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
是不是很好玩呢~?