做一个简单的爬虫,简单的不能再简单
这里选取简书首页,爬取各个文章标题,由于不需要登录,所以无需Cookie,简书的网页源代码下载也无需设置headers
在简书的首页按 F12,查看页面元素Element,可以看到我们所需要爬取的内容夹在了 <h4 ....>..<a...>XXXXX</a> 之间
所以,pattern我们可以这么写:
pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)
完整代码:
# _*_ coding:utf-8 _*_ import urllib import urllib2 import re url='http://www.jianshu.com/' request = urllib2.Request(url) response=urllib2.urlopen(request) # print response.read() content = response.read() pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S) items=re.findall(pattern,content) for item in items: print item
运行结果:
一个1号店前员工看京东收购 我是怎么教英语学英语的?吐血整理,全是干货,绝对受益 读懂这6条建议,你的大学才经得起挥霍。 先别急着结婚,想清楚这10个关键问题再决定 简书早报160622——《一个1号店前员工看京东收购》 想追求Ta?你大胆去追,但千万别求 我月收入三千,就不能喝星巴克的咖啡了? 和傻逼做朋友是不道德的 我希望这部国产片永远不在国内公映 征集贴:知世故而不世故|三句足矣 如何利用思维导图认识自己? 简书播客#第十九期 谁说爱就不会伤害,但凡感情未必不是有伤也有爱 给你15㎡的卧室,你会如何软装? 如何找到热爱的工作? 大学里应该知道的事情:爱情篇 给简书找BUG赢好礼16.06.16——简书android 1.11.0公测 教你如何玩转抓娃娃机攻略 你所爱的人,正是你内心深处的另一个自己。 《简书周刊076·自己动手,丰衣足食》上线 放弃吧,他只是一个不可能的人。