Python爬虫实践（九）：第一个爬虫实例（简书首页）

做一个简单的爬虫，简单的不能再简单

这里选取简书首页，爬取各个文章标题，由于不需要登录，所以无需Cookie，简书的网页源代码下载也无需设置headers

在简书的首页按 F12，查看页面元素Element，可以看到我们所需要爬取的内容夹在了 <h4 ....>..<a...>XXXXX</a> 之间

所以，pattern我们可以这么写：

pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)

完整代码：

# _*_ coding:utf-8 _*_
import urllib
import urllib2
import re

url='http://www.jianshu.com/'
request = urllib2.Request(url)
response=urllib2.urlopen(request)
# print response.read()
content = response.read()
pattern= re.compile('<h4 .*?><a.*?>(.*?)</a>', re.S)
items=re.findall(pattern,content)
for item in items:
    print item

运行结果：

一个1号店前员工看京东收购
我是怎么教英语学英语的？吐血整理，全是干货，绝对受益
读懂这6条建议，你的大学才经得起挥霍。
先别急着结婚，想清楚这10个关键问题再决定
简书早报160622——《一个1号店前员工看京东收购》
想追求Ta？你大胆去追，但千万别求
我月收入三千，就不能喝星巴克的咖啡了？
和傻逼做朋友是不道德的
我希望这部国产片永远不在国内公映
征集贴：知世故而不世故｜三句足矣
如何利用思维导图认识自己？
简书播客#第十九期 谁说爱就不会伤害，但凡感情未必不是有伤也有爱
给你15㎡的卧室，你会如何软装？
如何找到热爱的工作？
大学里应该知道的事情：爱情篇
给简书找BUG赢好礼16.06.16——简书android 1.11.0公测
教你如何玩转抓娃娃机攻略
你所爱的人，正是你内心深处的另一个自己。
《简书周刊076·自己动手，丰衣足食》上线
放弃吧，他只是一个不可能的人。

秒客网

Python爬虫实践（九）：第一个爬虫实例（简书首页）

相关文章