Python爬虫实战（一）

今天，学习了爬虫的基础知识，尝试着写了本人的第一个小爬虫——爬取糗百上的热门段子。一开始自己做的是爬取1-35页，每页20条段子的作者、点赞数和内容，代码很简陋，贴在下面：

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'

 headers = {

     'User-Agent' : user_agent

 }

 i = 1

 for page in range(1,36):

     url = 'http://www.qiushibaike.com/hot/page/' + str(page)

     html = requests.get(url,headers=headers)

     html.encoding = 'utf-8'

     # print html

     pattern = re.compile('div class="articl.*?" alt="(.*?)"/>.*?content">\n{2,}(.*?)\n{2,}</div>.*?number">(.*?)</i>',re.S)

     items = re.findall(pattern,html.text)

     for item in items:

         replaceBr = re.compile('<br/>')

         text = re.sub(replaceBr,'\n',item[1])

         print i

         i+=1

         print u'发布者:' + item[0].strip()

         print u'内容:' + text.strip()

         print u'点赞数:' + item[2].strip()

         print '\n'

     page+=1

后改进如下(自己对类和函数的把握还是太差，中间错了好多～～)：

 #!/usr/bin/env python

 # -*- coding:utf-8 -*-

 __author__ = 'ziv·chan'

 import requests

 import re

 class QSBK:

     def __init__(self):

         self.pageIndex = 1

         self.user_agent = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'

         self.headers = {'User-Agent' : self.user_agent}

         self.Stories = []

         self.enable = False

     def getPagecode(self,pageIndex):

         url = 'http://www.qiushibaike.com/hot/page/' + str(pageIndex)

         html = requests.get(url,headers=self.headers)

         html.encoding = 'utf-8'

         pageCode = html.text

         return pageCode

     def getPageItems(self,pageIndex):

         pageCode = self.getPagecode(pageIndex)

         pattern = re.compile('div class="articl.*?" alt="(.*?)"/>.*?content">\n{2,}(.*?)\n{2,}</div>.*?number">(.*?)</i>',re.S)

         items = re.findall(pattern,pageCode)

         pageStories = []

         for item in items:

             replaceBr = re.compile('<br/>')

             text = re.sub(replaceBr,'\n',item[1])

             pageStories.append([item[0].strip(),text.strip(),item[2].strip()])

         return pageStories

     def loadPage(self):

         if self.enable == True:

             if len(self.Stories) < 2:

                 pageStories = self.getPageItems(self.pageIndex)

                 if pageStories:

                     self.Stories.append(pageStories)

                     self.pageIndex += 1

     def getOneStory(self,pageStories,page):

         for story in pageStories:

             input = raw_input()

             self.loadPage()

             if input == 'Q':

                 self.enable = False

                 return

             print u"第%d页\t发布人:%s\t赞:%s\n%s" %(page,story[0],story[2],story[1])

     def start(self):

         print u"正在读取糗事百科,按回车查看新段子，Q退出"

         self.enable = True

         self.loadPage()

         nowpage = 0

         while self.enable:

             if len(self.Stories) > 0:

                 pageStories = self.Stories[0]

                 nowpage += 1

                 del self.Stories[0]

                 self.getOneStory(pageStories,nowpage)

 spider = QSBK()

 spider.start()

学到了：

模拟浏览器请求，一定要添加‘headers’验证，正则消除空行‘ \n{2,} ’，

正则过滤多余标签：

 replaceBr = re.compile('<br/>')

 text = re.sub(replaceBr,'\n',content)

需要提高的地方：类和函数，复杂的正则，编码问题。

正则表达式的有关说明：

1）.*? 是一个固定的搭配，.和*代表可以匹配任意无限多个字符，加上？表示使用非贪婪模式进行匹配，也就是我们会尽可能短地做匹配，以后我们还会大量用到 .*? 的搭配。

2）(.*?)代表一个分组，在这个正则表达式中我们匹配了五个分组，在后面的遍历item中，item[0]就代表第一个(.*?)所指代的内容，item[1]就代表第二个(.*?)所指代的内容，以此类推。

3）re.S 标志代表在匹配时为点任意匹配模式，点 . 也可以代表换行符。

部分内容参考静觅。

本人的第一篇正式博客，才发现以前学知识学得太糙了，很多都不记得了，那就重新开始，记录下点点滴滴，fighting！

秒客网

Python爬虫实战（一）

相关文章