Python制作简单的网页爬虫

1.准备工作：

工欲善其事必先利其器，因此我们有必要在进行Coding前先配置一个适合我们自己的开发环境，我搭建的开发环境是：

操作系统：Ubuntu 14.04 LTS
Python版本：2.7.6
代码编辑器：Sublime Text 3.0

这次的网络爬虫需求背景我打算延续DotNet开源大本营在他的那篇文章中的需求，这里就不再详解。我们只抓取某一省中所有主要城市从2015-11-22到2015-10-24的白天到夜间的所有天气情况。这里以湖北省为例。
2.实战网页爬虫：
2.1.获取城市列表：
首先，我们需要获取到湖北省所有城市的网页，然后进行网页解析。网络地址为：http://www.tianqihoubao.com/weather/province.aspx?id=420000
我们查看该网页的源码可以发现所有的城市列表都是以<td style="height: 22px" align="center"><a href="城市天气链接+城市名称">，因此，我们可以封装一个函数来通过使用正则表达式获取我们想要的数据，示例代码如下所示：

复制代码代码如下:

	def  ShowCity():

	    html=requests.get("http://www.tianqihoubao.com/weather/province.aspx?id=420000")

	    citys= re.findall('<td style="height: 22px" align="center"><a href="(.*?)">', html.text,re.S)

	    for city in citys:

	        print city

抓取的结果如下所示：

1 top/anlu.html" id="codetool">

def ShowWeather(city):

res =str(city).split(

'" id="codetool">

这样以来，我们就可以获取到了对应城市的天气情况了！！

完整代码：

									#coding:UTF-8

									import re

									import requests

									import sys

									reload(sys)

									sys.setdefaultencoding('UTF-8')

									def ShowWeather(city):

									 res =str(city).split('" id="codetool">

是的，你没有看错，短短34行代码就可以爬取湖北省所有的主要城市1个月的所有天气情况，是不是很厉害呀！！？？？不过不要高兴的太早，凡事有利有弊，看看它的运行结果吧：[Finished in 371.8s]

3.知识总结：　　

3.1.编码问题：　
#在ubuntu上，由于编码问题，我们需要在代码的开始位置添加一行注释，告诉Pyhton解释器我们指定的编码格式：

#此外，我们还需要设置默认的编码格式，否则Sublime Text会无法识别中文，报告一个错误：“UnicodeEncodeError: 'ascii' codec can't encode characters in position”

				?

									#-*-coding:utf8-*-

									import sys

									reload(sys)

									sys.setdefaultencoding('UTF-8')

3.2.正则表达式：

导入正则表达式库：import re
匹配任意字符：.
匹配前一个字符0次或无限次:*
匹配前一个字符0次或一次：？
贪心算法：.*
非贪心算法：.*?
匹配数字：(\d+)
常用函数：

				?

									re.findall(pattern, string)

									re.search(pattern, string)

									re.sub(pattern, repl, string)

最后的最后，如果你尝试过运行我贴出来的完整代码，或许你会遇到和我一样的瓶颈，就是运行的速度不够快（尤其像我这种机器配置不是很好的电脑）。在我的机器上运行这段脚本总共花费了 371.8s。我运行过多次，每次都是在350+。因此，如果你的程序不在乎运行速度，那么可能Python还是挺适合的，毕竟可以通过它写更少的代码去做更多的事情！！！！

Python

网页爬虫

延伸 · 阅读

2020-08-03简单解决Python文件中文编码问题
2020-08-03Python编程中使用Pillow来处理图像的基础教程
2020-08-03在Mac OS系统上安装Python的Pillow库的教程
2020-08-03详解Python编程中time模块的使用
2020-08-03Windows上配置Emacs来开发Python及用Python扩展Emacs
2020-08-03将Emacs打造成强大的Python代码编辑工具

精彩推荐

Python

pygame学习笔记（1）：矩形、圆型画图实例

这篇文章主要介绍了pygame学习笔记（1）：矩形、圆型画图实例,本文讲解了pygame窗口、窗口退出、pygame中的颜色、圆形、矩形及一个完整实例,需要的朋友可...

脚本之家4942020-06-06
Python

Python动态加载模块的3种方法

这篇文章主要介绍了Python 动态加载模块的3种方法,本文分别使用使用系统函数__import_()、使用imp 模块、使用exec三种方法实现,需要的朋友可以参考下 ...

脚本之家2512020-05-15
Python

Python简单调用MySQL存储过程并获得返回值的方法

这篇文章主要介绍了Python调用MySQL存储过程并获得返回值的方法,涉及Python操作MySQL存储过程的使用技巧,具有一定参考借鉴价值,需要的朋友可以参考下...

鉴客1662020-07-25
Python

python对数组进行反转的方法

这篇文章主要介绍了python对数组进行反转的方法,涉及Python中reverse方法的使用技巧,需要的朋友可以参考下 ...

igoo2222020-07-03
Python

详解Python中的strftime()方法的使用

这篇文章主要介绍了详解Python中的strftime()方法的使用,是Python入门学习中的基础知识,需要的朋友可以参考下 ...

脚本之家1652020-07-06
Python

Python发送以整个文件夹的内容为附件的邮件的教程

这篇文章主要介绍了Python发送以整个文件夹的内容为附件的邮件的教程,普通我们在运营商免费邮箱中发附件通常只能发文件而不能发文件夹,而该脚本则可...

Python教程网3422020-06-23
Python

在Django的模型中添加自定义方法的示例

这篇文章主要介绍了在Django的模型中添加自定义方法的示例,Django是Python丰富多彩的web开发框架中最具人气的一个,需要的朋友可以参考下...

脚本之家2072020-07-25
Python

pyftplib中文乱码问题解决方案

这篇文章主要介绍了pyftplib中文乱码问题解决方案,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考...

前方、有光2922020-04-28