网页处理分析库 urllib2:可以利用urllib2抓取页面,可以直接使用urlopen来进行页面打开,也可以直接用request来打开网址,利用request的好处是可以很方便的添加HTTP请求的头部信息 import urllib2 req = urllib2.Request('http://www.baidu.com') req.add_header('Cookie','aaa=bbb') 通过add_header添加请求头
res = urllib2.urlpopen(req) html = res.read() res.close() BeautifulSoup:用来解析HTML和XML的第三方库 日期时间标准函数 datetime:python中用于处理日期及时间等。定义了两个常量和5个类 两个常量: datetime.MINYEA和datetime.MAXYEAR表示最小最大年份 5个类:
- datetime.date:表示日期的类。常用的属性有year, month, day;
- datetime.time:表示时间的类。常用的属性有hour, minute, second, microsecond;
- datetime.datetime:表示日期时间。
- datetime.timedelta:表示时间间隔,即两个时间点之间的长度。
- datetime.tzinfo:与时区有关的相关信息。(这里不详细充分讨论该类,感兴趣的童鞋可以参考python手册)