Python爬虫入门笔记(序)

时间:2022-01-30 04:19:00

       近期迷恋上了Python,不外乎“人生短暂,我用Python"。Python简洁,优雅,易懂。大数据分析的前期自然也是少不了数据收集的,做一些爬虫爬取数据是少不了的。主要学习资料:两网站慕课网极客学院,两博客园崔庆才廖雪峰。编程工具从Notepad 到Eclipse for Python再到Pycharm,衷心推荐Pycharm,功能强大,安装简单!

      学习Python爬虫主要有以下知识点:

      1、Python​语言入门和基础,慕课网和极客学院有完整课程,讲练结合;

      2、Python爬虫入门,推荐极客学院Kingname的系列课程;

      3、一个完整爬虫主要是URL管理、获取网页代码、解析网页和输出等四部分,最核心的就是网页获取和解析,获取有Urllib、Urllib2、Requests等,涉及Get和Post方式,Headers和Coocies,模拟登陆等;解析有正则表达式、Xpath(lmxl)、bs4等;

      4、框架爬虫Scrapy,涉及存储数据库Redis/MongeDB等;

      5、爬虫实战项目:糗事百科、百度贴吧、极客学院、新浪微博、豆瓣、知乎、淘宝等,还有微信遥控PC和网页遥控PC等。

      6、还有一些其他神器,后面待续。

      调试代码无疑是比较痛苦的​,常常不得要领,缺乏基础,只能一点点探索,搜索,询问,能有所进,就手舞足蹈,贵在坚持!