《scraping with python》

　　记得刚开始学习python时就觉得爬虫特别神奇，特别叼，但是网上的中文资料大都局限于爬取静态的页面，涉及到JavaScript的以及验证码的就很少了，【当时还并不习惯直接找外文资料】就这样止步于设计其相关的爬虫了，前两周图灵社区书籍推荐邮件来了本《python网络数据采集》，英文名《web scraping with python》，觉得有意思就下了本英文版的PDF看完了，发现其不仅讲的很系统而且也完美的解决了当时我存在的问题，而我就在想，如果当时就能够读取到这本书那是不是就很屌呢，是不是就能够少走很多弯路呢？我第一次认为是这样的，还略有点抱怨搜了那么多python爬虫的资料居然没有人推荐这么好的东东，真是不好，而后我又想其实总的来说，这本书的牛逼之处在于把方方面面需要用到的知识都告诉你了，作者用多年的经验举重若轻地全面的透露了所需，所以你就觉得满足了，但是面对新技术的出现，并不能够只依靠别的大神来告诉你方方面所需要的东西，如何能够自己成为那种起头的研究透的人才是最重要的，想到此又怪自己当初为何就没能自己去搞定这些呢，而不应该是埋怨别人没有告诉你？最后昨晚在看一本书时看到的一些东西觉得很有道理：新手往往面对二阶不胜任的情况（second-order incompetence）：不知道自己不知道多少，所以首先需要发挥R&D精神:Rip off and Duplicate 【偷师学艺】，而后需记住，无论是对你自己或对他人，一种规格并非处处适用，正如你从模型中看到的，你的需求取决于你所处的技能水平，随着时间推移，你的个人学习和成长所需要的东西会改变。这么看来也就释然了。

我将《scraping with python》中每一章节最有用的东西的提取了出来并做了一些补充，github地址

各章内容提要：

第一章：最简单的用urllib.request中的urlopen配合BeautifulSoup提取某页面的HTML

第二章：如何用BeautifulSoup定位到想要的内容，如何配合正着表达式使用，如何获取标签中的属性

第三章：实际演示了通过一个页面中的link连续爬取，涉及到了防止爬取重复等问题

第四章：使用网站既有的API来获取数据

第五章：保存数据的问题，保存URL还是下载下来？保存到Mysql，Email等等

第六章：如果不是要爬取HTML而是读取服务器的如TXT，PDF文件应该如何弄

第七章：数据清理（如替换连续空格，替换连续空行，去掉非英文内容），以及第三方工具介绍

第八章：关于自然语言处理中的n-gram ananysis

第九章：提交表单，使用COOKIE，使用SEESION

第十章：使用selenium以及PhantomJS搞定Javascript

第十一章：验证码的识别

第十二章：防止被服务器认定为机器人的措施小结

秒客网

《scraping with python》

相关文章