python爬取boss直聘爬取具体信息

Python原生态代码爬取boss直聘

首先看一下思路

首先通过这个页面拿取到所有的详细页面的url，需要判断是否存在下一页
python爬取boss直聘爬取具体信息
拿到所有的url之后呢，再对每一个详细页面的进行抓取重要的信息。

但是在这个过程中间，ip有可能就会被封，所以说需要搭建代理ip池，这个我用的讯代理，做的代理池，思路是崔庆才当年写的那本书。代理更换，我选择人为固定，这块我使用的是当使用了5次之后，就更换代理ip，当然，如果你有钱的话，你可以自己搭建一个ALS。