爬取拉勾网招聘信息并使用xlwt存入Excel ——问题总结

时间:2022-09-18 18:33:49

爬取拉勾网招聘信息并使用xlwt存入Excel ——学习总结

本篇文章是关于“简书”上某大神的文章“python数据分析入门学习笔记”  配上链接:http://www.jianshu.com/p/5cf59099ff5e 。


1、首先,对大神的代码进行一下说明:大神的代码,粘贴复制之后,除去末尾的中文转载标注,以及第二行的这个说明:爬取拉勾网招聘信息并使用xlwt存入Excel ——问题总结,其他的不用做任何操作。



2、其次,我再做的时候,一开始是自己模仿着写,中间也出了错误,比如:爬取拉勾网招聘信息并使用xlwt存入Excel ——问题总结
这段关于列表title的代码,少了一个元素;

再者,是很荒唐的一个错误:即是 文档编码格式的说明语句:
(正确的:)#-*- coding:utf-8 -*-
(错误的:)#-*-coding:utf-8-*-

不知道曾经有没有人跟大家说过关于这个语句,从学习到刚才我一直是用下面的那条语句,很惭愧。


3、关于代码的一些看法:

(1).我个人认为关键的地方是:headers,cookies,URL,datas。

(2).首先:URL,datas:

URL ,( url = 'https://www.lagou.com/jobs/positionAjax.json?&needAddtionalResult=false')基本上是通用不用变的。

我觉得很厉害的是:needAddtionalResult(需要额外的结果添加)(可能我有点   小无知哈)。

datas,

 datas = {
     'first': True,
     'pn': x,
     'kd': 'python',
     'city': '上海'
 }
 我觉得整个代码的灵活性很强,就是可以更改工作的城市,职位名称仅仅是通过更改datas集合中
对应的“kd”,“city”两个键的值即可。

      需要注意的是:不论datas更改与否,只要网址发生了更改,基本上都会请求失败的。
一般发生的错误诸如:

 (3).关于 headers与cookies。
 (或者说是:content = requests.post(url=url,cookies=cookies,headers=my_headers,
data=datas))
 当我们打开一个“拉勾网”的时候,获取到的headers的相关参数的数据信息放到post内,
都是可以获取到content的内容,即是是你在A地,用B地打开该网获取到的headers的信息。(其实
好像是跟地域没关系,知识浅薄... ...)
 另外,如果我们不添加headers、cookies的信息,程序就会报错。
 (4).关于 文件编码 的问题。
 我还是说有些问题:,我也很无语,但是我确实不会...
 ...求指导... ...
 补充:

1.http://blog.csdn.net/u011528082/article/details/19123289:      “应该是代码中存在中文字符的原因” “解决方案:” 我将代码中的所有中文字符全部改为英文。 结果:问题就解决了(待补充!)


这次就是这么多了。第一次写博客,请多指教。