爬取拉勾网招聘信息并使用xlwt存入Excel ——学习总结
本篇文章是关于“简书”上某大神的文章“python数据分析入门学习笔记” 配上链接:http://www.jianshu.com/p/5cf59099ff5e 。
1、首先,对大神的代码进行一下说明:大神的代码,粘贴复制之后,除去末尾的中文转载标注,以及第二行的这个说明:,其他的不用做任何操作。
2、其次,我再做的时候,一开始是自己模仿着写,中间也出了错误,比如:
这段关于列表title的代码,少了一个元素;
再者,是很荒唐的一个错误:即是 文档编码格式的说明语句:
(正确的:)#-*- coding:utf-8 -*-
(错误的:)#-*-coding:utf-8-*-
不知道曾经有没有人跟大家说过关于这个语句,从学习到刚才我一直是用下面的那条语句,很惭愧。
3、关于代码的一些看法:
(1).我个人认为关键的地方是:headers,cookies,URL,datas。
(2).首先:URL,datas:
URL ,( url = 'https://www.lagou.com/jobs/positionAjax.json?&needAddtionalResult=false')基本上是通用不用变的。
我觉得很厉害的是:needAddtionalResult(需要额外的结果添加)(可能我有点 小无知哈)。
datas,
datas = {
'first': True,
'pn': x,
'kd': 'python',
'city': '上海'
}
我觉得整个代码的灵活性很强,就是可以更改工作的城市,职位名称仅仅是通过更改datas集合中
对应的“kd”,“city”两个键的值即可。
需要注意的是:不论datas更改与否,只要网址发生了更改,基本上都会请求失败的。
一般发生的错误诸如:
(3).关于 headers与cookies。
(或者说是:content = requests.post(url=url,cookies=cookies,headers=my_headers,
data=datas))
当我们打开一个“拉勾网”的时候,获取到的headers的相关参数的数据信息放到post内,
都是可以获取到content的内容,即是是你在A地,用B地打开该网获取到的headers的信息。(其实
好像是跟地域没关系,知识浅薄... ...)
另外,如果我们不添加headers、cookies的信息,程序就会报错。
(4).关于 文件编码 的问题。
我还是说有些问题:,我也很无语,但是我确实不会...
...求指导... ...
补充:
1.http://blog.csdn.net/u011528082/article/details/19123289: “应该是代码中存在中文字符的原因” “解决方案:” 我将代码中的所有中文字符全部改为英文。 结果:问题就解决了(待补充!)
这次就是这么多了。第一次写博客,请多指教。