花了4天终于把写完了把国内的几个漏洞平台爬完了,第一次写py,之前一直都在说学习,然后这周任务是把国内的漏洞信息爬取一下。花了1天学PY,剩下的1天一个。期间学习到了很多。总结如下:
====================================================================
=====================================================================================================
期间用了几个不错的类库:
urllib2 re chardet sys bs4 BeautifulSoup requests json
比如获取某个标签beautifulsoup,find/findAll/find_all
获取标签的内容XXX.contents[i]
还有AJAX的爬虫:requests.post()期间用了这个方法和别的来爬的时候需要POST,但是一直是GET,纠结了一个晚上,最后问了腾讯某小伙伴解决了问题
只要是data=xxx 都会使用urlencode编码,所以一直是GET
返回的是JSON,如果用字符串处理的话相当麻烦,问了长亭的朋友,推荐用了Json的类库(爬AJAX的时候最好设置个头)
result=requests.post(url,json=payload,headers=headers)
#print result.text
content=json.loads(result.text)
text=content['result']
=========================
apps=json.dumps(j)
app_json=json.loads(apps)
time=app_json['date']
用起来会方便了很多很多,如果需要搞PY爬虫的时候可以尝试下。因为也是刚学,代码只是实现了功能,代码的架构,没有加线程,速度也不是很好,后期可能会去优化。
如果你遇到什么问题,欢迎一起学习,可以发到我的邮箱:sevck#jdsec.com :)
###############
最后说一下,建议别在WINDOWS下写PY,建议LINUX