文件名称:winter:围观大神大战知乎,顺便练手做项目
文件大小:7KB
文件格式:ZIP
更新时间:2024-06-22 10:51:23
Python
简介 这是一个简单的scrapy的爬虫 在大神winter删除所有答案之前,备份winter目前为止[2015年05月31日]在知乎的所有答案 本项目作为一个简单的scrapy练手项目,只需要改部分内容,即可爬取知乎任何用户的所有答案 如果您也在用scrapy欢迎交流指正:D #环境 & Usage python 2.7 pip scrapy 0.24 mongoDB 3.0.2 | pymongo 3.0.2 robomongo 目前实现的功能 命令行下使用scrapy list可以看到三个爬虫 q_test: 爬取的所有题目和题目链接 question: 进一步跟踪下一页的链接,爬取winter所哟回答过的题目及其链接并存储到数据库 answer: 从数据库取出所有链接,进入详情页面,爬题目的详细描述、winter答题的详细内容 todo 题目描述太长的话,会被知乎折叠一部分,本项目
【文件预览】:
winter-master
----winter()
--------.gitignore(19B)
--------spiders()
--------items.py(253B)
--------pipelines.py(989B)
--------settings.py(336B)
--------__init__.py(0B)
----readme.md(2KB)
----scrapy.cfg(254B)
----q_tets.json(4KB)