文件名称:zhihu:zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容
文件大小:876KB
文件格式:ZIP
更新时间:2024-05-22 00:54:27
Python
zhihu说明文档 介绍 zhihu是一个知乎话题内容的爬虫,可以爬取知乎所有的话题相关的问答内容,爬虫框架使用scrapy,数据存储使用mongo。由于知乎话题的问答内容信息巨大(亿级数据量),这里只是爬取了话题广场的“阅读”话题下的所有子话题下的精华问题与回答的相关信息。 代码说明 运行环境 Windows 10 专业版 Python 3.5/Scrapy 1.5.0/MongoDB 3.4.7 依赖包 Requests Pymongo Faker(随机切换User-Agent) 其它 知乎话题广场有33个父话题,每个父话题有不同数量的子话题,每个子话题下又有很多的精华问题,每个精华问题下有不同数量的回答,如果想要完全爬取所有的问答,由于数据量太大,耗时太久。这里选择了“阅读”话题进行数据爬取。知乎的子话题、精华问答的内容都是采用动态加载的方法进行更新获取的,在分析了其动态加载链接后,
【文件预览】:
zhihu-master
----zhihuspider()
--------zhihuspider()
--------scrapy.cfg(265B)
----知乎所有话题.xlsx(286KB)
----pic()
--------lanluyu词云图20180711.png(94KB)
--------bufen.PNG(14KB)
--------anwser.PNG(36KB)
--------mongodb.PNG(81KB)
--------question.PNG(112KB)
--------topic.PNG(14KB)
--------topics.PNG(57KB)
--------流程图.PNG(31KB)
----知乎父话题和子话题数目.PNG(16KB)
----question.xlsx(118KB)
----README.md(3KB)
----流程图.PNG(31KB)