jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫下载

【文件属性】：

文件名称：jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫

文件大小：11KB

文件格式：ZIP

更新时间：2024-06-03 11:31:11

Python

jianshu_spider 爬取简x专题、作者和文章摘要数据的爬虫采集说明主要收集的数据如下专题：ID、名称、文章数、粉丝数作者：ID、昵称、文字总数、粉丝数、喜欢数文章：ID、标题、文字数、阅读数、喜欢数、评论数、赞赏数、售价、购买量及发布时间运行环境 Python 3.6.5 运行方式新建名为 jianshu 的数据库，执行 jianshu.sql 简历数据库表结构运行 GetCategories.py，获取所有专题数据运行 GetArticles.py，轮循已获取的专题数据，分别抓取对应专题下所有的文章数据 Issue 未加入多线程和协程等技术，导致目前采集效率非常低下。由于机制的原因，GetArticles.py 在采集过程中需要根据请求结果判断是否存在下一页数据，进而判断是否发起下一次请求

立即下载

【文件预览】：
jianshu_spider-master
----.gitignore(1KB)
----GetCategories.py(4KB)
----GetArticles.py(10KB)
----util()
--------DBConfig.py(286B)
--------Mysql.py(6KB)
----README.md(901B)
----jianshu.sql(3KB)

秒客网

jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫

网友评论

相关文章