jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫

时间:2024-06-03 11:31:11
【文件属性】:

文件名称:jianshu_spider:爬取简书专题、作者和文章摘要数据的爬虫

文件大小:11KB

文件格式:ZIP

更新时间:2024-06-03 11:31:11

Python

jianshu_spider 爬取简x专题、作者和文章摘要数据的爬虫 采集说明 主要收集的数据如下 专题:ID、名称、文章数、粉丝数 作者:ID、昵称、文字总数、粉丝数、喜欢数 文章:ID、标题、文字数、阅读数、喜欢数、评论数、赞赏数、售价、购买量及发布时间 运行环境 Python 3.6.5 运行方式 新建名为 jianshu 的数据库,执行 jianshu.sql 简历数据库表结构 运行 GetCategories.py,获取所有专题数据 运行 GetArticles.py,轮循已获取的专题数据,分别抓取对应专题下所有的文章数据 Issue 未加入多线程和协程等技术,导致目前采集效率非常低下。由于机制的原因,GetArticles.py 在采集过程中需要根据请求结果判断是否存在下一页数据,进而判断是否发起下一次请求


【文件预览】:
jianshu_spider-master
----.gitignore(1KB)
----GetCategories.py(4KB)
----GetArticles.py(10KB)
----util()
--------DBConfig.py(286B)
--------Mysql.py(6KB)
----README.md(901B)
----jianshu.sql(3KB)

网友评论