文件名称:jianshu-crawl:Scrapy + selenium爬取简书全站
文件大小:57KB
文件格式:ZIP
更新时间:2024-04-21 15:16:57
Python
Scrapy + selenium爬取简书全站 环境 Ubuntu 18.04 Python 3.8 Scrapy 2.1 爬取内容 文字标题 作者 作者头像 发布日期 内容 文章连接 文章ID 思路 分析简书文章的url规则 使用selenium请求页面 使用xpath获取需要的数据 初步存储数据到MySQL(提高存储效率) 实现 前戏: 创建scrapy项目 建立crawlsipder爬虫文件 : pipelines和middleware 初步:分析简书文章的url 可以jianshu.com/p/文章ID url规则为jianshu.com/p/文章ID ,然后再crawlsipder中设置url规则 class JsSpider ( CrawlSpider ): name = 'js' allowed_domains = [ 'jianshu.com' ]
【文件预览】:
jianshu-crawl-master
----jianshu_crawl()
--------middlewares.py(1KB)
--------spiders()
--------__init__.py(0B)
--------pipelines.py(3KB)
--------__pycache__()
--------start.py(71B)
--------settings.py(3KB)
--------items.py(414B)
----README.md(8KB)
----.idea()
--------misc.xml(297B)
--------workspace.xml(14KB)
--------vcs.xml(180B)
--------dataSources.xml(770B)
--------dataSources.local.xml(2KB)
--------inspectionProfiles()
--------dataSources()
--------modules.xml(278B)
--------jianshu_crawl.iml(326B)
----scrapy.cfg(269B)
----img()
--------image-20200508174922373.png(23KB)