文件名称:抓取搜狐的有效链接和文章内容
文件大小:3.23MB
文件格式:RAR
更新时间:2021-06-20 16:09:27
python 爬虫 scrapy框架
利用scracpy框架,抓取搜狐网的链接和文章,并去重和过滤掉不合格的数据存到redis数据库中
【文件预览】:
scrapy
----.idea()
--------misc.xml(197B)
--------workspace.xml(21KB)
--------scrapy.iml(467B)
--------modules.xml(264B)
----redis_spider.py(4KB)
----fox()
--------sohu.csv(5.9MB)
--------scrapy.cfg(249B)
--------__init__.py(0B)
--------fox()
----06-深入了解Scrapy.pdf(1.32MB)