gitee_scrapy:爬取码云上所有开源的项目信息

时间:2024-04-11 19:49:43
【文件属性】:

文件名称:gitee_scrapy:爬取码云上所有开源的项目信息

文件大小:26KB

文件格式:ZIP

更新时间:2024-04-11 19:49:43

系统开源

简介 该项目有用练手,通过scrapy-redis对等分布式爬取gitee网站[ www.gitee.com](http://www.gitee.com/explore) 上开源的所有项目信息 使用mongoDB作为数据库保存数据 通过pandas、numpy、matplotlib等第三方库进行数据分析 安装 将项目clone到本地,使用 'pip3 install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/' 快速安装依赖包 其他依赖 redis、mongobd,请自行google 如何安装 运行 爬虫 进入myspider目录, ·scrapy crawl gitee——redis· 启动爬虫脚本,脚本为分布式爬虫,需要向redis中放入启动url,方可开始 strat_url 'gitee_redi


【文件预览】:
gitee_scrapy-master
----myspider()
--------scrapy.cfg(259B)
--------myspider()
----.idea()
--------spider.iml(466B)
--------misc.xml(297B)
--------vcs.xml(238B)
--------modules.xml(264B)
--------.gitignore(39B)
--------inspectionProfiles()
----requirements.txt(611B)
----.gitignore(2KB)
----README.md(948B)
----analyze()
--------test.svg(60KB)
--------gitee.py(1KB)

网友评论