文件名称:scrapy-zhihu-github:抓取zhihu和github的不完整示例
文件大小:38KB
文件格式:ZIP
更新时间:2024-06-10 01:53:33
Python
scrapy-zhihu-github 用于爬取zhihu和github的代码,数据存储于mongodb。 Install Scrapy安装见。 Mongodb安装在本机,数据库为zhihu,端口默认,存在以下collection: zh_user:知乎用户 zh_ask:知乎问题 zh_answer:知乎回答 zh_followee:知乎关注列表 zh_follower:知乎粉丝列表 gh_user:github 用户 gh_repo:github 仓库 zhihu Scrapy爬取知乎数据,说明见。 zhihu 用户表结构(db.zhihu.zh_user)为: _id int, # 用户id url string, username string, # 用户名,如 zhouyuan nickname string, # 昵称,如 周源 location string, # 居住地 i
【文件预览】:
scrapy-zhihu-github-master
----.gitignore(703B)
----README.md(3KB)
----main.py(45B)
----scrapy.cfg(252B)
----readme.txt(2KB)
----zhihu()
--------spiders()
--------items.py(3KB)
--------pipelines.py(4KB)
--------misc()
--------settings.py(2KB)
--------__init__.py(0B)
--------scrapy_redis()