distributed-vertical-crawlers:分布式垂直爬虫框架 & 爬虫们

时间:2024-06-03 10:24:02
【文件属性】:

文件名称:distributed-vertical-crawlers:分布式垂直爬虫框架 & 爬虫们

文件大小:47KB

文件格式:ZIP

更新时间:2024-06-03 10:24:02

Python

Data Bang 大众点评爬虫 开发计划 detect shop ID. 从已经下载的页面中解析出 ID. 起始页面, 人工选择一个皆可. 建议选择 shop list 页面. download shop profile page profile page 中解析出 review(评论), 评论数 大于等于 20 的, 加入 reviews 下载任务中. shop review page 下载. 用户的个人页面 先爬取页面在本地保存, 积累一定数量以后, 统一解析 关键进展 拿到 203 条分类的 name 与 url. 其中, 不重复的, 175 条 url 格式: /search/category/\d{2}/\d{2}/g\d+. 去掉最后的最后的 gxxxx, 是一级分类. 一级分类数量不多. 另, 基于地址的分类, url 格式: /search/category/\d{2}/


【文件预览】:
distributed-vertical-crawlers-master
----crawler()
--------job.py(3KB)
--------__init__.py(0B)
--------download.py(3KB)
--------log4f.py(942B)
--------req.py(3KB)
--------extract.py(3KB)
--------model.py(1KB)
----.gitignore(330B)
----dianping()
--------plot.py(947B)
--------__init__.py(0B)
--------parser.py(6KB)
--------grab.py(3KB)
--------figure()
--------model.py(1KB)
----requirements.txt(41B)
----__init__.py(0B)
----README.md(4KB)

网友评论