文件名称:yelpcrawler:Yelp网络爬虫
文件大小:8KB
文件格式:ZIP
更新时间:2024-06-12 17:59:37
Python
Yelp爬行者 项目介绍 非基于API的Yelp网络抓取工具。 旨在练习一些用于网络爬网的Python技巧和库。 有目的地避免使用Yelp的API来抓取Yelp网址。 设计 对于每个结果页(列出指定城市/位置中给定搜索短语的10个项目),Yelp传递了一个称为snippet的JSON。 此JSON包含具有每个项目基本数据的属性。 另一个标题包含一个大HTML字符串,可以使用基本属性对其进行解析以获得其余的相关事件数据。 这些snippet JSONs可以通过形式的URL来访问 http://www.yelp.com/search/snippet?find_desc=Restaurants&find_loc=San Francisco, CA&start=10 传递给start参数的值可用于遍历给定搜索短语和位置的所有返回项。 手术 CityCrawler每个实例CityCr
【文件预览】:
yelpcrawler-master
----yelp_item.py(776B)
----db.py(1KB)
----city_crawler.py(867B)
----sql()
--------tables()
----sandbox.py(741B)
----.gitignore(32B)
----yelp_list_crawler.py(12KB)
----README.md(1KB)