文件名称:dazhong:大众点评评论爬取
文件大小:176KB
文件格式:ZIP
更新时间:2024-06-20 18:23:34
Python
dazhong 因为朋友项目需要大量评论数据用于分析,所以用刚学不久的python写了个爬虫抓取指定地区和分类下的所有评论,并存入数据库。大众点评有较严格的防爬虫机制,请求时需要带cookie信息,同时访问速度过快的话会返回http302错误,所以本程序没有使用多线程去实现。附带了代理池模块,只要有大量稳定的代理,理论上可降低被鉴别的概率。
【文件预览】:
dazhong-master
----proxyIP.pyc(340B)
----database.pyc(2KB)
----user_agents.pyc(325B)
----database.py(746B)
----shopid.txt(455KB)
----.idea()
--------dazhong.iml(284B)
--------misc.xml(686B)
--------vcs.xml(164B)
--------.name(7B)
--------modules.xml(266B)
--------encodings.xml(271B)
--------workspace.xml(27KB)
----commentCraw.py(4KB)
----.gitignore(574B)
----user_agents.py(177B)
----README.md(462B)
----dazhongCraw.py(3KB)
----proxyIP.py(205B)
----.gitattributes(378B)