douban-movie:豆瓣电影爬虫下载

【文件属性】：

文件名称：douban-movie:豆瓣电影爬虫

文件大小：3.37MB

文件格式：ZIP

更新时间：2024-05-24 17:31:29

python3 douban douban-movie Python

豆瓣电影爬虫　　豆瓣电影数据库是目前高质量电影信息的聚集地。对于一些视频聚合应用、数据挖掘应用等场景，豆瓣电影数据库仍然是一个很好的选择。如果你只需要小规模的数据集请使用八爪鱼或者火车头之类的抓取工具。　　本着不重复造*的理念，我调研了github上关于豆瓣的电影信息的爬虫程序。找到了一个star比较多（唯一一个50star以上）的一个项目该项目存在一些问题：没有实现模拟登陆，被豆瓣的反爬虫机制阻止。无法继续抓取使用的相关库在windows下安装困难，但没有相关的文档可定制性较差。不支持选定抓取字段抓取效率较低不支持后台运行本文在关注以上问题的基础上重新设计豆瓣爬虫程序。遍历方式介绍本文涉及的遍历思路有两种：根据id进行遍历根据关键词种子，遍历搜索结果根据id进行遍历豆瓣电影信息的url格式为：豆瓣是从2005年创办的，2005年以前的电影信息id很可能是

立即下载

【文件预览】：
douban-movie-master
----requirements.txt(68B)
----storage()
--------__init__.py(0B)
--------CsvHelper.py(812B)
--------Helper.py(2KB)
--------DbHelper.py(2KB)
----page_parser()
--------__init__.py(0B)
--------Entity.py(450B)
--------MovieParser.py(6KB)
--------SearchResult.py(2KB)
----login()
--------__init__.py(1B)
--------CookiesHelper.py(2KB)
--------Entity.py(464B)
----doc()
--------running.png(128KB)
--------README.md(70B)
--------movie.sql(1KB)
----sample.csv(6.3MB)
----config.ini(259B)
----utils()
--------__init__.py(0B)
--------Utils.py(216B)
--------ConfigHelper.py(195B)
----constants.py(1KB)
----README.md(3KB)
----tests()
--------__init__.py(0B)
----main.py(2KB)

秒客网

douban-movie:豆瓣电影爬虫

网友评论

相关文章