douban-movie:豆瓣电影爬虫

时间:2024-05-24 17:31:29
【文件属性】:

文件名称:douban-movie:豆瓣电影爬虫

文件大小:3.37MB

文件格式:ZIP

更新时间:2024-05-24 17:31:29

python3 douban douban-movie Python

豆瓣电影爬虫   豆瓣电影数据库是目前高质量电影信息的聚集地。对于一些视频聚合应用、数据挖掘应用等场景,豆瓣电影数据库仍然是一个很好的选择。如果你只需要小规模的数据集请使用八爪鱼或者火车头之类的抓取工具。   本着不重复造*的理念,我调研了github上关于豆瓣的电影信息的爬虫程序。找到了一个star比较多(唯一一个50star以上)的一个项目 该项目存在一些问题: 没有实现模拟登陆,被豆瓣的反爬虫机制阻止。无法继续抓取 使用的相关库在windows下安装困难,但没有相关的文档 可定制性较差。不支持选定抓取字段 抓取效率较低 不支持后台运行 本文在关注以上问题的基础上重新设计豆瓣爬虫程序。 遍历方式介绍 本文涉及的遍历思路有两种: 根据id进行遍历 根据关键词种子,遍历搜索结果 根据id进行遍历 豆瓣电影信息的url格式为: 豆瓣是从2005年创办的,2005年以前的电影信息id很可能是


【文件预览】:
douban-movie-master
----requirements.txt(68B)
----storage()
--------__init__.py(0B)
--------CsvHelper.py(812B)
--------Helper.py(2KB)
--------DbHelper.py(2KB)
----page_parser()
--------__init__.py(0B)
--------Entity.py(450B)
--------MovieParser.py(6KB)
--------SearchResult.py(2KB)
----login()
--------__init__.py(1B)
--------CookiesHelper.py(2KB)
--------Entity.py(464B)
----doc()
--------running.png(128KB)
--------README.md(70B)
--------movie.sql(1KB)
----sample.csv(6.3MB)
----config.ini(259B)
----utils()
--------__init__.py(0B)
--------Utils.py(216B)
--------ConfigHelper.py(195B)
----constants.py(1KB)
----README.md(3KB)
----tests()
--------__init__.py(0B)
----main.py(2KB)

网友评论