python-crawler-douban:豆瓣综合爬虫,使用 `Python-3.7 + Scrapy-1.5` 构建,含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

时间:2024-05-20 08:59:29
【文件属性】:

文件名称:python-crawler-douban:豆瓣综合爬虫,使用 `Python-3.7 + Scrapy-1.5` 构建,含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取

文件大小:17KB

文件格式:ZIP

更新时间:2024-05-20 08:59:29

Python

python-crawler-douban 豆瓣综合掉,使用 Python-3.7 + Scrapy-1.5 构建。含豆瓣电影、豆瓣读书、豆瓣音乐三类Top250内容爬取及短评爬取。 爬虫 书籍信息 # 列表页URL结构 # https://book.douban.com/top250?start=0 # https://book.douban.com/top250?start=25 # 书籍页URL结构 # https://book.douban.com/subject/1770782/ # 采集字段 封面、作者、出版社、出品方、原作者、译者、出版年、页数、定价、装帧、丛书、ISBN 综合评分、评价人数、评星比例、常用标签、在哪借这本书列表 书评数据 # 书评页URL结构(分热门和最新,但实际数据是一致的,只是排序方式不同) # https://book.douban.com/subje


【文件预览】:
python-crawler-douban-master
----douban()
--------middlewares.py(5KB)
--------pipelines.py(2KB)
--------spiders()
--------items.py(2KB)
--------__init__.py(0B)
--------settings.py(8KB)
----scrapy.cfg(255B)
----LICENSE(11KB)
----requirements.txt(24B)
----.gitignore(1KB)
----README.md(2KB)

网友评论