DoubanBookSpider:爬取豆瓣书籍信息,并持久化到mysql数据库

时间:2024-06-07 01:05:36
【文件属性】:

文件名称:DoubanBookSpider:爬取豆瓣书籍信息,并持久化到mysql数据库

文件大小:37KB

文件格式:ZIP

更新时间:2024-06-07 01:05:36

Python

DoubanBookSpider 抓取豆瓣的书籍信息并持久化到mysql数据库 这个爬虫的思路主要受@lanbing510 的启发,不同的是实现方面我自己用了requests库,持久化用了mysql,另外添加了日志模块logging。在应对豆瓣反爬虫方面,由于不想买收费代理,而我自己又是ADSL拨号上网,所以一旦检测到豆瓣返回403,就主动断开路由连接,重连获取新的ip。 以下介绍一下思路和实现。 一、爬虫思路及架构 通过观察豆瓣网书籍的具体页面,我们可以发现,具体书籍网址的组成形式为: 其中bookid为具体的数字。第一种思路是设定一个比较大的数字,然后从1到这个数字的范围之内去遍历所有数字对应的网址,但是我们可以发现,这些书的id往往非常大,基本都是百万级别的数字,一个个去撞库非常不现实。 其实每本书都有很多标签,每个标签都汇集了同一类的所有书,要是可以获取到所有标签,然后根据这些标签


【文件预览】:
DoubanBookSpider-master
----images()
--------框架.jpg(26KB)
--------流程.jpg(17KB)
----douban_tags.py(894B)
----init.sql(1KB)
----README.md(5KB)
----douban_books.py(11KB)

网友评论