当当网书籍数据爬进数据库

时间:2024-05-19 13:25:28

当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制,几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些,然后在items.py下面全部写出来。
当当网书籍数据爬进数据库然后就写爬虫文件
核心文件开始定位导入items里面的类。(一定不要导入错了)
当当网书籍数据爬进数据库对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧,那就一定要加循环了。
仔细观察后发现又100页。所以循环如下:当当网书籍数据爬进数据库在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除,并且还要将类名与之相对应。当当网书籍数据爬进数据库pipelines主要是进行后续处理的。 所以大致代码如下:
当当网书籍数据爬进数据库但是写在一个txt文件就会显得特别乱,所以就干脆存进数据库。
连接数据库
当当网书籍数据爬进数据库建立游标
当当网书籍数据爬进数据库将爬到的内容添加到数据库
当当网书籍数据爬进数据库这是我爬取进入数据库的数据:
当当网书籍数据爬进数据库

一个当当网的爬虫就这样了。接下来给大家讲讲我在写的时候遇到的一些问题吧。
错误1:
在写values后面的时候没有用引号
当当网书籍数据爬进数据库错误2:
连接数据库的时候没有用游标去写,用的query方法,导致一直能爬到东西,但是一直没有写进数据库。
当当网书籍数据爬进数据库错误3:
评论数一直是空的,什么都没有,检查了半天才发现是我@符号没写。
当当网书籍数据爬进数据库错误4:
在导入items下面的文件时没有从核心目录而是根目录导入,导致出现了这样的问题。
当当网书籍数据爬进数据库因为那样导入不会报错,而正确的导入是这样存在下划线的,所以会考虑到会不会是自己写错了的原因。当当网书籍数据爬进数据库到这里就真的结束了,楼主是初学者,希望各位大佬有什么简单的方法一定要告诉我喔,如果对你有帮助的话就点个赞叭。