当当网书籍数据爬进数据库

当当网书籍数据爬进数据库
首先我们要考虑到当当网有没有反爬机制，几次后发现是没有的。
一开始我们要考虑我们要爬取的信息是哪些，然后在items.py下面全部写出来。
然后就写爬虫文件
从核心文件开始定位导入items里面的类。（一定不要导入错了）
当当网书籍数据爬进数据库对应的爬取地址写好就用yield返回。
然后肯定不想只爬取一页的书籍吧，那就一定要加循环了。
仔细观察后发现又100页。所以循环如下：在我们写pipelines文件时候一定要去setting文件里去将pipeline的注释解除，并且还要将类名与之相对应。当当网书籍数据爬进数据库 pipelines主要是进行后续处理的。所以大致代码如下：
但是写在一个txt文件就会显得特别乱，所以就干脆存进数据库。
连接数据库
建立游标
将爬到的内容添加到数据库
这是我爬取进入数据库的数据：
当当网书籍数据爬进数据库

一个当当网的爬虫就这样了。接下来给大家讲讲我在写的时候遇到的一些问题吧。
错误1：
在写values后面的时候没有用引号
当当网书籍数据爬进数据库 错误2：
连接数据库的时候没有用游标去写，用的query方法，导致一直能爬到东西，但是一直没有写进数据库。
错误3：
评论数一直是空的，什么都没有，检查了半天才发现是我@符号没写。
错误4：
在导入items下面的文件时没有从核心目录而是根目录导入，导致出现了这样的问题。
当当网书籍数据爬进数据库因为那样导入不会报错，而正确的导入是这样存在下划线的，所以会考虑到会不会是自己写错了的原因。到这里就真的结束了，楼主是初学者，希望各位大佬有什么简单的方法一定要告诉我喔，如果对你有帮助的话就点个赞叭。

秒客网

当当网书籍数据爬进数据库

相关文章