nodejs实现的爬虫,从百度贴吧爬取小说

时间:2021-09-05 07:53:42

程序应该被用来改变生活

每天都得来回坐地铁上下班,无聊的时候喜欢看些小说,还只看至尊系的。以前老用微信读书,现在读书送的书券都花完了,作为一名程序猿怎么可能去花钱买书券读书。所以我想了写个爬虫爬小说的想法。

superagent  --发送http请求
cheerio --分析请求得到的html
node-schedule --定时运行爬虫
mongoose --将爬到的最终数据存入mongo
  • 程序目录
networkReptile----connectDB //数据库代码
|---node_modules
|---tools //工具类
|---config.js //配置文件
|---networkReptile.js //主程序
|---package.json //依赖包
|---result.txt //存储爬到的html
|---README.md //使用说明

看程序之前,请务必看下cnodejs社区的nodejs入门的lession5lession6,详情请见注释,请看代码注释。