用八爪鱼爬取微博热门评论

时间:2024-03-17 22:34:40

关于八爪鱼

八爪鱼, 是一款简单易操作的爬虫工具。当然这种工具也有一定的局限性,可定制性肯定没有用一些爬虫框架(scrapy等)好(毕竟代码是自己写的,哈哈)。

使用八爪鱼

最近,使用八爪鱼爬取了一些微博的热门评论。当然,使用新浪微博API也是可以的。但是,自己为了快嘛,也想了解一下这个工具。
八爪鱼软件中基本爬取工作都有教程的。下面,我就以爬取微博热门评论,讲解一下,足以应付八爪鱼的基本使用了。

安装

八爪鱼目前只有Windows版本,没有Mac版本,所以我在虚拟机中装了一个八爪鱼。
八爪鱼下载, 下载安装无脑下一步就好了。
登陆的时候需要提前注册账号,然后用注册号的账号登录即可。

爬虫任务配置

  1. 创建任务(高级模式)
    爬取页面
  2. 设置基本信息
  3. 设置工作流程(主要参考教程)
    整个任务配置
    点击元素设置
    点击翻页设置

说明:点击元素设置的是点击热门,因为默认是全部评论,所以要先点击一下这个元素。其中,要把“在新标签中打开页面”勾取消掉,然后设置Ajax加载数据,Ajax加载超时设置大概为2秒。这样做的原因在于,微博中全部评论和热门评论的请求用的是Ajax,Ajax的好处就是在不刷新页面的时候进行请求。页面都没有刷新,当然不能在新标签中打开页面。 还有就是因为是Ajax请求,所以一定要设置超时,不然下一步不能检测到变化,就不会进行。
点击翻页也是这样设置,设置Ajax超时,时间到了就说明请求结束了,下一步骤才能检测到,然后才能开始。不这样设置的话,会发现爬取了一页然后就不动了,过一会儿就说结束了。
总结: 就是网页中是进行Ajax请求(简单的识别就是点击后页面链接没有变化的时候),就需要进行如此设置。
问题: 1) 如果将找好的评论链接设置为爬虫链接的时候,每次都会跳转到登录页面,那么就在八爪鱼中登录即可。

爬虫以及导出数据

爬取结果 然后右下角有一个导出按钮,可以导出为Text, Html, Excel, 数据库等格式。

参考文献:
八爪鱼官网