软件直接爬取数据——以MOOC课程数据为例+现已公开的数据库(网盘分享)

时间:2024-04-13 17:56:56

软件直接爬取数据——以MOOC课程数据为例+现已公开的数据库(网盘分享)


因为毕业设计的需要,导师那块还没有下来数据,所以以防万一,不得不自己搜集爬取数据。但是网上有的因为技术原因,不知道为什么打不开以MYD,MYI,frm组成的数据库。于是想要试着用python爬取下来,可是觉得数据这块不应该是重点,还有好多任务要做,看有没有能用的软件帮我爬取一下,结果找到了八爪鱼这款APP,刚刚用他爬取了用关键词高等数学的所有有关的课程信息。

使用软件

有时间还是要主动掌握一下python的数据爬取技术,软件香是香,但技术更关键,权衡利弊吧。(没有有意做广告,只是推荐给有需要的朋友)

八爪鱼

link安装灰常容易!

说明

1.大多免费,具体什么花钱还没遇到
2.有教程,两个小视频,一共十分钟左右
3.爬取的速度跟基本取决于网页打开的速度,开始的时候可以50-60条(网页)/分钟,到后面过了50多页,速度降到30条(网页)/分钟
4.软件已经给出一定的模板了,可以直接操作爬取;另外没有的可以输入链接爬取(教程里有)。
5.可以爬取网页显示的所有东西,包括:本网页的信息,该网页信息的链接网页,下一页(可设定页数,不设定可能停不下来,到最后重复提取后两三页)三种。

软件直接爬取数据——以MOOC课程数据为例+现已公开的数据库(网盘分享)
这是一部分给出的常用模板,搜索框内还有许多模板(但有限)。

软件直接爬取数据——以MOOC课程数据为例+现已公开的数据库(网盘分享)
这是我已经爬取的两个项目,上面是自定义的,下面是自带的模板

软件直接爬取数据——以MOOC课程数据为例+现已公开的数据库(网盘分享)

这是第一个爬取的文件,有1147门课,还不全,也不完全符合我课题的要求,只是打个样子,在完善完善,保个底,以防真被鸽。

大家可以根据自己需要爬取相关信息

文件百度云链接:link
提取码:dl0g

其他公开的数据库

这是转移别人的,现已公开的数据集汇总
link
link

百度网盘链接如下:
link
提取码:1ti5