关于网络爬虫

时间:2022-04-20 16:57:15
请问谁能给个关于写网络爬虫教程的一些资料?谢谢!

12 个解决方案

#1


帮你顶

#2


python教程里有这一部分。

#3


搜到的一个资料,希望对你有用

高强度爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm) 
百度爬虫 
高强度爬虫,有时会从多个IP地址启动多个爬虫程序! 
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。 
推广效果好。 
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) 
雅虎爬虫,分别是雅虎中国和美国总部的爬虫 
高强度爬虫,有时会从多个IP地址启动多个爬虫程序! 
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫) 
推广效果尚可。 
iaskspider/2.0(+http://iask.com/help/help_index.html) 
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0) 
新浪爱问爬虫 
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大 
推广效果差。 
sogou spider 
搜狗爬虫 
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大 
推广效果差。 


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 
Google爬虫 
算法优秀,多为访问有实际内容的页面 
推广效果好。 
Mediapartners-Google/2.1 
google点击广告爬虫 
特点未知 
OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.comoutfoxbot@gmail.com ) 
网易爬虫 
其搜索算法需要改进 
推广效果差。 
ia_archiver 
Alexa排名爬虫 
作用未知 


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 
MSN爬虫 
特点未知 
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) 
(欢迎补充资料) 
特点未知 
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt) 
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) 
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent 
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt) 
(欢迎补充资料) 
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0) 
名字上看来是Qihoo的 
特点未知 
Gigabot 
Gigabot/2.0 (http://www.gigablast.com/spider.html) 
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料) 
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com) 
lanshanbot/1.0 
据说是中搜爬虫。(欢迎补充资料) 
iearthworm/1.0, iearthworm@yahoo.com.cniearthworm@yahoo.com.cn 
TMCrawler 
WebNews http.pl 


RSS扫描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 
这是用foxmail6.0订阅了你的rss 
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) 
google的rss搜索扫描器 
\rss.asp feedsky_spider http://www.feedsky.com 
一款rss扫描器,有兴趣者进入此网站添加您的rss 



#4


3楼真是太牛了!

#5


转炒一下,呵呵

#6


你就看Nutch吧,资料最多

#7


http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx  这本书很好,可惜已经绝版了~~在网上多找找资料吧

#8


主要看楼主希望了解爬虫的哪些方面?

一般spider系统分为几个层面,
最上面是抓取层,主要问题是,如何高效、高并发的排队、抓取链接。通常用异步系统实现。

中间是数据过滤、分析层,根据网页,解析其中的内容。如何更有效、高效的解析其中的信息,为下层应用来使用是不容易的。最简单的解析,就是提链,把链接都提出来,接下来继续抓取。

最下面是选取层,把网页、链接的相关信息存储起来,通过一定的选取算法,选择最应该抓取的内容,派发到上层抓取。关于选取算法,有专门的描述。楼主可以参考搜索引擎的相关书籍。

#9


该回复于2010-10-26 08:58:18被版主删除

#10


NUTCH吧 功能比较强大,拿来就能用了,又是开源的。

#11


可以去学术期刊上寻找,特别是一些硕士毕业论文,有些学生的论文就专门“研究”网络爬虫,信息量会比较大。如果网上找不到论文,可以让学校的学生帮你下载论文。

#12


网络机器人Java编程指南,网上有电子书,搜索一下下

#1


帮你顶

#2


python教程里有这一部分。

#3


搜到的一个资料,希望对你有用

高强度爬虫程序
Baiduspider+(+http://www.baidu.com/search/spider.htm) 
百度爬虫 
高强度爬虫,有时会从多个IP地址启动多个爬虫程序! 
由于算法问题,百度爬虫对相同页面会多次发出请求(尤其是首页),令人烦恼。 
推广效果好。 
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) 
雅虎爬虫,分别是雅虎中国和美国总部的爬虫 
高强度爬虫,有时会从多个IP地址启动多个爬虫程序! 
比较规范的爬虫,看参考其网址,设定爬虫访问间隔。(但需要考虑同时出现多个yahoo爬虫) 
推广效果尚可。 
iaskspider/2.0(+http://iask.com/help/help_index.html) 
Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0) 
新浪爱问爬虫 
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大 
推广效果差。 
sogou spider 
搜狗爬虫 
算法差,大量扫描无实际意义的页面,对动态链接网站负担很大 
推广效果差。 


中等强度爬虫程序
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 
Google爬虫 
算法优秀,多为访问有实际内容的页面 
推广效果好。 
Mediapartners-Google/2.1 
google点击广告爬虫 
特点未知 
OutfoxBot/0.5 (for internet experiments; http://; outfoxbot@gmail.comoutfoxbot@gmail.com ) 
网易爬虫 
其搜索算法需要改进 
推广效果差。 
ia_archiver 
Alexa排名爬虫 
作用未知 


其他搜索引擎的爬虫
msnbot/1.0 (+http://search.msn.com/msnbot.htm) 
MSN爬虫 
特点未知 
msnbot-media/1.0 (+http://search.msn.com/msnbot.htm) 
(欢迎补充资料) 
特点未知 
Mozilla/4.0(compatible; MSIE 5.0; Windows 98; DigExt) 
Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) 
Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent 
Mozilla/4.0 (compatible; MSIE 5.00; Windows 98; DigExt) 
(欢迎补充资料) 
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; QihooBot 1.0) 
名字上看来是Qihoo的 
特点未知 
Gigabot 
Gigabot/2.0 (http://www.gigablast.com/spider.html) 
Gigabot搜索引擎爬虫。已被google收购?(欢迎补充资料) 
eApolloBot/1.0 (eApollo search engine robot; http://www.eapollo.com; eapollo at global-opto dot com) 
lanshanbot/1.0 
据说是中搜爬虫。(欢迎补充资料) 
iearthworm/1.0, iearthworm@yahoo.com.cniearthworm@yahoo.com.cn 
TMCrawler 
WebNews http.pl 


RSS扫描器
\rss.asp Mozilla/6.0 (MSIE 6.0; Windows NT 5.1;Foxmail/MILOWU) 
这是用foxmail6.0订阅了你的rss 
\rss.asp Feedfetcher-Google; (+http://www.google.com/feedfetcher.html) 
google的rss搜索扫描器 
\rss.asp feedsky_spider http://www.feedsky.com 
一款rss扫描器,有兴趣者进入此网站添加您的rss 



#4


3楼真是太牛了!

#5


转炒一下,呵呵

#6


你就看Nutch吧,资料最多

#7


http://blog.csdn.net/Java2King/archive/2010/07/07/5718476.aspx  这本书很好,可惜已经绝版了~~在网上多找找资料吧

#8


主要看楼主希望了解爬虫的哪些方面?

一般spider系统分为几个层面,
最上面是抓取层,主要问题是,如何高效、高并发的排队、抓取链接。通常用异步系统实现。

中间是数据过滤、分析层,根据网页,解析其中的内容。如何更有效、高效的解析其中的信息,为下层应用来使用是不容易的。最简单的解析,就是提链,把链接都提出来,接下来继续抓取。

最下面是选取层,把网页、链接的相关信息存储起来,通过一定的选取算法,选择最应该抓取的内容,派发到上层抓取。关于选取算法,有专门的描述。楼主可以参考搜索引擎的相关书籍。

#9


该回复于2010-10-26 08:58:18被版主删除

#10


NUTCH吧 功能比较强大,拿来就能用了,又是开源的。

#11


可以去学术期刊上寻找,特别是一些硕士毕业论文,有些学生的论文就专门“研究”网络爬虫,信息量会比较大。如果网上找不到论文,可以让学校的学生帮你下载论文。

#12


网络机器人Java编程指南,网上有电子书,搜索一下下