六大免费网站数据采集器对比(火车头,海纳,云采集,ET,三人行,狂人采集)
在目前的站长圈内,比较流行的采集工具有很多,但是总结起来,比较出名的免费的就这么几个:火车头,海纳,云采集,ET,三人行,狂人。
下面我们对这几款采集工具作一个简单的比较和评比。
1. 火车头
火车头应该是国内采集软件成功的典型之一,使用人数包括收费用户数量上应该是最多的。
特色:功能强大,速度快,支持的网站最丰富,支持丰富扩展。
优点:功能齐全,采集速度比较快,主要针对CMS,短时间可以采集很多,过滤,替换都不错,比较详细;很多人写接口、规则和发布模块,接口比较齐全;支持的扩展非常好用,如果你是一位懂技术的站长,可以使用PHP或C#开发任意功能的扩展;附件采集功能完善。
缺点:采集规则编写对很多站长是个不小的门槛。功能增多,软件越来越大,比较占用内存和CPU资源,资源回收控制得不好。另外,授权绑定计算机,有时很不方便。只能在Windows平台下使用,没有Linux版本。
技术:技术主要是论坛支持,帮助文件多。有收费、免费版本。
网址:火车头官网
2. 海纳
特色:关键词抓取,可以预览采集内容,不用写规则。
优点:可以抓取网站很多一个关键词文章,似乎适合做网站的专题,特别是文章类、博客类。
缺点:分类不方便,即采集文章归类不方便,要手动(自动容易混淆),特定接口,采集的内容有限,一次只能采集一条,无法批量采集,需要和网站后台网页对接。安装时,需要海纳的人员上门技术支持,比较麻烦。
技术:无论坛。收费,免费的功能限制太大,形同鸡肋。
网址:海纳官网
3. 云采集
特色:完美无缝的集合了火车头和海纳的优点,功能强大,速度快,关键词抓取,不用写规则。提供基于网络的接口供第三方调用,创新给力。
优点:功能强大,不需要写任何规则,软件使用简单,多线程,速度快,可以多个关键词采集,可以批量采集批量入库,傻瓜式采集,可以定时采集和发布,无人值守,适合做网站专题。能够和任意CMS,如PHP、ASP.NET(C#)、JSP、Ruby等开发的CMS紧密整合。和网站后台频道无缝对接,方便文章发布。安装简单,支持Windows和Linux。
缺点:虽然也较为有名,但与火车头和海纳相比,发展时间相对较短,相对新锐,偶尔采集的内容不太准确,不过很容易校正调整。
技术:QQ技术支持、论坛、微博。有永久免费版本、收费版本。收费版本也可以通过嵌入代码资源交换方式免费使用,很灵活。
网址:云采集官网
4. ET工具
特色:无人值守,稳定,资源占用最低,基本上可以叫安静。
优点:无人值守,自动更新,用户群主要集中在长期做站潜水站长。软件清晰,必备功能也很齐全,软件免费,听说已经增加采集中英文翻译功能。
缺点:对论坛和CMS的支持一般。
技术:论坛支持,软件本身免费,但是也提供收费服务。帮助文件较少,上手不容易。
网址:ET官网
5. 三人行
主要针对论坛的采集,功能比较完善。先申明,不知道三人行和狂人是什么关系,但界面和功能都是一个模子出来的。
特色:针对各大论坛,搬家,移动,速度快,准确度高。
优点:还是针对论坛,适合开论坛的。
技术:收费技术,免费有广告。
缺点:超级复杂,上手难,对CMS支持比较差。
网址:三人行官网
6. 狂人
特色:可以让你的新论坛一开始就会有大量的会员。
优点:非常适合采集discuz论坛。
缺点:过于专一,兼容性不好。
网址:狂人官网
总结:追求简单易用,功能较为齐全的,可以选择云采集。追求功能非常齐全的,可以选择火车头。云采集和火车头都能迅速采集很多的资源,充实网站内容。如果做论坛,那选择三人行,可以实现采集论坛,回复,搬家等多项论坛功能。长期做站,可以选择ET或云采集,花点时间,弄懂,是个长期受益的事情,他们都可以像开QQ一样,长期运行,不费内存,自动采集更新。至于海纳,似乎不写规则,上手容易,但是对文章的发布上,比较麻烦。另外,这里只讲了六大主要的采集工具,其实还有网络矿工、网络神采、易采、gooseeker、soukey、小猪采集器、超级采集、千帆采集等等,这些采集器也是各有优缺点,但总体上来说属于采集工具领域的第二梯队,就不一一再讲了。。。。。。