java抓取网页数据源码-neocrawler:NodejsCrawler，包括schedule、spider、webuiconfig、pro下载

【文件属性】：

文件名称：java抓取网页数据源码-neocrawler:NodejsCrawler，包括schedule、spider、webuiconfig、pro

文件大小：40.93MB

文件格式：ZIP

更新时间：2024-06-25 15:03:05

系统开源

java抓取网页数据源码一、概述 NEOCrawler(中文名：牛咖)，是nodejs、redis、phantomjs实现的爬虫系统。代码完全开源，适合用于垂直领域的数据采集和爬虫二次开发。【主要特点】使用nodejs实现，javascipt简单、高效、易学、为爬虫的开发以及爬虫使用者的二次开发节约不少时间；nodejs使用Google V8作为运行引擎，性能可观；由于nodejs语言本身非阻塞、异步的特性，运行爬虫这类IO密集CPU需求不敏感的系统表现很出色，与其他语言的版本简单的比较，开发量小于C/C++/JAVA，性能高于JAVA的多线程实现以及Python的异步和携程方式的实现。调度中心负责网址的调度，爬虫进程分布式运行，即*调度器统一决策单个时间片内抓取哪些网址，并协调各爬虫工作，爬虫单点故障不影响整体系统。爬虫在抓取时就对网页进行了结构化解析，摘取到需要的数据字段，入库时不仅是网页源代码还有结构化了的各字段数据，不仅使得网页抓取后数据立马可用，而且便于实现入库时的精准化的内容排重。集成了phantomjs。phantomjs是无需图形界面环境的网页浏览器实现，

立即下载

秒客网

java抓取网页数据源码-neocrawler:NodejsCrawler，包括schedule、spider、webuiconfig、pro

网友评论

相关文章