Spider:高性能爬虫

时间:2024-06-24 19:24:09
【文件属性】:

文件名称:Spider:高性能爬虫

文件大小:104KB

文件格式:ZIP

更新时间:2024-06-24 19:24:09

C++

Spider 高性能爬虫引擎, 已用于GIF库中,从微博/主流网站抓取图片和点评. 在单核1G内存的服务器上抓取GIF(含下载图片)速度为每小时下载1万条(受带宽影响)。 在单核1G内存的服务器上抓取图片(不下载图片)速度为每小时80万条。 包含线程池、网页去重、历史记录、网页分析、epoll/select异步请求管理、Cookie管理、通用Http请求、异步DNS解析等模块。 #Build 依赖库: boost_1_57_0 提供智能指针 crypto_5_60 提供加密 libevent-2.0.22-stable 提供异步DNS解析 mpir-2.7.0 提供大数的处理


【文件预览】:
Spider-master
----src()
--------spider_http_client.h(2KB)
--------spider_url_rinse.cpp(7KB)
--------spider_database.h(740B)
--------spider_http_client.cpp(12KB)
--------Makefile(887B)
--------spider_url.h(1KB)
--------spider_cookie.h(2KB)
--------spider_config.h(1KB)
--------spider_executor.cpp(6KB)
--------spider_porting.cpp(8KB)
--------spider_website.h(940B)
--------spider_executor.h(873B)
--------spider_storage.cpp(2KB)
--------spider_utils.h(2KB)
--------spider_database.cpp(3KB)
--------pugixml()
--------spider_seed.h(787B)
--------spider_thread_pool.cpp(2KB)
--------spider_common.h(1KB)
--------spider_url_rinse.h(1KB)
--------spider_url.cpp(2KB)
--------spider_seed.cpp(3KB)
--------spider_config.cpp(4KB)
--------spider_md5.cpp(7KB)
--------spider_storage.h(547B)
--------spider_main.cpp(1KB)
--------spider_thread_pool.h(925B)
--------spider_utils.cpp(9KB)
--------spider_cookie.cpp(19KB)
--------spider_porting.h(3KB)
--------spider_md5.h(1KB)
--------spider_website.cpp(6KB)
----README.md(626B)

网友评论