文件名称:开源webspider网络蜘蛛
文件大小:57KB
文件格式:GZ
更新时间:2016-01-20 03:57:26
webspider 网络蜘蛛 网络爬虫
稳定的网络蜘蛛,可以并行抓取多个站点,BS架构控制系统,使用httpsqs 和淘宝的tair可以作为分布式爬虫基础,去重能力强,存储系统为mysql,可以用sphinx等做索引
【文件预览】:
webspider
----server.c(17KB)
----nohup.out(0B)
----html.h(953B)
----tair_client.cpp(4KB)
----stdhead.h(618B)
----server.h(408B)
----misc.c(895B)
----get_conf.h(285B)
----uthash.h(58KB)
----curl.c(6KB)
----webspider.c(3KB)
----webspider.h(83B)
----startup.sh(100B)
----options.h(8KB)
----misc.h(383B)
----strfunc.h(537B)
----PHP()
--------searchfunct.php(5KB)
--------cache.php(1KB)
--------vars.php(570B)
--------query.log(26KB)
--------search.php(1KB)
----socket.c(2KB)
----html.c(11KB)
----uthash.c(2KB)
----ketama.h(339B)
----thread.h(422B)
----iconv_me.c(5KB)
----socket.h(911B)
----indexer.h(689B)
----indexer.c(7KB)
----utother.c(2KB)
----ketama_init.c(1KB)
----iconv_me.h(377B)
----url.c(10KB)
----options.c(8KB)
----log.c(71B)
----get_conf.c(2KB)
----robots.c(2KB)
----sql.c(6KB)
----robots.h(252B)
----Makefile(1KB)
----ketama_init.h(513B)
----log.h(2KB)
----strfunc.c(3KB)
----put.sh(398B)
----curl.h(570B)
----webspider.conf(162B)
----mysqlscript()
--------se_hosts.sql(2KB)
--------se_spiderdb.sql(2KB)
--------delete_date.sh(62B)
--------init_spiderdb.sh(253B)
--------delete_se_spiderdb.sql(151B)
--------spider_createdb.sql(590B)
----thread.c(8KB)
----tair_client.h(102B)
----sql.h(815B)
----ketama.c(14KB)
----url.h(594B)