文件名称:c语言版网络爬虫
文件大小:91KB
文件格式:GZ
更新时间:2016-01-28 05:38:17
网络爬虫 c语言 spider
代码是(用了近两周晚上加周末时间)在linux环境下用c/c++语言写的,已经发布到github上了。结构还算清晰,使用了多线程、高级多路IO复用、socket网络编程等技术和一些哈希算法,爬取性能还是不错的。目前还在不断地进行细节优化(目前是1.0版本)。
【文件预览】:
spiderq
----.git()
--------info()
--------objects()
--------HEAD(23B)
--------description(73B)
--------packed-refs(159B)
--------branches()
--------config(263B)
--------index(3KB)
--------refs()
--------hooks()
--------logs()
----Makefile(159B)
----src()
--------threads.cpp(1KB)
--------bloomfilter.cpp(2KB)
--------crc32.h(97B)
--------Makefile(823B)
--------crc32.cpp(991B)
--------url.h(973B)
--------spider.cpp(7KB)
--------dso.h(1KB)
--------socket.cpp(7KB)
--------spider.h(1010B)
--------qstring.h(571B)
--------socket.h(499B)
--------confparser.h(818B)
--------md5.h(1KB)
--------hashs.cpp(985B)
--------hashs.h(257B)
--------bloomfilter.h(166B)
--------sha1.h(348B)
--------qstring.cpp(2KB)
--------url.cpp(9KB)
--------sha1.cpp(10KB)
--------confparser.cpp(3KB)
--------threads.h(237B)
--------md5.cpp(6KB)
--------dso.cpp(700B)
----LICENSE.md(2KB)
----spiderq.conf(2KB)
----README.md(964B)
----modules()
--------Makefile(1KB)
--------domainlimit.cpp(2KB)
--------maxdepth.cpp(335B)
--------headerfilter.cpp(575B)