文件名称:网络爬虫C++代码
文件大小:27KB
文件格式:RAR
更新时间:2021-08-12 14:41:17
spider socket thread
本资源包含了网络爬虫设计的基本思想。主要可以分为这样几个部分:控制器、下载器、解析器、下载器和持久化等这些部分。可以爬取没有反爬取的网络的电子文档和图片。只适用于utf-8编码格式,不能获取视频和音频等。
【文件预览】:
spider项目代码
----spider.conf(2KB)
----src()
--------dso.h(1KB)
--------md5.h(1KB)
--------bloomfilter.cpp(2KB)
--------threads.h(238B)
--------spider.h(1011B)
--------hashs.h(258B)
--------socket.h(642B)
--------sha1.cpp(10KB)
--------spider.cpp(7KB)
--------threads.cpp(1KB)
--------confparser.cpp(3KB)
--------md5.cpp(6KB)
--------url.cpp(9KB)
--------crc32.cpp(992B)
--------bloomfilter.h(167B)
--------sha1.h(349B)
--------socket.cpp(6KB)
--------confparser.h(853B)
--------qstring.h(517B)
--------dso.cpp(737B)
--------crc32.h(98B)
--------url.h(1KB)
--------Makefile(675B)
--------qstring.cpp(2KB)
--------hashs.cpp(986B)
----modules()
--------domainlimit.cpp(2KB)
--------maxdepth.cpp(336B)
--------headerfilter.cpp(743B)
--------saveimage.cpp(2KB)
--------Makefile(1014B)
--------savehtml.cpp(857B)
----Makefile(95B)