基于C语言实现的分布式网络爬虫

时间:2022-10-13 11:33:37
【文件属性】:

文件名称:基于C语言实现的分布式网络爬虫

文件大小:6.53MB

文件格式:RAR

更新时间:2022-10-13 11:33:37

爬虫 C语言 libevent 分布式 nanomsg

在学校的时候和同学写的c语言网络爬虫,利用Libevent+nanomsg实现网页爬取和模块通信,利用DFA提取网页中的url,通过布隆过滤器对爬取的网页做url去重,过滤无效url,对url做绝对路径化处理 包含实验报告,有具体的模块设计,以及运行环境介绍 欢迎下载参考


【文件预览】:
分布式网络爬虫_应用编程_2
----url_save.dat(6.7MB)
----Crawler()
--------bin()
--------Crawler.layout(244B)
--------Crawler.depend(315B)
--------crawler.c(7KB)
--------obj()
--------Crawler.cbp(1KB)
--------a.out(18KB)
--------crawler.c_bak(6KB)
----analyse()
--------threadpool.h(2KB)
--------url_queue.h(618B)
--------DFA.h(590B)
--------main.c(2KB)
--------Hash.c(3KB)
--------Analyse_Thread.c(2KB)
--------BloomFilter.h(366B)
--------url_save.dat(6.7MB)
--------threadpool.c(7KB)
--------index.html(158KB)
--------url_queue.c(1KB)
--------DFA.c(9KB)
--------.project(759B)
--------Analyse_Thread.h(600B)
--------.cproject(12KB)
--------Hash.h(2KB)
--------BloomFilter.c(4KB)
--------Debug()
----分布式网络爬虫-设计文档.docx(1.44MB)
----readme.txt(497B)

网友评论