httpcrawler:网页爬虫下载

【文件属性】：

文件名称：httpcrawler:网页爬虫

文件大小：21KB

文件格式：ZIP

更新时间：2024-05-28 18:54:07

Usage: 输入如： ./siteanalyzer check.dat [80] Args 初始入口网址执行完爬行之后，需要检查的URL，每行一条，最终将检查结果存放在checkresult.dat文件网站端口，默认为8080 Function 抓取网站链接，计算每个连接的PR(pagerank)，并建立倒排索引生成PR最高的前十URL 指定查询URL，输出PR值等信息 Design 本程序的结构分为三块：主运行模块、webgrap模块、urlqueue模块、urlhash模块、network模块、http_client模块、link_parse模块、crawler_http模块。八个模块完成的具体功能如表1下：主运行模块负责对各个模块的调用，等待网页分析结束，并通知分析线程销毁自己，之后通知webgrap生成各个输出结果。 webgrap模块记录网页的结点和链接关系，并

立即下载

【文件预览】：
httpcrawler-master
----httpcrawler()
--------webgrap.c(12KB)
--------main.c(3KB)
--------network.c(3KB)
--------crawler.c(6KB)
--------link_parser.h(546B)
--------link_parser.c(4KB)
--------network.h(802B)
--------crawler_http.c(5KB)
--------crawler.h(2KB)
--------makefile(943B)
--------urlhash.c(159B)
--------webgrap.h(2KB)
--------Readme.txt(431B)
--------http_client.h(1KB)
--------http_client.c(2KB)
--------crawler_http.h(1KB)
--------urlhash.h(90B)
--------urlqueue.c(1KB)
--------urlqueue.h(1KB)
--------check.dat(215B)
----README.md(2KB)

秒客网

httpcrawler:网页爬虫

网友评论

相关文章