httpcrawler:网页爬虫

时间:2024-05-28 18:54:07
【文件属性】:

文件名称:httpcrawler:网页爬虫

文件大小:21KB

文件格式:ZIP

更新时间:2024-05-28 18:54:07

C

Usage: 输入 如: ./siteanalyzer check.dat [80] Args 初始入口网址 执行完爬行之后,需要检查的URL,每行一条,最终将检查结果存放在checkresult.dat文件 网站端口,默认为8080 Function 抓取网站链接,计算每个连接的PR(pagerank),并建立倒排索引 生成PR最高的前十URL 指定查询URL,输出PR值等信息 Design 本程序的结构分为三块:主运行模块、webgrap模块、urlqueue模块、urlhash模块、network模块、http_client模块、link_parse模块、crawler_http模块。八个模块完成的具体功能如表1下: 主运行模块 负责对各个模块的调用,等待网页分析结束,并通知分析线程销毁自己,之后通知webgrap生成各个输出结果。 webgrap模块 记录网页的结点和链接关系,并


【文件预览】:
httpcrawler-master
----httpcrawler()
--------webgrap.c(12KB)
--------main.c(3KB)
--------network.c(3KB)
--------crawler.c(6KB)
--------link_parser.h(546B)
--------link_parser.c(4KB)
--------network.h(802B)
--------crawler_http.c(5KB)
--------crawler.h(2KB)
--------makefile(943B)
--------urlhash.c(159B)
--------webgrap.h(2KB)
--------Readme.txt(431B)
--------http_client.h(1KB)
--------http_client.c(2KB)
--------crawler_http.h(1KB)
--------urlhash.h(90B)
--------urlqueue.c(1KB)
--------urlqueue.h(1KB)
--------check.dat(215B)
----README.md(2KB)

网友评论