文件名称:Web_Scraper:由 C 编写的网络爬虫
文件大小:680KB
文件格式:ZIP
更新时间:2024-07-14 12:18:21
C
ENCE360 一个并发的网络爬虫,它使用多个线程下载特定网站的所有链接文件,以提供有效的实现。 任务分为三个部分,每个部分都应该依次完成,然后最终的任务将建立在前两部分的基础上完成网络爬虫。 准则: 没有全局变量(根本) 任何函数的嵌套层数不超过 3 层,代码行数不超过 40 行 使用所需的最少代码(作业的任何部分不超过 200 行,最好少于 100 行) 程序不应因外部网站的错误输出而崩溃、挂起或意外退出 相反,错误应该以头文件中的接口描述的方式处理 用 C 实现所有代码,而不是 C++ 或使用外部程序 http.c crawler.c 和 queue.c 之外的代码不会被标记(但如果界面保持不变,您可以实现小错误修复) 在程序执行期间分配的所有内存都应该是 free() 的,并且应该在程序完成之前关闭所有资源、文件、套接字 必要时注释代
【文件预览】:
Web_Scraper-master
----Performance analysis.pdf(372KB)
----http_test(19KB)
----test()
--------queue_test.o(6KB)
--------http_test.c(896B)
--------queue_test.c(1KB)
--------http_test.o(6KB)
----crawler(419KB)
----include()
--------uriparser()
----src()
--------http.o(12KB)
--------html.h(502B)
--------list.o(5KB)
--------queue.o(7KB)
--------url.o(11KB)
--------crawler.c(6KB)
--------html.c(2KB)
--------.http.c.swp(12KB)
--------list.c(2KB)
--------queue.c(2KB)
--------url.c(4KB)
--------list.h(674B)
--------crawler.o(19KB)
--------http.h(891B)
--------http.c(4KB)
--------html.o(10KB)
--------queue.h(1KB)
--------url.h(1KB)
----queue_test(17KB)
----lib()
--------liburiparser.a(793KB)
--------liburiparser.la(998B)
----Makefile(674B)
----README.md(1KB)