WebCrawler:大学课程项目-网络爬虫

时间:2024-04-30 23:43:48
【文件属性】:

文件名称:WebCrawler:大学课程项目-网络爬虫

文件大小:11KB

文件格式:ZIP

更新时间:2024-04-30 23:43:48

C++

网络爬虫 描述 Web爬虫,有时也称为蜘蛛或蜘蛛机器人,通常简称为爬虫,是一种Internet机器人,它通常用于Web索引(Web爬虫)的目的,系统地浏览万维网。 Web搜索引擎和某些其他站点使用Web爬网或Spidering软件来更新其Web内容或其他站点的Web内容的索引。 Web搜寻器会复制页面以供搜索引擎处理,该引擎会对下载的页面建立索引,以便用户可以更有效地进行搜索。 爬网程序会消耗已访问系统上的资源,并且经常未经批准就访问站点。 当访问大量页面时,日程安排,负载和“礼貌”问题就会发挥作用。 对于不希望进行爬网的公共站点,存在使爬网代理知道这一点的机制。 例如,包含robots.txt文件可以要求漫游器仅对网站的一部分建立索引,或者根本不对网站进行索引。 该网络爬虫是Google Bot,YandexBot等大型机器人的简化版本,是出于学术目的而创建的。 要求 Boost.A


【文件预览】:
WebCrawler-master
----gumbo_utils.hpp(7KB)
----CMakeLists.txt(471B)
----main.cpp(13KB)
----README.md(1KB)
----conf.txt(15KB)
----thread_safe_queue.hpp(832B)

网友评论