WebCrawler:大学课程项目-网络爬虫下载

【文件属性】：

文件名称：WebCrawler:大学课程项目-网络爬虫

文件大小：11KB

文件格式：ZIP

更新时间：2024-04-30 23:43:48

C++

网络爬虫描述 Web爬虫，有时也称为蜘蛛或蜘蛛机器人，通常简称为爬虫，是一种Internet机器人，它通常用于Web索引（Web爬虫）的目的，系统地浏览万维网。 Web搜索引擎和某些其他站点使用Web爬网或Spidering软件来更新其Web内容或其他站点的Web内容的索引。 Web搜寻器会复制页面以供搜索引擎处理，该引擎会对下载的页面建立索引，以便用户可以更有效地进行搜索。爬网程序会消耗已访问系统上的资源，并且经常未经批准就访问站点。当访问大量页面时，日程安排，负载和“礼貌”问题就会发挥作用。对于不希望进行爬网的公共站点，存在使爬网代理知道这一点的机制。例如，包含robots.txt文件可以要求漫游器仅对网站的一部分建立索引，或者根本不对网站进行索引。该网络爬虫是Google Bot，YandexBot等大型机器人的简化版本，是出于学术目的而创建的。要求 Boost.A

立即下载

【文件预览】：
WebCrawler-master
----gumbo_utils.hpp(7KB)
----CMakeLists.txt(471B)
----main.cpp(13KB)
----README.md(1KB)
----conf.txt(15KB)
----thread_safe_queue.hpp(832B)

秒客网

WebCrawler:大学课程项目-网络爬虫

网友评论

相关文章