文件名称:Crawler:关于Java和Python爬虫那些事儿
文件大小:27.73MB
文件格式:ZIP
更新时间:2024-06-15 17:30:06
javacrawler pythoncrawler HTML
爬虫的读书笔记
《自己动手写网络爬虫》,并基于Python3和Java实现
为什么采用宽度优先搜索策略?
深度优先遍历可能会在深度上过“深”而陷入“黑洞”;
重要的网页往往距离种子网页比较近,越深的网页的重要性越低;
万维网深度最多17层,但到达某面总存在一条很短的路径,宽度优先遍历会以最快的速度达到这个网页;
宽度优先遍历有利于多爬虫的合作抓取,多爬虫合作通常先抓取站内链接,抓取的封闭性很强;
解析HTML网页---Jsoup
Maven中配置:
【文件预览】:
Crawler-master
----自己动手写网络爬虫.pdf(27.78MB)
----PythonCrawler()
--------DouBan_Movie()
--------BaikePython()
--------CSDN()
----JavaCrawler()
--------JD_Book()
--------RenRen()
--------OSChina()
----README.md(14KB)