前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:我爱学Python
data:image/s3,"s3://crabby-images/70e1e/70e1e5bec56fce7d7b0422537d2105d75fe4c79c" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
语言&环境
语言:继续用Python开路!
data:image/s3,"s3://crabby-images/8d053/8d053087ec898cb5b4f39061ebe84b6b6e7cbaeb" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/55d66/55d664e5a9d383b8d5ca9c91f148ab41dade32e0" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/6c9ba/6c9ba1aac00306bbd4b38a271d08e441b5f65e9e" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/2ac48/2ac48cb1cb26754ade91c8573306cc99ec275fd1" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
一个迷你框架
下面以比较典型的通用爬虫为例,分析其工程要点,设计并实现一个迷你框架。架构图如下:
data:image/s3,"s3://crabby-images/a0d59/a0d598dd42c9585920d5ff453eb30ce2625e19c6" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
代码结构:
data:image/s3,"s3://crabby-images/dac28/dac28e37baf7721b4b27364c654a346a24516cc9" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
- config_load.py 配置文件加载
- crawl_thread.py 爬取线程
- mini_spider.py 主线程
- spider.conf 配置文件
- url_table.py url队列、url表
- urls.txt 种子url集合
- webpage_parse.py 网页分析
- webpage_save.py 网页存储
- 看看配置文件里有什么内容:
- spider.conf
data:image/s3,"s3://crabby-images/18f55/18f55932afb5fc407e19fd874a513332f1fe9c65" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/d1cdc/d1cdc023938c626da40ed8eeee179ff20ea5c81c" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/00b04/00b04a16e7bed01561e11b00069ff8453bbac8ff" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/6c9d9/6c9d9d7398282764b25ca0ed37ac414d3c34f879" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/e20eb/e20ebb7c73bc84435506b0c502c9cb3b1083e3a0" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/c9280/c9280a387bec361c397aa0fd4ac0d19c7d7993f4" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
Step 3. 记录哪些网页已经下载过的小本本——URL表。
在互联网上,一个网页可能被多个网页中的超链接所指向。这样在遍历互联网这张图的时候,这个网页可能被多次访问到。为了防止一个网页被下载和解析多次,需要一个URL表记录哪些网页已经下载过。再遇到这个网页的时候,我们就可以跳过它。
crawl_thread.py
data:image/s3,"s3://crabby-images/55f52/55f521bbead3cb39b1802c2168c0dcf37626f2b4" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/287f1/287f1835fa9b659e5d303324616ff85feab4239f" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/d681c/d681c600dd51d81a6461c6644bf7072a32d6e524" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
data:image/s3,"s3://crabby-images/fcdc2/fcdc2cbef7c073672701ce63aa1f2d0269d8a0a5" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
Step 5. 页面分析模块
从网页中解析出URLs或者其他有用的数据。这个是上期重点介绍的,可以参考之前的代码。
Step 6. 页面存储模块
保存页面的模块,目前将文件保存为文件,以后可以扩展出多种存储方式,如mysql,mongodb,hbase等等。
webpage_save.py
data:image/s3,"s3://crabby-images/65947/659473cb8e53c7b67325e9a5821c48181de3974a" alt="Python爬虫:手把手教你写迷你爬虫架构 Python爬虫:手把手教你写迷你爬虫架构"
写到这里,整个框架已经清晰的呈现在大家眼前了,千万不要小看它,不管多么复杂的框架都是在这些基本要素上扩展出来的。