文件名称:good-coder-python:优秀的python编码器
文件大小:61KB
文件格式:ZIP
更新时间:2024-07-09 20:34:30
Python
good-coder-python 在调研过程中,经常需要对一些网站进行定向抓取。由于python包含各种强大的库,使用python做定向抓取比较简单。请使用python开发一个迷你定向抓取器mini_spider.py,实现对种子链接的广度优先抓取,并把URL长相符合特定pattern的网页保存到磁盘上。 程序运行: python mini_spider.py -c spider.conf ###配置文件spider.conf: [spider] url_list_file: ./urls ; 种子文件路径 output_directory: ./output ; 抓取结果存储目录 max_depth: 1 ; 最大抓取深度(种子为0级) crawl_interval: 1 ; 抓取间隔. 单位: 秒 crawl_timeout: 1 ; 抓取超时. 单位: 秒 target
【文件预览】:
good-coder-python-master
----README.md(4KB)
----log.py(2KB)
----urls(49B)
----docopt2.py(19KB)
----mini_spider.py(8KB)
----spider.conf(375B)
----docopt-master()
--------docopt-master()
----TODO.vim(157B)
----threadingpool()
--------demo_threadingpool.py(2KB)
----test_download_file(19B)
----mini_spider_rebuild.py(14KB)
----requirements.txt(39B)
----wrong_url.conf(380B)
----test_mini_spider.py(4KB)
----.travis.yml(305B)
----cookbook()
--------demo_thredingpool.py(5KB)