文件名称:python爬虫实践
文件大小:1.18MB
文件格式:RAR
更新时间:2021-05-17 18:27:41
python爬虫
这是一个python爬虫实践,爬出百科词条1000条,很适合入门。网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
【文件预览】:
baike_spider
----README.md(78B)
----test_bs4.py(1KB)
----html_parser.py(2KB)
----html_downloader.py(351B)
----output.html(641KB)
----__pycache__()
--------html_downloader.cpython-36.pyc(556B)
--------html_parser.cpython-36.pyc(1KB)
--------html_outputer.cpython-36.pyc(1KB)
--------url_manager.cpython-36.pyc(1KB)
----html_outputer.py(891B)
----spider_main.py(2KB)
----url_manager.py(1KB)
----test_urlib2.py(668B)
----.git()
--------HEAD(23B)
--------ORIG_HEAD(41B)
--------index(1KB)
--------FETCH_HEAD(95B)
--------COMMIT_EDITMSG(17B)
--------objects()
--------description(73B)
--------config(366B)
--------info()
--------hooks()
--------logs()
--------refs()