【文件属性】:
文件名称:baike-spider:一个简单的Python爬虫系统示例
文件大小:5KB
文件格式:ZIP
更新时间:2021-03-11 20:54:51
系统开源
一个简单的Python爬虫系统示例
爬取百度百科python词条1000个
环境
python3
依赖
pip install beautifulsoup4
运行
python spider_main.py
如果爬取不了,则百度修改了页面,根据页面修改爬取规则(html_parser.py修改规则)
spider_main爬虫总调度程序
url_manager url管理器
html_downloader html下载器
html_parser html解析器
html_outputer输出
【文件预览】:
baike-spider-master
----.gitignore(174B)
----html_parser.py(2KB)
----__init__.py(0B)
----outputer_html(120B)
----html_outputer.py(904B)
----README.md(449B)
----url_manager.py(738B)
----spider_main.py(2KB)
----html_downloader.py(373B)