文件名称:baike-spider:一个简单的Python爬虫系统示例
文件大小:5KB
文件格式:ZIP
更新时间:2024-03-31 14:41:31
系统开源
一个简单的Python爬虫系统示例 爬取百度百科python词条1000个 环境 python3 依赖 pip install beautifulsoup4 运行 python spider_main.py 如果爬取不了,则百度修改了页面,根据页面修改爬取规则(html_parser.py修改规则) spider_main爬虫总调度程序 url_manager url管理器 html_downloader html下载器 html_parser html解析器 html_outputer输出
【文件预览】:
baike-spider-master
----.gitignore(174B)
----html_parser.py(2KB)
----__init__.py(0B)
----outputer_html(120B)
----html_outputer.py(904B)
----README.md(449B)
----url_manager.py(738B)
----spider_main.py(2KB)
----html_downloader.py(373B)