python抓取360百科词条下载

【文件属性】：

文件名称：python抓取360百科词条

文件大小：9KB

文件格式：ZIP

更新时间：2019-04-28 17:42:42

python 爬虫百科

学习python一周，学着写了一个爬虫，用来抓取360百科的词条，在这个过程中，由于一个小小的改动，程序出现一些问题，又花了几天时间研究，问了各路高手，都没解决，最终还是自己解决了，其实就是对list列表理解不够深入导致的。这个bug很有借鉴意义。有5个模块： spider_main.py是入口函数 url_manager.py是管理器，管理需要抓取的url和已经抓取的url html_downloader.py是下载器，下载对应url的网页 html_parser.py是解析器，解析出新的url列表和当前的词条信息 html_outputer.py是输出器，将抓取的词条title和解释summary输出成一个html表格本程序使用的是最新的python3.4.4，使用的类库有：官方的urllib 第三方的BeautifulSoup（自行下载安装）

立即下载

【文件预览】：
baike360_spider
----url_manager.py(658B)
----html_outputer.py(863B)
----html_parser.py(1KB)
----__init__.py(0B)
----output.html(3KB)
----spider_main.py(1KB)
----__pycache__()
--------html_downloader.cpython-34.pyc(602B)
--------html_parser.cpython-34.pyc(2KB)
--------__init__.cpython-34.pyc(134B)
--------html_outputer.cpython-34.pyc(1KB)
--------url_manager.cpython-34.pyc(1KB)
----html_downloader.py(257B)

秒客网

python抓取360百科词条

网友评论

相关文章