文件名称:webptt_crawler:来自网站的 PTT 爬虫和解析器
文件大小:153KB
文件格式:ZIP
更新时间:2024-06-26 18:01:31
Python
webptt_crawler 运行环境: 编辑:崇高的文字 Python 版本:2.7.x 操作系统:Windows 7 需要导入的包: bs4 (beautifulsoup) lxml mechanize glob 单板爬取(自定义起始页,无休止的查看最新帖子和爬取) $python crawler_auto.py [Boardname (case sensitive)] [Start page number] 多板爬行 !!!!!! 警告:由于网络和多个请求问题,非常不稳定。 使用 Sublime Text 修改“boardlist.txt”(避免记事本引起的换行问题),每块板用换行符分隔(C语言中为'\n',编辑器中为“Enter”),然后, $python crawler_multi.py 解析数据 原始数据必须存储在“raw_data”文件夹中,然后执
【文件预览】:
webptt_crawler-master
----boardlist.txt(51B)
----raw_data()
--------Gossiping()
----crawler_auto.py(6KB)
----output()
--------Gossiping()
----crawler_multi.py(689B)
----content_parser.py(4KB)
----output_push()
--------Gossiping()
----get_all_board_list.py(2KB)
----README.md(1KB)
----crawler.py(4KB)
----push_parser.py(4KB)
----all_board_list.txt(79KB)