文件名称:baidu-hi-crawler:百度Hi爬虫,2015年5月关闭的博客空间
文件大小:359KB
文件格式:ZIP
更新时间:2024-06-27 13:37:44
c-sharp crawler spider C#
软件说明
百度空间将于近日关闭,本软件用于抓取用户百度空间上的文章和评论。
百度本身会将文章内容转移到百度网盘,但并不会保留格式和评论。本软件在抓取时将保留全部HTML格式及评论内容。
使用方法
抓取百度空间文章/评论
点击“Login Page”按钮,加载百度空间登录页面。
在登录页面输入你的用户名密码登录。(这一步是为了能够拿到你的空间地址和私有文章,也是为了防止使用此工具抓取他人文章。软件并不会记录或上传任何你的用户名和密码信息。)
点击“Start Crawling”按钮,软件开始自动抓取。
若抓取成功,软件会弹出对话框:“Crawling Finished!”。若失败,则会弹出“Crawling Failed, exception:
【文件预览】:
baidu-hi-crawler-master
----LICENSE(1KB)
----README.md(3KB)
----BaiduHiCrawler()
--------BaiduHiCrawlerUpdater()
--------BaiduHiCrawler()
--------BaiduHiCrawler.sln(1KB)
--------BuildTool()
----.gitignore(3KB)