摘要本文主要介绍了抓取网站,模拟登陆,抓取动态网页相关的逻辑,原理和如何实现。主要包括:
- 抓取网页,模拟登陆等背后的通用的逻辑和原理
- 以提取songtaste网页中标题为例,详解如何抓取网站并提取网页内容
- 以模拟登陆百度为例,详解如何模拟登陆网站
- 以抓取网易博客帖子中的最近读者信息为例,详解如何抓取动态网页中的内容
- 详解了在模拟登陆和抓取动态网页过程中,如何用对应的网页分析工具,如IE9的F12,Chrome的Ctrl+Shift+J,Firefox的Firebug,去分析出对应的逻辑
- 针对抓取网站,模拟登陆,抓取动态网页,全部给出了完整的可用的,多种语言的示例代码:Python,C#,Java,Go等
本文提供多种格式供: | |
---|---|
HTML版本的在线地址为:http://www.crifan.com/files/doc/docbook/web_scrape_emulate_login/release/html/web_scrape_emulate_login.html有任何意见,建议,提交bug等,都欢迎去讨论组发帖讨论:http://www.crifan.com/bbs/categories/web_scrape_emulate_login/ |
2013-09-22
修订历史 | ||
---|---|---|
修订 1.1 | 2013-09-22 | crl |
|
版权 © 2013 Crifan, http://crifan.com
目录
- 前言
- 1. 网站抓取,模拟登陆,抓取动态网页的通用逻辑
- 2. 如何抓取静态网页并提取特定内容
- 3. 如何模拟登陆网站
- 4. 如何抓取动态网页并提取特定内容
- 5. 抓取静态或动态网页和模拟登陆的注意事项和总结
- 参考书目
前言
目录
1. 本文目的
本文目的在于,如何从无到有的,了解抓取网站,模拟登陆,抓取动态网页方面的逻辑和具体实现。
第 1 章 网站抓取,模拟登陆,抓取动态网页的通用逻辑
第 2 章 如何抓取静态网页并提取特定内容
第 3 章 如何模拟登陆网站
下面,给出足够多的例子:
3.1. (多种语言实现)模拟登陆百度
先去用工具分析逻辑:【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程再去用代码实现,此处,目前已经实现了:
3.2. (多种语言实现)模拟登陆gogole
另外,也弄了个,模拟登陆google:【记录】模拟登陆google
第 4 章 如何抓取动态网页并提取特定内容
先去看看:
搞懂,抓取动态网页的逻辑。
再去看下面的例子:
4.1. 抓取动态网页示例:网易163博客的心情随笔FeelingCard
【记录】给BlogsToWordPress添加支持导出网易的心情随笔【教程】以抓取网易博客帖子中的最近读者信息为例,手把手教你如何抓取动态网页中的内容【记录】用Python解析网易163博客的心情随笔FeelingCard返回的DWR-REPLY数据