本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。
废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:
maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可参考:http://blog.csdn.net/myarrow/article/details/50824793。
在maven工程创建完之后,就需要在pom.xml文件中加上webmagic相关的配置:
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<version>0.6.1</version>
<artifactId>webmagic-extension</artifactId>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.6.1</version>
</dependency>
webmagic-core是整个webmagic的核心依赖,extension包含了一些webmagic扩展出来的比较实用的功能。
附传送门:https://my.oschina.net/flashsword/blog/180623
这里有对webmagic框架组成比较全面的讲解。
0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好长一段时间,几个版本之间功能稍有差异,具体用哪个版本看个人喜好吧。
至此,一个最基础的webmagic项目就创建好了,之后就可以开始愉快的爬虫之旅~
另附webmaic使用文档
最后附上webmagic总体架构图镇楼:
文章链接内容感谢:
http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK
http://blog.csdn.net/myarrow/article/details/50824793
https://my.oschina.net/flashsword/blog/180623
http://webmagic.io/docs/zh/
http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html