webmagic是个神奇的爬虫(一)--如何创建webmagic项目

时间:2022-11-29 16:57:15

本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。

废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:

maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可参考:http://blog.csdn.net/myarrow/article/details/50824793


在maven工程创建完之后,就需要在pom.xml文件中加上webmagic相关的配置:

	<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>

<dependency>
<groupId>us.codecraft</groupId>
<version>0.6.1</version>
<artifactId>webmagic-extension</artifactId>
</dependency>

<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.6.1</version>
</dependency>


*注意所有的<dependency>标签都是包含在<dependencies>的大标签中。


webmagic-core是整个webmagic的核心依赖,extension包含了一些webmagic扩展出来的比较实用的功能。

附传送门:https://my.oschina.net/flashsword/blog/180623

这里有对webmagic框架组成比较全面的讲解。


0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好长一段时间,几个版本之间功能稍有差异,具体用哪个版本看个人喜好吧。


至此,一个最基础的webmagic项目就创建好了,之后就可以开始愉快的爬虫之旅~

另附webmaic使用文档


最后附上webmagic总体架构图镇楼:

webmagic是个神奇的爬虫(一)--如何创建webmagic项目


文章链接内容感谢:

http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK

http://blog.csdn.net/myarrow/article/details/50824793

https://my.oschina.net/flashsword/blog/180623

http://webmagic.io/docs/zh/

http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html