spider:通过蜘蛛抓取淘宝信息

时间:2024-07-09 00:13:00
【文件属性】:

文件名称:spider:通过蜘蛛抓取淘宝信息

文件大小:24KB

文件格式:ZIP

更新时间:2024-07-09 00:13:00

Java

spider catch taobao info by spider 网络爬虫 这个框架里面包含了一些常用的接口。包括对URL的页面抓取,对HTML的解析等等 分布式网络爬虫。主要包括3个部分 队列A,队列B,队列C 服务端从队列A中拿出URL并访问对页面进行解析,抓取其中URL放入队列A,如果是商品链接就放入队列B 客户端从队列B拿出URL进行访问,访问的结果放入队列C。客户端的线程,从C中拿出HTML进行分析 当然如果你想在服务端也开2个队列也是可以的 各个队列都可以用MQ来代替


【文件预览】:
spider-master
----bin()
--------install.sh(571B)
--------eclipse.sh(312B)
--------eclipse.bat(99B)
--------clean.bat(42B)
--------package.bat(74B)
--------dependency.bat(41B)
--------install.bat(74B)
--------clean.sh(250B)
----pom.xml(9KB)
----README.md(611B)
----spider-main()
--------src()
--------pom.xml(692B)

网友评论