java抓取技术源码-multithreading-crawlers:多线程爬虫--抓取淘宝商品详情页URL

时间:2024-06-25 15:01:18
【文件属性】:

文件名称:java抓取技术源码-multithreading-crawlers:多线程爬虫--抓取淘宝商品详情页URL

文件大小:39KB

文件格式:ZIP

更新时间:2024-06-25 15:01:18

系统开源

java抓取技术源码 多线程爬虫--抓取淘宝商品详情页URL 本项目是一个Java编写的多线程爬虫系统。此系统与我之前开发的结合使用,共抓取了淘宝近3000个页面,从中解析到了近9万的商品详情页URL。 我并没有直接将这些商品详情页中最具价值的数据(商品信息)提取出来,因为这些富有价值的数据对于目前的我来说并不是特别具有吸引力。开发这个项目当初的本意也只是为了锻炼自己开发多线程应用程序的能力,并且真正的与反爬虫做对抗,最终我成功了~ 我会将抓取到的数据(近9万商品详情页URL)提供给大家,如果大家需要真正的商品信息,而你们又没有什么好的办法,那么就花半天时间阅读一下此项目的源码吧,最后只要在这个代码的框架上稍作修改,这个多线程爬虫系统将完全满足你们的需求。 环境需求 JDK 1.8 MySQL Redis IDEA Maven 实现架构 包名 功能 database 有关MySQL与Redis数据库的配置类及操作类 httpbrower 发送HTTP请求,接收Response相关类 ipproxypool IP代理池 mainmethod Main方法入口 mythread 项目相关线


【文件预览】:
multithreading-crawlers-master
----README.md(3KB)
----pom.xml(2KB)
----src()
--------test()
--------main()
----.idea()
--------vcs.xml(180B)

网友评论

  • 非常感谢,可以使用!