针对时光网抓取数据 爬虫

时间:2015-05-08 04:07:13
【文件属性】:

文件名称:针对时光网抓取数据 爬虫

文件大小:2.99MB

文件格式:RAR

更新时间:2015-05-08 04:07:13

爬虫 spider proxool

自己写的针对时光网抓取网页数据的代码,由于时光网经常改版,此代码唔一定有效,但是代码结构大家可以参考一下,里面有数据库和说明文档,非常简单,共大家参考,不要拍砖啊


【文件预览】:
spider_code
----read spider.txt(224B)
----spider()
--------bin()
--------.settings()
--------src()
--------.project(382B)
--------.classpath(1KB)
--------lib()
----spider_database.sql(104KB)

网友评论

  • 下载随便看看
  • 可以使用,满足我现在需求,希望分数再合理一点,8分有点高。
  • 能够学习到爬虫的一些基础知识
  • 正在做一个作业,用的就是这个,还挺不错的,但是貌似需要爬下来之后再进行处理才能用
  • 和我用的方法有点出入,但是还是直接借鉴一下!
  • 你做的时候他们的影讯是已经用异步方式获取的了吗
  • 很好,能够正常运行,获取内容需要进一步处理。
  • 楼主的代码是可行的,但是时光网的url格式已更改,分页等参数不再是写在url里了,没有解决我的问题,不过还是感谢分享!
  • 非常好,爬取到了很多数据!
  • 不知道怎么使用!请高人指点!
  • 我不得不说这也算是爬虫????虽然引入了httpclient jar,但自始至终都没用到,只是使用htmlparser来获取内容,大部分都是对于业务的处理,没有什么实质的东西.总之根本算不上爬虫~~~~,浪费我那么多分~~~~
  • 正在做一个电影信息抓取功能,正好正好解决了我的部份难题
  • 用着一般,先研究下
  • 正在做一个关于电影网的网页应用,正好找到了这个宝贵资源。谢谢分享,帮助很大。
  • 可以使用,查考性还是很强!!
  • 还是无法解决我的问题
  • 非常好,爬取到了很多数据!
  • 本来说拿这个省事呢,结果下载了才看到评价说抓不到,先自己看着改改试试吧
  • 下载后运行起来了,但就是不能够抓取数据下来
  • 正在做一个关于电影网的网页应用,正好找到了这个宝贵资源。谢谢分享,帮助很大。