网站内容抓取工具

时间:2010-05-06 05:21:49
【文件属性】:

文件名称:网站内容抓取工具

文件大小:1.23MB

文件格式:RAR

更新时间:2010-05-06 05:21:49

crawler python 爬虫

本程序是用python编写,无需安装。运行Crawler.exe就可以看到效果。
如果不修改配置是抓取新浪科技的内容,修改配置可以抓取指定的网站。
配置文件采用ini的格式.
spider_config.ini蜘蛛的配置
1. maxThreads 爬虫的线程数
2. startURL 爬虫开始的URL
3. checkFilter 爬虫只抓取指定的URL(采用正则表达式匹配)
4. urlFilter 爬虫提供给分析器的URL(采用正则表达式匹配)
sucker_config.ini 网页分析器的配置
1. maxThreads 分析器的线程数
2. pattern parser匹配的正则表达式
3. parser 指定对应pattern的分析器
本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser,前提是熟悉python。写好后运行compile编译承pyc就可以了


【文件预览】:
compile.exe
_ssl.pyd
spider_config.ini
NewsParser.py
sucker_config.ini
_socket.pyd
python24.dll
Crawler.exe
NewsParser.pyc

网友评论

  • 软件还不错,就是不太会用,要是有个详细的说明就好了!
  • 太好使,谢谢
  • 可以执行 就是没找到抓取的信息 自己修改一下就OK了
  • 抓取效果一般般吧,还是自己重新下载源码比较好
  • 运行结果在哪
  • 可以抓取,不过还是要自己改造一下,比较麻烦,要能再参数化一些就更哈了
  • 可以抓取,抓取的效果也不错。
  • 学习中,,感觉里面的内容还是分的很细的。呵呵
  • 最近正在做相似的东西,参考一下
  • 不太好使,但是还是谢谢了
  • 东西可以运行,不过找不到抓取后的内容~~
  • 东西可以运行,
  • 抓取的结果在那儿呢?
  • 抓取的效果不是很理想
  • 抓取了 但是不知道 抓到的东西在哪啊
  • 安装比较麻烦,其他还好
  • 好像没什么效果阿.
  • 对我的程序帮了很大忙,有些问题,还需研究。。。。
  • 有点不太好使用
  • 不太好使啊
  • 东西可以运行,不过找不到抓取后的内容~~
  • 没有什么效果吧
  • 看起来不错 不过没怎么看懂 应该怎么用啊 运行了之后不断的扫描远程路径 但是也没写存在哪了。。。
  • 抓取的效果不是很理想
  • 跑的很正常,只是不知道抓来的内容在什么地方
  • 虽然没直接的用,但是还是获取了有用的东西。。。
  • 不能使用,运行了没任何结果
  • 不太好使,继续研究
  • 不好使用啊!
  • 用不了啊 没啥效果