网站内容抓取工具

时间：2010-05-06 05:21:49

【文件属性】：

文件名称：网站内容抓取工具

文件大小：1.23MB

文件格式：RAR

更新时间：2010-05-06 05:21:49

crawler python 爬虫

本程序是用python编写，无需安装。运行Crawler.exe就可以看到效果。
如果不修改配置是抓取新浪科技的内容，修改配置可以抓取指定的网站。
配置文件采用ini的格式.
spider_config.ini蜘蛛的配置
1. maxThreads 爬虫的线程数
2. startURL 爬虫开始的URL
3. checkFilter 爬虫只抓取指定的URL（采用正则表达式匹配)
4. urlFilter 爬虫提供给分析器的URL（采用正则表达式匹配)
sucker_config.ini 网页分析器的配置
1. maxThreads 分析器的线程数
2. pattern parser匹配的正则表达式
3. parser 指定对应pattern的分析器
本程序支持自定义分析器。可以参照软件包中NewsParser.py的写法自己写个parser，前提是熟悉python。写好后运行compile编译承pyc就可以了

立即下载

【文件预览】：
compile.exe
_ssl.pyd
spider_config.ini
NewsParser.py
sucker_config.ini
_socket.pyd
python24.dll
Crawler.exe
NewsParser.pyc

网友评论

软件还不错，就是不太会用，要是有个详细的说明就好了！
太好使，谢谢
可以执行就是没找到抓取的信息自己修改一下就OK了
抓取效果一般般吧，还是自己重新下载源码比较好
运行结果在哪
可以抓取，不过还是要自己改造一下，比较麻烦，要能再参数化一些就更哈了
可以抓取，抓取的效果也不错。
学习中，，感觉里面的内容还是分的很细的。呵呵
最近正在做相似的东西，参考一下
不太好使，但是还是谢谢了
东西可以运行，不过找不到抓取后的内容~~
东西可以运行，
抓取的结果在那儿呢？
抓取的效果不是很理想
抓取了但是不知道抓到的东西在哪啊
安装比较麻烦，其他还好
好像没什么效果阿.
对我的程序帮了很大忙，有些问题，还需研究。。。。
有点不太好使用
不太好使啊
东西可以运行，不过找不到抓取后的内容~~
没有什么效果吧
看起来不错不过没怎么看懂应该怎么用啊运行了之后不断的扫描远程路径但是也没写存在哪了。。。
抓取的效果不是很理想
跑的很正常,只是不知道抓来的内容在什么地方
虽然没直接的用，但是还是获取了有用的东西。。。
不能使用，运行了没任何结果
不太好使，继续研究
不好使用啊！
用不了啊没啥效果

秒客网

网站内容抓取工具

网友评论

相关文章