文件名称:新闻爬虫 (NewsPicker)附源码
文件大小:571KB
文件格式:RAR
更新时间:2011-12-26 02:52:51
新闻 RSS 抓取 蜘蛛算法
NewsPicker(新闻抓取器) 版权:自主版权,开源 作者:tttk(网络芝麻) 开发语言:delphi 软件描述:利用蜘蛛算法到指定RSS站点抓取并下载新闻页面到本地,并过滤掉页面中所有无用信息,只保留新闻页面的主干,图片下载到本地,并修改图片路径。 1、支持页面过滤、预处理、新闻主干定义。通过正则表达式实现。 2、支持自定义数据源,默认mysql 3、支持ftp把下载资源上传到服务器 4、多线程技术,支持页面蜘蛛、图片蜘蛛、上传蜘蛛的线程数定义 5、完全开放源码,第三方组件需要自己下载。 6、在内网服务器上运行2年,经过若干次代码重构和优化。 7、提供规则表达式验证工具。 由于是独立开发,代码没有文档资料,有兴趣的可以钻研代码,提高delphi网络开发的技能。 有问题可以和我联系。 联系方式: MSN:tttk2000@hotmail.com QQ:895299
【文件预览】:
NewsPicker
----bin()
--------__history()
--------cache()
--------rss.xml(11KB)
--------regexpr.txt(31B)
--------config.xml(2KB)
--------Tools.dll(42KB)
--------cache.mdb(152KB)
--------RegExprTest.exe(548KB)
--------data.mdb(156KB)
--------input.txt(19KB)
--------mysqldb.dll(89KB)
----__history()
----NewsPicker.bpg(834B)
----source()
--------__history()
--------IndexMaper.pas(5KB)
--------NewsPicker.dpr(437B)
--------Crawler.pas(6KB)
--------DBUploader.pas(4KB)
--------FileUploader.pas(3KB)
--------Global.pas(12KB)
--------NewsPicker.stat(156B)
--------Indexer.pas(3KB)
--------NewsPicker.res(3KB)
--------NPThread.pas(11KB)
--------service()
--------MainForm.dfm(33KB)
--------mysqldb()
--------MainForm.pas(7KB)