文件名称:Web-Harvest学习笔记.doc
文件大小:99KB
文件格式:DOC
更新时间:2011-11-16 08:05:00
Web-Harvest源码分析
Web-Harvest是Web数据挖掘工具。提供一种方法收集目标网页和挖掘有用的数据。为此,使用XSLT,XQUERY,Regular Exp等技术。
其网址在http://web-harvest.sourceforge.net/。
挖掘数据也称为WebScraping或WebDataMining。每个挖掘过程是用户自定义的,通过执行基于xml的配置文件。
例如: