网页采集工具grabage

时间:2019-08-27 05:15:27
【文件属性】:

文件名称:网页采集工具grabage

文件大小:7.47MB

文件格式:ZIP

更新时间:2019-08-27 05:15:27

grabage 使用手册 各种所需jar

grabage_0.1_nk 提供最基础的采集功能,有经验的开发人员可以将其嵌入到系统模块中用于采集数据。 nk版本的内容检查不算完整,只能匹配部分发布时间,对于部分网页将作者,来源,发布时间混合在一起的情况,未能很好的解决。 该问题会在将来的版本中处理,不会再更新nk版本。源码中未包含图片等资源采集。 xalan-2.7.1.jar htmlunit Jun 21 3.0 MB 0 xml-apis-1.3.04.jar htmlunit Jun 21 189 KB 0 xercesImpl-2.9.1.jar htmlunit Jun 21 1.2 MB 0 serializer-2.7.1.jar htmlunit Jun 21 271 KB 0 sac-1.3.jar htmlunit Jun 21 15.4 KB 0 nekohtml-1.9.14.jar htmlunit Jun 21 121 KB 0 htmlunit-core-js-2.7.jar htmlunit Jun 21 889 KB 0 htmlunit-2.7.jar htmlunit Jun 21 878 KB 0 cssparser-0.9.5.jar htmlunit Jun 21 247 KB 0 commons-logging-1.1.1.jar htmlunit Jun 21 59.3 KB 0 commons-lang-2.4.jar htmlunit Jun 21 255 KB 0 commons-io-1.4.jar htmlunit Jun 21 106 KB 0 commons-httpclient-3.1.jar htmlunit Jun 21 297 KB 0 commons-collections-3.2.1.jar htmlunit Jun 21 561 KB 0 commons-codec-1.4.jar htmlunit Jun 21 56.8 KB 0 dom4j-2.0.0-ALPHA-2.jar dom4j Jun 21 332 KB 0 1 - 16 of 16 下载后 用ide(如eclipse)引入源码,将源码中resource的路径指定到编译路径下。 编译运行ReadCenter,如控制台输出>>>LINK>>>http://portal.czol.info/news/money 则正常通过,如报异常,请检查工程路径配置。


【文件预览】:
grabage.jar
----xalan-2.7.0.jar(2.94MB)
----xml-apis-1.3.02.jar(190KB)
----serializer-2.7.0.jar(185KB)
----commons-collections-3.2.1.jar(562KB)
----cssparser-0.9.5.jar(248KB)
----sac-1.3.jar(15KB)
----commons-codec-1.4.jar(57KB)
----commons-httpclient-3.1.jar(298KB)
----commons-logging-1.1.1.jar(59KB)
----htmlunit-core-js-2.4.jar(548KB)
----xercesImpl-2.7.1.jar(1.15MB)
----commons-lang-2.4.jar(252KB)
----htmlunit-2.11.jar(1.17MB)
----nekohtml-1.9.9.jar(113KB)
----dom4j-2.0.0-ALPHA-2.jar(332KB)
----commons-io-1.4.jar(106KB)
grabage_0.1_nk_src
----resource()
--------grabage-config.xml(2KB)
--------readme.txt(3KB)
----java()
--------info()

网友评论