网页信息采集工具

时间:2022-09-28 20:07:54

1. pantomjs

命令行方式,内部通过webkit去加载文件。

目前对网页的不同阶段支持有限,无法监测connect和dns时间。

虽然是命令行方式,但是仍然支持screenshot


2. selenium+firefox+firebug+netexplor

selenium是一款用于web测试的工具。它通过操作本地的浏览器进行模拟测试。

相当强大,可以对浏览器的profile(首页,插件如何启动,是否检查更新),控件进行定制化,不过启动速度稍慢。


3. HAR, Http Archive, HTTP监测工具的一个数据标准,被多个采集和显示工具支持


BTW

pantomjs生成pdf

使用方法如下:

generate_pdf.js:

// This file is NOT a browser-run javascript but PhantonJS script

 

var system = require('system');

var html_path = system.args[1];

var pdf_path = system.args[2];

 

var page = require('webpage').create();

page.paperSize = {

  format: 'A4',

  orientation: 'landscape',

  border: '1cm'

};

  #phantomjs generate_pdf.js http://www.google.com google.pdf

page.open(html_path, function () {

    page.render(pdf_path);

    phantom.exit();

});