文件名称:JRex java webbrowser 爬虫ajax网页 源码
文件大小:948KB
文件格式:ZIP
更新时间:2013-10-09 07:46:52
GECKO JRex 爬虫 浏览器引擎 ajax
一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容。 JS函数及页面元素事件的调用 这些很简单都是依靠用户的EVENT去驱动的,而我们通过SOCKET抓取页面对我们只是流而已无法去模拟用户的EVENT 没有这些EVENT 页面上需要EVENT驱动而展现的内容连显示都不可能 更无从抓取了。 JRex为我们解决了这个问题,试验证明JRex 比cobra的lobobrowser好用。