文件名称:spider:Spider可以模拟网站用户的行为并审核您的Web分析实施
文件大小:7.83MB
文件格式:ZIP
更新时间:2024-05-27 16:48:13
JavaScript
蜘蛛 介绍: 自2011年以来,我一直试图编写一个蜘蛛来验证Web分析的实现。我的最初尝试是使用PHP,cURL和MySQL。 很明显,脚本可以分析无法解释和评估内容的刮擦HTML。 它还只会返回页面的原始内容,并且该内容可以通过Ajax请求和延迟加载来动态更改。 第一次尝试的代码不在此处。 PhantomJS不仅可以抓取HTML内容,还可以评估刚抓取的页面的Javascript代码。 它还提供HTTP请求和响应的回调,捕获页面错误,保存屏幕截图等等。 质量检查团队已经认识到PhantomJS的潜力,并且越来越多地将其添加到他们的工具箱中。 自动执行Web分析实施审核的潜力非常大。 蜘蛛的基本要求: 起始网址 要扫描的域名,您的网站可能包含外部URL,我们不希望蜘蛛开始扫描整个Internet 提取页面上的所有链接 将找到的链接转换为绝对URL 将转换后的链接插入数据库,但前提是
【文件预览】:
spider-master
----spider.js(1KB)
----README.md(3KB)
----PhantomJS.pptx(7.85MB)