文件名称:pjscrape:一个用 Javascript 编写的网页抓取框架,使用 PhantomJS 和 jQuery
文件大小:141KB
文件格式:ZIP
更新时间:2024-06-25 03:31:57
JavaScript
主页: : 概述 pjscrape是一个框架,适用于任何想要使用 Javascript 和进行网页抓取的命令行工具的人。 专为构建,它允许您从命令行在完全呈现、启用 Javascript 的上下文中抓取页面,无需浏览器。 依赖关系 特征 客户端、基于 Javascript 的抓取环境,可完全访问 jQuery 函数 用于设置一个或多个抓取工具的简单、灵活的语法 递归/爬行抓取 延迟刮削直到出现“就绪”状态 在抓取之前在页面上加载您自己的脚本 用于记录和写入/格式化抓取项目的模块化架构 用于常见任务的客户端实用程序 越来越多的单元测试 有关用法、示例和文档,请参阅 。 欢迎评论和提问: nick (at) nickrabinowitz (dot) com。
【文件预览】:
pjscrape-master
----pjscrape.js(31KB)
----LICENSE.txt(1KB)
----client()
--------dev_harness.js(3KB)
--------pjscrape_client.js(9KB)
--------bookmarket.js(171B)
--------jquery.js(89KB)
----lib()
--------md5.js(6KB)
----VERSION.txt(5B)
----README.md(1KB)
----tests()
--------base_config.js(89B)
--------test_config_cascade.js(521B)
--------test_ready.js(235B)
--------test_basic.js(328B)
--------data.js(42B)
--------test_recursive_nomaxdepth.js(238B)
--------test_timeout_ready.js(220B)
--------test_ignore_duplicates.js(425B)
--------test_404_handling.js(204B)
--------test_recursive_scrapable.js(383B)
--------test_persistent_state.js(378B)
--------test_multiple_urls.js(328B)
--------file_output_config.js(118B)
--------test_async.js(372B)
--------test_timeout_async.js(182B)
--------test_jquery_versions.js(390B)
--------runserver.bat(31B)
--------test_img_input.js(141B)
--------test_recursive_selector.js(114B)
--------test_multiple_suites.js(353B)
--------test_ignore_duplicates_id.js(483B)
--------test_recursive_allowrepeat.js(298B)
--------test_getpattern.js(2KB)
--------test_csv_autofields.js(397B)
--------test_recursive_noloop.js(255B)
--------test_async_mixed.js(577B)
--------test_prescrape.js(313B)
--------test_loadscript.js(243B)
--------test_csv.js(439B)
--------test_site()
--------runtests.py(8KB)
--------test_csv_autofields_obj.js(613B)
--------test_selector_scraper.js(124B)
--------test_recursive_maxdepth.js(255B)
--------test_syntax.js(800B)
----.gitignore(11B)
----bin()
--------pjscrape.sh(55B)
--------pjscrape.bat(166B)