文件名称:php-webminer:使用 Querypath 和用于解析网页的标准格式扩展 php-webdriver 的 LIbary
文件大小:11KB
文件格式:ZIP
更新时间:2024-07-08 05:30:26
PHP
php-webminer -- 使用 Selenium、QueryPath 和 PHP 提取数据 描述 该项目的目标是创建一个可扩展的系统,用于从网页中提取数据。 目前它正在使用 Selenium WebDriver(通过 php-webdriver)、QueryPath 和一个配置文件,该文件指定要提取哪些组件以及如何输出结果。 工作档案 “作业”配置文件定义了系统(数据库、基础设施)和网站的所有方面以及您希望提取的数据。 它采用 XML 格式并具有以下选项: 必须定义子元素“站点” 推荐使用子元素“步骤”,因为它们会驱动操作 数据库 目前接受单个 MySQL 数据库。 如果元素被定义,XML 将根据配置文件中的规范导入到数据库-> 表中 行动 点击 类型 验证码 元素 输入 - QueryPath 用于从网页中提取数据的 CSS 选择器 输出 - 输出 XML 的元素名称 示例包
【文件预览】:
php-webminer-master
----.gitignore(172B)
----composer.json(777B)
----examples()
--------example1.php(233B)
--------example1.xml(756B)
----README.md(2KB)
----lib()
--------webminer-config.php(1KB)
--------webminer-drive.php(14KB)
--------include.php(229B)
--------webminer-database.php(4KB)