pspider:纯 PHP 开发的并行抓取工具 (Parallel web crawler written in PHP)

时间:2024-05-28 22:50:05
【文件属性】:

文件名称:pspider:纯 PHP 开发的并行抓取工具 (Parallel web crawler written in PHP)

文件大小:18KB

文件格式:ZIP

更新时间:2024-05-28 22:50:05

PHP

PHP - spider 框架 这是最近使用纯 php 代码开发的并行抓取(爬虫)框架,基于 组件。 您必须先装有 ,然后在项目里先运行以下命令下载组件: composer install 使用 pspider 这里头的 URL 表管理需要 MySQLi 扩展支持,表结构和自定义的内容参见自定义文件。 复制 custom/skel.inc.php 为 custom/your.inc.php 根据说明修改 custom/your.inc.php 根据 custom/your.inc.php 里的注释创建 mysql 的 URL 表 运行 spider.php -u http://... 即可开始循环抓取 UrlTable 的实现很简单仅作示例,具体可自行重做


【文件预览】:
pspider-master
----composer.json(378B)
----custom()
--------skel.inc.php(2KB)
----tests()
--------bootstrap.php(164B)
--------phpunit.xml(329B)
--------lib()
----spider.php(2KB)
----.gitignore(58B)
----lib()
--------UrlTable.php(16KB)
--------StringHelper.php(5KB)
----README.md(768B)

网友评论