handler_scraper:可以从给定的URL列表中提取媒体句柄的抓取程序下载

【文件属性】：

文件名称：handler_scraper:可以从给定的URL列表中提取媒体句柄的抓取程序

文件大小：6KB

文件格式：ZIP

更新时间：2024-04-18 20:02:19

Python

handler_scraper 描述可以从给定的URL列表中提取媒体句柄的抓取程序执行：刮板使用带有队列结构的发布者/订阅者模型来实现，以存储数据。 Publisher从文件读取url并将其写入URL队列[实例在单个线程上运行，因为读取文件并写入队列是唯一的任务] 消费者有两种类型（解析器/提取器）：解析器使用者从URL队列中读取并提出请求以获取html页面。他们解析页面以查找潜在的链接，并将数据写入数据队列。提取器使用者从数据队列中读取并从数据中提取句柄。它们将结果存储在输出队列中。 scraper脚本是用于创建Producer和Consumers实例并将提取的数据以JSON格式写入输出文件的主要脚本。执行步骤：下载附件的tar文件提取tar -xvf handler_scraper.tar 在python中创建虚拟环境 virtualenv <环境名称

立即下载

【文件预览】：
handler_scraper-master
----seed_urls.txt(137B)
----scraper.py(3KB)
----producer.py(934B)
----__init__.py(0B)
----requirements.txt(367B)
----test_scraper.py(63B)
----consumer.py(7KB)
----README.md(1KB)
----.vscode()
--------settings.json(85B)

秒客网

handler_scraper:可以从给定的URL列表中提取媒体句柄的抓取程序

网友评论

相关文章