handler_scraper:可以从给定的URL列表中提取媒体句柄的抓取程序

时间:2024-04-18 20:02:19
【文件属性】:

文件名称:handler_scraper:可以从给定的URL列表中提取媒体句柄的抓取程序

文件大小:6KB

文件格式:ZIP

更新时间:2024-04-18 20:02:19

Python

handler_scraper 描述 可以从给定的URL列表中提取媒体句柄的抓取程序 执行: 刮板使用带有队列结构的发布者/订阅者模型来实现,以存储数据。 Publisher从文件读取url并将其写入URL队列[实例在单个线程上运行,因为读取文件并写入队列是唯一的任务] 消费者有两种类型(解析器/提取器): 解析器使用者从URL队列中读取并提出请求以获取html页面。 他们解析页面以查找潜在的链接,并将数据写入数据队列。 提取器使用者从数据队列中读取并从数据中提取句柄。 它们将结果存储在输出队列中。 scraper脚本是用于创建Producer和Consumers实例并将提取的数据以JSON格式写入输出文件的主要脚本。 执行步骤: 下载附件的tar文件提取tar -xvf handler_scraper.tar 在python中创建虚拟环境 virtualenv <环境名称


【文件预览】:
handler_scraper-master
----seed_urls.txt(137B)
----scraper.py(3KB)
----producer.py(934B)
----__init__.py(0B)
----requirements.txt(367B)
----test_scraper.py(63B)
----consumer.py(7KB)
----README.md(1KB)
----.vscode()
--------settings.json(85B)

网友评论