文件名称:swim:一个简单、简洁的网络爬虫
文件大小:11KB
文件格式:ZIP
更新时间:2024-07-09 12:13:06
Python
游泳 一个简单、简洁的网络爬虫。 简而言之:你用一堆 URL 为它做种子,你给它一个从 HTTP 响应中提取更多 URL 的函数,剩下的就交给swim 。 显着的特点是: 多线程,启用速率限制的可能性 杀死爬虫并稍后恢复它而不会丢失数据 所有爬取相关的信息都保存在一个数据库中 swim是简约的设计。 那里有很多强大的爬虫; 这个的目标是提供一个简单、简洁的基础,很容易适应您的需求。 这是一个说明 API 的小片段。 import re import swim def process(body): for match in re.finditer(r'.*?)">', body): yield match.group('url') config = { 'folder': "./crawl", 'proc
【文件预览】:
swim-master
----test()
--------samplecrawl.py(1KB)
--------samplesite.py(2KB)
--------tests.py(762B)
----setup.py(364B)
----LICENSE.md(1KB)
----swim.py(16KB)
----README.md(3KB)