【文件属性】:
文件名称:swim:一个简单、简洁的网络爬虫
文件大小:11KB
文件格式:ZIP
更新时间:2021-06-19 18:26:26
Python
游泳
一个简单、简洁的网络爬虫。
简而言之:你用一堆 URL 为它做种子,你给它一个从 HTTP 响应中提取更多 URL 的函数,剩下的就交给swim 。 显着的特点是:
多线程,启用速率限制的可能性
杀死爬虫并稍后恢复它而不会丢失数据
所有爬取相关的信息都保存在一个数据库中
swim是简约的设计。 那里有很多强大的爬虫; 这个的目标是提供一个简单、简洁的基础,很容易适应您的需求。
这是一个说明 API 的小片段。
import re
import swim
def process(body):
for match in re.finditer(r'.*?)">', body):
yield match.group('url')
config = {
'folder': "./crawl",
'proc
【文件预览】:
swim-master
----test()
--------samplecrawl.py(1KB)
--------samplesite.py(2KB)
--------tests.py(762B)
----setup.py(364B)
----LICENSE.md(1KB)
----swim.py(16KB)
----README.md(3KB)