Crusty - 礼貌和可扩展的广泛网络爬虫

时间:2024-07-18 13:19:48
【文件属性】:

文件名称:Crusty - 礼貌和可扩展的广泛网络爬虫

文件大小:795KB

文件格式:ZIP

更新时间:2024-07-18 13:19:48

crusty

Crusty - 礼貌和可扩展的广泛网络爬虫介绍广泛的网络爬行是一种通过从一组位置(url)开始并跟踪传出链接来浏览几乎无边界的网络的活动。通常从哪里开始并不重要,只要它有到外部域的传出链接。它提出了一系列独特的挑战,人们必须克服才能获得稳定且可扩展的系统,Crusty试图解决其中的一些挑战,以便在玩Rust同时看看这里有什么;)此特定实现可用于快速获取所有可观察互联网的子集,例如,发现最流行的域/链接建立在可处理网络爬行的所有低级方面的硬核之上主要特征可配置性和可扩展性查看典型的配置文件,其中包含有关可用选项的一些说明快速的单节点性能Crusty 是在tokio上运行的绿色线程之上用Rust编写的,因此即使在中等 PC 上它也可以实现令人印象深刻的单节点性能可以进行额外的优化来进一步改进(主要是更好的 html 解析,有些任务不需要完整的 DOM 解析,这个实现主要是为了可扩展性和可配置性而进行完整的 DOM 解析)Crusty具有小、稳定和可预测的内存占用,通常受 CPU/网络限制。没有 GC 压力,也没有内存争夺战。可扩展性每个Crusty节点本质上都是一个独立的单元,我们可以并


【文件预览】:
crusty-master
----interop()
--------src()
--------Cargo.toml(306B)
----redis-utils()
--------src()
--------Cargo.toml(316B)
----Cargo.lock(73KB)
----infra()
--------lazy.sh(2KB)
--------crusty()
--------grafana()
--------sysctl.conf(343B)
--------unbound()
--------clickhouse()
--------redis()
----resources()
--------grafana.png(533KB)
--------grafana-96.png(222KB)
----LICENSE(34KB)
----Cargo.toml(269B)
----main()
--------config.yaml(10KB)
--------rustfmt.toml(2KB)
--------src()
--------Cargo.toml(2KB)
--------release.toml(213B)
--------README.md(10KB)
--------tld.txt(10KB)
----go(512B)
----docker-compose.yml(3KB)
----.gitignore(83B)
----.dockerignore(18B)
----redis-queue()
--------src()
--------Cargo.toml(635B)
----README.md(14B)
----redis-calc()
--------src()
--------Cargo.toml(601B)
----.pre-commit-config.yaml(1KB)

网友评论