文件名称:基于docker的分布式爬虫服务Zerg.zip
文件大小:310KB
文件格式:ZIP
更新时间:2022-08-07 21:56:31
开源项目
zerg
基于docker的分布式爬虫服务特性多机多 IP,充分利用 IP 资源服务自动发现和注册(基于 etcd 和 registrator)负载均衡服务端客户端通信基于 gRPC,支持多种编程语言的客户端可设置抓取超时支持 GET、HEAD、POST 方法支持自定义 header如何部署第一步:配置 etcd我把 etcd 容器化了,并开发了脚本使得部署 etcd cluster 非常容易,见 github.com/huichen/etcd_docker为了容灾,请至少在三台服务器上运行 etcd 实例。为了方便调用,你可以固定 etc endpoint 的端口号,并在所有机器上手工添加 etcd host 的 hostname。第二步:启动 registrator 服务发现程序你需要在集群的每一台服务器上都运行 registrator,这使得我们可以自动发现和注册分布式服务docker run -d --name=registrator --net=host --volume=/var/run/docker.sock:/tmp/docker.sock \
gliderlabs/registrator etcd://
【文件预览】:
zerg-master
----protos()
--------crawl.pb.go(10KB)
--------crawl.proto(900B)
----zerg_client()
--------client.go(2KB)
----doc()
--------zerg.png(307KB)
----example()
--------single_machine_crawl.go(855B)
--------zerg_crawl.go(1022B)
----service_container()
--------Dockerfile(63B)
--------service.go(2KB)
--------build_docker_image.sh(212B)
----README.md(2KB)