基于docker的分布式爬虫服务Zerg.zip

时间:2022-08-07 21:56:31
【文件属性】:

文件名称:基于docker的分布式爬虫服务Zerg.zip

文件大小:310KB

文件格式:ZIP

更新时间:2022-08-07 21:56:31

开源项目

zerg    基于docker的分布式爬虫服务特性多机多 IP,充分利用 IP 资源服务自动发现和注册(基于 etcd 和 registrator)负载均衡服务端客户端通信基于 gRPC,支持多种编程语言的客户端可设置抓取超时支持 GET、HEAD、POST 方法支持自定义 header如何部署第一步:配置 etcd我把 etcd 容器化了,并开发了脚本使得部署 etcd cluster 非常容易,见 github.com/huichen/etcd_docker为了容灾,请至少在三台服务器上运行 etcd 实例。为了方便调用,你可以固定 etc endpoint 的端口号,并在所有机器上手工添加 etcd host 的 hostname。第二步:启动 registrator 服务发现程序你需要在集群的每一台服务器上都运行 registrator,这使得我们可以自动发现和注册分布式服务docker run -d --name=registrator --net=host --volume=/var/run/docker.sock:/tmp/docker.sock \   gliderlabs/registrator etcd:///services请把上面的 etcd 接入点换成你的 etcd 地址。第三步:部署 zerg 服务进入 service_container 子目录,然后运行./build_docker_image.sh这会生成 unmerged/zerg 容器。然后在集群的每台服务器上启动容器:docker run -d -P unmerged/zergregistrator 会自动注册这些服务到 etcd。如果单机有多个 IP,你可以单机启动多个容器,并在 -P 中分别指定 IP。第四步:调用样例代码进入 examples 目录,运行go run zerg_crawl.go --endpoints http://<你的 etcd host:ip> --url http://taobao.com可选步骤1、重新生成 protobuf serviceprotoc protos/crawl.proto --go_out=plugins=grpc:protos -I protos/2、本地测试启动本地服务。进入 service_container 目录,然后运行go run service.go然后进入 examples 目录,运行go run single_machine_crawl.go --url http://taobao.com 标签:Zerg


【文件预览】:
zerg-master
----protos()
--------crawl.pb.go(10KB)
--------crawl.proto(900B)
----zerg_client()
--------client.go(2KB)
----doc()
--------zerg.png(307KB)
----example()
--------single_machine_crawl.go(855B)
--------zerg_crawl.go(1022B)
----service_container()
--------Dockerfile(63B)
--------service.go(2KB)
--------build_docker_image.sh(212B)
----README.md(2KB)

网友评论