文件名称:jewel-crawler:分布式搜寻器框架
文件大小:495KB
文件格式:ZIP
更新时间:2024-04-28 04:16:08
Go
jewl-crawler 简介 jewl-crawler 是一个分布式爬虫框架 jewel-crawler 可以用来网站数据采集,支持通过接口、静态页面、动态页面、以及图片等资源抓取任务,通过Redis进行任务的流转,支持多层次抓取需求,比如支持新闻类网站以列表和详情页两层数据流转采集。 架构集成了方便对数据进行解析,适用于大部分的文章采集。 安装与使用 go get -u github.com/SunMaybo/jewel-crawler 栗子 项目启动 通过全局SetLogLevel方法设置日志级别 使用启动Redis,Concurrent为支持最大并发数量,防止因为goroutine开启过大造成内存开销巨大。 Queue为使用的队列名字,实践中我们通过依据:图片、视频、文档、静态页面、动态页面、接口等对任务进行划分,依据是请求耗时和数据大小。 jewel_crawler.SetLo
【文件预览】:
jewel-crawler-master
----engine_test.go(992B)
----logs()
--------log.go(1KB)
----.github()
--------workflows()
----crawler()
--------default_html_crawler.go(874B)
--------crawler.go(2KB)
--------pipeline.go(6KB)
----limit()
--------limit.go(484B)
----temp()
--------temp.go(1KB)
----engine.go(4KB)
----LICENSE(1KB)
----common()
--------uuid()
--------sign()
--------convert.go(9KB)
--------convert_test.go(415B)
--------common.go(668B)
--------common_test.go(892B)
--------spider()
--------parser()
----.gitignore(28B)
----sync()
--------sync.go(928B)
----task()
--------task.go(3KB)
----README.md(6KB)
----go.mod(921B)