文件名称:爬虫技术交流.pptx
文件大小:650KB
文件格式:PPTX
更新时间:2022-12-17 05:48:18
爬虫技术交流
支持串行、并行的任务处理方式; 进程级别的分片化+小批量的抓取模式,保证OS层次的资源高效回收利用; 基于MQ方式的任务分发机制,为系统提供高度横向扩展能力 整合AWS、阿里云的按需API,做到采集节点高度伸缩;整合免费HTTP代理接口,突破反爬虫限制; Javascript、jar插件和可视化规则三种抓取与萃取能力接口; 统一的中心资源库为爬虫系统提供统一的脚本、规则库、结果模型、依赖数据管理; RDB、KV、AVRO序列化三种目标数据自动化输出机制。