文件名称:ApacheBeam实战指南之基础入门
文件大小:314KB
文件格式:PDF
更新时间:2024-02-23 13:50:14
ApacheBeam实战指南之基础入门
随着大数据2.0时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。早期的处理模型(Map/Reduce)早已经力不从心,而且也很难应用到处理流程长且复杂的数据流水线上。另外,近年来涌现出诸多大数据应用组件,如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发。这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。面对这种情况,Google在2016年2月宣布将大数据流水线产品(GoogleDataFlow)贡献给Apache