文件名称:百度数据工厂在流式数据处理的应用与实践
文件大小:718KB
文件格式:PDF
更新时间:2022-07-20 03:30:12
Spark Spark Streaming Hive 流式数据处理
百度数据工厂整合了各种解决方案,目的就是提供一个一站式的数据处理平台。 百度数据工厂最原先用 Hive 引擎,进行离线批量数据分析和 PB 级别的查询,处理一些核心报表数据。但是在推广过程中发现,用户其实还是有复杂分析、实时处理、数据挖掘的请求,现在则以 Spark 为基础做了统一的一个计算引擎,以前 Hive 的一套也完全融入到 Spark 里来;包括多种提交方式;安全管理等等。最后形成一套完整的成品。