百度数据工厂在流式数据处理的应用与实践下载

【文件属性】：

文件名称：百度数据工厂在流式数据处理的应用与实践

文件大小：718KB

文件格式：PDF

更新时间：2022-07-20 03:30:12

Spark Spark Streaming Hive 流式数据处理

百度数据工厂整合了各种解决方案，目的就是提供一个一站式的数据处理平台。百度数据工厂最原先用 Hive 引擎，进行离线批量数据分析和 PB 级别的查询，处理一些核心报表数据。但是在推广过程中发现，用户其实还是有复杂分析、实时处理、数据挖掘的请求，现在则以 Spark 为基础做了统一的一个计算引擎，以前 Hive 的一套也完全融入到 Spark 里来；包括多种提交方式；安全管理等等。最后形成一套完整的成品。

立即下载

秒客网

百度数据工厂在流式数据处理的应用与实践

网友评论

相关文章