Spark SQL 在字节跳动的优化实践-郭俊.pdf

时间:2022-12-23 16:02:30
【文件属性】:

文件名称:Spark SQL 在字节跳动的优化实践-郭俊.pdf

文件大小:47.95MB

文件格式:PDF

更新时间:2022-12-23 16:02:30

spark 字节跳动 iteblog

Spark 在字节跳动内部扮演着重要角色。在数据仓库领域,Spark SQL 正在逐渐取代 Hive 成为主要的 ETL 计算引擎,另外它还是字节跳动内部重要的 ad-hoc 查询引擎。目前 Spark 每天处理百万亿级数据,单任务 Shuffle 数据量可超过 200TB。同时 Spark 与其它系统混合部署,因此性能与稳定性都是需要重点解决的问题。本次分享将会基于基础架构团队过往的工作成果,介绍字节跳动在提升基于 Spark SQL 的 ETL 稳定性以及优化 ad-hoc 查询的性能方面的实践。


网友评论