文件名称:javashuffle源码-Spark:火花
文件大小:83KB
文件格式:ZIP
更新时间:2024-06-24 06:42:41
系统开源
java shuffle源码 领导安排我给科室同事培训下Spark,前期生产实践的经验一直没顾得上总结,借此机会做个回顾,也算给自己做个积累。 1.rdd.basic包:从Spark最基础的常用transformations和actions算子开始,java、scala编码,以及一些生产环境中的实践和经验说明。 2.rdd.performance_optimize包:生产中避免数据倾斜、性能调优的的java、scala编码总结。 3.rdd.statproject包:使用RDD写了个统计项目,结合生产中的常用业务场景,如何组合RDD算子实现。 4.sparksql.statproject包:使用SparkSQL写了个统计项目,生产中对网站访问日志统计分析部分完整代码。 特意构造并实践了生产中的线程安全日期转换,IP映射城市,cache、foreachPartition、批量提交入库等性能提升代码。 5.sparkstreaming包:主要码了rdd算子之外的流式计算常用算子,累计计数UpdateStateByKey和MapWithState,滑动窗口ReduceByKeyAndWind
【文件预览】:
Spark-master
----pom.xml(6KB)
----src()
--------main()
----.gitignore(412B)
----README.md(23KB)