百度地图毕业设计源码-Spark:调优笔记

时间:2024-06-26 00:12:34
【文件属性】:

文件名称:百度地图毕业设计源码-Spark:调优笔记

文件大小:757KB

文件格式:ZIP

更新时间:2024-06-26 00:12:34

系统开源

百度地图毕业设计源码 Spark调优思路 0.优化点 1、增加硬件资源 2、充分利用资源 1、spark-submit时设置 2、设置task数量 3、减化计算 1、持久化RDD 2、使用fastutil类集 4、减少网络传输 1、广播变量 2、kryo序列化 3、shuffle的map端调优 5、优化等待时间 1、调节数据调度等待时间 6、减少GC 1、堆内存调优 2、堆外内存调优 3、kryo序列化 4、广播变量 开发调优 1.1避免创建重复的RDD // 需要对名为“hello.txt”的HDFS文件进行一次map操作,再进行一次reduce操作。也就是说,需要对一份数据执行两次算子操作。 // 错误的做法:对于同一份数据执行多次算子操作时,创建多个RDD // 这里执行了两次textFile方法,针对同一个HDFS文件,创建了两个RDD出来,然后分别对每个RDD都执行了一个算子操作。 // 这种情况下,Spark需要从HDFS上两次加载hello.txt文件的内容,并创建两个单独的RDD;第二次加载HDFS文件以及创建RDD的性能开销,很明显是白白浪费掉的。 val rdd1


【文件预览】:
Spark-master
----media()
--------dd6fc065882fa3c1b259a9b6fe664f6c.jpg(268KB)
--------53378b8fedd81ead0d9c75bb54a5de7c.jpg(172KB)
--------218bcc78a2877848d2c51adec3bea2d0.jpg(261KB)
--------804a4365ceea0824f4e401ce04a8ee10.jpg(123KB)
--------449c7cb1990fd9547e7a4c3ca42ec6c6.jpg(172KB)
----LICENSE(11KB)
----README.md(56KB)

网友评论