文件名称:【Hadoop学习】_28Haoop企业优化
文件大小:87KB
文件格式:PDF
更新时间:2024-01-28 05:50:09
ao do hadoop
文章目录一、MapReduce跑得慢的原因二、MapReduce优化方法(一)数据输入(二)Map阶段(三)Reduce阶段(四)I/O阶段(五)数据倾斜问题(六)常用的调优参数三、HDFS小文件优化方法 一、MapReduce跑得慢的原因 MapReduce程序效率的瓶颈在于两点: 计算机性能 CPU、内存、磁盘健康、网络。 I/O操作优化 (1)数据倾斜 (2)Map和Reduce数量设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量不可分块的超大文件 (6)Spill次数过多 (7)Merge次数过多 二、MapReduce优化方法 (一)数据输