Mapreducwe 执行流程 :input > map > shuffle > reduce > output
压缩执行时间,map 之后,压缩,数据存储在本地磁盘,减少磁盘IO,减少网络带宽。
1.常见压缩技术
压缩格式 bzip2 gzip lzo snappy
压缩比 bzip2 > gzip > lzo | snappy bzip2 最节省空间
解压速度 sanppy | lzo > gzip > bzip2 lzo|sanppy 最解压快
综合考虑,其实是为了节省CPU,lzo 和 snappy 更符合需求,但是,由于 snappy 出生名门(Google开源产品)
数据后的数据要具有可分割性,就是可以切开来,每一个块单独解压使用 splittability
2.压缩位置说明
3.支持包
snappy : org.apache.hadoop.io.compress.SnappyCodec
lzo : org.hadoop.compression.loz.LozCodec