文件名称:CDH大数据环境优化.docx
文件大小:72KB
文件格式:DOCX
更新时间:2024-08-23 10:02:01
CDH 大数据
1.3.1 数据块优化 dfs.blocksize = 128M 文件以块为单位进行切分存储,块通常设置的比较大(最小6M,默认128M),根据网络带宽计算最佳值。 块越大,寻址越快,读取效率越高,但同时由于MapReduce任务也是以块为最小单位来处理,所以太大的块不利于于对数据的并行处理。 一个文件至少占用一个块(如果一个1KB文件,占用一个块,但是占用空间还是1KB) 我们在读取HDFS上文件的时候,NameNode会去寻找block地址,寻址时间为传输时间的1%时,则为最佳状态。 目前磁盘的传输速度普遍为100MB/S 如果寻址时间约为10ms,则传输时间=10ms/0.01=1000ms=1s 如果传输时间为1S,传输速度为100MB/S,那么一秒钟我们就可以向HDFS传送100MB文件,设置块大小128M比较合适。 如果带宽为200MB/S,那么可以将block块大小设置为256M比较合适。