文件名称:hadoop主要应用于数据量大的离线场景-Hadoop入门讲解
文件大小:918KB
文件格式:PPT
更新时间:2024-05-16 04:05:14
入门 hadoop
hadoop主要应用于数据量大的离线场景 一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况 下,T级别的数据也是很小的。 Mapreduce框架下,很难处理实时计算,作业都以日志分析这样的线下作业 为主。另外,集群中一般都会有大量作业等待被调度,保证资源充分利用。 由于HDFS设计的特点,Hadoop适合处理文件块大的文件。大量的小文件使 用Hadoop来处理效率会很低。 数据量大 离线 数据块大