1,分布式存储团叶槲蕨,支持海量数据存储。(GB、TB、PB级别数据)
2,高容错性,数据拥有多个副本(副本冗余机制)。副本丢失后,自动恢复。
3,低成本部署,hadoop可在廉价的服务器上
4,能够检测和快速应对硬件故障,通过RPC心跳机制来实现
5,简化的一致性模型,这里指的是用户在使用HDFS时,所有关于文件相关的操作,如文件切块、块的复制、块的存储等细节并不需要去关注,所有的工作都已被框架封装完毕。用户所需要折仅仅是将数据上传到HDFS。这大大简化了分布式文件存储工作的难度和管理的复杂度。
6,HDFS不能做到低延迟的数据访问(毫秒级内给出响应)。介是Hadoop的优势在它的高吞吐率(吞吐率批的是:单位时间内产生的数据流)。可以说HDFS的设计是牺牲了低延迟的数据访问,而获取的是数据的高吞吐率,如果要想获取低延迟的数据访问,可以通过Hbase框架来实现
7,HDFS不许修改数据,所以适用场景是:一次写入,多次读取(once write,many read)。注意:HDFS允许追加数据,但不允许修改数据。追加和修改的意义是不同的。
8,HDFS不支持并发写入,一个文件同一个时间只能有一个写入者
9,HDFS不适合存储海量小文件,因为会浪费 namenode服务节点的内存空间。