HDFS常见功能及应用场景介绍

时间:2024-04-07 17:35:50

HDFS常见功能及应用场景介绍

分布式存储的兴起与互联网的发展密不可分,互联网公司由于其大数据、轻资产的特点,通常使用大规模分布式存储系统。

与传统的高端服务器、高端存储器和高端处理器不同的是,互联网公司的分布式存储系统由数量众多的、低成本和高性价比的普通 PC 服务器通过网络连接而成。由于互联网的业务发展迅猛,使得存储系统架构不能依靠传统的纵向扩展的方式,即先买小型机,不够时再买中型机,甚至大型机。互联网后端的分布式系统要求支持横向扩展,即通过增加普通 PC 服务器来提高存储系统的整体处理能力。

另外,随着服务器的不断加入,需要能够在软件层面实现自动负载均衡,使得系统的处理能力得到线性扩展。在这种情况下,分布式存储成为大多数企业的必然选择。

目前市场中,HDFS分布式存储系统是很热门的讨论话题,各种企业也倾向于搭建分布式存储系统。那么,分布式系统解决了企业的哪些问题呢?

HDFS常见功能及应用场景介绍

(1)升级单机处理能力的性价比越来越低;
企业发现通过更换硬件做垂直扩展的方式来提升性能越来越不划算;

(2)单机处理能力存在瓶颈;
单颗处理器有自己的性能瓶颈,即使愿意花更多的钱去买计算能力也买不到了;

(3)出于稳定性和可用性的考虑;
如果采用单击系统,那么在这台机器正常的时候一切 OK ,一旦出问题,那么系统就完全不能用了。当然,可以考虑做容灾备份等方案,而这些方案就会让系统演变为分布式系统了;

(4)云存储和大数据发展的必然要求;
云存储和大数据是构建在分布式存储之上的应用。移动终端的计算能力和存储空间的强烈的需求,使得网盘、相册等云存储应用很快流行起来。云存储的核心还是后端的大规模分布式存储系统。大数据则更近一步,不仅需要存储海量数据,还需要通过合适的计算框架或者工具对这些数据进行分析,抽取其中有价值的部分。如果没有分布式存储,便谈不上对大数据进行分析。

HDFS的功能
1)数据的分布式存储和处理。
2)Hadoop 提供了一个命令接口来与 HDFS 进行交互。
3)namenode 和 datanode 的内置服务器可帮助用户轻松检查群集的状态。
4)对文件系统数据的流式处理访问。
5)HDFS 提供文件权限和身份验证。

HDFS的架构
下面给出的是 Hadoop 文件系统的体系结构

HDFS常见功能及应用场景介绍

HDFS的元素
1.Namenod
Namenode是包含 GNU/Linux 操作系统的产品硬件。它是一种可以在产品硬件上运行的软件。具有Namenode的系统充当主服务器,并执行以下任务
1)管理文件系统命名空间
2)调节客户端对文件的访问
3)执行文件系统操作,如重命名、关闭和打开文件和目录。
2.Datanode
Datanode是具有 GNU/Linux 操作系统和数据内核软件的产品硬件。对于cluster(群集)中的每个产品硬件/系统,都将有一个数据节点,这些节点管理其系统的数据存储。
1)根据客户端请求在文件系统上执行读写操作。
2)根据 namenode 的说明执行块创建、删除和复制等操作。

3.Block
通常,用户数据存储在 HDFS 的文件中。文件系统中的文件将分为一个或多个片段存储在单个数据节点中。这些文件段称为block。换句话说,HDFS 可以读取或写入的最小数据量称为block。默认块大小为 64MB,可以根据 HDFS 配置进行更改。
HDFS常见功能及应用场景介绍

HDFS的特点
1、故障检测和恢复 – 由于 HDFS 包含大量产品硬件,组件故障频繁。因此,HDFS 应具有快速自动故障检测和恢复的机制。
2、数据集的管理 – HDFS 每个群集都有数百个节点来管理具有大型数据集的应用程序。
3、数据硬件处理 – 当计算在数据物理附近时,可以高效地完成请求的任务。特别是在涉及大量数据集时,它减少了网络流量并提高了吞吐量。

以上就是HDFS常见功能及应用场景介绍,更多HDFS相关信息敬请关注