文件名称:java连接sqoop源码-LearningHadoop2:学习Hadoop2
文件大小:1.62MB
文件格式:ZIP
更新时间:2024-07-05 10:46:48
系统开源
java连接sqoop源码Hadoop 2 学习笔记 来自在线课程的综合说明: 大数据 -从加州大学圣地亚哥分校释放海量数据集中的价值 Randal Scott King学习 Hadoop 2 来自加州大学圣地亚哥分校的Hadoop 平台和应用程序框架 目录 第一节 Hadoop生态系统概述 Hadoop主要目标: 启用可扩展性 处理容错 针对多种数据类型进行了优化 促进共享环境 提供价值 1.1 HDFS和YARN概述 分布式计算 问题:大数据使计算资源(CPU、存储)紧张 解决方案:将负载分配到多台服务器而不是一台 雅虎! 使用分布式计算模型开发Hadoop Hadoop分布式文件系统(HDFS) Hadoop 文件系统 跨越集群中的所有节点 在多台服务器上以 64M 块的形式存储数据 它是 Hadoop 的基础,提供可扩展且可靠的存储和容错。 数据分区 --> 可扩展性 数据复制 --> 容错和数据局部性 HDFS 的两个关键组件: NameNode 用于元数据,通常每个集群一个。 名称节点 坐标操作 跟踪文件名、在目录中的位置等。 DataNode上的内容映射 DataNode