写数据的过程-Hadoop,Hive,Hbase等框架详解

时间:2024-05-16 04:04:10
【文件属性】:

文件名称:写数据的过程-Hadoop,Hive,Hbase等框架详解

文件大小:3.06MB

文件格式:PPT

更新时间:2024-05-16 04:04:10

Hadoop Hive Spark Hbase

写数据的过程 FileSystem fs = FileSystem.get(conf); FSDataOutputStream out = fs.create(new Path(uri)); Configuration conf = new Configuration(); import org.apache.hadoop.fs.FileSystem RPC远程调用名称节点 在文件系统的命名空间中新建一个文件 名称节点会执行一些检查(文件是否存在,客户端权限) FSDataOutputStream封装了DFSOutputStream 数据被分成一个个分包 分包被放入DFSOutputStream对象的内部队列 DFSOutputStream向名称节点申请 保存数据块的若干数据节点 这些数据节点形成一个数据流管道 队列中的分包最后被打包成数据包 发往数据流管道中的第一个数据节点 第一个数据节点将数据包发送到第二个节点 依此类推,形成“流水线复制” 为了保证节点数据准确,接收到数据的数据节点要向发送者发送“确认包” 确认包沿着数据流管道逆流而上,经过各个节点最终到达客户端 客户端收到应答时,它将对应的分包从内部队列移除 DFSOutputStream调用 ClientProtocal.complete()方法 通知名称节点关闭文件


网友评论