本文采用的是kafka0.7.2,安装好kafka后在kafka的contrib目录下有关于kafka与hadoop的一系列文件,我们可以使用hadoop-consumer目录下的脚本及配置文件将kafka中某topic的信息发送到HDFS中。
1.修改test目录下的test.properties的配置文件。
kafka.etl.topic:topic的名称
hdfs.default.classpath.dir:hdfs的类路径
input:HDFS的输入路径
output:HDFS的输出路径
2.生成topic的offset
执行命令./run-class.sh kafka.etl.impl.DataGenerator test/test.properties,会在HDFS的/tmp/kafka/data目录下生成.dat的文件
3.复制kakfa的相关jar到HDFS的类路径
执行命令./copy-jars.sh /usr/lib/hadoop/lib
4.运行hadoop job
./run-class.sh kafka.etl.impl.SimpleKafkaETLJob test/test.properties,该job会将kafka中test-topic该话题的消息写入HDFS中。
在HDFS的/tmp/kafka/output目录中我们会看到写入的消息。
相关文章
- 利用Flume采集IIS日志到HDFS
- 【HDFS API编程】图解客户端写文件到HDFS的流程
- 在HDFS中删除某个文件/目录时是否有可能收到通知?
- 上传文件到hdfs注意事项
- Swift - 发送消息(文本,图片,文件等)给微信好友或分享到朋友圈
- 大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清?
- Hadoop Shell命令(基于linux操作系统上传下载文件到hdfs文件系统基本命令学习)
- Golang之发送消息至kafka
- kafka消费者实时消费数据存入hdfs java scalca 代码
- Flink同步Kafka数据到ClickHouse分布式表