文件名称:java连接sqoop源码-hadoopdev:开发者
文件大小:26KB
文件格式:ZIP
更新时间:2024-07-05 10:48:12
系统开源
java连接sqoop源码Hadoop 开发人员示例 这是 Hadoop 开发人员 gridU 课程的最后一项任务。 1.部署CDH集群 部署快速入门 ClouderaVM。 检查您是否安装了所有这些服务: 高密度文件系统 蜂巢 水槽 Sqoop 纱 动物园管理员 2. 实现随机事件生产者 使用 Java、Scala 或 Python 实现事件生产者。 每个事件消息描述单个产品购买。 生产者应该连接到 Flume 套接字(见下文)并以 CSV 格式发送事件,每行一个事件。 产品购买事件属性: 财产 分布类型要求 数据要求 产品名称 制服 产品价格 高斯 购买日期 时间 - 高斯日期 - 统一 1 周范围 产品分类 制服 客户端IP地址 制服 IPv4 随机地址 笔记 Hive CSV SerDe 使用 OpenCSV 库,因此您也可以尝试一下。 3.配置Flume使用NetCat Source消费事件 Flume 应该把事件放到 HDFS 目录events/${year}/${month}/${day} 尝试将 3000 多个事件分几批放入 HDFS 4.创建外部Hive表处理数据 外
【文件预览】:
hadoopdev-master
----conf()
--------flume.properties(951B)
--------bintray--sbt-rpm.repo(160B)
--------hive-site.xml(3KB)
--------sqoop.param(99B)
--------application.conf(699B)
----project()
--------build.properties(19B)
----spark-dataframes.sh(209B)
----src()
--------test()
--------main()
----event-source.sh(162B)
----query()
--------add_event_partition.q(235B)
--------import_country_locations.q(483B)
--------init_metastore.sql(118B)
--------init_export_db.sql(521B)
--------top10products.q(320B)
--------top10categories.q(319B)
--------create_event_table.q(645B)
--------add_match_network_udf.q(235B)
--------import_country_blocks_ipv4.q(476B)
--------top10countries.q(804B)
----build.sbt(494B)
----install-postgres.sh(280B)
----README.md(3KB)
----start-hdfs.sh(86B)
----env.sh(21B)
----flume-loader.sh(248B)
----upload-udf.sh(588B)
----spark-rdd.sh(279B)
----init-metastore.sh(318B)
----sqoop-export.sh(274B)
----install-sbt.sh(150B)
----download-cloudera.sh(604B)