文件名称:java连接sqoop源码-Merlin:标准化的大数据ETL框架
文件大小:1.98MB
文件格式:ZIP
更新时间:2024-07-05 10:46:42
系统开源
java连接sqoop源码目的 Merlin 是一个 Python 框架,用于简化 Hadoop 作业工作流的开发和管理。 该框架与大数据技术堆栈集成,支持 Apache MapReduce、Streaming map-reduce、Apache Pig、Apache Hive、Apache Sqoop、Spark 的 Hadoop 作业,并提供用于开发提取-转换-加载 (ETL) 流程的常用功能. 特征 配置和启动使用 Java MapReduce、Streaming、Hive、Pig、Spark、Flume、Kafka 的应用程序。 配置和运行 Sqoop 作业以在 Apache Hadoop 和结构化数据存储之间传输批量数据 脚本 HDFS/本地文件系统/FTP 操作 安装说明 需要 Python 2.7 或更高版本如果你有 Python 2.6 或更低版本,你可以下载 Python 2.7 并使用“python2.7”而不是“python”运行所有命令你也可以在 virtualenv 中安装 Merlin 以避免对 python 版本的误解 virtualenv ve -p p