文件名称:mongo-hive:将您的 MongoDB 集合加载到 Hive 中。 支持复杂的JSON结构
文件大小:41KB
文件格式:ZIP
更新时间:2024-06-28 00:38:38
Python
Mongo - Hive 连接器 将 MongoDB 集合加载到 Hive 的超级简单方法。 该代码通过对每个 MongoDB 记录进行深入检查并导出每个字段的数据类型来自动创建 Hive 模式。 支持基本数据类型、嵌套对象、原始数据类型数组和对象数组。 嵌套字段被展平成列。 数组通常被拆分为不同的(子)Hive 表,与根表具有父/子关系。 这个怎么运作 连接到您的 MongoDB 并将指定的集合提取到本地文件中,然后将其复制到 HDFS。 MapReduce 生成模式(将副本保存回 MongoDB 以获取信息)。 MapReduce 转换数据,将数组分解为 HDFS 输出文件夹中的多个文件。 使用在步骤 2 中生成的架构创建 Hive 表。 使用步骤 3 中生成的 HDFS 文件加载 Hive 表。 先决条件 您有一个 Hadoop 集群。 您可以通过 SSH 连接到主节点
【文件预览】:
mongo-hive-master
----json()
--------generate-schema-reducer.py(4KB)
--------generate-schema-mapper.py(3KB)
--------transform-data-mapper.py(15KB)
----dw_util.py(11KB)
----LICENSE(18KB)
----onefold.py(19KB)
----.gitignore(767B)
----java()
--------HiveSerdes()
--------MapReduce()
----README.md(16KB)
----onefold_util.py(2KB)