hadoop-python-hive-tutorial:将 Hadoop 与 Python 和 Hive 结合使用的教程

时间:2024-06-23 14:13:14
【文件属性】:

文件名称:hadoop-python-hive-tutorial:将 Hadoop 与 Python 和 Hive 结合使用的教程

文件大小:14KB

文件格式:ZIP

更新时间:2024-06-23 14:13:14

Hadoop MapReduce 与 Python 和 Hive 在 python 中为 Hadoop 编写 MapReduce 程序,并使用 Hive 使用类似 SQL 的查询执行 MapReduce 的教程。 这使用带有 python 的 Hadoop Streaming API 来教授使用 MapReduce 框架的基础知识。 主要思想和结构基于。 然而,该教程已经过时,并且在设置和运行 Hadoop 时,有相当多的步骤不再起作用。 这是一个更新和扩展的教程,结合了 Hive 教程。 您可以在 python 中编写 map 和 reduce 函数,并将它们与 Hadoop 的流 API 一起使用,如下所示。 这为您提供了很大的灵活性。 然而,在许多情况下,您尝试从分布在集群上的数据中获取的信息可以用 SQL 查询来表达。 Hive 是一个程序,它接受这样的 SQL 查询,自动


【文件预览】:
hadoop-python-hive-tutorial-master
----.gitignore(675B)
----mapreduce.md(5KB)
----README.md(1KB)
----setup.md(5KB)
----LICENSE(1KB)
----hive.md(24KB)

网友评论