javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

时间:2024-07-07 03:51:58
【文件属性】:

文件名称:javasql笔试题-spark-hive-udf:展示如何在ApacheSpark中使用HiveUDF的示例项目

文件大小:1.01MB

文件格式:ZIP

更新时间:2024-07-07 03:51:58

系统开源

java sql笔试题示例 Hive UDF 项目 介绍 该项目只是一个示例,包含多个 (UDF),用于 Apache Spark。 它旨在演示如何在 Scala 或 Java 中构建 Hive UDF 并在 . 为什么要使用 Hive UDF? Hive UDF 的一个特别好的用途是与 Python 和 DataFrames 一起使用。 用 Python 编写的原生 Spark UDF 很慢,因为它们必须在 Python 进程中执行,而不是基于 JVM 的 Spark Executor。 要让 Spark Executor 运行 Python UDF,它必须: 将数据从分区发送到与 Executor 关联的 Python 进程,以及 等待 Python 进程反序列化数据,在其上运行 UDF,重新序列化数据,然后将其发回。 相比之下,一个 Hive UDF,无论是用 Scala 还是 Java 编写的,都可以在 Executor JVM 中执行,即使 DataFrame 逻辑是在 Python 中。 实际上只有一个缺点:必须通过 SQL 调用 Hive UDF。 您不能将其作为来自 D


【文件预览】:
spark-hive-udf-master
----project()
--------build.properties(132B)
--------plugins.sbt(117B)
----src()
--------test()
--------main()
----build.sbt(670B)
----LICENSE.md(2KB)
----README.md(7KB)
----libexec()
--------activator-launch-1.3.9.jar(1.15MB)
----.editorconfig(330B)
----.gitignore(124B)
----bin()
--------activator(9KB)
----CHANGELOG.md(201B)

网友评论