文件名称:木地板元数据浏览器
文件大小:31KB
文件格式:ZIP
更新时间:2024-03-19 21:03:41
metadata spark parquet parquet-tools Scala
木地板元数据浏览器 用于Parquet元数据资源管理器的Spark SQL数据源,它是parquet-cli / parquet-tools的更简单替代方案。 特征: 使用Spark SQL分析Parquet元数据,例如行组大小,数据页标记,编码等。 将Parquet表中的所有文件上的元数据收集为DataFrame。 收集Parquet或任何基于文件的源(如JSON或CSV)的统计信息。 实现为Spark数据源V1,因此代码与Spark的早期版本兼容。 该库可与Apache Spark OSS和Databricks Runtime一起使用。 请注意,默认情况下,存储库是为Spark 3.0构建的,请参阅“构建”部分以针对较旧的Spark版本进行编译。 支持的数据源选项: 姓名 描述 默认 source 指定表的来源: parquet或file (任何其他格式) 从路径
【文件预览】:
parquet-metadata-explorer-master
----project()
--------build.properties(19B)
--------plugins.sbt(156B)
----src()
--------test()
--------main()
----LICENSE(11KB)
----build.sbt(2KB)
----version.sbt(41B)
----README.md(3KB)
----.gitignore(73B)