parquet-index：Parquet表的Spark SQL索引下载

【文件属性】：

文件名称：parquet-index：Parquet表的Spark SQL索引

文件大小：136KB

文件格式：ZIP

更新时间：2024-02-18 11:13:44

statistics sql spark index parquet

实木复合地板指数 Parquet表的Spark SQL索引总览包允许为Parquet表创建索引（作为和），以减少在Spark SQL中用于几乎交互式分析或点查询时的查询延迟。它设计用于表不经常更改但经常用于查询的用例，例如使用Thrift JDBC / ODBC服务器。建立索引后，架构和文件列表（包括分区）将自动从索引元存储中解析，而不是每次创建数据源时都推断架构。项目是实验性的。欢迎任何反馈，问题或PR。文档反映了master分支中的更改，有关特定版本的文档，请选择相应的版本标签或分支。元商店 Metastore保留有关所有索引表的信息，并且可以在本地文件系统或HDFS（请参阅下面的可用选项）上创建，并支持索引的内存中高速缓存（第一次扫描后）。每个创建的索引都包括不同的统计信息（最小/最大/空），以及可选的是，对索引列的列过滤器统计信息（例如，bloom过滤器）。支持的谓词当提供的谓词包含一个或多个带索引列的过滤器时，将自动启用索引进行扫描。如果没有在索引列上提供过滤器，则使用常规扫描，但具有已解决的分区和架构的优势。分区修剪后会应用最小值/最大值统计信

立即下载

【文件预览】：
parquet-index-master
----.travis.yml(725B)
----bin()
--------setup-spark(2KB)
--------run-python-tests(953B)
--------clean(268B)
----version.sbt(41B)
----python()
--------test()
--------src()
--------run_tests.py(4KB)
----LICENSE(11KB)
----src()
--------test()
--------main()
----build.sbt(4KB)
----.gitignore(949B)
----scalastyle-config.xml(7KB)
----project()
--------plugins.sbt(1KB)
--------build.properties(19B)
----README.md(13KB)

秒客网

parquet-index：Parquet表的Spark SQL索引

网友评论

相关文章