文件名称:parquet-index:Parquet表的Spark SQL索引
文件大小:136KB
文件格式:ZIP
更新时间:2024-02-18 11:13:44
statistics sql spark index parquet
实木复合地板指数 Parquet表的Spark SQL索引 总览 包允许为Parquet表创建索引(作为和),以减少在Spark SQL中用于几乎交互式分析或点查询时的查询延迟。 它设计用于表不经常更改但经常用于查询的用例,例如使用Thrift JDBC / ODBC服务器。 建立索引后,架构和文件列表(包括分区)将自动从索引元存储中解析,而不是每次创建数据源时都推断架构。 项目是实验性的。 欢迎任何反馈,问题或PR。 文档反映了master分支中的更改,有关特定版本的文档,请选择相应的版本标签或分支。 元商店 Metastore保留有关所有索引表的信息,并且可以在本地文件系统或HDFS(请参阅下面的可用选项)上创建,并支持索引的内存中高速缓存(第一次扫描后)。 每个创建的索引都包括不同的统计信息(最小/最大/空),以及可选的是,对索引列的列过滤器统计信息(例如,bloom过滤器)。 支持的谓词 当提供的谓词包含一个或多个带索引列的过滤器时,将自动启用索引进行扫描。 如果没有在索引列上提供过滤器,则使用常规扫描,但具有已解决的分区和架构的优势。 分区修剪后会应用最小值/最大值统计信
【文件预览】:
parquet-index-master
----.travis.yml(725B)
----bin()
--------setup-spark(2KB)
--------run-python-tests(953B)
--------clean(268B)
----version.sbt(41B)
----python()
--------test()
--------src()
--------run_tests.py(4KB)
----LICENSE(11KB)
----src()
--------test()
--------main()
----build.sbt(4KB)
----.gitignore(949B)
----scalastyle-config.xml(7KB)
----project()
--------plugins.sbt(1KB)
--------build.properties(19B)
----README.md(13KB)