orc：Apache ORC-用于Hadoop工作负载的最小，最快的列式存储下载

【文件属性】：

文件名称：orc：Apache ORC-用于Hadoop工作负载的最小，最快的列式存储

文件大小：15.63MB

文件格式：ZIP

更新时间：2024-02-24 06:41:40

java library database big-data hadoop

ORC是一种专为Hadoop工作负载设计的自描述类型感知列式文件格式。它针对大型流读取进行了优化，但具有集成支持，可快速查找所需的行。以列格式存储数据使阅读器仅可以读取，解压缩和处理当前查询所需的值。由于ORC文件可识别类型，因此编写器为该类型选择最合适的编码，并在写入文件时建立内部索引。谓词下推使用这些索引来确定特定查询需要读取文件中的哪些条带，并且行索引可以将搜索范围缩小到特定的10,000行集合。 ORC支持Hive中的完整类型集，包括复杂类型：结构，列表，映射和联合。 ORC文件库该项目同时包括Java库和C ++库，用于读写优化行列（ORC）文件格式。 C ++和Java库彼此完全独立，并且将各自读取ORC文件的所有版本。但是C ++库仅写入ORC文件的原始（Hive 0.11）版本，并且将来会进行扩展。发布：最新： Maven Central：下载：当前的构建状态：主分支错误跟踪：子目录是： C ++-C ++读写器 cmake_modules-cmake模块 docker-用于在各种Linux上构建和测试的docker脚本示例-用

立即下载

秒客网

orc：Apache ORC-用于Hadoop工作负载的最小，最快的列式存储

网友评论

相关文章