文件名称:orc:Apache ORC-用于Hadoop工作负载的最小,最快的列式存储
文件大小:15.63MB
文件格式:ZIP
更新时间:2024-02-24 06:41:40
java library database big-data hadoop
ORC是一种专为Hadoop工作负载设计的自描述类型感知列式文件格式。 它针对大型流读取进行了优化,但具有集成支持,可快速查找所需的行。 以列格式存储数据使阅读器仅可以读取,解压缩和处理当前查询所需的值。 由于ORC文件可识别类型,因此编写器为该类型选择最合适的编码,并在写入文件时建立内部索引。 谓词下推使用这些索引来确定特定查询需要读取文件中的哪些条带,并且行索引可以将搜索范围缩小到特定的10,000行集合。 ORC支持Hive中的完整类型集,包括复杂类型:结构,列表,映射和联合。 ORC文件库 该项目同时包括Java库和C ++库,用于读写优化行列(ORC)文件格式。 C ++和Java库彼此完全独立,并且将各自读取ORC文件的所有版本。 但是C ++库仅写入ORC文件的原始(Hive 0.11)版本,并且将来会进行扩展。 发布: 最新: Maven Central: 下载: 当前的构建状态: 主分支 错误跟踪: 子目录是: C ++-C ++读写器 cmake_modules-cmake模块 docker-用于在各种Linux上构建和测试的docker脚本 示例-用