粗读Apache Paimon 的基本概念及其组成结构-一、Paimon的基本概念

时间:2024-11-18 12:41:45

(一)快照

想象一下,你正在翻看一本相册,每一张照片都记录了一个特定的时刻。在Paimon中,快照就是数据表的“照片”,它记录了表在某一特定时间的状态。通过快照,你可以查看表的最新数据,或者像穿越时空一样,回到过去,查看表的旧版本。

(二)分区

你是否曾在整理文件时,将它们分门别类地放入不同的文件夹?Paimon中的分区概念与此类似。它允许我们根据某些特定的列值(比如日期、城市或部门)将数据表分割成多个部分,这样我们就可以更高效地管理和查询数据。

(三)分桶

想象一下,你有一个大箱子,里面装满了各种颜色的球。为了更容易找到特定颜色的球,你决定将它们分成几个小盒子。在Paimon中,分桶就是将数据表或分区进一步细分为更小的部分,以便更有效地组织和查询数据。每个桶的大小建议控制在1GB左右,以避免过多的小文件影响读取性能。

(四)一致性保证

Paimon中,写入数据的过程就像是在进行一场接力赛。为了保证交接棒不掉落,Paimon使用了一种叫做两阶段提交的协议。这样,即使多个写入操作同时进行,只要它们不影响到同一个桶,它们的操作就能像接力赛一样有序进行;如果影响到同一个桶,则会保证至少有一个快照级别的隔离。