bucket表：数仓存算分离中CU与DN解绑的关键

摘要：Bucket存储是数据共享中重要的一环，当前阶段，bucket存储可以将列存中的CU数据和DN节点解绑。

本文分享自华为云社区《存算分离之bucket表——【玩转PB级数仓GaussDB(DWS)】》，作者：yd_278301229 。

在云原生环境，用户可以*配置cup型号、内存、磁盘、带宽等资源，需要在计算和IO之间做平衡；如果计算和存储耦合，扩缩容时数据要在节点之间移动，同时还要对外提供计算，性能会大受影响。如果存算分离，计算出和存储层可以独立增加节点互不干扰，这其中一个关键点是做到数据共享。Bucket存储是数据共享中重要的一环，当前阶段，bucket存储可以将列存中的CU数据和DN节点解绑。

一、bucket表在存算分离中的作用

通过存算分离，把DWS完全的shared nothing架构改造成计算层shared nothing + 存储层shared storage。使用OBS替换EVS，OBS对append only存储友好，与列存CU存储天然适配；由于存算分离数据共享，对写的并发性能不高，在OLAP场景下读多写少更有优势，这一点也是和列存相匹配的，目前主要实现的是列存的存算分。
在当前。bucket表在存储层共享中，为了将CU数据和DN节点解绑，主要做了两件关键的事，CUID和FILEID全局统一管理。我们来看看为什么这两件事能把CU和DN节点解绑以及带来的好处。
为了解释这个问题，先看看目前shared nothing架构中，建库和存储数据的过程。

二，当建立一张列存表并存储数据时，我们在做什么

建一张列存表时，主要要做以下两步：

1，系统表中建立表的数据。
2，为列存建立CUDesc表、Delta表等辅助表

当存储数据时，主要做以下几步：

1，根据数据分布方式，决定数据存储到哪个DN。
2，把列存存储时需要的辅助信息填入CUDesc表、Delta表等辅助表。
3，把存储用户数据的CU存储本地DN。

在上面的过程中，由于DN之间互不干扰，那就需要各自管理自己的存储的表的信息。

CUDesc表的一大功能是CU数据的“指路牌”，就像指针一样，指出CU数据存储的位置。靠的是CUID对应的CUPoint（偏移量），加上存储在DN的文件位置就能标注出具体的CU数据，而文件名就是系统表中的relfilenode。

秒客网

bucket表：数仓存算分离中CU与DN解绑的关键

一、bucket表在存算分离中的作用

二，当建立一张列存表并存储数据时，我们在做什么

相关文章