「分布式技术专题」常用的 SQL 算子介绍

SQL 查询的执行过程，就像工厂的加工流水线，层层递进，最终得到想要的结果，而SQL算子就好比其中的一道道工序。

本篇简要介绍一下 SQL 执行计划中，一些常见算子的含义和逻辑。

1. indexscan 索引扫描

当数据表中创建了索引，并使用索引字段进行查询时，会进行索引扫描。

2. tablescan 顺序表扫描

tablescan 负责从磁盘中以连续块的形式从磁盘中读取数据页。
一般在 SQL 查询中，有几张表就要有几个 tablescan 操作。在分布式数据库中，同一张表的扫描，还会被分配到多个结点使用分布式的方式执行。

3. project 投影

投影操作，是从表中根据查询字段选择相关的列。

SELECT
	cc_name,
	cc_class 
FROM
	call_center 
WHERE
	cc_class = 'large' 
LIMIT 10;

在这个查询中，tablescan 操作会将 call_center 表的数据做全字段读取，project 操作负责筛选出 cc_name, cc_class 这两个列。

4. filter 过滤

filter 会根据 where 条件中的筛选条件，筛选出符合的记录。其中过滤条件也叫谓词逻辑。
在两表连接时，谓词逻辑可以在 join 前执行，也可以在 join 后执行。因为 join 操作是做笛卡尔积，如果在 join 后执行谓词逻辑，将大大增加计算的基数，所以一般的数据库优化执行器都会将谓词下推，让谓词逻辑在 join 操作前完成。
上述的 project 和 filter 算子可以在数据表的列和行两个维度对数据进行限定，大大缩小处理的数据量，降低资源消耗，是 SQL 优化时常用的方法。

5. exchange

在分布式数据库中，tablescan 等操作是分布式进行的，而各个分支结点将结果汇总的过程就是 exchange 操作。
exchange 操作还可以细分为 LocalExchange 和 RemoteExchange。LocalExchange 即本地数据结果汇总，没有网络 IO;而 RemoteExchange 是数据从不同的数据结点汇总到某一结点，需要网络传输。

6. join 连接

连接的本质是两个表做笛卡尔积操作。

SELECT
        ctr_total_return 
FROM
        customer_total_return_t1 ctr1 
WHERE
        ctr1.ctr_total_return > (
        SELECT
                avg( ctr_total_return ) 
FROM
        customer_total_return_t2 ctr2
WHERE
        ctr1.ctr_store_sk = ctr2.ctr_store_sk );

在这个SQl中，先会对表 customer_total_return_t2 进行读取，并以 ctr_store_sk 为 key ，统计 avg(ctr_total_return) 然后 customer_total_return_t1 和 customer_total_return_t2 会做笛卡尔积，再进行条件过滤。

7. aggregation 聚合

对数据做分组聚合，统计分析。
一般会先在每个结点先做一次分组统计，exchange 数据汇合之后再做一次合并统计。

SELECT
      avg( ctr_total_return )
FROM
      customer_total_return_test
WHERE
      ctr_store_sk = 10;

上面这个查询中只有一张表，由于是分布式执行，表虽然只扫描一次，但是会在多个数据结点进行扫描，所以 avg 函数会在每个结点先执行一次，exchange 汇总完后，会再进行一次 avg 操作。

8. values

SELECT
    1 + 1,  
DATE '2001-08-22',  
ARRAY [1, 2, 3];

有时 SQL 中数据不是从表中查询出来的，而是给定的一个数字、字符或数组，这时 values 操作会将这些标识符转化成具体的数值。

9. scalar 标量

根据策略，给定一个结果值。

SELECT CASE
                WHEN(
                        SELECT count(*)
                        FROM store_sales
                        WHERE ss_quantity BETWEEN 81 AND 100
                      ) > 18213
                THEN 1
                ELSE 2
        END AS bucket5
FROM reason
WHERE r_reason_sk = 1;

如 case when 中根据判断条件计算结果时会使用。

10. markDistinct

SELECT
        avg( ss_sales_price ) AS B1_LP,
        count( DISTINCT ss_list_price ) AS B1_CNTD 
FROM
        store_sales;

distinct操作时，对数据的类别进行标识。

11. window 窗口

窗口函数是应用于窗口和分区的函数，可分为三类：排名函数，分析函数和聚合函数。

SELECT
        cs_call_center_sk, 
        sum(cs_ext_sales_price) OVER(
        PARTITION BY cs_sold_date_sk ) 
        AS revenueratio
FROM catalog_sales
LIMIT 100;

窗口函数计算时，会根据 partition by 后的字段进行分区，然后进行统计分析或排名。

12. sort 排序

SELECT
        ss.ca_county,
        ss.d_year
FROM
        ss, sc
WHERE
        ss.ca_county = sc.ca_county
ORDER BY
        ss.d_year;

排序操作。

13. topN

即 limit 操作，获取限定的记录条数。

14. output

向客户端输出结果。

以上为常用的SQL算子介绍， 「分布式技术专题」是国产数据库 Hubble 团队精心整编，专题会持续更新，欢迎大家保持关注。

秒客网