10、Flink动态表之 DataStream 上的关系查询详解

时间:2025-04-10 17:14:57
a)DataStream 上的关系查询

下表比较了传统的关系代数和流处理与输入数据、执行和输出结果的关系。

关系代数 / SQL 流处理
关系(或表)是有界(多)元组集合。 流是一个无限元组序列。
对批数据(例如关系数据库中的表)执行的查询可以访问完整的输入数据。 流式查询在启动时不能访问所有数据,必须“等待”数据流入。
批处理查询在产生固定大小的结果后终止。 流查询不断地根据接收到的记录更新其结果,始终不会结束。

尽管存在这些差异,但是使用关系查询和 SQL 处理流并不是不可能的,高级关系数据库系统提供了一个称为 物化视图(Materialized Views) 的特性。

物化视图被定义为一条 SQL 查询,就像常规的虚拟视图一样;与虚拟视图相反,物化视图缓存查询的结果,因此在访问视图时不需要对查询进行计算,缓存的一个常见难题是防止缓存为过期的结果提供服务;当其定义查询的基表被修改时,物化视图将过期,即时视图维护(Eager View Maintenance) 是一种一旦更新了物化视图的基表就立即更新视图的技术

考虑以下问题,那么即时视图维护和流上的SQL查询之间的联系就会变得显而易见:

  • 数据库表是 INSERTUPDATEDELETE DML 语句的 stream 的结果,通常称为 changelog stream
  • 物化视图被定义为一条 SQL 查询,为了更新视图,查询不断地处理视图的基本关系的 changelog 流。
  • 物化视图是流式 SQL 查询的结果。