Flink四大基石分别是:Time(时间)、Window(窗口)、State(状态)、Checkpoint(检查点)。
下面我们对每个部分,分别进行介绍。
(一)State
什么是状态?
流计算不断有数据流入,会基于历史数据和当前数据做计算,那么各个算子之中计算后的数据就是状态。
- Flink 计算引擎,自身就是基于状态计算框架,默认情况下程序自己管理状态
- 提供一致性的语义,使得用户在编程时能够更轻松、更容易地去管理状态
- 提供一套非常简单明了的State API,包括ValueState、ListState、MapState,BroadcastState
(二)Checkpoint
什么是 Checkpoint(检查点)?
一言以蔽之:用于 Flink 的故障恢复。
Checkpoint 会定期生成快照(Snapshot),对当前 State 进行备份。若Flink程序崩溃,重新运行程序时可以有选择地从这些快照进行恢复。Checkpoint是Flink可靠性的基石
原理:
使用异步屏障快照 Asynchronous Barrier Snapshotting(简称 ABS)算法(依赖于Chandy-Lamport算法的变种)实现分布式快照。
与之相关的,容易混淆的是 **savepoint。**Savepoint 你可以把它当做在某个时间点程序状态全局镜像,以后程序在进行升级,或者修改并发度等情况,还能从保存的状态位继续启动恢复。
checkpoint | savepoint | |
---|---|---|
概念 | 自动容错机制 | 程序全局状态镜像 |
目的 | 程序自动容错,快速恢复。 | 程序修改后继续从状态恢复,程序升级等。 |
用户交互 | Flink 系统行为。 | 用户触发。 |
状态文件保留策略 | 默认程序删除,可以设置 CheckpointConfig 中的参数进行保留。 | 会一直保存,除非用户删除。 |
(三)Window
流计算一种典型场景是计算一段时间内的统计值,如最近 5min、最近 1h 的点击量。
想完成这个操作,就需要划定一个时间段,也就是开窗,基于这个时间窗口上的数据做计算。
根据窗口数据划分的不同,目前 Flink 支持如下 3 种:
- 滚动窗口,窗口数据有固定的大小,窗口中的数据不会叠加;
- 滑动窗口,窗口数据有固定的大小,并且有生成间隔;
- 会话窗口,窗口数据没有固定的大小,根据用户传入的参数进行划分,窗口数据无叠加。
(四)Time
要进行窗口计算,首先要明确基于的是什么时间。
Flink 中一共提供了三类时间:
- 事件时间(Event Time),即事件实际发生的时间,这个时间一般由数据生产方自身携带;
- 摄入时间(Ingestion Time),事件进入流处理框架的时间;
- 处理时间(Processing Time),事件被处理的时间。
Flink还实现了 Watermark 的机制,能够支持基于事件时间的处理,能够容忍迟到/乱序的数据。这个我们后面篇章再展开讲。