sparkstreaming的执行流程

时间:2024-04-05 11:48:51

sparkstreaming是准实时处理框架(微批处理:可以设置时间间隔)

sparkstreaming的执行流程


通过上图总结:

    receiver task 是 7*24h一直在执行,一直接收数据,将接受到的数据保存到batch(该一批次的时间间隔bacth interval是自己写的,本例中是5s即batch interval=5s)中,那么就把接收到的数据每隔5s切割刀一个batch中,因为batch是没有分布式计算特性的,但rdd有,所以把batch中的数据封装到RDD中,又把RDD封装到DStream中进行计算。sparkstreaming底层操作就是DStream。