Checkpoint的功能-spark介绍 spark入门

时间:2024-05-16 04:02:59
【文件属性】:

文件名称:Checkpoint的功能-spark介绍 spark入门

文件大小:2.37MB

文件格式:PPT

更新时间:2024-05-16 04:02:59

spark学习 spark介绍 大数据ppt spark ppt

Checkpoint的功能 所以,针对上述的复杂Spark应用的问题(没有容错机制的问题)。就可以使用checkponit功能。 checkpoint功能是什么意思?checkpoint就是说,对于一个复杂的RDD ,我们如果担心中间某些关键的,在后面会反复几次使用的RDD,可能会因为节点的故障,导致持久化数据的丢失,那么就可以针对该RDD格外启动checkpoint机制,实现容错和高可用。 checkpoint,就是说,首先呢,要调用SparkContext的setCheckpointDir()方法,设置一个容错的文件系统的目录,比如说HDFS;然后,对RDD调用调用checkpoint()方法。之后,在RDD所处的job运行结束之后,会启动一个单独的job,来将checkpoint过的RDD的数据写入之前设置的文件系统,进行高可用、容错的类持久化操作。 那么此时,即使在后面使用RDD时,它的持久化的数据,不小心丢失了,但是还是可以从它的checkpoint文件中直接读取其数据,而不需要重新计算。(CacheManager)


网友评论