文件名称:Spark介绍.docx
文件大小:748KB
文件格式:DOCX
更新时间:2022-11-15 11:28:01
Spark
spark是专为大规模数据处理而设计的快速通用的计算引擎。它是在内存中计算,可以进行迭代计算(是指将计算结果代回原变量进行重复计算,直到满足特定数值条件为止)。mapreduce是基于硬盘计算,所以spark计算速度比mapreduce快好多,mapreduce不是流式计算。Spark针对持续性数据流的抽象称为DStream,一个DStream是一个微批处理的RDD