戴金权:基于Spark软件栈的下一代大数据分析

时间:2018-11-19 11:35:57
【文件属性】:

文件名称:戴金权:基于Spark软件栈的下一代大数据分析

文件大小:879KB

文件格式:PDF

更新时间:2018-11-19 11:35:57

大数据,开源

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。


网友评论