文件名称:戴金权:基于Spark软件栈的下一代大数据分析
文件大小:879KB
文件格式:PDF
更新时间:2018-11-19 11:35:57
大数据,开源
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。