文件名称:java8集合源码分析-SparkTutorial:Spark教程
文件大小:3KB
文件格式:ZIP
更新时间:2024-06-24 11:46:21
系统开源
java8 集合源码分析 浅尝开源集群运算框架Apache Spark 前言 Apache Spark是一个开源集群运算框架,我们将用一个简单的例子了解它。这里,我们在Arch Linux操作系统下进行实验。 Apache Spark简介(摘自) Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。 相对于HadoopMapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。 Spark在内存内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。 Spark允许用户将数据加载至集群内存,并多次对其进行查询,非常适合用于机器学习算法。 问题 一个简单的例子,有一些小朋友,他们想要吃水果,我们用一张表列出小朋友们的需求。 名字 水果 Sam apple,pear Amy apple Jim strawberry Jackie watermelon Harry strawberry Lily w
【文件预览】:
SparkTutorial-master
----README.md(4KB)