niuxinzan.github.io:数据帧,数据集,RDD的Spark演示

时间:2024-05-18 09:00:57
【文件属性】:

文件名称:niuxinzan.github.io:数据帧,数据集,RDD的Spark演示

文件大小:51KB

文件格式:ZIP

更新时间:2024-05-18 09:00:57

Java

sparkDemo 最近想升级spark,研究了下新版spark的功能Dataset 和Dataframe。 Dataset 是分布式数据集, dataset的API是在spark 1.6版本中添加地,它的初衷是为了提升RDD(强类型限制, 可以使用lambda函数)优化SQL执行引擎。Dataset是JVM中的一个对象,可以作用于其它操作(map,faltMap, filter等)。Dataset API提供Scala /Java 语言支持。 Python 暂不支持Dataset API, 但由于python的动态特性,已经支持 部分dataset API (例如, 用row.columnName来读取行数据的某列),这个例子和R语言的类似。 Dataframe 与dataset 基本类似 ,只是多了列名这些信息。 概念上,它类似于关系数据的表,及R/python 中的dataframe


【文件预览】:
niuxinzan.github.io-master
----pom.xml(2KB)
----target()
--------test-classes()
--------sparkStudy-0.0.1-SNAPSHOT.jar(11KB)
--------classes()
--------maven-archiver()
--------surefire-reports()
----CNAME(14B)
----index.html(110B)
----assembly.xml(1KB)
----.settings()
--------org.eclipse.m2e.core.prefs(86B)
--------org.eclipse.core.resources.prefs(115B)
--------org.eclipse.jdt.core.prefs(238B)
----src()
--------test()
--------main()
----.project(539B)
----.classpath(996B)
----README.md(3KB)
----readme.txt(1KB)

网友评论