1 动机
探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。
spark生态常见三种数据源: 文件格式与文件系统,spark SQL中的结构化数据源, 数据库与键值存储
2文件格式
a.0....逗号分隔值CSV与制表符分隔值
a.文本文件 ------非结构化
b.JSON -----半结构化,下面几个是结构化
c.SequenceFile------是由没有相对关系结构的键值对文件组成的常用的Hadoop格式。
d.对象文件----------它允许存储只包含值得RDD,是使用java序列化写出的
e. hadoop输入输出格式
f.文件压缩----------gzip,lzo,bzip2,zlib,Snappy
3 文件系统
a.本地文件系统
b.Amazon S3
c.HDFS
4spark SQL中结构化数据
a.Apache Hive
b.JSON
5 数据库
a.java数据库连接
b.Cassandra
c.HBase
d.Elasticsearch