spark快速大数据分析之数据读取与保存

1 动机

探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。

spark生态常见三种数据源：文件格式与文件系统，spark SQL中的结构化数据源，数据库与键值存储

2文件格式

a.0....逗号分隔值CSV与制表符分隔值

a.文本文件 ------非结构化

b.JSON -----半结构化，下面几个是结构化

c.SequenceFile------是由没有相对关系结构的键值对文件组成的常用的Hadoop格式。

d.对象文件----------它允许存储只包含值得RDD，是使用java序列化写出的

e. hadoop输入输出格式

f.文件压缩----------gzip,lzo,bzip2,zlib,Snappy

3 文件系统

a.本地文件系统

b.Amazon S3

c.HDFS

4spark SQL中结构化数据

a.Apache Hive

b.JSON

5 数据库

a.java数据库连接

b.Cassandra

c.HBase

d.Elasticsearch

秒客网