spark快速大数据分析之数据读取与保存

时间:2023-02-01 08:19:41

1 动机

  探索spark对不同地方或不同的数据的读取和保存方法,通过本节学习可以掌握将数据读取到spark,并将计算结果以你希望的方式存储起来。


spark生态常见三种数据源: 文件格式与文件系统,spark SQL中的结构化数据源, 数据库与键值存储

2文件格式

      a.0....逗号分隔值CSV与制表符分隔值

     a.文本文件 ------非结构化

     b.JSON  -----半结构化,下面几个是结构化

    

     c.SequenceFile------是由没有相对关系结构的键值对文件组成的常用的Hadoop格式。

     d.对象文件----------它允许存储只包含值得RDD,是使用java序列化写出的

      e. hadoop输入输出格式

      f.文件压缩----------gzip,lzo,bzip2,zlib,Snappy


3 文件系统

      a.本地文件系统

      b.Amazon S3

      c.HDFS

4spark SQL中结构化数据

     a.Apache Hive

     b.JSON

5 数据库

   a.java数据库连接

   b.Cassandra

   c.HBase

   d.Elasticsearch