spark-sql中的DataFrame文件格式转储示例

时间:2021-05-28 20:52:14
    SparkConf sparkConf = new SparkConf()
//                .setMaster("local")
                .setAppName("DataFrameTest1");

        JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf);


        SQLContext sqlContext = new SQLContext(javaSparkContext);

        DataFrame df = sqlContext.read().format("json").load("hdfs://sp1:10000/spark_data/year=2018/month=3/stud.json");//注意这个json文件必须在一行上
        df.show();

        //json格式文件转储为parquet格式,并在查询时自带hive分区信息:
        df.select("name").write().format("parquet").save("hdfs://sp1:10000/spark_data/year=2018/month=3/stud_1.parquet");//数据过滤后以parquet格式写入磁盘