• pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题

    时间:2022-03-24 22:57:01

    这篇文章主要介绍了pyspark操作hive分区表及.gz.parquet和part-00000文件压缩问题,针对问题整理了spark操作hive表的几种方式,需要的朋友可以参考下

  • scala读取parquet文件

    时间:2022-01-18 14:17:41

    importorg.apache.spark.SparkConfimportorg.apache.spark.SparkContextimportorg.apache.spark.sql.SQLContextobjectstartScala{defmain(args:Array[String]):U...

  • 为什么我们选择parquet

    时间:2021-11-10 02:58:36

    说明:此方案已经我们已经运行1年。1、场景描述:我们对客户登录日志做了数据仓库,但实际业务使用中有一些个共同点,A 需要关联维度表B 最终仅取某个产品一段时间内的数据C只关注其中极少的字段基于以上业务,我们决定每天定时统一关联维度表,对关联后的数据进行另外存储。各个业务直接使用关联后的数据进行离线计...

  • 从NSM到Parquet:存储结构的衍化

    时间:2021-09-04 13:52:58

    http://blog.csdn.net/dc_726/article/details/41777661为了优化MapReduce及MR之前的各种工具的性能,在Hadoop内建的数据存储格式外,又涌现了一批各种各样的存储方式。如优化Hive性能的RCFile,以及配合Impala实现出GoogleD...